LeanDS3: Качество в DS проектах

Lean DS — это серия митапов про большие данные и искусственный интеллект. 13 февраля в гостях у Mail.ru Cloud Solutions c 18-30 до 21:00 состоится третий бесплатный митап по процессам в DS. В этот раз он будет посвящен вопросам КАЧЕСТВА в Data Science проектах: от тестирования кода и данных до парного дата сайенса.

ИТ и интернет 0+

UPD: мы достигли максимума площадки и закрыли регистрацию. Мы обязательно организуем трансляцию, в которой будет возможность в том числе задать вопросы. Добавляйтесь в канал @leands в телеграмме, там будет опубликована ссылка на трансляцию. 

На этот раз встречаемся в гостях у Mail.ru Cloud Solutions в московском офисе Mail.ru Group: Ленинградский проспект, д. 39, стр. 79.

Обратите внимание, что регистрация обязательна и для входа с собой надо будет иметь паспорт или права.

Можно ли тестировать искусственный интеллект? Процессы, подходы, практика, Антон Хританков, к.ф.-.м.н.,МФТИ

Как понять, что модель работает хорошо? Какие есть подходы к тестированию моделей и систем с машинным обучением. Как правильно применить модульное тестирование к пайплайну? Что нужно для интерпретируемости и отладки модели.

Разберем на примерах.

 

Как тестировать DS-код, Алексей Могильников, DS lead, Банк

Когда DS-команда выкатила в модель в прод и начала измерять качество её работы возникают проблемы, которые трудно предвидеть на этапе разработки:

  1. На новых данных модель показывает заметно худшее качество, чем на валидационной выборке.
  2. Модель выдает ошибки на нормальных примерах, которые не встречались в тренировочной выборке.
  3. Модель работает неожиданно медленно.

А еще бывает, что глубина проявления этих проблем зависит от конкретного члена команды, который готовил модель.

Чтобы минимизировать шанс возникновения этих проблем, необходимо тестировать код, который готовит фичи и вызывает обученную модель. В этом докладе будет рассказано какие подходы к автоматизированному тестированию существуют и как они могут нам помочь.

 

Experiment review: код ревью или парный дата сайенс?, Кисмат Магомедов, Data Scientist X5, Василий Рассказов, Agile Coach, X5

Небольшая ошибка в данных или модели может стоить компании миллионы рублей упущенной выгоды.

В докладе мы расскажем о наших экспериментах в области повышения качества ревью экспериментов:

  • Простой классический код ревью
  • Парная работа двух сайентистов
  • Параллельная работа, когда сайентисты работают над одной задачей независимо.

Мы расскажем, как мы искали баланс между скоростью работы и качеством, обсудим, какой подход наиболее применим на практике и как его запустить в команде. 

Тестирование и мониторинг качества моделей и метрик, Александр Сидоров, Руководитель направления анализа данных, HH.RU

Системы с ML — дорогие и хрупкие. То, что ML продолжает приносить пользу, а изменения приводят к улучшениям — само собой не разумеется, нуждается в проверке, тестировании и мониторинге. Я расскажу, как мы, в HH.ru:
- проверяем ML-идеи до того, как начали писать код
- делаем метрики и baseline’ы, чтобы было с чем сравнивать модели ML
- тестируем и мониторим данные для метрик, обучения, расчёта признаков в production
- строим модели на части признаков, проводим time-based кросс-валидацию
- делаем CI/CD для пайплайнов, обучающих модели
- проверяем и мониторим качество, производительность, объём данных для моделей до выката и в prod
- проводим обычные и ухудшающие AB- и TDI-тесты
- мониторим корректность и время расчёта признаков в prod
- валидируем метрики и проверяем их для каждого эксперимента
- встраиваем качество: делаем code review, рефакторинг, применяем framework FeatureGroup, даём разработчикам и DS тестовые стенды, избегаем переключений, многозадачности и перегрузки, снабжаем всё unit- и автотестами, чтобы уменьшить вероятность ошибки человека.

Обсуждение

Обсуждение на тему обеспечения качества в реальных DS проектах.

Место и время проведения

Время: 13 февраля 2020 года, в 18-30 до 21-00

Регистрация гостей: 18:00. Предварительная регистрация обязательна, для входа нужны паспорт или права.

Место: м. Аэропорт, Ленинградский проспект, д. 39, стр. 79 (офис Mail.ru Group)

Участие бесплатное, количество мест ограничено, чтобы попасть на митап, заполните форму на TimePad.

Телеграм-канал: https://teleg.run/leands

#leands/meetup

Наши партнеры: 

 ITMeeting — Анонсы бесплатных мероприятий для разработчиков в Москве.

Анонсы бесплатных мероприятий Mail.ru Cloud Solutions: DevOps, Kubernetes, Data Science

Поделиться:

1819 дней назад
13 февраля 2020 18:30–21:30

Москва
Москва, м. Аэропорт, Ленинградский проспект, д. 39, стр. 79. (офис Mail.ru)
Показать на карте

Уже есть билет
Восстановить

Поделиться:

Связь с организатором

Напоминаем, что для того чтобы восстановить билет организатору можно не писать.

На этот адрес придёт ответ от организатора.

По номеру с вами свяжется организатор

Подпишитесь на рассылку организатора

Восстановление билета

Введите адрес электронной почты, указанный при регистрации на событие

Обращаем внимание на то, что билеты должны были прийти к вам на почту сразу после покупки.

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов