LeanDS3: Качество в DS проектах

Lean DS — это серия митапов про большие данные и искусственный интеллект. 13 февраля в гостях у Mail.ru Cloud Solutions c 18-30 до 21:00 состоится третий бесплатный митап по процессам в DS. В этот раз он будет посвящен вопросам КАЧЕСТВА в Data Science проектах: от тестирования кода и данных до парного дата сайенса.

ИТ и интернет 0+

UPD: мы достигли максимума площадки и закрыли регистрацию. Мы обязательно организуем трансляцию, в которой будет возможность в том числе задать вопросы. Добавляйтесь в канал @leands в телеграмме, там будет опубликована ссылка на трансляцию. 

На этот раз встречаемся в гостях у Mail.ru Cloud Solutions в московском офисе Mail.ru Group: Ленинградский проспект, д. 39, стр. 79.

Обратите внимание, что регистрация обязательна и для входа с собой надо будет иметь паспорт или права.

Можно ли тестировать искусственный интеллект? Процессы, подходы, практика, Антон Хританков, к.ф.-.м.н.,МФТИ

Как понять, что модель работает хорошо? Какие есть подходы к тестированию моделей и систем с машинным обучением. Как правильно применить модульное тестирование к пайплайну? Что нужно для интерпретируемости и отладки модели.

Разберем на примерах.

 

Как тестировать DS-код, Алексей Могильников, DS lead, Банк

Когда DS-команда выкатила в модель в прод и начала измерять качество её работы возникают проблемы, которые трудно предвидеть на этапе разработки:

  1. На новых данных модель показывает заметно худшее качество, чем на валидационной выборке.
  2. Модель выдает ошибки на нормальных примерах, которые не встречались в тренировочной выборке.
  3. Модель работает неожиданно медленно.

А еще бывает, что глубина проявления этих проблем зависит от конкретного члена команды, который готовил модель.

Чтобы минимизировать шанс возникновения этих проблем, необходимо тестировать код, который готовит фичи и вызывает обученную модель. В этом докладе будет рассказано какие подходы к автоматизированному тестированию существуют и как они могут нам помочь.

 

Experiment review: код ревью или парный дата сайенс?, Кисмат Магомедов, Data Scientist X5, Василий Рассказов, Agile Coach, X5

Небольшая ошибка в данных или модели может стоить компании миллионы рублей упущенной выгоды.

В докладе мы расскажем о наших экспериментах в области повышения качества ревью экспериментов:

  • Простой классический код ревью
  • Парная работа двух сайентистов
  • Параллельная работа, когда сайентисты работают над одной задачей независимо.

Мы расскажем, как мы искали баланс между скоростью работы и качеством, обсудим, какой подход наиболее применим на практике и как его запустить в команде. 

Тестирование и мониторинг качества моделей и метрик, Александр Сидоров, Руководитель направления анализа данных, HH.RU

Системы с ML — дорогие и хрупкие. То, что ML продолжает приносить пользу, а изменения приводят к улучшениям — само собой не разумеется, нуждается в проверке, тестировании и мониторинге. Я расскажу, как мы, в HH.ru:
- проверяем ML-идеи до того, как начали писать код
- делаем метрики и baseline’ы, чтобы было с чем сравнивать модели ML
- тестируем и мониторим данные для метрик, обучения, расчёта признаков в production
- строим модели на части признаков, проводим time-based кросс-валидацию
- делаем CI/CD для пайплайнов, обучающих модели
- проверяем и мониторим качество, производительность, объём данных для моделей до выката и в prod
- проводим обычные и ухудшающие AB- и TDI-тесты
- мониторим корректность и время расчёта признаков в prod
- валидируем метрики и проверяем их для каждого эксперимента
- встраиваем качество: делаем code review, рефакторинг, применяем framework FeatureGroup, даём разработчикам и DS тестовые стенды, избегаем переключений, многозадачности и перегрузки, снабжаем всё unit- и автотестами, чтобы уменьшить вероятность ошибки человека.

Обсуждение

Обсуждение на тему обеспечения качества в реальных DS проектах.

Место и время проведения

Время: 13 февраля 2020 года, в 18-30 до 21-00

Регистрация гостей: 18:00. Предварительная регистрация обязательна, для входа нужны паспорт или права.

Место: м. Аэропорт, Ленинградский проспект, д. 39, стр. 79 (офис Mail.ru Group)

Участие бесплатное, количество мест ограничено, чтобы попасть на митап, заполните форму на TimePad.

Телеграм-канал: https://teleg.run/leands

#leands/meetup

Наши партнеры: 

 ITMeeting — Анонсы бесплатных мероприятий для разработчиков в Москве.

Анонсы бесплатных мероприятий Mail.ru Cloud Solutions: DevOps, Kubernetes, Data Science

Поделиться:

1533 дня назад
13 февраля 2020 18:30–21:30

Москва
Москва, м. Аэропорт, Ленинградский проспект, д. 39, стр. 79. (офис Mail.ru)
Показать на карте

Уже есть билет
Восстановить

Поделиться:

Связь с организатором

Напоминаем, что для того чтобы восстановить билет организатору можно не писать.

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Восстановление билета

Введите адрес электронной почты, указанный при регистрации на событие

Обращаем внимание на то, что билеты должны были прийти к вам на почту сразу после покупки.

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов