Программирование

Бесплатный вебинар

12 мая 2023

Анализ данных в Data Science: техники исследования

День 2 из 3: Интенсив Профессия Data Scientist: учимся обработке и анализу данных за 3 дня

  • Анастасия Борнева

    Руководитель направления по исследованию данных в Сбере
О вебинаре
Бесплатный вебинар «Анализ данных в Data Science: техники исследования». Вы познакомитесь с методологиями обучения данных и узнаете, как строить модели линейной регрессии и дерева решений.

Этот вебинар идеально подойдёт молодым специалистам и интересующимся новичкам.

В эфире расскажем:
  • какие есть техники исследования данных;
  • когда применять и как интерпретировать статистические методы на Python;
  • как выявлять значимые факторы и строить модели.

Спикер — Анастасия Борнева, руководитель направления по исследованию данных в Сбере. Более 7 лет работает в сфере программирования. Автоматизирует процессы в Сбере с помощью искусственного интеллекта. 

Рекомендованные

74 комментария
  • Skillbox.Live

    Skillbox.Live

    Мы стартовали! Если не начался эфир - обновите, пожалуйста, страницу

  • Natalya Borodulina

    Natalya Borodulina

    22:48

    Спасбо, за Ваш труд!

  • Krista Degraf

    Krista Degraf

    22:48

    Хорошего вечера, до завтра!

  • Natalya Borodulina

    Natalya Borodulina

    22:47

    ТОчно_ ряд Фурье! Чувствовала, что не тот ряд написала!:)))

  • Krista Degraf

    Krista Degraf

    22:47

    Было интересно, но в основном на этот раз сложно, спасибо большое за объяснения

  • Анастасия Соломина

    Анастасия Соломина

    22:47

    Спасибо!

  • Кирилл Aidarov

    Кирилл Aidarov

    22:46

    Спасибо за эфир.

  • Natalya Borodulina

    Natalya Borodulina

    22:45

    Про СКО Заказчику можно не говорить. Сказать, что с помощью данной метрики выбираем лучшие методы и модели.

  • Natalya Borodulina

    Natalya Borodulina

    22:44

    Спасибо за ответы и работу в прямом эфире: Вы все молодцы. Чувствуется профессионализм, владение знаниями и наличие опыта.

  • Natalya Borodulina

    Natalya Borodulina

    22:37

    синус и косинус - это же разбивка ряда на рядТейлора вроде - сумма косинусов с разными периодами? Поэтому синус в компании с косинусом дают уменьшение ошибки, так как остаток уменьшается?

  • Natalya Borodulina

    Natalya Borodulina

    22:35

    склёрн - самая лучшая бимблиотека?

  • Natalya Borodulina

    Natalya Borodulina

    22:33

    Так чтобы с параметрами играть - нужно грид решётку применить?

  • Natalya Borodulina

    Natalya Borodulina

    22:32

    Делая модель топорной - это избегаем переобучение? У Дерева решений - много параметров, которые можем менять... количество уровней, количество точек на листе, после чего уже не нужно дальше разбивать данные и другие, малопонимаемые мной параметры...

  • Natalya Borodulina

    Natalya Borodulina

    22:29

    Как Вы получили для дерева решений картинку в виде структуры дерева, которая еще и меняется?

  • Natalya Borodulina

    Natalya Borodulina

    22:28

    Смотрим СКО для тестовой выборки и для тестовой. Строи график зависимости ошибки от модели или метода. Нужно выбирать, где ошибка - СКО ИЛИ MSE меньше для теста по сравнению с обучающей выборкой. Вроде так... Ну или где точность прогноза для тестовой выборки больше, чем точность для обучающей выборки... Вот тут и начинается основная работа по выбору методов и моделей... Поэтому нужно любить такую работу, иначе никакие деньги не смогут долго удержать на такой работе...

  • Natalya Borodulina

    Natalya Borodulina

    22:19

    Сложно в моей области достать корректные данные: проще на Коллабсе брать данные. В металлургии с данными не так легко. По крайней мере, у меня

  • Natalya Borodulina

    Natalya Borodulina

    22:15

    Всё, разобралась с Вашей помощью! Спасибо!

  • Natalya Borodulina

    Natalya Borodulina

    22:13

    Синяя начинается с10 а лоранжевая с нуля

  • Eugene Gamez

    Eugene Gamez

    22:12

    Спасибо, жалко, но не могу сегодня до конца смотреть. Завтра досмотрю, надеюсь смогу сделать задание.

  • Natalya Borodulina

    Natalya Borodulina

    22:12

    Логарифмирование используется для выравнивания дисперсии. Но это другая песня...

  • Natalya Borodulina

    Natalya Borodulina

    22:11

    Логариф нуля не существует - надо будет учесть при нормировки данных

  • Natalya Borodulina

    Natalya Borodulina

    22:11

    Это не помешает? Все верно будет работать?

  • Natalya Borodulina

    Natalya Borodulina

    22:10

    Так начало синей и оранжевой линии - разные значения...

  • Natalya Borodulina

    Natalya Borodulina

    22:08

    Интересный принцип нормировки.. учту!

  • Анастасия Соломина

    Анастасия Соломина

    22:08

    Если у нас другие функции: sin,log или другая,что необходимо подставить вместо 2*pi? Где можно найти эту информацию?

  • Natalya Borodulina

    Natalya Borodulina

    22:07

    Извините, поздно подключилась.. Не увидела... Дайте ещё раз ссылку на ноутбук

  • Кирилл Aidarov

    Кирилл Aidarov

    22:07

    Реально ли устроиться в сбер джуниором специалистом после курса по ds? Или в сбере только мидлы/сеньоры?

  • Natalya Borodulina

    Natalya Borodulina

    22:06

    Как определили границу разбивки по времени?

  • Natalya Borodulina

    Natalya Borodulina

    22:06

    Почему данные не нормализовали? Качество прогноза будет разная при одном типе модели

  • Eugene Gamez

    Eugene Gamez

    22:01

    Я, наверно, не очень понимаю какого именно результата мы хотим добиться. Что мы прогнозируем касаемо температуры? Конкретно прогноз погоды - какая температура будет в будущем, основываясь на этих моделях?

  • Анастасия Соломина

    Анастасия Соломина

    22:01

    Объясните, пожалуйста, более подробно про *2*pi? Это всегда для всех функций cos?

  • Eugene Gamez

    Eugene Gamez

    21:58

    Почему выборки разделяются именно по дате в данном случае?

  • Gintaras Dima

    Gintaras Dima

    21:56

    понятно, ведь тренировочная и тестовые выборки должны быть разные

  • Pasha Salata

    Pasha Salata

    21:56

    Не могли бы вы подробней объяснить выбор нового признака data['cos_dayofyear']=np.cos((data['dayofyear']-1)/366*2*np.pi)

  • Кирилл Aidarov

    Кирилл Aidarov

    21:55

    а заголовок у диаграммы как сделать?

  • Krista Degraf

    Krista Degraf

    21:54

    А, поняла

  • Krista Degraf

    Krista Degraf

    21:53

    А там одинаковое название data train не перезапишется?

  • Михаил Суслов

    Михаил Суслов

    21:40

    Cos

  • Krista Degraf

    Krista Degraf

    21:40

    😅😅

  • Кирилл Aidarov

    Кирилл Aidarov

    21:39

    sin(x)