Получи специальное предложение Получить
  • Анастасия Шкуратова
  • Ирина Счастливая
  • Алексей Тимофеев
  • Mikhail Petrov
  • +13
Оставили заявки

Алгоритмы классификации текстов

22 сентября 2020 3479
Никита Левашов

Никита Левашов

Технический директор в Lia
В прямом эфире мы: 
- разберём ДЗ #1 и подготовка датасета; 
- рассмотрим алгоритмы сравнения текстов; 
- введение в машинное обучение; 
- рассмотрим процесс векторизации текстов; 
- напишем алгоритм классификации текстов; 
- измерим качество классификатора; 
- обучим модель классификации намерений на собранном в ДЗ #1 датасете и вставим в чат-бота; 
- обучим такую же модель на внешнем датасете и подключим ее в качестве болталки.
173 комментария
  • Skillbox.Live

    Skillbox.Live

  • Ольга

    Ольга

    21:50

    Спасибо

  • Александр

    Александр

    21:26

    Спасибо.

  • Elena Kucher

    Elena Kucher

    21:21

    Класс! Спасибо

  • Марина

    Марина

    21:21

    Спасибо! Было интересно!

  • Aleksey

    Aleksey

    21:21

    Спасибо!

  • Сергей

    Сергей

    21:21

    Спасибо

  • Ярослав

    Ярослав

    21:20

    Браво!

  • Сергей

    Сергей

    21:20

    Спасибо, очень интересный интенсив!!!

  • Игорь

    Игорь

    21:17

    Куплю мозги, дорого!

    • Skillbox.Live

      Skillbox.Live

      21:18
      Игорь

      Поставляем на рынок лучшие знания много лет подряд )

    • Игорь

      Игорь

      21:18
      Skillbox.Live

      Знания без интеллекта ничто(

    • Skillbox.Live

      Skillbox.Live

      21:19
      Игорь

      Побольше оптимизма, Игорь! Всё получится!

  • Михаил Дубков

    Михаил Дубков

    21:14

    Никита подскажите как распараллеливать наш код, и что ещё можно для ускорения моделей делать?

    • Антон

      Антон

      21:16
      Михаил Дубков

      Подключай Tensor-flow и обучай на GPU

    • Михаил Дубков

      Михаил Дубков

      21:18
      Антон

      склёрн же не использует видяху? только на процессоре считает?

    • Антон

      Антон

      21:18
      Михаил Дубков

      tensorflow использует

    • Антон

      Антон

      21:19
      Михаил Дубков

      отдельная библиотека

  • Gehna Legkodukhov

    Gehna Legkodukhov

    21:14

    Можно еще вчерашний код скинуть?

  • Ярослав

    Ярослав

    21:13

    Человек выполняет работу машины. Неправильно это как-то

  • Skillbox.Live

    Skillbox.Live

    21:13
  • Михаил Дубков

    Михаил Дубков

    20:59

    OneHotEncoder как то применим ? улучшит ли это работу и как его использовать?

  • Ярослав

    Ярослав

    20:57

    ха-ха, и тут число 42. потому что 42

  • Михаил Дубков

    Михаил Дубков

    20:52

    Как мы будем оценивать работу моделей? Если нет разделения на трейн и тест? Roc_auc

    • Антон

      Антон

      20:52
      Михаил Дубков

      Дели выборку сам в отношении 80 train 20 test в основном

    • Антон

      Антон

      20:53
      Михаил Дубков

      И лучше всего прогонять несколько раз с разными данными на обучение и тест

  • Platon

    Platon

    20:49

    Насколько большим должен быть датасет?

    • Антон

      Антон

      20:50
      Platon

      Чем больше тем лучше, минимум 200, но для фигового качества

  • Михаил Дубков

    Михаил Дубков

    20:48

    Никита? а посоветуйте пожалуйста best estimator,где и как применять в коде ??

  • Gehna Legkodukhov

    Gehna Legkodukhov

    20:45

    можно будет текст программы получить в телеграм чате?

  • sanzhar

    sanzhar

    20:44

    Что делать если у модели в инпуте на предикт, слово, которое не встречалось при векторизации изначального словаря

    • Антон

      Антон

      20:45
      sanzhar

      В идеале кластеризовать такие слова (создать кластер слов, которые примерно в одной тематике, но не относятся к уже сделанным классам)

  • Ярослав

    Ярослав

    20:43

    И ещё вопрос, знаменитая программа punto switcher написана с использованием этих алгоритмов?

  • Михаил Дубков

    Михаил Дубков

    20:43

    Можно ли сделать ансамбль? моделей чтоб улучшить обработку,и какие параметры классификаторов крутить? Рендом стейт?

    • Сообщение удалено
  • Ярослав

    Ярослав

    20:41

    Your english accent is perfect!

  • Михаил Дубков

    Михаил Дубков

    20:34

    Никита подскажите где брать Русские словари, большие и максимально полные, для работы с ними??

    • Антон

      Антон

      20:34
      Михаил Дубков

      Чаще всего искать в инете и собирать самостоятельно

    • Антон

      Антон

      20:34
      Михаил Дубков

      В редком случае покупать готовые

    • Антон

      Антон

      20:38
      Михаил Дубков

      Как вариант распарси беседу в вк какую нибудь

  • Андраник

    Андраник

    20:27

    можно ссылку сюда или в тг на доку?

  • Ярослав

    Ярослав

    20:24

    Никита, ещё вопрос, если я этого бота пишу в pycharm, лучше создать бот_конфиг в отдельном файле и импортировать его в основной программе?

    • Антон

      Антон

      20:24
      Ярослав

      В принципе привыкай к модульности программы

  • Игорь

    Игорь

    20:20

    Будет ли трансляция в записи?

    • Антон

      Антон

      20:20
      Игорь

      Да

    • Skillbox.Live

      Skillbox.Live

      20:21
      Игорь

      да, останется на этой же странице - нажимайте Поделиться, чтобы сохранить в соцсетях и не потерять

  • Алексей Тимофеев

    Алексей Тимофеев

    20:15

    ВОПРОС!!! Сколько человек после каждых трехдневных интенсивов покупают ваши курсы?

    • Skillbox.Live

      Skillbox.Live

      20:16
      Алексей Тимофеев

      несколько миллионов точно покупают!

  • Иван Холод

    Иван Холод

    20:10

    Можно ли в юпитере поставить темную тему, мне с ней как-то более удобней)

  • Vitaly Vlasenko

    Vitaly Vlasenko

    20:09

    Датасет бинго)

  • Eugene Gordeev

    Eugene Gordeev

    20:04

    BOT_CONFIG = eval(open('bot_config.py', 'r').read())

  • Mikhail Petrov

    Mikhail Petrov

    20:03

    windows-1251

  • Антон

    Антон

    20:03

    1251

  • Ярослав

    Ярослав

    20:02

    Спасибо!

  • Евгений Кузьмин

    Евгений Кузьмин

    19:58

    ДЗ1.csv на win10 выглядит так

    Прикрепленное изображение
    • Ярослав

      Ярослав

      20:00
      Евгений Кузьмин

      кодировка utf-8 надо

    • Антон

      Антон

      20:00
      Евгений Кузьмин

      поменять кодировку в excel вот это загугли и найдешь ответ

    • Антон

      Антон

      20:00
      Евгений Кузьмин

      Вообще привыкай гуглить, если хочешь стать программистом

    • Сообщение удалено
    • Сообщение удалено
  • Ярослав

    Ярослав

    19:54

    Никита, вопрос, если одна и та же фраза будет соответствовать разным интентам, сработает тот, который первый, или тот, где больше совпадение?

    • Антон

      Антон

      19:55
      Ярослав

      По хорошему зависит от нейронки, может в момент обучения просто что то выйти в приоритет соответствия

  • Евгений Кузьмин

    Евгений Кузьмин

    19:53

    Как поменять кодировку в ДЗ1.csv?

  • Ярослав

    Ярослав

    19:49

    Ееее, киберпанк

  • Антон

    Антон

    19:46

    Да и если что классификация и кластеризация разные задачи