Алгоритмы классификации текстов
22 сентября 2020
3479

Никита Левашов
Технический директор в Lia
В прямом эфире мы:
- разберём ДЗ #1 и подготовка датасета;
- рассмотрим алгоритмы сравнения текстов;
- введение в машинное обучение;
- рассмотрим процесс векторизации текстов;
- напишем алгоритм классификации текстов;
- измерим качество классификатора;
- обучим модель классификации намерений на собранном в ДЗ #1 датасете и вставим в чат-бота;
- обучим такую же модель на внешнем датасете и подключим ее в качестве болталки.
- разберём ДЗ #1 и подготовка датасета;
- рассмотрим алгоритмы сравнения текстов;
- введение в машинное обучение;
- рассмотрим процесс векторизации текстов;
- напишем алгоритм классификации текстов;
- измерим качество классификатора;
- обучим модель классификации намерений на собранном в ДЗ #1 датасете и вставим в чат-бота;
- обучим такую же модель на внешнем датасете и подключим ее в качестве болталки.
Рекомендованные
1 час практики разработки на PHP с нуля
10.07.2018 8193100 вопросов программисту
28.07.2020 5290100 вопросов программисту
20.08.2020 31641С: делаем онлайн-сервис для мониторинга курсов валют
05.11.2020 95121С: делаем онлайн-сервис погоды
06.11.2020 50901С. Поднимаем CRM
30.08.2019 34381С. С чего начнём?
29.08.2019 5382Алгоритмы классификации текстов
21.07.2020 6323Алгоритмы классификации текстов
16.10.2020 7475Алгоритмы классификации текстов
18.08.2020 5429Алгоритмы классификации текстов
14.03.2020 16570Алгоритмы классификации текстов
26.05.2020 39327Алгоритмы классификации текстов
19.06.2020 16321Аналитика данных на Python
02.07.2019 5372Анализ данных в Data Science: подводим итоги
02.12.2020 3522
Skillbox.Live
Наш ТГ-чат - https://t.me/joinchat/Di59WUdXHExZRGKRfJg5nQ
Ольга
21:50Спасибо
Александр
21:26Спасибо.
Elena Kucher
21:21Класс! Спасибо
Марина
21:21Спасибо! Было интересно!
Aleksey
21:21Спасибо!
Сергей
21:21Спасибо
Ярослав
21:20Браво!
Сергей
21:20Спасибо, очень интересный интенсив!!!
Игорь
21:17Куплю мозги, дорого!
Skillbox.Live
21:18Поставляем на рынок лучшие знания много лет подряд )
Игорь
21:18Знания без интеллекта ничто(
Skillbox.Live
21:19Побольше оптимизма, Игорь! Всё получится!
Михаил Дубков
21:14Никита подскажите как распараллеливать наш код, и что ещё можно для ускорения моделей делать?
Антон
21:16Подключай Tensor-flow и обучай на GPU
Михаил Дубков
21:18склёрн же не использует видяху? только на процессоре считает?
Антон
21:18tensorflow использует
Антон
21:19отдельная библиотека
Gehna Legkodukhov
21:14Можно еще вчерашний код скинуть?
Ярослав
21:13Человек выполняет работу машины. Неправильно это как-то
Skillbox.Live
21:13Наш ТГ-чат - https://t.me/joinchat/Di59WUdXHExZRGKRfJg5nQ
Михаил Дубков
20:59OneHotEncoder как то применим ? улучшит ли это работу и как его использовать?
Ярослав
20:57ха-ха, и тут число 42. потому что 42
Михаил Дубков
20:52Как мы будем оценивать работу моделей? Если нет разделения на трейн и тест? Roc_auc
Антон
20:52Дели выборку сам в отношении 80 train 20 test в основном
Антон
20:53И лучше всего прогонять несколько раз с разными данными на обучение и тест
Platon
20:49Насколько большим должен быть датасет?
Антон
20:50Чем больше тем лучше, минимум 200, но для фигового качества
Михаил Дубков
20:48Никита? а посоветуйте пожалуйста best estimator,где и как применять в коде ??
Gehna Legkodukhov
20:45можно будет текст программы получить в телеграм чате?
sanzhar
20:44Что делать если у модели в инпуте на предикт, слово, которое не встречалось при векторизации изначального словаря
Антон
20:45В идеале кластеризовать такие слова (создать кластер слов, которые примерно в одной тематике, но не относятся к уже сделанным классам)
Ярослав
20:43И ещё вопрос, знаменитая программа punto switcher написана с использованием этих алгоритмов?
Михаил Дубков
20:43Можно ли сделать ансамбль? моделей чтоб улучшить обработку,и какие параметры классификаторов крутить? Рендом стейт?
Ярослав
20:41Your english accent is perfect!
Михаил Дубков
20:34Никита подскажите где брать Русские словари, большие и максимально полные, для работы с ними??
Антон
20:34Чаще всего искать в инете и собирать самостоятельно
Антон
20:34В редком случае покупать готовые
Антон
20:38Как вариант распарси беседу в вк какую нибудь
Андраник
20:27можно ссылку сюда или в тг на доку?
Егор Баскин
20:34https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html?highlight=vectorizer#sklearn.feature_extraction.text.CountVectorizer
Андраник
20:34Спасибо
Ярослав
20:24Никита, ещё вопрос, если я этого бота пишу в pycharm, лучше создать бот_конфиг в отдельном файле и импортировать его в основной программе?
Антон
20:24В принципе привыкай к модульности программы
Игорь
20:20Будет ли трансляция в записи?
Антон
20:20Да
Skillbox.Live
20:21да, останется на этой же странице - нажимайте Поделиться, чтобы сохранить в соцсетях и не потерять
Алексей Тимофеев
20:15ВОПРОС!!! Сколько человек после каждых трехдневных интенсивов покупают ваши курсы?
Skillbox.Live
20:16несколько миллионов точно покупают!
Иван Холод
20:10Можно ли в юпитере поставить темную тему, мне с ней как-то более удобней)
Skillbox.Live
20:10https://coderoad.ru/46510192/%D0%9A%D0%B0%D0%BA-%D0%B8%D0%B7%D0%BC%D0%B5%D0%BD%D0%B8%D1%82%D1%8C-%D1%82%D0%B5%D0%BC%D1%83-%D0%B2-Jupyter-Notebook
Иван Холод
20:13спасибо)
Vitaly Vlasenko
20:14Прикольно
Vitaly Vlasenko
20:09Датасет бинго)
Eugene Gordeev
20:04BOT_CONFIG = eval(open('bot_config.py', 'r').read())
Mikhail Petrov
20:03windows-1251
Антон
20:031251
Ярослав
20:02Спасибо!
Евгений Кузьмин
19:58ДЗ1.csv на win10 выглядит так
Ярослав
20:00кодировка utf-8 надо
Антон
20:00поменять кодировку в excel вот это загугли и найдешь ответ
Антон
20:00Вообще привыкай гуглить, если хочешь стать программистом
Ярослав
19:54Никита, вопрос, если одна и та же фраза будет соответствовать разным интентам, сработает тот, который первый, или тот, где больше совпадение?
Антон
19:55По хорошему зависит от нейронки, может в момент обучения просто что то выйти в приоритет соответствия
Евгений Кузьмин
19:53Как поменять кодировку в ДЗ1.csv?
Ярослав
19:49Ееее, киберпанк
Антон
19:46Да и если что классификация и кластеризация разные задачи