Цель проекта — научиться автоматически определять преобладающую эмоциональную окраску, тональность текста. Для этого мы решили поэкспериментировать на текстах русской литературы и драматургии.
У нас было 2 основные идеи классификации, которые мы сравнили между собой.
- На основе словаря из 46.000 слов, размеченных по шкале позитивности/негативности (где -1 — это очень негативное, а +1 — очень позитивное), мы разметили эмоциональность предложений. Исключив при этом нейтральные слова.
- Также, мы решили попробовать провести классификацию с помощью предобученных моделей из набора Hugging Face. С помощью RuBERT-tiny2-ru-go-emotions мы попробовали провести множественную классификацию эмоций в тексте. Среди них возникали: любопытство, смущение, нервозность, гордость и т. д. Вторым способом была rubert-tiny2-russian-sentiment, с помощью которой было размечено 2 класса эмоций: «негативные» и «позитивные». Результаты работы этих моделей можно увидеть в тетради.
В таблице ниже можно увидеть результаты разметки эмоций в тексте. Метрика «score» позволяет узнать, насколько модель уверена в прогнозе преобладающей эмоции в тексте.