Тексты тоже испытывают чувства: проверка преобладания эмоциональной окраски при помощи методов кластеризации

команда проекта: Татьяна Авдеева, Матвей Данилов, Валерия Мелкозерова, Павел Минеев, Лада Скоробагатько

Цель проекта — научиться автоматически определять преобладающую эмоциональную окраску, тональность текста. Для этого мы решили поэкспериментировать на текстах русской литературы и драматургии.
У нас было 2 основные идеи классификации, которые мы сравнили между собой.

На основе словаря из 46.000 слов, размеченных по шкале позитивности/негативности (где -1 — это очень негативное, а +1 — очень позитивное), мы разметили эмоциональность предложений. Исключив при этом нейтральные слова.
Также, мы решили попробовать провести классификацию с помощью предобученных моделей из набора Hugging Face. С помощью RuBERT-tiny2-ru-go-emotions мы попробовали провести множественную классификацию эмоций в тексте. Среди них возникали: любопытство, смущение, нервозность, гордость и т. д. Вторым способом была rubert-tiny2-russian-sentiment, с помощью которой было размечено 2 класса эмоций: «негативные» и «позитивные». Результаты работы этих моделей можно увидеть в тетради.

В таблице ниже можно увидеть результаты разметки эмоций в тексте. Метрика «score» позволяет узнать, насколько модель уверена в прогнозе преобладающей эмоции в тексте.

Так, например, рассказ «Муму» попал в категорию sadness / грусть (score = 0.61), а в случае бинарной классификации в класс «негативного», но с меньшей точностью (score = 0.53).