- Другой способ векторизации
Мы решили, что векторизация через BERT не очень хороша, поскольку она создаёт близкие векторы для реплик, схожих по тематике, а злодеи и герои говорят на одни и те же темы, но по-разному. Поэтому мы решили выявлять отдельные леммы, свойственные категориям. Для этого мы сделали бинарное разбиение персонажей по каждому признаку (для goodness оставили только плохих и хороших, а в priority объединили 3−2 и 1−0), и для каждого слова посчитали меру, насколько они добрые/злые или важные/неважные. На основе этой меры для каждого слова реплики мы составили вектора.
В результате ухудшилось разделение злых и добрых персонажей и улучшилось различение важных и неважных, хотя мы ожидали наоборот. Скорее всего это связано с тем, что при создании словаря для goodness не использовалась лексика нейтральных персонажей. Ещё недочётом нашего нового метода является то, что словари собирались на основании датасета целиком, в то время как стоило уже на том этапе отделить тестовую выборку. Поэтому мы решили дополнительно проверить этот метод (с этими же словарями) на другом датасете.
- Проверка на другом датасете («Звёздные войны»)
Снова обучались две модели: логистическая регрессия и случайный лес. Для каждого персонажа мы рассчитали доли реплик, определённых как положительные и как свойственные главным героям. Вполне ожидаемо, это не принесло больших успехов, поскольку лексика в фильмах очень разная, и, например, главный злодей Дарт Вейдер был отнесён к положительным персонажам.
Ещё перед тем, как обучить модель, мы решили посмотреть на наши данные с помощью UMAP и узнать сразу, есть ли какие-то закономерности. Для начала мы взяли «goodness» персонажей и получили результат
с левой диаграммы — хорошие и плохие персонажи не разделяются. Тогда мы и поняли, что персонажи с разными характеристиками говорят об одном и том же. И после того, как мы создали собственные векторы, результат был иной (
правая диаграмма). Здесь уже есть какое-то различие.
Более подробно наш процесс работы и результаты представлены в
нашем репозитории.