команда проекта: Анфиса Алексеева, Арина Букина, Анна Бухарова, Елизавета Елисеева, Павел Минеев
Исследовательские задачи
Мы хоти выяснить, какие неочевидные данные можно вытащить из датасета и что можно рассказать о сценариях, не читая его. Мы работали с датасетом сценариев мультсериала «Аватар: Легенда об Аанге».
Этапы работы
С помощью визуализации мы хотели изучить, как меняется активность персонажей по ходу сюжета, и можно ли использовать время их экранного присутствия для определения главных и второстепенных героев. Анализ показал, что герои делятся на несколько групп по длительности и непрерывности появления. Например, главные герои, такие как Аанг и его команда, доминируют на протяжении всех серий, в то время как второстепенные персонажи и антагонисты появляются эпизодически, но их арки сосредоточены в определенных моментах сюжета.
На этом графике показано изменение среднего сентимента (по шкале AFINN) реплик главных героев каждой серии, что позволяет оценить эмоциональную динамику их диалогов на протяжении сюжета. Главные положительные герои (Аанг, Сокка, Катара и Тоф), имеют относительно стабильный сентимент, который чаще колеблется около нейтральных или положительных значений, что соответствует их роли в сюжете как оптимистичных или сбалансированных персонажей. А вот Зуко, чья сюжетная линия включает значительные внутренние конфликты, показывает наибольшие колебания сентимента. Интересно, что к концу сериала средний сентимент Зуко намного выше сентимента Аанга.
Таймлайн появления персонажей с изменением сентимента
С помощью сентимент анализа мы хотели узнать меняется ли сентимент использованных слов по ходу сюжета и можно ли по такой характеристике слов сравнить группы героев («стихии»). Тесты не показали статистической значимости, однако такой анализ навел на интересный вывод. В частом использовании негативного сентимента также были обнаружены позитивные героями наряду с негативными, но между была найдена разница в использовании слов из «токсичного словаря». Так, один из главных позитивных героев занял первое место по «токсичному» сентименту слов описания сцен и реплик.
Даже не зная сюжетной линии, можно изучить, кто с кем взаимодействует или кого обсуждают, с помощью анализа сети персонажей на основе их реплик. Дополнительно, используя кластерные метрики, можно выявить группы персонажей.
Сеть взаимодействий персонажей (по репликам)
Плотность сети: 0.1 893 939
Диаметр сети: 3
Средняя степень узла: 6.60 606
Большие узлы: зеленым — главные герои, розовым — боги, оранжевым — Зуко и его компания
Мы также узнали о динамике сюжета с помощью анализа использования глаголов и прилагательных. Анализ показал, что динамика не так линейна, как мы предполагали, и использование глаголов (динамики) и прилагательных (описания) меняется от серии к серии.
Наконец, мы постарались научиться определять, о чем серия. Более очевидные методы (такие как LDA) не дали быстрых хороших результатов. Поскольку сюжет сериала фантастичен, информацию можно вытащить и из редких слов. Выделив для каждой серии по 10 уникальных слов, которые встречаются в этом эпизоде чаще, чем в других, мы можем получить примерное понимание, о чем серия, чтобы, например, не перечитывать саммари каждой из них.