От меня ничего не скрыть
команда проекта: Анфиса Алексеева, Арина Букина, Анна Бухарова, Елизавета Елисеева, Павел Минеев
Исследовательские задачи
Мы хоти выяснить, какие неочевидные данные можно вытащить из датасета и что можно рассказать о сценариях, не читая его. Мы работали с датасетом сценариев мультсериала «Аватар: Легенда об Аанге».
Этапы работы
  • С помощью визуализации мы хотели изучить, как меняется активность персонажей по ходу сюжета, и можно ли использовать время их экранного присутствия для определения главных и второстепенных героев. Анализ показал, что герои делятся на несколько групп по длительности и непрерывности появления. Например, главные герои, такие как Аанг и его команда, доминируют на протяжении всех серий, в то время как второстепенные персонажи и антагонисты появляются эпизодически, но их арки сосредоточены в определенных моментах сюжета.
  • На этом графике показано изменение среднего сентимента (по шкале AFINN) реплик главных героев каждой серии, что позволяет оценить эмоциональную динамику их диалогов на протяжении сюжета. Главные положительные герои (Аанг, Сокка, Катара и Тоф), имеют относительно стабильный сентимент, который чаще колеблется около нейтральных или положительных значений, что соответствует их роли в сюжете как оптимистичных или сбалансированных персонажей. А вот Зуко, чья сюжетная линия включает значительные внутренние конфликты, показывает наибольшие колебания сентимента. Интересно, что к концу сериала средний сентимент Зуко намного выше сентимента Аанга.
Таймлайн появления персонажей с изменением сентимента

  • С помощью сентимент анализа мы хотели узнать меняется ли сентимент использованных слов по ходу сюжета и можно ли по такой характеристике слов сравнить группы героев («стихии»). Тесты не показали статистической значимости, однако такой анализ навел на интересный вывод. В частом использовании негативного сентимента также были обнаружены позитивные героями наряду с негативными, но между была найдена разница в использовании слов из «токсичного словаря». Так, один из главных позитивных героев занял первое место по «токсичному» сентименту слов описания сцен и реплик.
  • Даже не зная сюжетной линии, можно изучить, кто с кем взаимодействует или кого обсуждают, с помощью анализа сети персонажей на основе их реплик. Дополнительно, используя кластерные метрики, можно выявить группы персонажей.

Сеть взаимодействий персонажей (по репликам)

Плотность сети: 0.1 893 939

Диаметр сети: 3

Средняя степень узла: 6.60 606

Большие узлы: зеленым — главные герои, розовым — боги, оранжевым — Зуко и его компания

  • Мы также узнали о динамике сюжета с помощью анализа использования глаголов и прилагательных. Анализ показал, что динамика не так линейна, как мы предполагали, и использование глаголов (динамики) и прилагательных (описания) меняется от серии к серии.
  • Наконец, мы постарались научиться определять, о чем серия. Более очевидные методы (такие как LDA) не дали быстрых хороших результатов. Поскольку сюжет сериала фантастичен, информацию можно вытащить и из редких слов. Выделив для каждой серии по 10 уникальных слов, которые встречаются в этом эпизоде чаще, чем в других, мы можем получить примерное понимание, о чем серия, чтобы, например, не перечитывать саммари каждой из них.
Made on
Tilda