Классики vs Современники: сравнение текстов классических писателей и фанфиков
команда проекта: Елизавета Асташкина, Алина Владимирова, Дмитрий Местковский, Анастасия Янечко
Наша команда занималась сравнением работ классических писателей и фанфиков. В нашем корпусе присутствовало 372 классических произведения (в жанрах: публицистика, проза, поэзия) и 5318 фанфиков. Нашей задачей было определить, в чём отличия между текстами.
В ходе воркшопа мы вычленяли именованные сущности, занимались сетевым анализом, а также работали с синтаксическими структурами текстов используя R и Python. Ограничение исследования:

  1. Для извлечения именованных сущностей для русского языка мы использовали следующие пакеты: spaCy и natasha. И столкнулись с ограничением из-за того, что модели выдавали ошибки при определении именованных сущностей («мокрый Гранит», «Крестьянин кивает»). Из-за этого приходилось проводить дополнительную очистку текстовых данных.
  2. Из-за ограничения извлечения именованных сущностей для классических произведений не было произведено сравнения сети персонажей между фанфиками и классическими произведениями.
Сеть персонажей фанфиков
Как можно улучшить исследования в дальнейшем?

  1. Посмотреть на синтаксическую структуру отдельных авторов и выяснить схожести/различия между авторами классических произведений и фанфиками.
  2. Доработать извлечение именованных сущностей для классических произведений. Очистить данных от погрешностей.
  3. Сравнить сеть персонажей классических произведений и фанфиков.
Made on
Tilda