Наша команда занималась сравнением работ классических писателей и фанфиков. В нашем корпусе присутствовало 372 классических произведения (в жанрах: публицистика, проза, поэзия) и 5318 фанфиков. Нашей задачей было определить, в чём отличия между текстами.
В ходе воркшопа мы вычленяли именованные сущности, занимались сетевым анализом, а также работали с синтаксическими структурами текстов используя R и Python. Ограничение исследования:
- Для извлечения именованных сущностей для русского языка мы использовали следующие пакеты: spaCy и natasha. И столкнулись с ограничением из-за того, что модели выдавали ошибки при определении именованных сущностей («мокрый Гранит», «Крестьянин кивает»). Из-за этого приходилось проводить дополнительную очистку текстовых данных.
- Из-за ограничения извлечения именованных сущностей для классических произведений не было произведено сравнения сети персонажей между фанфиками и классическими произведениями.
Как можно улучшить исследования в дальнейшем?
- Посмотреть на синтаксическую структуру отдельных авторов и выяснить схожести/различия между авторами классических произведений и фанфиками.
- Доработать извлечение именованных сущностей для классических произведений. Очистить данных от погрешностей.
- Сравнить сеть персонажей классических произведений и фанфиков.