• 20–21 апреля 2024 г.
  • Европейский университет в Санкт-Петербурге
Открытый воркшоп
«Изучение языкового разнообразия литературных премий»

Мы организовали первый воркшоп, посвященный знакомству с методами NLP в рамках реализации стратегии Центра МАСТ по развитию исследований с применением методов обработки естественного языка (NLP). Для более чем двадцати участников воркшопа выступили приглашенные эксперты: Эдуард Клышинский (НИУ ВШЭ), Вероника Зыкова (НИУ ВШЭ), Евгения Заковоротная (НИУ ВШЭ) и Яна Сосновкая (ЕУ СПб). Лекции не ограничивались презентационными материалами, а также включали себя практическую работу с разбором только что представленных методов на практике. Помимо лекционной части участники работали в группах над проектами, направленными на изучение языкового разнообразия. Для этого мы подготовили и разметили несколько датасетов, например, датасет с произведениями, которые выиграли крупные российские литературные премии за последние пять лет, или датасет с произведениями классиков литературы на русском языке.
Как мы работали на воркшопе
Распределение ролей
Перед началом воркшопа мы присвоили каждому участнику роль в групповой работе и объявили необходимый состав групп, чтобы группа могла начать работу.
Выбор темы проекта
Мы подготовили датасеты и придумали несколько тем для групповых проектов и предложили участникам объединиться, выбрав что-то из предложенного или собрать собственный групповой проект.
Сбор команд
Объявили необходимый состав групп, чтобы избежать возникновения команд участников с похожими скиллами, чтобы группа могла начать работу.
Организатор воркшопа
  • Центр МАСТ
    Прикладной центр машинного обучения, анализа данных и статистики (ПЦ МАСТ) применяет методы машинного обучения и анализа данных в гуманитарных и социальных науках. Мы работаем с июля 2021 года как совместный проект Европейского университета и компании Яндекс. Мы создаем исследовательские и образовательные проекты, организуем мероприятия в сфере машинного обучения и анализа данных для исследователей, специалистов и энтузиастов.
Тексты тоже испытывают чувства: проверка преобладания эмоциональной окраски при помощи методов кластеризации
команда проекта: Татьяна Авдеева, Матвей Данилов, Валерия Мелкозерова, Павел Минеев, Лада Скоробагатько
Цель проекта — научиться автоматически определять преобладающую эмоциональную окраску, тональность, текста. Для этого мы решили поэкспериментировать на текстах русской литературы и драматургии.
У нас было 2 основные идеи классификации, которые мы сравнили между собой.
  1. На основе словаря из 46.000 слов, размеченных по шкале позитивности/негативности (где -1 — это очень негативное, а +1 — очень позитивное), мы разметили эмоциональность предложений. Исключив при этом нейтральные слова.
  2. Также, мы решили попробовать провести классификацию с помощью предобученных моделей из набора Hugging Face. С помощью RuBERT-tiny2-ru-go-emotions мы попробовали провести множественную классификацию эмоций в тексте. Среди них возникали: любопытство, смущение, нервозность, гордость и т. д. Вторым способом была rubert-tiny2-russian-sentiment, с помощью которой было размечено 2 класса эмоций: «негативные» и «позитивные». Результаты работы этих моделей можно увидеть в тетради.
В таблице ниже можно увидеть результаты разметки эмоций в тексте. Метрика «score» позволяет узнать, насколько модель уверена в прогнозе преобладающей эмоции в тексте.
Так, например, рассказ «Муму» попал в категорию sadness / грусть (score = 0.61), а в случае бинарной классификации в класс «негативного», но с меньшей точностью (score = 0.53).
Мужское/Женское: у кого больше шансов на победу?
команда проекта: Алена Аспидова, Никита Безыкорнов, София Жиделёва, Александр Ким, Дмитрий Новокшанов
Какая задача перед нами стояла?
Необходимо было выявить, какие лексические отличия и сходства есть в текстах, написанных женщинами и мужчинами. Есть ли они вообще?

С какими данными мы работали?
Мы работали с корпусом из 27 текстов, получивших премию «Большая книга».

Как мы решали задачу?
На основе логистической регрессии мы посмотрели, какие признаки модель посчитала важными для разделения текстов на мужские и женские.
Также, мы посчитали метрики, определяющие соотношение слов определенной тематики в классах «мужских» и «женских» текстов. Среди них были: меры эмоциональности, пропорция диалогов, а также лексические метрики (расстояние между глаголами, отношение прилагательных к существительным и т. д.), выражающих стилистическое разнообразие в текстах. На их основе мы провели корреляционный анализ, чтобы выяснить внутренние зависимости между ними.

Что мы получили?
В отличие от текстов, написанных мужчинами, в текстах, написанных женщинами, больше лексики, связанной с негативными эмоциями.
В ходе исследования, мы выявили, что вариативность цветов больше выражена в текстах, написанных женщинами. Это вырастает из гипотезы о колористическом восприятии женщин и мужчин — стереотипа о том, что женщины различают цвета лучше, чем мужчины. Остальные характеристики не дали значительного результата.
Как можно увидеть на втором изображении, корреляционный анализ не дал значительных результатов.
Классики vs Современники: сравнение текстов классических писателей и фанфиков
команда проекта: Елизавета Асташкина, Алина Владимирова, Дмитрий Местковский, Анастасия Янечко
Наша команда занималась сравнением работ классических писателей и фанфиков. В нашем корпусе присутствовало 372 классических произведения (в жанрах: публицистика, проза, поэзия) и 5318 фанфиков. Нашей задачей было определить, в чём отличия между текстами.
В ходе воркшопа мы вычленяли именованные сущности, занимались сетевым анализом, а также работали с синтаксическими структурами текстов используя R и Python. Ограничение исследования:
  1. Для извлечения именованных сущностей для русского языка мы использовали следующие пакеты: spaCy и natasha. И столкнулись с ограничением из-за того, что модели выдавали ошибки при определении именованных сущностей («мокрый Гранит», «Крестьянин кивает»). Из-за этого приходилось проводить дополнительную очистку текстовых данных.
  2. Из-за ограничения извлечения именованных сущностей для классических произведений не было произведено сравнения сети персонажей между фанфиками и классическими произведениями.
Как можно улучшить исследования в дальнейшем?
  1. Посмотреть на синтаксическую структуру отдельных авторов и выяснить схожести/различия между авторами классических произведений и фанфиками.
  2. Доработать извлечение именованных сущностей для классических произведений. Очистить данных от погрешностей.
  3. Сравнить сеть персонажей классических произведений и фанфиков.
И я литературную премию хочу!
команда проекта: Ксения Золина, Георгий Катречко, Илья Конов, Денис Савельев, Алиса Семенова
Целью этого проекта стало обучение модели генерации, которая будет создавать тексты, которые потенциально могли бы получить премию. Мы работали с текстами лауреатов литературной премии Большая книга.
Сначала команда провела дообучение модели ruGPT3 small (gpt2)(прототип — ai-forever/rugpt3small_based_on_gpt2) на корпусе текстов книг лауреатов литературной премии, затем разработала классификатор (прототип — cointegrated/rubert-tiny2), который разделял тексты на 4 класса:
4 — Тексты, получившие литературную премию;
3 — Хорошие тексты авторов, не получивших премию;
2 — Плохие тексты;
1 — Фанфики.
Для того чтобы в генерируемых текстах сохранялся контекст, был подготовлен суммаризатор (прототип — sarahai/ruT5-base-summarizer). После чего все вышеперечисленное было объединено в псевдо-GAN функцию. На изображениях ниже можно увидеть результаты работы модели после ее часового обучения.
С какими ограничениями мы столкнулись?
  1. Для более качественной генерации текстов, необходимо доделать очистку текстов.
  2. Время, генерация текстов занимает много времени, обучение модели заняло больше 1 часа.
  3. Наш корпус состоял из ограниченного количества лауреатов литературных премий (около 30 текстов)
Как можно было бы улучшить исследование?
  1. Избавиться от повторений в сгенерируемых текстах
  2. Научить модель останавливать диалоги
  3. Научить модель заканчивать предложения.
  4. Больше времени обучать модель на текстовых данных
  5. Использовать для обучение модеои произведения лауреатов других премий помимо «Большой книги» за разные года.
Свяжитесь с нами по любым вопросом по почте
mast@eu.spb.ru
Made on
Tilda