И я литературную премию хочу!
команда проекта: Ксения Золина, Георгий Катречко, Илья Конов, Денис Савельев, Алиса Семенова
Целью этого проекта стало обучение модели генерации, которая будет создавать тексты, которые потенциально могли бы получить премию. Мы работали с текстами лауреатов литературной премии Большая книга.
Сначала команда провела дообучение модели ruGPT3 small (gpt2)(прототип — ai-forever/rugpt3small_based_on_gpt2) на корпусе текстов книг лауреатов литературной премии, затем разработала классификатор (прототип — cointegrated/rubert-tiny2), который разделял тексты на 4 класса:
4 — Тексты, получившие литературную премию;
3 — Хорошие тексты авторов, не получивших премию;
2 — Плохие тексты;
1 — Фанфики.

Для того чтобы в генерируемых текстах сохранялся контекст, был подготовлен суммаризатор (прототип — sarahai/ruT5-base-summarizer). После чего все вышеперечисленное было объединено в псевдо-GAN функцию. На изображениях ниже можно увидеть результаты работы модели после ее часового обучения.
Сгенерированный моделью текст после часового обучения
С какими ограничениями мы столкнулись?
  1. Для более качественной генерации текстов, необходимо доделать очистку текстов.
  2. Время, генерация текстов занимает много времени, обучение модели заняло больше 1 часа.
  3. Наш корпус состоял из ограниченного количества лауреатов литературных премий (около 30 текстов)

Как можно было бы улучшить исследование?
  1. Избавиться от повторений в сгенерируемых текстах
  2. Научить модель останавливать диалоги
  3. Научить модель заканчивать предложения.
  4. Больше времени обучать модель на текстовых данных
  5. Использовать для обучение модеои произведения лауреатов других премий помимо «Большой книги» за разные года.
Made on
Tilda