Целью этого проекта стало обучение модели генерации, которая будет создавать тексты, которые потенциально могли бы получить премию. Мы работали с текстами лауреатов литературной премии Большая книга.
Сначала команда провела дообучение модели ruGPT3 small (gpt2)(прототип — ai-forever/rugpt3small_based_on_gpt2) на корпусе текстов книг лауреатов литературной премии, затем разработала классификатор (прототип — cointegrated/rubert-tiny2), который разделял тексты на 4 класса:
4 — Тексты, получившие литературную премию;
3 — Хорошие тексты авторов, не получивших премию;
2 — Плохие тексты;
1 — Фанфики.
Для того чтобы в генерируемых текстах сохранялся контекст, был подготовлен суммаризатор (прототип — sarahai/ruT5-base-summarizer). После чего все вышеперечисленное было объединено в псевдо-GAN функцию. На изображениях ниже можно увидеть результаты работы модели после ее часового обучения.