Какая задача перед нами стояла?
Необходимо было выявить, какие лексические отличия и сходства есть в текстах, написанных женщинами и мужчинами. Есть ли они вообще?
С какими данными мы работали?
Мы работали с корпусом из 27 текстов, получивших премию «Большая книга».
Как мы решали задачу?
На основе логистической регрессии мы посмотрели, какие признаки модель посчитала важными для разделения текстов на мужские и женские.
Также, мы посчитали метрики, определяющие соотношение слов определенной тематики в классах «мужских» и «женских» текстов. Среди них были: меры эмоциональности, пропорция диалогов, а также лексические метрики (расстояние между глаголами, отношение прилагательных к существительным и т. д.), выражающих стилистическое разнообразие в текстах. На их основе мы провели корреляционный анализ, чтобы выяснить внутренние зависимости между ними.