Мужское/Женское: у кого больше шансов на победу?
команда проекта: Алена Аспидова, Никита Безыкорнов, София Жиделёва, Александр Ким, Дмитрий Новокшанов
Какая задача перед нами стояла?
Необходимо было выявить, какие лексические отличия и сходства есть в текстах, написанных женщинами и мужчинами. Есть ли они вообще?

С какими данными мы работали?
Мы работали с корпусом из 27 текстов, получивших премию «Большая книга».

Как мы решали задачу?
На основе логистической регрессии мы посмотрели, какие признаки модель посчитала важными для разделения текстов на мужские и женские.
Также, мы посчитали метрики, определяющие соотношение слов определенной тематики в классах «мужских» и «женских» текстов. Среди них были: меры эмоциональности, пропорция диалогов, а также лексические метрики (расстояние между глаголами, отношение прилагательных к существительным и т. д.), выражающих стилистическое разнообразие в текстах. На их основе мы провели корреляционный анализ, чтобы выяснить внутренние зависимости между ними.
neg_to_all — отношение негативно расцененных предложений ко всем предложениям, colors_rate — отношение слов, описывающих цвета, ко всем словам, pos_to_all — отношение позитивно расцененных предложений ко всем предложениям, a2n — отношение прилагательных к существительным, v2n — отношение глаголов к существительным, avg_sen_len — средняя длина предложений, fem_nsubj_ratio — отношение женских действующих лиц ко всем действующим лицам, avg_dist_btw_verbs — средняя расстояние между глаголами (в словах), emo_rate — отношение отвечающих за эмоции слов ко всем словам, viol_rate — отношение отвечающих за домен насилия слов ко всем словам.
Что мы получили?
В отличие от текстов, написанных мужчинами, в текстах, написанных женщинами, больше лексики, связанной с негативными эмоциями.
В ходе исследования, мы выявили, что вариативность цветов больше выражена в текстах, написанных женщинами. Это вырастает из гипотезы о колористическом восприятии женщин и мужчин — стереотипа о том, что женщины различают цвета лучше, чем мужчины. Остальные характеристики не дали значительного результата.

Как можно увидеть на втором изображении в галерее, корреляционный анализ не дал значительных результатов.
neg_to_all — отношение негативно расцененных предложений ко всем предложениям, colors_rate — отношение слов, описывающих цвета, ко всем словам, pos_to_all — отношение позитивно расцененных предложений ко всем предложениям, a2n — отношение прилагательных к существительным, v2n — отношение глаголов к существительным, avg_sen_len — средняя длина предложений, fem_nsubj_ratio — отношение женских действующих лиц ко всем действующим лицам, avg_dist_btw_verbs — средняя расстояние между глаголами (в словах), emo_rate — отношение отвечающих за эмоции слов ко всем словам, viol_rate — отношение отвечающих за домен насилия слов ко всем словам.
Made on
Tilda