Открытый воркшоп «Изучение языкового разнообразия литературных премий»

Европейский университет в Санкт-Петербурге

Воркшопы по обработке естественного языка

Мы в Центре МАСТ Европейского университета проводим воркшопы, чтобы создать пространство для обмена опытом между участниками и экспертами, обсудить актуальные разработки и поработать в группах над проектами с использованием NLP. Это отличная возможность для тех, кто уже знаком с инструментами анализа данных, углубиться в мир обработки естественного языка и применить свои знания на практике с поддержкой кураторов. Участниками воркшопа могут стать все, кому интересны новые методы машинного обучения и NLP. Участие в воркшопе бесплатное.

В 2024 году мы провели два воркшопа. Первый прошел в апреле и был посвящен изучению языкового разнообразия на основе литературных текстов. Второй состоялся в ноябре, его темой стали сценарии кинопроизведений.

Эти воркшопы — часть стратегии Центра МАСТ по развитию исследований с использованием NLP.

Как устроена работа на воркшопе

Распределение ролей

Перед началом воркшопа мы присвоили каждому участнику роль в групповой работе и объявили необходимый состав групп, чтобы группа могла начать работу.
Выбор темы проекта

Мы подготовили датасеты и придумали несколько тем для групповых проектов и предложили участникам объединиться, выбрав что-то из предложенного или собрать собственный групповой проект.
Сбор команд

Объявили необходимый состав групп, чтобы избежать возникновения команд участников с похожими скиллами, чтобы группа могла начать работу.

Организатор воркшопа

Центр МАСТ

Прикладной центр машинного обучения, анализа данных и статистики (ПЦ МАСТ) применяет методы машинного обучения и анализа данных в гуманитарных и социальных науках. Мы работаем с июля 2021 года как совместный проект Европейского университета и компании Яндекс. Мы создаем исследовательские и образовательные проекты, организуем мероприятия в сфере машинного обучения и анализа данных для исследователей, специалистов и энтузиастов.

Воркшоп «Кино и тексты: анализ сценариев лауреатов кинопремий»

23−24 ноября Центр МАСТ во второй раз провел воркшоп, посвященный изучению и применению методов обработки естественного языка. Темой этого воркшопа стало изучение сценариев кино и сериалов. О том, как работать с такими текстами и какие исследования можно на них проводить рассказали Елена Михалькова (ЕУСПб), Ника Зыкова (НИУ ВШЭ), Эдуард Клышинский (НИУ ВШЭ), Павел Ефимов («Хуавэй»), Александр Вильховенко (ЕУСПб). Организаторы подготовили несколько датасетов, состоящих из сценариев, в т. ч. лауреатов кинопремий, а участники попробовали исследовать эти тексты с помощью методов NLP в рамках групповых проектов. В своих групповых проектах участники пробовали решить широкий ряд задач с помощью методов NLP: начиная от распределений эмоций в сериалах, заканчивая тем, чтобы при помощи NLP узнать все, что можно о сценарии, не читая его. В этом им помогали приглашенные эксперты и кураторы Яна Сосновская (ЕУСПб) и Алексей Сенюхин (ЕУСПб).

Скажи мне три фразы, и я скажу, кто ты

Узнаем характер персонажа по репликам

От меня ничего не скрыть

Узнаем, что можно рассказать о сценариях, не читая его

«Я очень хорош»

Выявляем взаимодействия между персонажами, опираясь только на их диалоги

«Ничего не понятно, но очень интересно»

Делаем прототип рекомендательной системы за два дня

Сценарий чувствительней сценариста?

Выводим формулу эмоциональности ситкома

Воркшоп «Изучение языкового разнообразия литературных премий»

20−21 апреля 2024 г. мы организовали первый воркшоп, посвященный знакомству с методами NLP, его темой стало «Изучение языкового разнообразия литературных премий». Для более чем двадцати участников воркшопа выступили приглашенные эксперты: Эдуард Клышинский (НИУ ВШЭ), Ника Зыкова (НИУ ВШЭ), Евгения Заковоротная (НИУ ВШЭ) и Яна Сосновкая (ЕУСПб). Лекции не ограничивались презентационными материалами, а также включали себя практическую работу с разбором только что представленных методов на практике. Помимо лекционной части участники работали в группах над проектами, направленными на изучение языкового разнообразия. Для этого мы подготовили и разметили несколько датасетов, например, датасет с произведениями, которые выиграли крупные российские литературные премии за последние пять лет, или датасет с произведениями классиков литературы на русском языке.

Тексты тоже испытывают чувства: проверка преобладания эмоциональной окраски при помощи методов кластеризации

Учимся автоматически определять преобладающую эмоциональную окраску, тональность текста

Мужское/Женское: у кого больше шансов на победу?

Выясняем отличия и сходства в текстах женщин и мужчин

Классики vs Современники: сравнение текстов классических писателей и фанфиков

Ищем отличия между текстами

И я литературную премию хочу!

Пытаемся создать текст, который получит следующую премию

Свяжитесь с нами по любым вопросам по почте

mast@eu.spb.ru