EthnoHate2 (АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ЭТНИЧЕСКОЙ РЕЧИ НЕНАВИСТИ В ТЕКСТАХ РУССКОЯЗЫЧНЫХ БЛОГОВ)

Руководитель проекта: Олеся Кольцова

Участники проекта: Антон Сурков

Проект «Обнаружение этнического конфликта в социальных медиа с помощью трансформеров и методов расширения данных» продолжает исследование 2020 года, используя тот же русскоязычный корпус пользовательских текстов об этнических отношениях, и нацелен на автоматическое выявление упоминаний, обсуждений и вербального участия в этнических конфликтах посредством дообучения (fine-tuning) предварительно обученных трансформеров-энкодеров (RuBERT, RuROBERTa и др.) и разнообразных техник аугментации, включая генерацию альтернативных формулировок большими языковыми моделями и предложенную авторами технику аугментации — случайную замену этнонимов, устраняющую переобучение на редких этнонимах; именно эта методика в сочетании с fine-tuned RuROBERTa дала наилучший результат F1-macro = 0,80 и показала устойчивость к целевой адверсариальной атаке (превосходство ≈ 0,05 по целевому классу над базовой моделью), что указывает на потенциал предлагаемого подхода для задач, где модели склонны опираться на случайно коррелирующие маркеры, а использование LLM-генерации и авторазметки снижает потребность в ручном аннотировании данных.

Публикации по проекту:
Surkov A., Koltsova O. Detecting Ethnic Conflict in Social Media with Transformers and Augmented Data // Procedia Computer Science, 2025, Volume 258, Pages 2382-2390, ISSN 1877-0509 DOI
Ключевые слова: Ethnic conflict detection; social media; LLM; Fine Tuning; Data Augmentation; Russian language

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Лаборатория социальной и когнитивной информатики

EthnoHate2 (АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ЭТНИЧЕСКОЙ РЕЧИ НЕНАВИСТИ В ТЕКСТАХ РУССКОЯЗЫЧНЫХ БЛОГОВ)