• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическое определение этнической речи ненависти в текстах русскоязычных блогов (EthnoHate)

Руководитель проекта: Олеся Кольцова
Участники проекта от SCILA: Екатерина Проноза, Полина Паничева, Ефимова Татьяна, Максим Терпиловский
Международные партнеры: Paolo Rosso

Данное исследование продолжает проект 2015-2017 «Разработка концепции и методологии многоуровневого мониторинга состояния межнациональных отношений по данным социальных сетей», грант РНФ № 15-18-00091. Он был направлен на совершенствование системы мониторинга этносоциальных процессов, и в рамках этого проекта решались задачи автоматического выявления этнорелевантных текстов, автоматического анализа тональности таких текстов, а также разработки онлайн-системы мониторинга этнокультурных и политических процессов.Текущее исследование нацелено на распознавание исключительно этнической речи ненависти в текстах русскоязычных блогов.

Задачи исследования включают в себя подготовку обучающего корпуса для распознавания отношения к этническим группам, а также разработку модели автоматического выявления речи этнической ненависти с использованием традиционных классификаторов (Naïve Bayes, SVM, Logistic Regression и т.д.) и нейронных сетей (LSTM, BERT). В частности, в ходе проекта проводится масштабное тестирование различных способов дообучения и настройки (на задачу выявления этнической ненависти) предобученной на русскоязычных неформальных текстах сети BERT.

Статьи предыдущего этапа:
- Koltsova, O., Nikolenko, S., Alexeeva, S., Nagornyy, O., Koltcov, S. (2017) Detecting Interethnic Relations with the Data from Social Media // Digital Transformation and Global Society: Second International Conference, DTGS 2017, St. Petersburg, Russia, June 21–23, 2017, Revised Selected Papers, pp.16-30.
- Bodrunova, S. S., Koltsova, O., Koltcov, S., & Nikolenko, S. (2017). Who’s Bad? Attitudes Toward Resettlers From the Post-Soviet South Versus Other Nations in the Russian Blogosphere. International Journal of Communication, 11, 3242–3264. http://ijoc.org/index.php/ijoc/article/view/6408
- Koltsova, O. Y., Alexeeva, S. V., Nikolenko, S. I., & Koltsov, M. (2017). Measuring Prejudice and Ethnic Tensions in User-Generated Content. Annual Review of CyberTherapy and Telemedicine, 15, 76–81. http://www.arctt.info/volume-15-summer-2017
- Apishev, M., Koltcov, S., Koltsova, O., Nikolenko, S., & Vorontsov, K. (2016). Mining Ethnic Content Online with Additively Regularized Topic Models. Computación y Sistemas, 20(3), 387–403. https://doi.org/10.13053/cys-20-3-2473
- Nikolenko, S. I., Koltcov, S., & Koltsova, O. (2017). Topic modelling for qualitative studies. Journal of Information Science, 43(1), 88–102. https://doi.org/10.1177/0165551515617393

Материалы по проекту EthnoHate

Cтатистика этничностей в РФ и в корпусе EhnoHate (XLSX, 57 Кб)

Корпус RuEthnoHate (ZIP, 1.49 Мб) 

Корпус RuEthnoHateExtended (ZIP, 4.53 Мб) 

 




 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.