Анализ тематической структуры ЖЖ
Руководитель проекта: Кольцова Е.Ю.
Участники проекта: Маслинский К.А., Кольцов С.Н., Ясавеев И.Г.
Этот проект - основная часть проекта "Изучение конструирования социальных проблем в блогах современными методами текстового и сетевого анализа", выполнявшегося в рамках тематического плана Центра Фундаментальных Исследований в 2012 г.
Данное исследование, носящее методологический характер, было призвано облегчить проведение социологических исследований общественно значимых тем, обсуждаемых в блогосфере. В частности, была выявленатематика дискуссий в блогах за определенный период.
Эмпирическая база исследования собиралась автоматизированными способами, она содержит в себе тексты постов и ряд иных характеристик постов, комментариев и авторов блог-платформы «Живой журнал», всего несколько сотен тысяч постов и примерно в 20 раз больше комментариев. Таким образом были собраны уникальные полнотекстовые базы данных Живого журнала, пригодные для различных исследований. Из нихбыло сделано несколько выборок с разными параметрами. Созданы технологические цепочки для их закачки, выгрузки (создания выборок), препроцессинга (подготовки к автоматическому анализу) и анализа, которые позволяют социальным исследователям работать с большими данными, не прибегая к самостоятельному программированию.
Тематическая структура постов определялась автоматически с помощью алгоритмов тематического моделирования; сообщества совместного комментирования находились с помощью алгоритмов выявления сообществ в графах. Проведен ряд экспериментов с различными алгоритмами, в ходе которых, в частности, подтверждено, что проблема оптимального количестватем в тематическом моделировании далека от разрешения. Предложено использование одного из современных подходов к оптимизации числатем и числа кластеров при кластерном анализе,разработано соответствующее ПО. В результатеего использования установлено, что алгоритмы тематического моделирования и кластеризации имеют примерно одинаковый оптимум на одних и тех же данных.
В ходе исследования были описаны основные статистические свойства постов топа блоггеров Живого Журнала, их распределения и связи, предложены различные индексы для измерения активности и успешности блоггеров. В частности, установлено, что количество полученных блоггером комментариев слабо коррелирует с количеством постов, что дает возможность строить индекс «эффективности» блоггера на основании расчета среднего количества комментариев на пост блоггера. Выявлено, что хотя блоги политематичны, в некоторых блогах превалируют определенные группы тем, что дает возможность строить тематические «профили» блоггеров и затем кластеризовать блоггеров по этим профилям. Выдвинуты гипотезы об их основных типах. Установлен объем колебаний общей активности блоггеров по дням недели и по времени суток (в выходные примерно на четверть ниже), что дает возможность вычислять поправочные коэффициенты для корректного выявления пиков активности. В ходе сетевого анализа установлено, что сообщества сокомментирования имеют некоторую зависимость от автора постов, которые входят в сообщества. Кроме того, в ходе проекта были уточнены и расширены знания о тематической структуре постов и ее изменении во времени, первые данные по которым были получены в ходе проекта «Разработка методологии сетевого и семантического анализа блогов для социологических задач».
Материалы:
1. Кольцова О., ЕфимоваТ. Выявление социальных изменений через анализ больших массивов текстов в блогах и социальных сетях. (134.9 Кбайт)
2. Маслинский К., Кольцова О., Кольцов С. Изменения в тематической структуре Живого Журнала - влияние выборов 2011.
3. Маслинский К. Совмещение экспертного и статистического подходов к социологическому исследованию темы в блогосфере. 2011
Программное обеспечение:
BlogMiner - программа для скачивания базы данных, которая является полностью самостоятельным продуктом, созданным в Лаборатории Интернет-исследований, реализованным на Delphi 7 и синхронизированным со стандартной оболочкой для создания баз данных и работы с ними, называемой SQL server (в данном случае – Microsoft SQL server).
Stanford Topic Modeling Toolbox - инструмент моделирования тем для социологов и других исследователей, желающих провести анализ данных, в которых большая частья данных является текстовой составляющей.
gCluto - (разработана George Karypis Lab) графическая версия программы Cluto, академическое ПО, рассчитанное на офф-лайн кластеризацию относительно больших объемов текстов на основе подхода типа «мешок слов». В программе используется 17 алгоритмов, включая плоскую и иерархическую кластеризацию и graph-based алгоритмы.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.