Статья С. Кольцова, А. Суркова, В. Филиппова и В. Игнатенко приняла к публикации в журнале PEERJ computer science
Работа "Topic models with elements of neural networks: investigation of stability, coherence, and determining the optimal number of topics" была подготовлена в рамках проекта QTM «Совершенствование методологии автоматического анализа текстов на основе тематического моделирования».
Тематическое моделирование является широко распространенным инструментом анализа больших текстовых коллекций. В последние годы для повышения качества тематических решений были предложены нейронные тематические модели и модели с word embedings. Однако эти модели не были широко протестированы с точки зрения устойчивости и интерпретируемости. Более того, вопрос выбора количества тем (параметр модели) остается сложной задачей. Мы стремимся частично восполнить этот пробел путем тестирования четырех известных и доступных широкому кругу пользователей тематических моделей, таких как эмбединговая тематическая модель (ETM), модель Gaussian Softmax distribution (GSM), модель Wasserstein autoencoders with Dirichlet prior (W-LDA) и Wasserstein autoencoders with Gaussian Mixture prior (WTM-GMM). Мы показали, что W-LDA, WTM-GMM и GSM обладают низкой устойчивостью, что затрудняет их применение на практике. Модель ETM с дополнительно обученными вкраплениями демонстрирует высокую когерентность и достаточно хорошую устойчивость для больших наборов данных, однако вопрос о количестве тем для нее остается нерешенным. Мы также предлагаем новую тематическую модель на основе гранулированной выборки с эмбедингоами слов (GLDAW), демонстрирующую наибольшую устойчивость и хорошую согласованность по сравнению с другими рассмотренными моделями. Более того, для этой модели может быть определено оптимальное количество тем в наборе данных.
Лаборатория социальной и когнитивной информатики: Научный сотрудник
Лаборатория социальной и когнитивной информатики: Ведущий научный сотрудник
Лаборатория социальной и когнитивной информатики: Стажер-исследователь