• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

СОВЕРШЕНСТВОВАНИЕ МЕТОДОЛОГИИ АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ НА ОСНОВЕ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ


Руководитель проекта:
Сергей Кольцов

Участники: Вера Игнатенко, Максим Терпиловский, Антон Сурков

Участвовали ранее: Сергей Николенко, Константин Воронцов, Мурат Апишев, Владимир Филиппов, Максим Кольцов


Тематическое моделирование – перспективный инструмент для современных социальных и гуманитарных наук, позволяющий автоматически выявлять тематическую структуру больших текстовых коллекций, а это – важнейшая задача в эпоху больших интернет-данных. При этом вероятностные тематические модели могут рассматриваться как байесовские модели когнитивных процессов, позволяющие предсказывать поведение человека при обработке текстовой информации, в частности, при распознавании тем.

Однако применение тематического моделирования на практике вызывает ряд вопросов, прежде всего, связанных как с анализом стабильности моделей, наличием неинтерпретируемых тем, так и с проблемой выбора числа тем и значений других параметров моделей. Кроме того, на данный момент не существует надежных и вычислительно эффективных мер качества, которые могли бы использоваться для оптимизации параметров и для оценки работы алгоритма. Возможное решение этих проблем следует искать за счет применения концепций и методов статистической физики, позволяющих оценивать меру упорядоченности сложных систем и, соответственно, количество информации, а также за счет усовершенствования методов машинного обучения посредством более точной имитации человеческой способности распознавать текстовые паттерны.

Этот проект является преемником проекта ЛИНИС по решению описанных проблем тематического моделирования. 

Во-первых, проект развивает методы эффективного определения оптимального количества распределений в смеси и других параметров регуляризации модели, с учетом того, что это вычислительно затратная задача. Проект закладывает теоретические основания для алгоритмов, использующих понятия из термодинамики, такие как неэкстенсивная энтропия и свободная энергия.
Этот подход позволяет по-новому взглянуть на проблему выбора параметров генеративных тематических моделей и сформулировать задачу настройки тематических моделей как задачу поиска минимума многопарметрической энтропии. Такой подход позволил использовать теоретический подход ‘ренормализации’, развитый в рамках теоретической физики .для быстрого нахождения минимума энтропии Реньи, на основе одного тематического решения ( Koltcov S., Ignatenko V. Renormalization Analysis of Topic Models // Entropy. 2020. Vol. 22. No. 5.). В другой недавней публикации изучается влияние гипер-параметров и различных регуляризаторов моделей на получаемые решения в терминах энтропии Реньи ( Koltsov S., Ignatenko V., Boukhers Z., Staab S. Analyzing the Influence of Hyper-parameters and Regularizers of Topic Modeling in Terms of Renyi entropy // Entropy. 2020. Vol. 22. No. 4.  ). А в работе Koltsov S., Ignatenko V., Terpilowski M., Rosso P. Analysis and tuning of hierarchical topic models based on Renyi entropy approach // PeerJ Computer Science. 2021. Vol. 7. Article e608. рассматривается влияние гипер-параметров  иерархических тематических моделей на получаемые решения, а также предлагается способ настройки таких моделей на основе использования энтропии Реньи, включая вопрос выбора числа тем на каждом уровне иерархии.

Во-вторых, в рамках данного проекта рассматриваются пути решения проблемы стабильности за счет применения внешних источников информации, например, за счет применения технологии ‘word embedings’ или информации, заложенной в исследуемых датасетах. В рамках такого подхода реализован алгоритм ‘Granulated Gibbs sampling procedure’ gLDA – granulated LDA), а также, алгоритмы с частичным обучением на ключевых словах (ISLDA – interval semi-supervised LDA) и экспериментирует с аддитивной регуляризацией pLSA (в сотрудничестве с командой Константина Воронцова ВШЭ-Москва). В данный момент в процессе публикации находится статья, изучающая тематические модели с элементами нейронных сетей, включая модели с word embeddings. В рамках данной работы тестируются такие модели как ЕТМ, GSM, W-LDA и W-GMM с точки зрения их практической применимости и возможности настройки параметров. Кроме того, в данной работе предлагается новая гранулированная тематическая модель на основе использования векторных представлений слов (GLDAW), которая является расширений модели gLDA.

В-третьих, проект тестирует существующие меры качества и разрабатывает новые. Он также разрабатывает подходы к тестированию метрик и теоретические концепции качества тематического моделирования и представления о “ground truth”. В одной из публикаций предлагается мера tf-idf согласованности, которая показывает лучшие результаты, чем обычная согласованность, и легко обобщается для оценки качества не одной темы, а всего тематического решения в целом.
В-четвертых, команда проекта вкладывает много усилий в разработку и поддержание TopicMiner, интерфейсное научное ПО для тематического моделирования. Освобождая исследователей от программирования, оно позволяет им сконцентрироваться на содержательных задачах: с одной стороны, представители компьютерных наук и лингвистики могут быстро применять и оценивать модели; с другой стороны, социальные и гуманитарные исследователи получают возможность быстро изучать и интерпретировать результаты моделирования. Текущая версия  TopicMiner содержит: базовый pLSA, LDA с Е-М алгоритмом и с сэмплированием по Гиббсу, модели, основанные на BigARTM, а также ряд мер качества. ПО также содержит модуль препроцессинга и модуль работы с результатами (визуализацию, просмотр и сортировку миллионов текстов и экспорт).

 

Скачать Софт TopicMiner

Скачать Мануал к TopicMiner  (Русский)

 

Публикации:


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.