СОВЕРШЕНСТВОВАНИЕ МЕТОДОЛОГИИ АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ НА ОСНОВЕ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ
Руководитель проекта: Сергей Кольцов
Участники: Вера Игнатенко, Максим Терпиловский, Антон Сурков
Участвовали ранее: Сергей Николенко, Константин Воронцов, Мурат Апишев, Владимир Филиппов, Максим Кольцов
Тематическое моделирование – перспективный инструмент для современных социальных и гуманитарных наук, позволяющий автоматически выявлять тематическую структуру больших текстовых коллекций, а это – важнейшая задача в эпоху больших интернет-данных. При этом вероятностные тематические модели могут рассматриваться как байесовские модели когнитивных процессов, позволяющие предсказывать поведение человека при обработке текстовой информации, в частности, при распознавании тем.
Однако применение тематического моделирования на практике вызывает ряд вопросов, прежде всего, связанных как с анализом стабильности моделей, наличием неинтерпретируемых тем, так и с проблемой выбора числа тем и значений других параметров моделей. Кроме того, на данный момент не существует надежных и вычислительно эффективных мер качества, которые могли бы использоваться для оптимизации параметров и для оценки работы алгоритма. Возможное решение этих проблем следует искать за счет применения концепций и методов статистической физики, позволяющих оценивать меру упорядоченности сложных систем и, соответственно, количество информации, а также за счет усовершенствования методов машинного обучения посредством более точной имитации человеческой способности распознавать текстовые паттерны.
Этот проект является преемником проекта ЛИНИС по решению описанных проблем тематического моделирования.
Во-первых, проект развивает методы эффективного определения оптимального количества распределений в смеси и других параметров регуляризации модели, с учетом того, что это вычислительно затратная задача. Проект закладывает теоретические основания для алгоритмов, использующих понятия из термодинамики, такие как неэкстенсивная энтропия и свободная энергия.
Этот подход позволяет по-новому взглянуть на проблему выбора параметров генеративных тематических моделей и сформулировать задачу настройки тематических моделей как задачу поиска минимума многопарметрической энтропии. Такой подход позволил использовать теоретический подход ‘ренормализации’, развитый в рамках теоретической физики .для быстрого нахождения минимума энтропии Реньи, на основе одного тематического решения ( Koltcov S., Ignatenko V. Renormalization Analysis of Topic Models // Entropy. 2020. Vol. 22. No. 5.). В другой недавней публикации изучается влияние гипер-параметров и различных регуляризаторов моделей на получаемые решения в терминах энтропии Реньи ( Koltsov S., Ignatenko V., Boukhers Z., Staab S. Analyzing the Influence of Hyper-parameters and Regularizers of Topic Modeling in Terms of Renyi entropy // Entropy. 2020. Vol. 22. No. 4. ). А в работе Koltsov S., Ignatenko V., Terpilowski M., Rosso P. Analysis and tuning of hierarchical topic models based on Renyi entropy approach // PeerJ Computer Science. 2021. Vol. 7. Article e608. рассматривается влияние гипер-параметров иерархических тематических моделей на получаемые решения, а также предлагается способ настройки таких моделей на основе использования энтропии Реньи, включая вопрос выбора числа тем на каждом уровне иерархии.
Во-вторых, в рамках данного проекта рассматриваются пути решения проблемы стабильности за счет применения внешних источников информации, например, за счет применения технологии ‘word embedings’ или информации, заложенной в исследуемых датасетах. В рамках такого подхода реализован алгоритм ‘Granulated Gibbs sampling procedure’ gLDA – granulated LDA), а также, алгоритмы с частичным обучением на ключевых словах (ISLDA – interval semi-supervised LDA) и экспериментирует с аддитивной регуляризацией pLSA (в сотрудничестве с командой Константина Воронцова ВШЭ-Москва). В данный момент в процессе публикации находится статья, изучающая тематические модели с элементами нейронных сетей, включая модели с word embeddings. В рамках данной работы тестируются такие модели как ЕТМ, GSM, W-LDA и W-GMM с точки зрения их практической применимости и возможности настройки параметров. Кроме того, в данной работе предлагается новая гранулированная тематическая модель на основе использования векторных представлений слов (GLDAW), которая является расширений модели gLDA.
В-третьих, проект тестирует существующие меры качества и разрабатывает новые. Он также разрабатывает подходы к тестированию метрик и теоретические концепции качества тематического моделирования и представления о “ground truth”. В одной из публикаций предлагается мера tf-idf согласованности, которая показывает лучшие результаты, чем обычная согласованность, и легко обобщается для оценки качества не одной темы, а всего тематического решения в целом.
В-четвертых, команда проекта вкладывает много усилий в разработку и поддержание TopicMiner, интерфейсное научное ПО для тематического моделирования. Освобождая исследователей от программирования, оно позволяет им сконцентрироваться на содержательных задачах: с одной стороны, представители компьютерных наук и лингвистики могут быстро применять и оценивать модели; с другой стороны, социальные и гуманитарные исследователи получают возможность быстро изучать и интерпретировать результаты моделирования. Текущая версия TopicMiner содержит: базовый pLSA, LDA с Е-М алгоритмом и с сэмплированием по Гиббсу, модели, основанные на BigARTM, а также ряд мер качества. ПО также содержит модуль препроцессинга и модуль работы с результатами (визуализацию, просмотр и сортировку миллионов текстов и экспорт).
Скачать Софт TopicMiner
Скачать Мануал к TopicMiner (Русский)
Публикации:
- Ignatenko V., Surkov A., Koltcov S. Random forests with parametric entropy-based information gains for classification and regression problems. 2024 // PeerJ Computer Science 10:e1775 https://doi.org/10.7717/peerj-cs.1775
- Koltcov S., Surkov A., Filippov V., Ignatenko V. Topic models with elements of neural networks: investigation of stability, coherence, and determining the optimal number of topics. 2024 // PeerJ Computer Science 10:e1758 https://doi.org/10.7717/peerj-cs.1758
- Koltsov S., Ignatenko V., Terpilowski M., Rosso P. Analysis and tuning of hierarchical topic models based on Renyi entropy approach // PeerJ Computer Science. 2021. Vol. 7. Article e608.
- Koltcov Sergei, Ignatenko V. Renormalization Analysis of Topic Models // Entropy. 2020. Vol. 22. No. 5. doi: 10.3390/e22050556
- Koltsov S., Ignatenko V., Boukhers Z., Staab S. Analyzing the Influence of Hyper-parameters and Regularizers of Topic Modeling in Terms of Renyi entropy // Entropy. 2020. Vol. 22. No. 4. doi: 10.3390/e22040394
- Koltsov S., Ignatenko V., Pashakhin S. Fast Tuning of Topic Models: An Application of Rényi Entropy and Renormalization Theory, in: Proceedings of the 5th International Electronic Conference on Entropy and Its Applications Vol. 46. Issue 1. MDPI AG, 2020. Ch. 5. Download (PDF, 792 Кб)
- Ignatenko V., Koltsov S. Renormalization approach to the task of determining the number of topics in topic modeling, in: Intelligent Computing-Proceedings of the Computing Conference. Cham: Springer International Publishing, 2020. P. 1-17. Download (PDF, 813 Кб)
- Koltsov, S., Ignatenko, V., Koltsova, O. (2019). Estimating Topic Modeling Performance with Sharma–Mittal Entropy. Entropy, Vol. 21, No. 7., p. 660. doi: 10.3390/e21070660
- Koltcov, S. (2018). Application of Rényi and Tsallis entropies to topic modeling optimization. Physica A: Statistical Mechanics and Its Applications , 512 , 1192–1204. https://doi.org/10.1016/j.physa.2018.08.050
- Ignatenko, V., Koltcov, S., Staab, S., & Boukhers, Z. (2019). Fractal approach for determining the optimal number of topics in the field of topic modeling. Journal of Physics: Conference Series. Vol. 1163, No. 1, pp. 1- 6. doi: 10.1088/1742-6596/1163/1/012025
https://iopscience.iop.org/article/10.1088/1742-6596/1163/1/012025/meta Download preprint version - Koltcov S. N., A thermodynamic approach to selecting a number of clusters based on topic modeling, Technical Physics Letters, 43(6), 584-586.
- Koltsov S., Nikolenko S. I., Koltsova O. Gibbs Sampler Optimization for Analysis of a Granulated Medium // Technical Physics Letters . 2016. Vol. 8. No. 42. P. 837-839
- Apishev M., Koltsov S., Koltcova E. Y. Mining ethnic content online with additively regularized topic models // Computacion y Sistemas . 2016. Vol. 20. No. 3. P. 387-403
- Sergei Koltcov, Nikolenko S. I., Olessia Koltsova, Vladimir Filippov, Svetlana Bodrunova. Stable Topic Modeling with Local Density Regularization, in: Internet Science, Proc. of 3d conf INSCI 2016, Lecture Notes in Computer Science series Vol. 9934.Switzerland : Springer, 2016
- Koltsov S., Nikolenko S. I., Koltsova O., Bodrunova S. Stable topic modeling for web science: Granulated LDA, in: WebSci 2016 - Proceedings of the 2016 ACM Web Science Conference. Elsevier B.V., 2016. P. 342-343.
- Sergey Nikolenko, Sergei Koltcov, Olessia Koltsova. Topic modelling for qualitative studies // Journal of Information Science . 2015
- Koltsov S., Koltsova O., Nikolenko S. I. Latent Dirichlet Allocation: Stability and Applications to Studies of User-Generated content, in: Proceedings of WebSci '14 ACM Web Science Conference, Bloomington, IN, USA — June 23 - 26, 2014 . NY : ACM, 2014. P. 161-165.
- Nikolenko S. I., Koltsov S., Koltsova O. Measuring Topic Quality in Latent Dirichlet Allocation, in: Proceedings of the Philosophy, Mathematics, Linguistics: Aspects of Interaction 2014 Conference . St. Petersburg : The Euler International Mathematical Institute, 2014. P. 149-157.
- Bodrunova S., Nikolenko S. I., Koltcova E. Y., Koltsov S., Shimorina A. Interval Semi-Supervised LDA: Classifying Needles in a Haystack, in: Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013) Part I: Advances in Artificial Intelligence and Its Applications. Berlin : Springer Verlag, 2013. P. 265-274.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.