• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сергей Кольцов на заседании Московского семинара по социофизике им. Д.С.Чернавского

15 июня ведущий научный сотрудник СКИЛА выступил с докладом про энтропийный подход в тематическом моделировании на очередном заседании Московского семинара по социофизике им. Д.С.Чернавского ИПУ РАН.

В докладе Сергея Николаевича Кольцова, состоявшемся в формате онлайн-конференции, были рассмотрены возможности применения деформированных энтропий (энтропия Реньи, Цаллиса, Шарма—Миттапа) для анализа поведения ряда тематических моделей (ТМ). 

Был описан подход к анализу зависимости ТМ от числа тем на основе идей из статистической физики. В рамках данного подхода коллекция документов и слов рассматривается в виде мезоскопической информационной системы, состояние которой описывается деформированными энтропиями, а поведение информационной системы определяется числом кластеров/тем. 

Тематическое моделирование рассматривается как процедура упорядочивания информационной системы. Исходя из этого, проблему выбора оптимального числа тем можно свести к проблеме нахождения минимума свободной энергии или минимума неравновесной энтропии Реньи/Цаллиса, a поиск семантической стабильности можно определить при помощи энтропии Шарма-Миттала. 

В рамках доклада было показано, как можно организовать настройку гипер-параметров тематических моделей в терминах энтропии, как при помощи перебора гипер-параметров по сетке, так и при помощи процедур ренормализации. Процедура ренормализации тематических моделей позволяет существенно ускорить применение энтропийного подхода с вычислительной точки зрения‚ что чрезвычайно важно при работе с большими данными. 

Сергей Николаевич рассказал о возможности применения энтропийного подхода к иерархическим тематическим моделям, а также представил результаты расчетов таких тематических моделей как PLSA, VLDA (Блей), LDA (Gibbs sampling), GLDA (Gibbs sampling), BigARTM; результаты применения процедур ренормализации, а также результаты расчетов нескольких иерархических тематических моделей (НРАМ, HLDA, hARTM).