Статья Веры Игнатенко, Антона Суркова и Сергея Кольцова принята к публикации в журнале PEERJ computer science
Вторая статья, выполненная в рамках проекта QTM «Совершенствование методологии автоматического анализа текстов на основе тематического моделирования», на тему "Random forests with parametric entropy-based information gains for classification and regression problems" выйдет в печать.
Алгоритм Random Forest является одним из наиболее популярных и часто используемых алгоритмов для решения задач классификации и регрессии. Он объединяет выходные данные нескольких деревьев решений для получения единого результата. Random Forest демонстрирует самую высокую точность на табличных данных по сравнению с другими алгоритмами в различных приложениях. Однако случайные леса, а точнее, деревья решений, обычно строятся с применением классической энтропии Шеннона.
В данной статье мы рассматриваем возможности деформированных энтропий, которые успешно используются в области сложных систем, для повышения точности предсказания алгоритмов случайного леса. Мы разрабатываем и вводим информационные выигрыши (information gains), основанные на энтропиях Реньи, Цаллиса и энтропии Шарма-Миттала для классификационных и регрессионных случайных лесов. Мы тестируем предложенные модификации алгоритмов модификации на шести эталонных наборах данных: трех для задач классификации и трех для задач регрессии. Для классификации применение энтропии Реньи позволяет улучшить точность предсказания случайного леса на 19-96% в зависимости от набора данных, энтропия Тсаллиса улучшает точность на 20-98%, а энтропия Шарма-Миттала повышает точность на 22-111% по сравнению с классическим алгоритмом. Для регрессионных задач применение деформированных энтропий улучшает предсказание на 2-23% в терминах R^2 в зависимости от набора данных.
Лаборатория социальной и когнитивной информатики: Научный сотрудник
Лаборатория социальной и когнитивной информатики: Ведущий научный сотрудник
Лаборатория социальной и когнитивной информатики: Стажер-исследователь