Архив статей журнала
Данная работа посвящена анализу методов сглаживания, направленных на улучшение точности поиска информации в системах, обрабатывающих большие объёмы данных.
Были изучены три основных метода: сглаживание по Елинеку - Мерсеру, байесовский подход с использованием распределения Дирихле и метод абсолютного дисконтирования.
В рамках исследования был создан набор данных из 10 000 документов и 5 поисковых запросов, на основе которого проведён эксперимент для оценки эффективности указанных подходов в задаче ранжирования документов.
Итоги эксперимента продемонстрировали, что байесовское сглаживание с распределением Дирихле показало наивысшую точность (MAP = 0.78) благодаря способности адаптироваться к большим объёмам данных.
Полученные результаты имеют прикладное значение для оптимизации и разработки алгоритмов поиска, используемых в обработке крупных текстовых массивов.