Архив статей журнала

ОБЗОР СОВРЕМЕННЫХ ПОДХОДОВ К АВТОМАТИЗАЦИИ РЕЦЕНЗИРОВАНИЯ ТЕКСТОВ СЛОЖНЫХ РАБОТ СТУДЕНТОВ И МОЛОДЫХ УЧЕНЫХ (2025)
Выпуск: № 6 (2025)
Авторы: Бондарев Ю. А., Терещенко В. В., Марцинкевич В. И., Духанов А. В.

Рецензирование текстов сложных документов, то есть документов, как имеющих сложную структуру, так и затрагивающих значительное количество вопросов, является неотъемлемой составляющей образовательного процесса и научно-исследовательской деятельности. Однако данный процесс требует внимания, глубокого анализа и индивидуального подхода, что сложно обеспечить при возрастающем объеме научных работ. В связи с этим актуальной становится задача автоматизации рецензирования. Целью данного исследования является сравнительный анализ методов автоматизации рецензирования научных текстов для выявления наиболее эффективных подходов. Для проведения обзора было проанализировано 176 актуальных исследовательских и обзорных статей из открытых баз ScienceDirect и IEEExplore, опубликованных не ранее 1 января 2015 г., из которых было выбрано 40. Выбранные источники были разделены на четыре группы по виду используемых методов: статистические методы, методы обработки естественного языка с машинным обучением, большие языковые модели, в том числе с дополнительными функциями. Для каждой из групп методов выявлены основные функции и оценена глубина решения задачи рецензирования. Проведенный сравнительный анализ методов показывает, что наибольшую эффективность и глубину решения задачи рецензирования показывают большие языковые модели с дополнительными функциями (прежде всего дополнительно обученные). Вместе с тем для более эффективного использования вычислительных ресурсов предлагается комплексный подход, объединяющий как большие языковые модели, так и методы обработки естественного языка.

Сохранить в закладках
ПОИСК И ИДЕНТИФИКАЦИЯ ТЕКСТОВ ОПРЕДЕЛЕННОЙ СЕМАНТИЧЕСКОЙ НАПРАВЛЕННОСТИ В ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ПОТОКАХ (2025)
Выпуск: № 5 (2025)
Авторы: Вишняков Юрий Муссович, Вишняков Р. Ю.

В обработке естественно-языковой информации актуальна проблема выявления текстов определенной семантической направленности и определения их источников. Это требуется в анализе новостных потоков, чатов мессенджеров, социальных сетей, проверке документов на плагиат и других подобных задачах. Целью работы является обоснование концептуальной модели выявления в естественно-языковых потоках текстов определенной семантической направленности по формальным описаниям их источников. Анализ известных подходов показал потребность в собственном инструментарии для решения проблемы. В работе предлагается семантическую направленность задавать сценариями языка формальной грамматики гипотетического семантического объекта, сценарии представлять последовательностями характеристик семантического словаря и направленность текста определять семантической близостью сценарию. Бесконечность языка сценариев и отсутствие информации об исходном тексте исключают простой перебор, поэтому предполагаемый сценарий конструируется. Процесс организуется последовательным определением семантического сходства токенов текста характеристикам и их сборкой в предполагаемый сценарий, проверяемый на принадлежность языку. Для семантического сравнения текстов и сценариев сконструированы функции семантического подобия, общий и частный алгоритмы выявления текстов определенной семантической направленности. В общем алгоритме разбор сводится к построению вывода в формальной грамматике, для регулярных грамматик разбор выполняется системой переходов. Для ускорения сборка предполагаемого сценария совмещается с грамматическим разбором и используется механизм бек-трекинга. Точность алгоритмов определяется фактической близостью текстов сценариям. В работе приводится состав разработанного программного комплекса, тестирование которого подтверждает теоретические результаты. Исследование развивает фундаментальные основы математического моделирования естественно-языковой обработки и предлагает новые эффективные вычислительные алгоритмы для комплексов проблемно-ориентированных программ.

Сохранить в закладках