Онлайн библиотека научных статей на SciNetwork

ОБЗОР СОВРЕМЕННЫХ ПОДХОДОВ К АВТОМАТИЗАЦИИ РЕЦЕНЗИРОВАНИЯ ТЕКСТОВ СЛОЖНЫХ РАБОТ СТУДЕНТОВ И МОЛОДЫХ УЧЕНЫХ

автоматическое рецензирование, обработка естественного языка, большие языковые модели, ТОНКАЯ НАСТРОЙКА, качество научного текста

Рецензирование текстов сложных документов, то есть документов, как имеющих сложную структуру, так и затрагивающих значительное количество вопросов, является неотъемлемой составляющей образовательного процесса и научно-исследовательской деятельности. Однако данный процесс требует внимания, глубокого анализа и индивидуального подхода, что сложно обеспечить при возрастающем объеме научных работ. В связи с этим актуальной становится задача автоматизации рецензирования. Целью данного исследования является сравнительный анализ методов автоматизации рецензирования научных текстов для выявления наиболее эффективных подходов. Для проведения обзора было проанализировано 176 актуальных исследовательских и обзорных статей из открытых баз ScienceDirect и IEEExplore, опубликованных не ранее 1 января 2015 г., из которых было выбрано 40. Выбранные источники были разделены на четыре группы по виду используемых методов: статистические методы, методы обработки естественного языка с машинным обучением, большие языковые модели, в том числе с дополнительными функциями. Для каждой из групп методов выявлены основные функции и оценена глубина решения задачи рецензирования. Проведенный сравнительный анализ методов показывает, что наибольшую эффективность и глубину решения задачи рецензирования показывают большие языковые модели с дополнительными функциями (прежде всего дополнительно обученные). Вместе с тем для более эффективного использования вычислительных ресурсов предлагается комплексный подход, объединяющий как большие языковые модели, так и методы обработки естественного языка.

Формат документа: pdf

Год публикации: 2025

Кол-во страниц: 1

Загрузил(а): Бондарев Ю.

Язык(и): Русский, Английский

ПОИСК И ИДЕНТИФИКАЦИЯ ТЕКСТОВ ОПРЕДЕЛЕННОЙ СЕМАНТИЧЕСКОЙ НАПРАВЛЕННОСТИ В ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ПОТОКАХ

естественно-языковая обработка, текстовый поток, СЕМАНТИКА, ФОРМАЛЬНАЯ МОДЕЛЬ, формальная грамматика, формальный язык, вывод, система переходов, алгоритм

В обработке естественно-языковой информации актуальна проблема выявления текстов определенной семантической направленности и определения их источников. Это требуется в анализе новостных потоков, чатов мессенджеров, социальных сетей, проверке документов на плагиат и других подобных задачах. Целью работы является обоснование концептуальной модели выявления в естественно-языковых потоках текстов определенной семантической направленности по формальным описаниям их источников. Анализ известных подходов показал потребность в собственном инструментарии для решения проблемы. В работе предлагается семантическую направленность задавать сценариями языка формальной грамматики гипотетического семантического объекта, сценарии представлять последовательностями характеристик семантического словаря и направленность текста определять семантической близостью сценарию. Бесконечность языка сценариев и отсутствие информации об исходном тексте исключают простой перебор, поэтому предполагаемый сценарий конструируется. Процесс организуется последовательным определением семантического сходства токенов текста характеристикам и их сборкой в предполагаемый сценарий, проверяемый на принадлежность языку. Для семантического сравнения текстов и сценариев сконструированы функции семантического подобия, общий и частный алгоритмы выявления текстов определенной семантической направленности. В общем алгоритме разбор сводится к построению вывода в формальной грамматике, для регулярных грамматик разбор выполняется системой переходов. Для ускорения сборка предполагаемого сценария совмещается с грамматическим разбором и используется механизм бек-трекинга. Точность алгоритмов определяется фактической близостью текстов сценариям. В работе приводится состав разработанного программного комплекса, тестирование которого подтверждает теоретические результаты. Исследование развивает фундаментальные основы математического моделирования естественно-языковой обработки и предлагает новые эффективные вычислительные алгоритмы для комплексов проблемно-ориентированных программ.

Формат документа: pdf

Год публикации: 2025

Кол-во страниц: 1

Загрузил(а): Вишняков Юрий

Язык(и): Русский, Английский

КЛАССИФИКАЦИЯ ТЕКСТОВЫХ СООБЩЕНИЙ ШКОЛЬНИКОВ С ПОМОЩЬЮ МЕТОДОВ NLP

естественный язык, классификация, социальные сети, школьник

Статья посвящена исследованию возможности разбивать на классы текстовые сообщения школьников в социальной сети «ВКонтакте». Классификация основывается на методах работы с естественным языком (NLP).

Формат документа: pdf

Год публикации: 2024

Кол-во страниц: 1

Загрузил(а): МАНИЧЕВА А.С.

Язык(и): Русский

ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ В МЕДИЦИНЕ: ПРОГНОЗНАЯ МОДЕЛЬ ЗАБОЛЕВАЕМОСТИ СИФИЛИСОМ В АЛТАЙСКОМ КРАЕ

имитационное моделирование, прогнозная модель

В данной работе рассматривается применение методов имитационного и математического моделирования к решению классической медицинской задачи - прогнозированию развития заболеваемости. Качественный прогноз распространения заболевания достижим только на основе адекватных математических моделей.

Формат документа: pdf

Год публикации: 2020

Кол-во страниц: 1

Загрузил(а): МИХЕЕВА ТАТЬЯНА ВИКТОРОВНА

Язык(и): Русский

ПРИМЕНЕНИЕ КОМБИНИРОВАННЫХ ВЕКТОРНЫХ ПРЕДСТАВЛЕНИЙ ПРИ РЕШЕНИИ ЗАДАЧИ КЛАССИФИКАЦИИ НАМЕРЕНИЙ ПОЛЬЗОВАТЕЛЕЙ ИНТЕЛЛЕКТУАЛЬНОЙ ДИАЛОГОВОЙ СИСТЕМЫ

обработка естественного языка, ЧАТ-БОТ, векторизация текста, глубокое обучение, ТРАНСФОРМЕР, МЕТРИКИ КАЧЕСТВА

В работе приведен краткий теоретический обзор существующих подходов к решению задачи классификации намерений пользователей на основе текстовых сообщений. Предложен классификатор на основе текстового трансформера. Рассмотрены процессы обучения и использования модели. В рамках эксперимента обучено несколько демонстрационных вариантов классификатора для корпоративной диалоговой системы. Приведены показатели качества моделей в виде совокупности значений основных метрик и визуализаций, применяемых при оценке классификаторов

Формат документа: pdf

Год публикации: 2022

Кол-во страниц: 1

Загрузил(а): Гуненков Михаил Юрьевич

Язык(и): Русский

ИСПОЛЬЗОВАНИЕ ФОРМАЛЬНЫХ ГРАММАТИК В ЗАДАЧЕ ШАБ-ЛОНИЗАЦИИ ДОКУМЕНТОВ

ТЕОРИЯ ФОРМАЛЬНЫХ ЯЗЫКОВ, ИЕРАРХИЯ ХОМСКОГО, ФОРМА БЭКУСА-НАУРА, ГРАММАТИЧЕСКИЕ ПРАВИЛА, РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ

Рассматриваются регулярные, контекстно-свободные и контекстно-зависимые грамматики, их основные свойства и возможности применения при создании документов на основе шаблона в формате LaTeX. Описывается конкретный набор грамматик, которые могут использоваться для разбора структуры документов, включая описание таблиц, списков и блоков текста. Применение данного подхода может значительно упростить и автоматизировать процесс создания и редактирования документов.

Формат документа: pdf

Год публикации: 2023

Кол-во страниц: 1

Загрузил(а): Тюменцев Евгений Александрович

Язык(и): Русский

машинное обучение, РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМА, ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ПРОГНОЗИРОВАНИЕ ПРЕДПОЧТЕНИЙ, НЕОТРИЦАТЕЛЬНОЕ МАТРИЧНОЕ РАЗЛОЖЕНИЕ, МЕТОД ЧЕРЕДУЮЩИХСЯ НАИМЕНЬШИХ КВАДРАТОВ

В статье рассматривается проектирование и реализация построения рекомендаций в web-приложении онлайн-библиотеки. Исследуются такие методы построения рекомендаций, как контентная и коллаборативная фильтрации, и возможные варианты их реализации. В числе исследованных вариантов - такие методы машинного обучения, как кластеризация и регрессия, представленные тематическим моделированием и прогнозированием предпочтений, и в статье описываются алгоритмы, лежащие в основе каждого из выбранных методов, а также представляются результаты работы полученных моделей. Разработанное решение реализовано в виде сервиса онлайн-библиотеки и помогает пользователям с поиском интересующей их литературы среди книг, размещенных на ресурсе.

Формат документа: pdf

Год публикации: 2024

Кол-во страниц: 1

Загрузил(а): Осипова Яна Дмитриевна

Язык(и): Русский

СИСТЕМА АВТОМАТИЗИРОВАННОГО АНАЛИЗА ТОНАЛЬНОСТИ ОТЗЫВОВ ПОЛЬЗОВАТЕЛЕЙ

АНАЛИЗ ТОНАЛЬНОСТИ, машинное обучение, Python, классификация, ВЕКТОРИЗАЦИЯ, ОТЗЫВЫ ПОЛЬЗОВАТЕЛЕЙ, парсинг, ВЕБ-СЕРВИС

В статье изложены основные аспекты разработки веб-системы автоматизированного анализа тональности отзывов, представлена целевая функция, описано математическое обеспечение веб-системы. Произведен сравнительный анализ фреймворков парсинга: Selenium, Playwright, BeautifulSoup, Grab, API. Выполнено сравнение модели векторного представления: Bag of Words, TF-IDF, BERT. А также сравнили методы классификации: Логистическая регрессия, Градиентный бустинг, Случайный лес. Описана логика работы программного продукта, определена архитектура системы. Определен набор данных для обучения моделей машинного обучения. В результате разработан веб-сервис СААТО, позволяющий по одной ссылке проанализировать эмоциональность комментариев и откликов.

Формат документа: pdf

Год публикации: 2024

Кол-во страниц: 1

Загрузил(а): Десятников Алексей

Язык(и): Русский, Английский

МЕТОДЫ ОПРЕДЕЛЕНИЯ НЕЯВНО УПОМИНАЕМЫХ АСПЕКТОВ В ПУБЛИЦИСТИЧЕСКИХ ПРЕДЛОЖЕНИЯХ НА РУССКОМ ЯЗЫКЕ

ОПРЕДЕЛЕНИЕ АСПЕКТОВ, НЕЯВНЫЕ АСПЕКТЫ, АНАЛИЗ ТОНАЛЬНОСТИ, ПУБЛИЦИСТИЧЕСКИЙ СТИЛЬ

В работе сравнивается качество работы различных методов определения неявно упоминаемых аспектов социально-экономической жизни в публицистических предложениях на русском языке. Задача определения неявно упоминаемых аспектов является вспомогательной для задач аспектно-ориентированного анализа тональности. Эксперименты проводились на корпусе предложений, извлечённых из политической агитации. Лучшие результаты, с F1-мерой, достигающей 0.84, были получены с использованием эмбеддингов Navec и классификаторов, основанных на методе опорных векторов. Достаточно высокие результаты, с F1-мерой до 0.77, были получены при использовании модели «мешок слов» и наивного байесовского классификатора. Остальные методы показали более низкие результаты. Также в ходе экспериментов было выявлено, что качество определения различных аспектов может достаточно сильно отличаться. Лучше всего определяются аспекты, с которыми в речи связаны характерные слова-маркеры, например, «здравоохранение» и «проведение выборов» Хуже всего определяются упоминания достаточно общих аспектов, таких как «качество управления».

Формат документа: pdf

Год публикации: 2024

Кол-во страниц: 1

Загрузил(а): Полетаев Анатолий

Язык(и): Русский

АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ СЕМАНТИЧЕСКОГО СХОДСТВА ОТВЕТОВ УЧАЩИХСЯ С ЭТАЛОННЫМ С ПОМОЩЬЮ СОВРЕМЕННЫХ МОДЕЛЕЙ

обработка естественного языка, СХОДСТВО ТЕКСТОВ, КЛАССИФИКАЦИЯ ТЕКСТОВ, НЕЙРОСЕТЕВЫЕ ЯЗЫКОВЫЕ МОДЕЛИ, ОЦЕНКА ОТКРЫТЫХ ОТВЕТОВ УЧАЩИХСЯ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В ОБРАЗОВАНИИ

В работе представлены результаты исследования современных моделей текста с целью выявления на их основе семантической близости текстов на английском языке. Задача определения семантического сходства текстов является важной составляющей многих областей обработки естественного языка: машинного перевода, поиска информации, систем вопросов и ответов, искусственного интеллекта в образовании. Авторы решали задачу классификации близости ответов учащихся к эталонному ответу учителя. Для исследования были выбраны нейросетевые языковые модели BERT и GPT, ранее применявшиеся к определению семантического сходства текстов, новая нейросетевая модель Mamba, а так же стилометрические характеристики текста. Эксперименты проводились с двумя корпусами текстов: корпус Text Similarity из открытых источников и собственный корпус, собранный с помощью филологов. Качество решения задачи оценивалось точностью, полнотой и F-мерой. Все нейросетевые языковые модели показали близкое качество F-меры около 86% для большего по размеру корпуса Text Similarity и 50-56% для собственного корпуса авторов. Совсем новым результатом оказалось успешное применение модели mamba. Однако, самым интересным достижением стало применение векторов стилометрических характеристик текста, показавшее 80% F-меры для авторского корпуса и одинаковое с нейросетевыми моделями качество решения задачи для другого корпуса.

Формат документа: pdf

Год публикации: 2024

Кол-во страниц: 1

Загрузил(а): Лагутина Ксения

Язык(и): Русский

SCI Библиотека