SCI Библиотека
SciNetwork библиотека — это централизованное хранилище научных материалов всего сообщества... ещё…
SciNetwork библиотека — это централизованное хранилище научных материалов всего сообщества... ещё…
В работе исследуются автоматические методы классификации русскоязычных предложений на два класса: содержащие и не содержащие ироничный посыл. Рассматриваемые методы могут быть разделены на три категории: классификаторы на основе эмбеддингов языковых моделей, классификаторы с использованием информации о тональности и классификаторы с обучением эмбеддингов обнаружению иронии. Составными элементами классификаторов являются нейронные сети, такие как BERT, RoBERTa, BiLSTM, CNN, а также механизм внимания и полносвязные слои. Эксперименты по обнаружению иронии проводились с использованием двух корпусов русскоязычных предложений: первый корпус составлен из публицистических текстов из открытого корпуса OpenCorpora, второй корпус является расширением первого и дополнен ироничными предложениями с ресурса Wiktionary. Лучшие результаты продемонстрировала группа классификаторов на основе чистых эмбеддингов языковых моделей с максимальным значением F-меры 0.84, достигнутым связкой из RoBERTa, BiLSTM, механизма внимания и пары полносвязных слоев в ходе экспериментов на расширенном корпусе. В целом использование расширенного корпуса давало результаты на 2-5% выше результатов на базовом корпусе. Достигнутые результаты являются лучшими для рассматриваемой задачи в случае русского языка и сравнимы с лучшими для английского.
В данной работе представлено исследование задачи автоматической классификации коротких связных текстов (эссе) на английском языке по уровням международной шкалы CEFR. Определение уровня текста на естественном языке является важной составляющей оценки знаний учащихся, в том числе для проверки открытых заданий в системах электронного обучения. Для решения этой задачи были рассмотрены векторные модели текста на основе стилометрических числовых характеристик уровня символов, слов, структуры предложения. Классификация полученных векторов осуществлялась стандартными классификаторами машинного обучения. В статье приведены результаты трёх наиболее успешных: Support Vector Classifier, Stochastic Gradient Descent Classifier, LogisticRegression. Оценкой качества послужили точность, полнота и F“=мера. Для экспериментов были выбраны два открытых корпуса текстов CEFR Levelled English Texts и BEA“=2019. Лучшие результаты классификации по шести уровням и подуровням CEFR от A1 до C2 показал Support Vector Classifier с F“=мерой 67 % для корпуса CEFR Levelled English Texts. Этот подход сравнивался с применением языковой модели BERT (шесть различных вариантов). Лучшая модель bert“=base“=cased обеспечила значение F“=меры 69 %. Анализ ошибок классификации показал, что большая их часть допущена между соседними уровнями, что вполне объяснимо с точки зрения предметной области. Кроме того, качество классификации сильно зависело от корпуса текстов, что продемонстрировало существенное различие F“=меры в ходе применения одинаковых моделей текста для разных корпусов. В целом, полученные результаты показали эффективность автоматического определения уровня текста и возможность его практического применения.
Статья посвящена построению корпуса предложений, размеченных по общей тональности на 4 класса (положительный, отрицательный, нейтральный, смешанный), корпуса фразеологизмов, размеченных по тональности на 3 класса (положительный, отрицательный, нейтральный), и корпуса предложений, размеченных по наличию или отсутствию иронии. Разметку проводили волонтёры в рамках проекта «Готовим тексты алгоритмам» на портале«Люди науки».На основе имеющихся знаний о предметной области для каждой из задач были составлены инструкции для разметчиков. Также была выработана методика статистической обработки результатов разметки, основанная на анализе распределений и показателей согласия оценок, выставленных разными разметчиками. Для разметки предложений по наличию иронии и фразеологизмов по тональности показатели согласия оказались достаточно высокими (доля полного совпадения 0.60-0.99), при разметке предложений по общей тональности согласие оказалось слабым (доля полного совпадения 0.40), по-видимому, из-за более высокой сложности задачи. Также было показано, что результаты работы автоматических алгоритмов анализа тональности предложений улучшаются на 12-13 % при использовании корпуса, относительно предложений которого сошлись мнения всех разметчиков (3-5 человек), по сравнению с корпусом с разметкой только одним волонтёром.
Задача распознавания именованных сущностей (named entity recognition, NER) состоит в выделении и классификации слов и словосочетаний, обозначающих именованные объекты, таких как люди, организации, географические названия, даты, события, обозначения терминов предметных областей. В поисках лучшего решения исследователи проводят широкий спектр экспериментов с разными технологиями и исходными данными. Сравнение результатов этих экспериментов показывает значительное расхождение качества NER и ставит проблему определения условий и границ применения используемых технологий, а также поиска новых путей решения. Важным звеном в ответах на эти вопросы является систематизация и анализ актуальных исследований и публикация соответствующих обзоров. В области распознавания именованных сущностей авторы аналитических статей в первую очередь рассматривают математические методы выделения и классификации и не уделяют внимание специфике самой задачи. В предлагаемом обзоре область распознавания именованных сущностей рассмотрена с точки зрения отдельных категорий задач. Авторы выделили пять категорий: классическая задача NER, подзадачи NER, NER в социальных сетях, NER в предметных областях, NER в задачах обработки естественного языка (natural language processing, NLP). Для каждой категории обсуждается качество решения, особенности методов, проблемы и ограничения. Информация об актуальных научных работах каждой категории для наглядности приводится в виде таблицы, содержащей информацию об исследованиях: ссылку на работу, язык использованного корпуса текстов и его название, базовый метод решения задачи, оценку качества решения в виде стандартной статистической характеристики F-меры, которая является средним гармоническим между точностью и полнотой решения. Обзор позволяет сделать ряд выводов. В качестве базовых технологий лидируют методы глубокого обучения. Основными проблемами являются дефицит эталонных наборов данных, высокие требования к вычислительным ресурсам, отсутствие анализа ошибок. Перспективным направлением исследований в области NER является развитие методов на основе обучения без учителя или на основе правил. Возможной базой предобработки текста для таких методов могут служить интенсивно развивающиеся модели языков в существующих инструментах NLP. Завершают статью описание и результаты экспериментов с инструментами NER для русскоязычных текстов.
Выражение чувств - неотъемлемая часть человеческой жизни и коммуникации. Чтобы создать компьютеры, способные лучше служить человечеству, в области информатики продолжаются исследования по разработке алгоритмов машинного обучения, которые могут обрабатывать текстовые данные и выполнять задачи анализа тональности текстов на естественном языке. Доступность онлайн-обзоров и повышенные ожидания конечных пользователей также стимулируют разработку систем интеллектуального анализа мнений, которые могут автоматически классифицировать и обобщать отзывы пользователей. С каждым годом исследований в области распознавания эмоций в тексте все больше, но только малая их часть посвящена применению нечеткой логики. В основном, это происходит потому, что исследователи ограничиваются бинарной классификацией отношений - «положительное» и «отрицательное», реже добавляя еще третий класс - «нейтральное». Применение же нечеткой логики помогает определить оттенки эмоций, не просто «хорошо» и «плохо», а насколько хорошо или насколько плохо. Количество определяемых классов определяет глубину детализации. Ранее нами была предложена нечеткая модель определения тональности на основе словарей, в данном исследовании мы предлагаем улучшенную модель определения тональности текста на основе тонального словаря (SentiWordNet) и нечетких правил. Для повышения точности и достоверности анализа тональности были применены коэффициенты, учитывающие эмоциональную нагрузку слов разных частей речи и действие модификаторов интенсивности, способствующих усилению либо ослаблению эмоциональных оттенков. Количественное значение тональности текста получено в результате агрегирования нормированных данных по эмоциональным классам с применением методов нечеткого вывода. В результате исследования было выявлено, что учет влияния модификаторов интенсивности значительно повышает точность предложенного ранее авторами метода, а также способствует определению границ при проведении детализированной оценки отношений по 7 классам («очень положительное», «положительное», «скорее положительное», «нейтральное», «скорее отрицательное», «отрицательное», «очень отрицательное»).
При публикации статей в социальных сетях редакциям новостных порталов необходимо сформировать краткий реферат каждой статьи, затратив на это минимум времени. Оперативному и одновременному размещению публикации на всех зарегистрированных ресурсах способствует автоматическая генерация подводок. Предлагается использование алгоритмов искусственного интеллекта, обученных на корпусах русских текстов. Известны три подхода к реферированию текста для автоматизированного формирования подводок статей: экстрактивный, абстрактивный и комбинированный. Проводится сравнительный анализ методов экстрактивного и абстрактивного подходов в рамках решения задачи автоматической генерации подводок с помощью применения нейросетевых моделей машинного обучения. Проанализированы различные этапы экстрактивного реферирования с помощью как простых, так и более сложных методов: LexRank, TextRank и на основе Deep Learning. Путем сравнения выбраны абстрактивные модели как наиболее подходящие для выполнения суммаризации новостных статей, на основе модификации модели BERT. Более сложные генерирующие тексты обрабатывают тексты параллельно, что ускоряет обработку, но требует предобучения на больших корпусах новостных документов. При использовании абстрактивных моделей Pointer General Network и MBART сокращается время обработки информации, повышается эффективность работы.
Актуальность исследования обусловлена низким уровнем применения диалога на естественном языке в дистанционном обучении. Создание таких средств на основе искусственного интеллекта сделает процесс дистанционного обучения более доступным и привлекательным. В статье предлагается строить диалог на основе эталонных вопросов к содержанию дистанционного курса. Ответ выбирается на основе близости вопроса пользователя к эталону. В качестве множества ответов рекомендуется использовать структурные единицы дистанционного курса, а в качестве эталонных вопросов - соответствующие заголовки. Данные учебного диалога запоминаются и используются для расширения списка эталонных вопросов и обучения системы. Для контроля усвоения используется мера близости ответов обучаемого на контрольные вопросы и правильных вариантов ответов. Для формирования контрольных вопросов можно использовать словари дистанционных курсов и тестовые задания. Определение меры близости двух текстов предлагается выполнять с использованием косинуса эмбеддингов наиболее близких термов. Данные сравнения текстов по предложенной методике подтверждают ее возможность правильно оценивать близость текстов и обосновывают ее применение для организации диалога на естественном языке в дистанционном обучении.
Дано описание Томита-парсера, предназначенного для анализа текста на русском языке, который работает на основе GLR-анализа. Рассмотрены способы задания грамматик в Томита-парсере, описания газеттиров и создания полей фактов. Представлена работа Томита-парсера на примере конкретного текста.
В статье рассматривается проблема распознавания сентимента и эмоций пользователей в русскоязычных текстовых транскрипциях речи с использованием словарных методов и машинного перевода. Количество имеющихся информационных ресурсов для анализа сентимента текстовых сообщений на русском языке очень ограничено, что существенно затрудняет применение базовых методов анализа сентимента, а именно, предобработки текстов, векторизации с помощью тональных словарей, традиционных классификаторов. Для решения этой проблемы в статье вводится новый метод на основе автоматического машинного перевода русскоязычных текстов на английский язык. Частичный перевод предполагает перевод отдельных лексем, не включенных в русскоязычные тональные словари, тогда как полный перевод подразумевает перевод всего текста целиком. Переведенный текст анализируется с использованием различных англоязычных тональных словарей. Экспериментальные исследования для решения задачи распознавания сентимента и эмоций были проведены на текстовых транскрипциях многомодального русскоязычного корпуса RAMAS, извлеченных из аудиоданных экспертным путем и автоматически с использованием системы распознавания речи. В результате применения методов машинного перевода достигается значение взвешенной F-меры распознавания семи классов эмоций 31,12 % и 23,74 %, и трех классов сентимента 75,37 % и 71,60 % для экспертных и автоматических транскрипций русскоязычной речи корпуса RAMAS, соответственно. Также в ходе экспериментов было выявлено, что использование статистических векторов в качестве метода преобразования текстовых данных позволяет достичь значение показателя взвешенной F-меры на 1-5 % выше по сравнению с использованием конкатенированного (статистического и тонального) вектора. Таким образом, эксперименты показывают, что объединение всех англоязычных тональных словарей позволяет повысить точность распознавания сентимента и эмоций в текстовых данных. В статье также исследуется корреляция между длиной вектора текстовых данных и его репрезентативностью. По результатам экспериментов можно сделать вывод, что использование лемматизации для нормализации слов текстовых транскрипций речи позволяет достичь большей точности распознавания сентимента по сравнению со стеммингом. Использование предложенных методов с полным и частичным машинным переводом позволяет повысить точность распознавания сентимента и эмоций на 0,65-9,76 % по показателю взвешенной F-меры по сравнению с базовым методом распознавания сентимента и эмоций.
Извлечение терминов является важным этапом автоматизированного построения систем знаний на основе естественно-языковых текстов, поскольку обеспечивает формирование базовой системы понятий, используемой затем в прикладных задачах интеллектуальной обработки информации. В статье рассмотрена проблема автоматизированного извлечения терминов из естественно-языковых текстов с целью их дальнейшего использования при построении формализованных систем знаний (онтологий, тезаурусов, графов знаний) в рамках задачи мониторинга тематических обсуждений в социальных медиа. Данная задача характеризуется необходимостью включения в формируемую систему знаний как понятий из нескольких различных предметных областей, так и некоторых общеупотребительных понятий, используемых аудиторией социальных медиа в рамках тематических обсуждений. Кроме того, формируемая система знаний является динамичной как с точки зрения состава охватываемых ею предметных областей, так и состава релевантных понятий, подлежащих включению в систему. Применение существующих классических методов извлечения терминов в данном случае затруднительно, поскольку они ориентированы на извлечение терминов в рамках одной предметной области. Исходя из этого, для решения рассматриваемой задачи предложен комбинированный метод, совмещающий в себе подходы на основе внешних источников знаний, инструментов NER и правил. Результаты проведенных экспериментов демонстрируют эффективность предложенной комбинации подходов к извлечению терминов для задачи мониторинга и анализа тематических обсуждений в социальных медиа. Разработанный метод значительно превосходит по точности существующие инструменты извлечения терминов. В качестве дальнейшего направления исследования рассмотрена возможность развития метода для решения задачи выделения вложенных терминов или сущностей.