Архив статей журнала

Бинарный классификатор для экспериментального поиска триггеров в шутках на английском языке (2024)
Выпуск: Том 22, № 3 (2024)
Авторы: Заковоротная Евгения Максимовна

Описывается создание модели, которая решает задачу распознавания юмористических и неюмористических текстов. Была обучена гибридная модель с предобученной нейронной сетью BERT в качестве эмбеддингового слоя и Bi-LSTM для классификации последовательностей. В качестве основного материала использовался обучающий и тестовый корпусы из 76 тысяч текстов, шуток и не-шуток. Особое внимание уделено идентичности лексики; данный критерий необходим, чтобы модель не распознавала разные категории текстов по лексике. В работе также описывается применение гибридной нейросети в серии экспериментов по лингвистическим преобразованиям юмористических и неюмористических текстов. Цель данных экспериментов заключается в поиске ключевых частей и слов, без которых шутка перестает быть юмористической. В рамках некоторых междисциплинарных теорий юмора подобные слова и выражения называют триггерами [Attardo S., 1994]. По результатам количественного и качественного анализа можно сделать вывод, что 78 из 100 шуток в валидационном датасете хотя бы один раз меняют метку класса на противоположную при использовании системы правил преобразований. При этом в 16 из оставшихся 22 шуток содержится явная или неявная экстралингвистическая информация. Т-критерий распределения Стьюдента, измеренный на вероятностных оценках исходного и измененного текста для каждого типа преобразования, позволил выявить преобразования, при которых чаще всего шутки из валидационного датасета перестают быть юмористическими: удаление панчлайна, удаление от 1 до 3 токенов с начала текста, удаление от 1 до 3 токенов с середины текста, удаление всех существительных.

Сохранить в закладках
Опыт анализа социального самочувствия горожан: соотнесение характеристик городской инфраструктуры здоровья и тональности текстов из социальных сетей (на примере Санкт-Петербурга) (2024)
Выпуск: Том 22, № 1 (2024)
Авторы: Чижик Анна Владимировна, Садохин Александр Петрович

В статье описаны результаты исследования социального настроения горожан на основе текстовых данных из социальной сети ВКонтакте. Объект исследования – город Санкт-Петербург. Предлагаемый метод предполагает сопоставление тональности дискуссий пользователей социальных медиа с количественными данными, описывающими инфраструктуру города. Такое сопоставление возможно благодаря тому, что текстовые данные могут быть привязаны к району. Целью исследования было проанализировать возможности предлагаемого подхода, поэтому в качестве количественных данных взяты датасеты, описывающие инфраструктуру города по маркеру «поддержание здоровья»: количество поликлиник, больниц, площадок для занятия спортом. В статье описываются подходы к анализу тональности специфических текстовых данных (приводятся метрики качества используемых моделей), обосновывается актуальность связывания подобного рода данных с количественными показателями (статистиками, участвующими традиционно в методиках оценки благополучия городской среды). В работе продемонстрированы итоговые прикладные результаты: данные исследования нанесены на карту города.

Сохранить в закладках