Описывается создание модели, которая решает задачу распознавания юмористических и неюмористических текстов. Была обучена гибридная модель с предобученной нейронной сетью BERT в качестве эмбеддингового слоя и Bi-LSTM для классификации последовательностей. В качестве основного материала использовался обучающий и тестовый корпусы из 76 тысяч текстов, шуток и не-шуток. Особое внимание уделено идентичности лексики; данный критерий необходим, чтобы модель не распознавала разные категории текстов по лексике. В работе также описывается применение гибридной нейросети в серии экспериментов по лингвистическим преобразованиям юмористических и неюмористических текстов. Цель данных экспериментов заключается в поиске ключевых частей и слов, без которых шутка перестает быть юмористической. В рамках некоторых междисциплинарных теорий юмора подобные слова и выражения называют триггерами [Attardo S., 1994]. По результатам количественного и качественного анализа можно сделать вывод, что 78 из 100 шуток в валидационном датасете хотя бы один раз меняют метку класса на противоположную при использовании системы правил преобразований. При этом в 16 из оставшихся 22 шуток содержится явная или неявная экстралингвистическая информация. Т-критерий распределения Стьюдента, измеренный на вероятностных оценках исходного и измененного текста для каждого типа преобразования, позволил выявить преобразования, при которых чаще всего шутки из валидационного датасета перестают быть юмористическими: удаление панчлайна, удаление от 1 до 3 токенов с начала текста, удаление от 1 до 3 токенов с середины текста, удаление всех существительных.
Идентификаторы и классификаторы
- Префикс DOI
- 10.25205/1818-7935-2024-22-3-98-111
Удаление фрагментов из текстов мотивируется их потенциальным влиянием на смысловые значения в разных частях текстов, особенно в шутках. Рабочей единицей является токен – слово или знак препинания. При построении экспериментов учитывалась позиция токенов относительно структуры последовательности, их лексическое выражение, а также синтаксические связи.
Список литературы
1. Annamoradnejad I. ColBERT: Using BERT Sentence Embedding for Humor Detection. 2022, URL: https://arxiv.org/abs/2004.12765
2. Attardo S. Linguistic theories of humor. Mouton de Gruyter. 1994
3. Blinov V., Bolotova-Baranova V., Braslavski P. Large Dataset and Language Model Fun-Tuning for Humor Recognition // In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, p. 4027-4032.
4. Chen Y., Shi B., Si M. Prompt to GPT-3: Step-by-Step Thinking Instructions for Humor Generation. 2023, URL: https://arxiv.org/abs/2306.13195
5. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Techno logies, 2019, vol. 1 (Long and Short Papers), p. 4171-4186.
6. Epstein B. The Internal and the External in Linguistic Explanation. // Croatian Journal of Philosophy, 2008, vol. 8(22), p. 77-111.
7. Hasan M. K., Rahman W., Zadeh A. B., Zhong J., Tanveer M. I., Morency L.-P., Hoque M. UR-FUNNY: A Multimodal Language Dataset for Understanding Humor. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th Internatio nal Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019, p. 2046-2056.
8. He H., Peng N., Liang P. Pun Generation with Surprise // In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019, p. 1734-1744.
9. IberLEF2019, URL: https://sites.google.com/view/iberlef-2019
10. Karande A. What Humour Tells Us About Discourse Theories // Conference of the European Chapter of the Association for Computational Linguistics, 2006, p. 31-38.
11. Liu Y., Ott M., Goyal N., Du J., Joshi M, Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. // ‘RoBERTa: A Robustly Optimized BERT Pretraining Approach’, URL: https://arxiv.org/abs/1907.11692.
12. Morreall J. “Philosophy of Humor”, The Stanford Encyclopedia of Philosophy (Fall 2020 Edition). Edward N. Zalta (ed.), Metaphysics Research Lab, Stanford University, 2020, vol. 2. URL: https://plato.stanford.edu/archives/fall2020/entries/humor
13. Pritchett Bradley L. Garden Path Phenomena and the Grammatical Basis of Language Processing // Language 64, 1988, p. 539-576.
14. Raskin V. Semantic Mechanisms of Humor, Volume 24 Springer Netherlands, Dordrecht, 1984, p. 99-147.
15. Raskin V., Attardo S. Script theory revis(it)ed: joke similarity and joke representation model // Humor - International Journal of Humor Research, Voume. 4 (Issue 3-4), 2020, p. 293-348.
16. SemEval2020, URL: https://alt.qcri.org/semeval2020
17. SemEval2021, URL: https://semeval.github.io/SemEval2021
18. Spacy-model “en_core_web_trf”: https://huggingface.co/spacy/en_core_web_trf
19. Tang L., Cai A., Li S., Wang J. The Naughtyformer: A Transformer Understands Offensive Humor, 2023, URL: https://arxiv.org/abs/2211.14369
20. Toplyn J. Witscript 3: A hybrid ai system for improvising jokes in a conversation. 2023, URL: https://arxiv.org/abs/2301.02695
21. Veale T. Figure-Ground Reversal in Linguistic Humour:A multimodal prespective // Lodz Papers in Pragmatics 4.1, Special Issue on Humour, 2008, p. 63-81.
22. Wang M.,Yang H., Qin Y., Sun S., Deng Y. Unified Humor Detection Based on Sentence-pair Augmentation and Transfer Learning // In Proceedings of the 22nd Annual Conference of the European Association for Machine Translation, 2020, p. 53-59.
23. Weller O., Seppi K. Humor Detection: A Transformer Gets the Last Laugh // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019, p. 3621-3625.
Выпуск
Другие статьи выпуска
Актуальность исследования обусловлена обращением к эмпирическому изучению речевых особенностей подростков, имеющих изменения в когнитивном статусе вследствие сочетанного воздействия врожденного порока сердца (ВПС) и операции по его корректировке. Теоретико-методологической базой исследования служат положения психолингвистики, детской нейропсихологии, лингвистики речевых нарушений и теории текста. В работе использован ряд методов филологического анализа текста, включая количественные, а также общенаучные методы анализа, синтеза, систематизации. Проведенный анализ вторичных текстов, полученных в ходе эксперимента, позволил подтвердить гипотезу об обусловленности репродуктивной речемыслительной деятельности пациентов последствиями оперативного вмешательства по поводу ВПС. Выявленная специфика когеренции, т. е. глобальной связности, или цельности текста, в пересказах услышанного текста подростков, прооперированных по поводу ВПС, и их условно здоровых сверстников показала, что сокращение исходного текста в пересказе чаще наблюдается в группе испытуемых с прооперированным ВПС в анамнезе. Кроме того, установлена прямая зависимость между длиной пересказа и полнотой и точностью передачи содержания исходного текста: сокращение текста приводит к утрате значимых содержательных элементов и снижению когеренции. Как показал анализ, испытуемые из контрольной группы (условно здоровые) точнее воспроизводят содержание исходного текста, их тексты характеризуются большей цельностью, т. е. когерентностью. Снижение когерентности текстов, полученных от испытуемых с прооперированным ВПС, проявляется в сокращении количества действий героев; ошибочной замене одного действия другим; искажении или утрате мотива и/или следствия действия героев, сюжетно значимых деталей описываемых событий. Теоретико-практическая ценность исследования определяется результатами сопоставительного анализа речи подростков, прооперированных по поводу ВПС, и их условно здоровых сверстников. Представленные результаты значимы как для когнитивной лингвистики, так и для медицины и психологии речи, поскольку в настоящее время нет достоверных лингвокогнитивных данных о том, какой именно спецификой обладает репродуктивная речь данной категории лиц. Перспектива исследования видится в поиске способов количественной параметризации и формализации когеренции текстов-пересказов, в анализе грамматических особенностей речи подростков, прооперированных по поводу ВПС.
Несмотря на растущее внимание к исследованиям брендов в последние годы, лишь немногие направлены на изучение идентичности бренда в Сети.
В данном дескриптивном исследовании российский бренд женской одежды Akhmadullina Dreams исследуется с помощью синергетического подхода, включающего изучение нескольких составляющих идентичности бренда (бренда как личности, бренда как продукта, бренда как организации и бренда как символа), что вносит определенный вклад в понимание структуры идентичности бренда, его сущности и способности транслировать ценности своим покупателям как совокупности критериев его успешности.
Дискурсивный и семиотический анализ раскрывают ключевые особенности бренда и сходство бренда с культурной концепцией. Критический дискурс-анализ определяет ключевые особенности веб-коммуникации и их вклад в идентичность бренда.
Психолингвистический ассоциативный эксперимент показывает, насколько успешно бренд сохраняет свою идентичность и доносит до покупателей свои основные принципы и ценности.
Результаты исследования имеют большое значение для тех, кто работает в сферах, связанных с брендами: создателей брендов, авторов контента, модных блогеров, лингвистов и журналистов.
Целью данной статьи является изучение методики для разграничения случаев терминологического и нетерминологического употребления слов, относимых к консубстанциональным лингвистическим терминам. Для анализа были выбраны четыре термина, «актив», «глухой», «лицо» и «классический». Многозначность и омонимия таких терминов привели к большим трудностям в разграничении их терминологических и нетерминологических употреблений. Предлагаемый метод решения этой задачи состоит в выявлении признаков этих терминов в языковом контексте на основе анализа контекстов корпусов терминосочетаний. Для выявления контекстов использованы корпус Google Ngram Viewer и Национальный корпус русского языка. Рассмотрены признаки лингвистических значений терминов, присутствующие в узких и в широких контекстах. Показано, что для терминов, используемых отдельно (не являющихся частью терминологического словосочетания), возможно выявление таких грамматических характеристик, которые можно использовать для разграничения терминологических и нетерминологических употреблений; а для терминов, входящих в состав терминологических словосочетаний, важную роль играет составление списка таких терминосочетаний.
Статья посвящена изучению неврозогенных тем, которые отражают беспокойство, курсирующее в немецком обществе. В работе рассматривается контекстуализация страха на основе ряда источников с учетом временного охвата. В качестве материала был использован представительный корпус Timestamped JSI German corpus, который содержит новостные статьи из немецкоязычных изданий за период с 2014 по 2021 г. и на основе которого были отобраны пять подкорпусов общим объемом 373 млн словоупотреблений. Источники представляют собой как общегерманскую прессу (“Bild”, “Frankfurter Allgemeine Zeitung”), так и локальные издания из разных регионов ФРГ (“Coburger Tageblatt”, “Schwarzwälder Bote”, “Stuttgarter Zeitung”). При помощи индуктивного анализа, направляемого корпусом, были определены лексемы, встречающиеся с существительным «Angst», что позволило очертить круг тем, которые вызывают тревогу в немецком обществе. Были выявлены как темы, которые являются общими для всей прессы в целом (терроризм и война, иностранцы и ксенофобия, экономика, будущее и др.), так и те вопросы, которые оказываются уникальными для конкретного издания или встречаются в некоторых из них. Проведенный дисперсионный анализ показал, что существуют статистически значимые отличия в употреблении лексемы «Angst» в разных источниках и с учетом времени написания текста. Результаты продемонстрировали, что тревожные настроения в большей степени распространены в крупных надрегиональных изданиях: затронутые в них темы имеют отношение к проблемам внешней и внутренней политики, в то время как в локальной прессе фокус смещен в сторону повседневных вопросов. С 2014 по 2021 г. наблюдаются всплески тревожных настроений, которые фиксируются во всех изданиях и связаны с реакцией на актуальную новостную повестку. Наибольшее количество упоминаний, так или иначе затрагивающих страхи, относится, в целом, к 2020 году, отмеченному пандемией COVID-19. Дополнительно было показано, что с различными предложными объектами актуализируются разные смысловые потенции слова «Angst».
Оценка языковой грамотности играет важную роль в образовании, но она часто оценивается субъективно, что может внести предвзятость и несоответствия в результаты оценки. В связи с этим многие исследователи предлагают использовать автоматизированные и полуавтоматизированные методы оценки на основе лингвистических характеристик текстов. В данном исследовании рассматривается применимость доступных списков лексики в качестве инструментов для автоматической оценки уровня владения русским языком студентами. Существует несколько различных видов лексических списков, такие как списки по частотности слов и минимальные списки лексики. В этом исследовании анализируются четыре популярных русскоязычных лексических списка, которые используются в образовании и анализе лексических знаний. Предполагается, что тексты студентов, оцененные на более низких уровнях языковой грамотности, будут в большей степени содержать часто употребляемые слова и слова низкого уровня, соответствующие распределению лексических элементов по частотности или уровню владения языком, представленному в этих списках. Студенты, оцененные на более высоких уровнях грамотности, наоборот, будут использовать менее часто встречающиеся и более сложные лексические единицы. Анализ корреляции между этими ресурсами и текстами, созданными студентами, позволяет получить понимание о целесообразности использования лексических списков для оценки уровня владения русским языком. Для анализа корреляции между выбранными лексическими списками и текстами студентов используются собственные скрипты Python. Кроме того, был применен метод кластерного анализа, известный как анализ главных компонент (PCA), чтобы проверить гипотезу о том, что тексты студентов на одном и том же уровне грамотности имеют тенденцию использовать схожий базовый словарь с некоторой степенью вариации.
Исследование поднимает важные вопросы о том, насколько эффективно можно использовать лексические списки для оценки языковой грамотности. Полученные результаты могут стать основой для создания более точных и всесторонних методов оценки лексической грамотности студентов, изучающих русский язык.
Статья посвящена изучению вербальных составляющих киноафиш как единиц межкультурной коммуникации. Рассматриваются основные способы трансформации различных вербальных составляющих киноафиш при переносе в другую лингвокультуру. Вербальные составляющие киноафиши включают название фильма, подзаголовок, перечисление создателей фильма и актеров, иногда указание на награды, полученные режиссером и наиболее успешные фильмы. Центральным вербальным компонентом киноафиши является название фильма, поэтому его адекватная передача является наиболее важной задачей переводчика.
Задачи повторов разного уровня в публичном политическом дискурсе – связывать текст в единое целое, упрощать его понимание и служить средством расширения смыслового, эмоционального и интонационного пространства сообщения. В настоящей статье лексические повторы рассматриваются как одно из наиболее эффективных средств убеждения в публичном дискурсе испанского монарха Филиппа VI, а также приводится их классификация с точки зрения семантики повторяющихся элементов, синтаксического макроконтекста и прагматического контекста. В ходе исследования было выявлено, что данное средство языковой выразительности находится в прямой зависимости от сложившегося исторического и современного социально-политического контекста и служит инструментом реализации стратегий и тактик речевого воздействия прежде всего в публичных речах внутренней адресации, в которых активно продвигаются идеи и мнения с помощью эмоционального и оценочного сопровождения. При этом повторы выполняют суггестивную (убеждение), коммуникативную (структурирование информации) и экспрессивную (интенсификация эмоциональной поддержки) функции. В текущем социально-политическом контексте (с 2017 г. по настоящее время) обозначилась тенденция к более частотному употреблению лексем-эмотивов негативной коннотации в рамках стратегии формирования эмоционального настроя адресата, что связано с необходимостью демонстрации участия монарха в жизни общества в остро кризисные периоды в целях понижения градуса эмоциональной напряженности (в рамках тактики обращения к эмоциям адресата). Наряду с ними особое значение приобретают тавтологические повторы (а) идеологем, отражающих государственное устройство, (б) идеологем интегративной семантики, а также (в) местоимений интегративной семантики (todos, nuestro, nosotros), что обусловлено необходимостью продвижения идеи единства нации и неделимости государства.
Статья посвящена изучению лексических единиц для выражения комплиментов в речи современной русской и китайской молодежи. В ходе исследования выявлены доминирующие части речи в лексическом составе и словообразовательные механизмы в комплиментарных выражениях молодежи. С помощью классификации лексико-семантической группы выявлены типичные когнитивно-семантические модели в комплиментах и отображающие фрагмент комплиментарной картины мира в речи молодежи, а также выявляются их общие и отличительные черты в лексико-семантических представлениях в двух языках.
Представлены результаты нарративного анализа западнои восточногерманских историко-биографических текстов. Материалом послужили тексты, посвященные одним и тем же историческим личностям, но созданные в разных частях Германии. В рамках общей нарративной стратегии были выделены частные стратегии объяснения, информирования, самопрезентации, объективации и оценки. Их реализуют тактики рациональной аргументации, персонализации, описания оценочных ориентиров, приписывания оценочных характеристик, апелляции к личностному или групповому авторитету, апелляции к возможному прошлому, сравнения, неопределенности, аттрактивации, косвенного обращения.
Проводится сопоставительный анализ терминов «языковая личность», «дискурсивная личность» и «коммуникативная личность» с целью подтверждения гипотезы о том, что «языковая личность» может рассматриваться в качестве гиперонима по отношению к другим терминам, используемым для описания феномена «человека говорящего». Термин «языковая личность» анализируется с точки зрения лингвокультурологического, лингводидактического, психолингвистического, когнитивно-дискурсивного подходов. Представлены аргументы исследователей, выступающих за правомерность дифференцирования терминов «дискурсивная личность» и «коммуникативная личность», а также «риторическая личность» и «текстовая (дискурсная) личность». В результате проведенного исследования делается вывод, что «языковая личность», понимаемая как личность, способная производить и понимать речь на определенном языке с учетом личностных свойств, мировоззрения, обстановки и пр., является родовым понятием к терминам «дискурсивная личность», представляемая как языковая личность, способная порождать определенный дискурс, и «коммуникативная личность», рассматриваемая как реализация языковой личности в устном коммуникативном пространстве.
Издательство
- Издательство
- НГУ
- Регион
- Россия, Новосибирск
- Почтовый адрес
- 630090, Новосибирская область, г. Новосибирск, ул. Пирогова, д. 1.
- Юр. адрес
- 630090, Новосибирская область, г. Новосибирск, ул. Пирогова, д. 1.
- ФИО
- Федорук Михаил Петрович (Руководитель)
- E-mail адрес
- rector@nsu.ru
- Контактный телефон
- +7 (383) 3634000
- Сайт
- https://www.nsu.ru/