Article

DEVELOPING NEW PARAPHRASE ALGORITHMS ADAPTED FOR THE UZBEK LANGUAGE

KHAYATOVA Z.M.Tashkent State University of Uzbek language and literature named after A. Navoi, Republic UzbekistanKhamroeva Shahlo MirdjonovnaTashkent State University of Uzbek language and literature named after A. Navoi, Rebublic Uzbekistan

Ķ. Žu̇banov atyndaġy Aķtôbe ôṇìrlìk memlekettìk universitetìnìṇ habaršysy.journal2025ru

ABI

Abstract

Генерация перефразирования в области обработки естественного языка (NLP) хорошо развита для языков с высокими ресурсами, таких как английский, но остается малоизученной для узбекского языка, который является агглютинативным языком с свободным порядком слов. Уникальная морфологическая структура узбекского языка создает сложности для моделей на основе трансформеров, таких как mBART, mT5 и GPT, которые испытывают трудности с морфологической сегментацией, синтаксической вариативностью и сохранением семантики из-за нехватки качественно аннотированных наборов данных. В данном исследовании предлагается гибридный подход, сочетающий морфологические анализаторы, основанные на правилах (UZLex, O‘zMorphAnalyzer) с глубокими нейросетями, обученными на узбекских корпусах. Для решения проблемы нехватки данных используются методы ручного составления датасетов и обратного перевода. Методология включает токенизацию с учетом морфологии, контекстуальные эмбеддинги и маркировку семантических ролей, что обеспечивает грамматическую корректность и естественность перефразирования. Предложенная модель оценивается с помощью BLEU, ROUGE и BERTScore, а также человеческой экспертизы, что демонстрирует преимущество гибридных моделей перед стандартными нейросетевыми подходами. Результаты подчеркивают важность интеграции лингвистических знаний в системы NLP для языков с низкими ресурсами. В будущем работа будет сосредоточена на расширении аннотированных корпусов, улучшении морфологически чувствительных эмбеддингов и разработке специализированных моделей для применения в машинном переводе и автоматизированной обработке текста.

Topics

Natural Language Processing Techniques Topic Modeling Translation Studies and Practices

Identifiers

DOI: 10.70239/arsu.2025.t80.n2.27

Citations and references

Cited by 02 references

Metrics — AkademScholar · Coming soon