Перейти к основному содержанию
AkademIndex

Продукты

Для разработчиков

AkademBaseскороОткрытый API экосистемы
Латиница
Русский
Статья

DEVELOPING NEW PARAPHRASE ALGORITHMS ADAPTED FOR THE UZBEK LANGUAGE

KHAYATOVA Z.M.Tashkent State University of Uzbek language and literature named after A. Navoi, Republic UzbekistanKhamroeva Shahlo MirdjonovnaTashkent State University of Uzbek language and literature named after A. Navoi, Rebublic Uzbekistan
ABI

Аннотация

Генерация перефразирования в области обработки естественного языка (NLP) хорошо развита для языков с высокими ресурсами, таких как английский, но остается малоизученной для узбекского языка, который является агглютинативным языком с свободным порядком слов. Уникальная морфологическая структура узбекского языка создает сложности для моделей на основе трансформеров, таких как mBART, mT5 и GPT, которые испытывают трудности с морфологической сегментацией, синтаксической вариативностью и сохранением семантики из-за нехватки качественно аннотированных наборов данных. В данном исследовании предлагается гибридный подход, сочетающий морфологические анализаторы, основанные на правилах (UZLex, O‘zMorphAnalyzer) с глубокими нейросетями, обученными на узбекских корпусах. Для решения проблемы нехватки данных используются методы ручного составления датасетов и обратного перевода. Методология включает токенизацию с учетом морфологии, контекстуальные эмбеддинги и маркировку семантических ролей, что обеспечивает грамматическую корректность и естественность перефразирования. Предложенная модель оценивается с помощью BLEU, ROUGE и BERTScore, а также человеческой экспертизы, что демонстрирует преимущество гибридных моделей перед стандартными нейросетевыми подходами. Результаты подчеркивают важность интеграции лингвистических знаний в системы NLP для языков с низкими ресурсами. В будущем работа будет сосредоточена на расширении аннотированных корпусов, улучшении морфологически чувствительных эмбеддингов и разработке специализированных моделей для применения в машинном переводе и автоматизированной обработке текста.

Темы

Идентификаторы

Цитирования и источники

Показатели — AkademScholar · Скоро