DEVELOPING NEW PARAPHRASE ALGORITHMS ADAPTED FOR THE UZBEK LANGUAGE
Abstract
Генерация перефразирования в области обработки естественного языка (NLP) хорошо развита для языков с высокими ресурсами, таких как английский, но остается малоизученной для узбекского языка, который является агглютинативным языком с свободным порядком слов. Уникальная морфологическая структура узбекского языка создает сложности для моделей на основе трансформеров, таких как mBART, mT5 и GPT, которые испытывают трудности с морфологической сегментацией, синтаксической вариативностью и сохранением семантики из-за нехватки качественно аннотированных наборов данных. В данном исследовании предлагается гибридный подход, сочетающий морфологические анализаторы, основанные на правилах (UZLex, O‘zMorphAnalyzer) с глубокими нейросетями, обученными на узбекских корпусах. Для решения проблемы нехватки данных используются методы ручного составления датасетов и обратного перевода. Методология включает токенизацию с учетом морфологии, контекстуальные эмбеддинги и маркировку семантических ролей, что обеспечивает грамматическую корректность и естественность перефразирования. Предложенная модель оценивается с помощью BLEU, ROUGE и BERTScore, а также человеческой экспертизы, что демонстрирует преимущество гибридных моделей перед стандартными нейросетевыми подходами. Результаты подчеркивают важность интеграции лингвистических знаний в системы NLP для языков с низкими ресурсами. В будущем работа будет сосредоточена на расширении аннотированных корпусов, улучшении морфологически чувствительных эмбеддингов и разработке специализированных моделей для применения в машинном переводе и автоматизированной обработке текста.