THE SIGNIFICANCE OF G2P MODELS FOR THE LOW-RESOURCE UZBEK LANGUAGE
Abstract
В статье рассматривается проблема конверсии графем в фонемы (G2P) применительно к узбекскому языку, который относится к числу малоресурсных языков. Процесс G2P играет ключевую роль в системах синтеза речи (TTS), автоматического распознавания речи (ASR) и других лингвистических приложениях. Авторы подробно анализируют существующие подходы к G2P-моделированию: правила, статистические методы, а также современные нейросетевые архитектуры, в частности, трансформеры и LSTM. Особое внимание уделяется специфике фонетики узбекского языка: гармонии гласных, артикуляционным особенностям, наличию заимствованных слов и омографов, что создает определённые трудности при построении точных G2P моделей. Рассматриваются возможности использования открытых инструментов, таких как Phonetisaurus, Sequitur-G2P и CharsiuG2P, а также система Muxlisa AI, предназначенная для синтеза речи на узбекском языке. Указывается на необходимость гибридных моделей, сочетающих правила с методами машинного обучения, а также интеграции морфологического анализа и учёта просодических особенностей речи. Особое значение придается согласованию алфавита узбекского языка с международным фонетическим алфавитом (IPA) для повышения точности транскрипций. Статья подчеркивает актуальность дальнейших исследований в области G2P-моделирования для узбекского языка с целью создания высококачественных речевых технологий и расширения их применения в цифровой среде.
Not yet translated