Article

THE SIGNIFICANCE OF G2P MODELS FOR THE LOW-RESOURCE UZBEK LANGUAGE

Khamroeva Shahlo MirdjonovnaTashkent State University of Uzbek language and literature named after A. Navoi, Republic UzbekistanMs. Shivaganga p uashkent State University of Uzbek Language and Literature named after A. Navoi, Tashkent Uzbekistan

Ķ. Žu̇banov atyndaġy Aķtôbe ôṇìrlìk memlekettìk universitetìnìṇ habaršysy.journal2025ru

ABI

Abstract

В статье рассматривается проблема конверсии графем в фонемы (G2P) применительно к узбекскому языку, который относится к числу малоресурсных языков. Процесс G2P играет ключевую роль в системах синтеза речи (TTS), автоматического распознавания речи (ASR) и других лингвистических приложениях. Авторы подробно анализируют существующие подходы к G2P-моделированию: правила, статистические методы, а также современные нейросетевые архитектуры, в частности, трансформеры и LSTM. Особое внимание уделяется специфике фонетики узбекского языка: гармонии гласных, артикуляционным особенностям, наличию заимствованных слов и омографов, что создает определённые трудности при построении точных G2P моделей. Рассматриваются возможности использования открытых инструментов, таких как Phonetisaurus, Sequitur-G2P и CharsiuG2P, а также система Muxlisa AI, предназначенная для синтеза речи на узбекском языке. Указывается на необходимость гибридных моделей, сочетающих правила с методами машинного обучения, а также интеграции морфологического анализа и учёта просодических особенностей речи. Особое значение придается согласованию алфавита узбекского языка с международным фонетическим алфавитом (IPA) для повышения точности транскрипций. Статья подчеркивает актуальность дальнейших исследований в области G2P-моделирования для узбекского языка с целью создания высококачественных речевых технологий и расширения их применения в цифровой среде.

Not yet translated

Topics

Natural Language Processing Techniques

Identifiers

DOI: 10.70239/arsu.2025.t80.n2.28

Citations and references

Cited by 05 references

Metrics — AkademScholar · Coming soon