Asosiy kontentga oʻtish
AkademIndex

Mahsulotlar

Ishlab chiquvchilar uchun

AkademBaseEkotizim uchun ochiq API
Maqola

O‘ZBEK TILI MATNLARI SEMANTIK O‘XSHASHLIGINI ANIQ MODELLARINING ILMIY-NAZARIY TAHLILI

Nasiba Muradovna AllaberganovaTashkent University of Information Technology
ABI

Annotatsiya

Tabiiy tilni qayta ishlash (NLP) sohasida matnlarning semantik o‘xshashligini (Semantic Textual Similarity, STS) aniqlash axborot qidirish, savoljavob tizimlari, matnni umumlashtirish va hujjatlarni avtomatik taqqoslash kabi ko‘plab amaliy vazifalarning asosini tashkil etadi. O‘zbek tili kabi resurslari cheklangan va agglyutinativ tillar uchun ushbu vazifa alohida murakkablikka ega bo‘lib, bu holat tilning boy morfologik tuzilmasi hamda belgilangan (annotatsiyalangan) ma’lumotlar to‘plamlarining yetishmasligi bilan izohlanadi. Natijada an’anaviy statistik va vektorli modellar semantik o‘xshashlikni aniqlashda yetarli aniqlikni ta’minlay olmaydi. Mazkur maqolada o‘zbek tilidagi matnlar uchun semantik o‘xshashlikni aniqlashga mo‘ljallangan gibrid yondashuv taklif etiladi. Ushbu yondashuv Siam neyron tarmog‘i arxitekturasini Transformer asosidagi til modellari, xususan, BERT va Sentence-BERT bilan integratsiyalashga tayanadi. Taklif etilgan modelda matn juftliklari umumiy og‘irliklarga ega Siam tarmog‘i orqali kodlanib, ularning semantik yaqinligi vektorlar fazosida hisoblanadi. Eksperimental tadqiqotlar natijalari shuni ko‘rsatadiki, gibrid SiamTransformer modeli an’anaviy neyron tarmoq va klassik embedding asosidagi yondashuvlarga nisbatan yuqori aniqlik hamda barqarorlikka ega. Xususan, Spearman va Pearson korrelyatsiya koeffitsiyentlari bo‘yicha model natijalari yaxshilanganligi kuzatildi. Shuningdek, taklif etilgan yondashuv hisoblash samaradorligi jihatidan ham afzal bo‘lib, kam resursli tillar uchun amaliy jihatdan qo‘llash imkoniyatini kengaytiradi.

Hali tarjima qilinmagan

Mavzular

Identifikatorlar

Iqtiboslar va manbalar