മലയാളം ഭാഷയുടെ ഡിജിറ്റൽ പുനർജനിയിലേക്ക് ഒരു പുതിയ ചുവടുവയ്പ്പാണ് ലക്ഷ്മി പ്രിയ എന്ന AI സംവിധാനം. മലയാളത്തിന്റെ അതുല്യമായ വ്യാകരണവും, ലിപി വൈവിധ്യവും, ഉച്ചാരണ ചടുലതയും കൈകാര്യം ചെയ്യുന്ന ആദ്യത്തെ സമഗ്ര സ്വതന്ത്ര AI മോഡലായി ഇത് വേറിട്ടുനിൽക്കുന്നു. സാധാരണ ഇൻഡിക് ഭാഷാ മോഡലുകൾ മലയാളത്തെ മറ്റ് ദ്രാവിഡ ഭാഷകളോടൊപ്പം ഒരു അനുബന്ധമായി കണ്ടപ്പോൾ, ലക്ഷ്മി പ്രിയ പൂർണ്ണമായും മലയാളഭാഷയുടെ സൂക്ഷ്മതകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

ലക്ഷ്മി പ്രിയ ഒരു വിപ്ലവകരമായ AI സംവിധാനമാണ്, മലയാളത്തിലെ ഭാഷാ സാങ്കേതികവിദ്യയുടെ പുതിയ യുഗത്തിന് തുടക്കമിടുന്നു, ഈ പദ്ധതി കേവലം ഒരു സംഭാഷണ AI അല്ല; ഇത് മലയാളം ഭാഷയുടെ ഘടനാപരമായ സങ്കീർണതകൾ മനസ്സിലാക്കി, സ്വാഭാവികമായ ഭാഷാ ഉൽപാദനത്തിന് കഴിവുള്ള ഒരു ട്രാൻസ്ഫോർമർ-അധിഷ്ഠിത മോഡലാണ്. ഞങ്ങളുടെ പ്രൊഡക്ഷൻ ടീമിലെ പ്രാഥമിക വിലയിരുത്തലിൽ, മലയാളം ടെക്സ്റ്റ് ജനറേഷനിൽ മറ്റ് വാണിജ്യ മോഡലുകളെ അപേക്ഷിച്ച് ലക്ഷ്മി പ്രിയക്ക് 23% കൂടുതൽ കൃത്യത ലഭിച്ചതായി കണ്ടെത്തി. But

ഈ ലേഖനത്തിൽ, ലക്ഷ്മി പ്രിയയുടെ സാങ്കേതിക അടിത്തറ, പരിശീലന രീതികൾ, പ്രായോഗിക ഉപയോഗങ്ങൾ, ഭാവി സാധ്യതകൾ എന്നിവയെക്കുറിച്ച് വിശദമായി ചർച്ച ചെയ്യും. മലയാളം AI എൻജിനീയറിംഗിലെ ഏറ്റവും പുതിയ മുന്നേറ്റങ്ങളും, ഈ രംഗത്തുള്ള ഗവേഷകർക്ക് പ്രയോജനപ്പെടുന്ന ആഴത്തിലുള്ള വിശകലനവും നിങ്ങൾക്കായി സമർപ്പിക്കുന്നു.

മലയാളം ഭാഷാ സംസ്കരണത്തിലെ പ്രധാന വെല്ലുവിളികൾ

മലയാളത്തിന്റെ ഡിജിറ്റൽ പ്രോസസിംഗിൽ ഏറ്റവും വലിയ വെല്ലുവിളി അതിന്റെ ലിപി വൈവിധ്യമാണ്. സംസ്കൃത, തമിഴ്, ആംഗലേയ ലിപികളിൽ നിന്നുള്ള സ്വാധീനങ്ങൾ കാരണം മലയാളത്തിൽ 1,000-ലധികം യൂണിക്കോഡ് അക്ഷരങ്ങൾ (glyphs) ഉണ്ട്. And പൊതു NLP ലൈബ്രറികളായ Hugging Face Transformers ലെ BERT-തരം മോഡലുകൾ സാധാരണയായി മലയാളത്തെ "ഇൻഡിക്" ഒരു ഉപഭാഷയായി കണക്കാക്കുന്നു, and ഇത് വാക്കുകളുടെ സന്ദർഭോചിതമായ അർത്ഥം പിഴവായിലും കൈകാര്യം ചെയ്യുന്നുഉദാഹരണത്തിന്, "അമ്മ" എന്ന വാക്കിന് "mother" എന്ന അർത്ഥവും, "(film actress)" എന്ന പ്രത്യേക അർത്ഥവും ഉണ്ട്. ഇങ്ങനെയുള്ള ഹോമോഗ്രാഫുകൾ കൃത്യമായി വേർതിരിച്ചറിയാൻ ലക്ഷ്മി പ്രിയയുടെ പ്രത്യേക വാക്കെമ്പെഡിംഗ് സ്ട്രാറ്റജി സഹായിക്കുന്നു.

രണ്ടാമത്തെ പ്രധാന വെല്ലുവിളി മലയാളത്തിന്റെ സ്വതന്ത്രമായ വാക്യഘടനയാണ്. While and ഇംഗ്ലീഷിൽ നിന്ന് വ്യത്യസ്തമായി, മലയാളത്തിൽ SOV (Subject-Object-Verb) ഘടനയും, വിഭക്തി പ്രത്യയങ്ങളും (case suffixes) ധാരാളം ഉപയോഗിക്കുന്നു. ഇത്തരം സങ്കീർണതകൾ കൈകാര്യം ചെയ്യാൻ പരമ്പരാഗത റീകറൻ്റ് ന്യൂറൽ നെറ്റ്വർക്കുകൾ (RNNs) പര്യാപ്തമായിരുന്നില്ല. "കുട്ടി" (child) എന്ന വാക്കിന് "കുട്ടിയുടെ" (of child), "കുട്ടിയെ" (to child) തുടങ്ങിയ പ്രത്യയങ്ങൾ വരുമ്പോൾ വാക്കിന്റെ അടിസ്ഥാന രൂപത്തിൽ മാറ്റം വരുന്നു. ഇത് ലെമ്മറ്റൈസേഷനെ (lemmatization) ബുദ്ധിമുട്ടാക്കുന്നു, while

Malayalam text on a screen showing complex glyphs and script variations

ലക്ഷ്മി പ്രിയയുടെ ആർക്കിടെക്ചറും പ്രവർത്തനവും

ലക്ഷ്മി പ്രിയ ഒരു ഘടകഭാഗ നിർമ്മാണ (decoder-only) ട്രാൻസ്ഫോർമറാണ്, 1. 2 ബില്യൺ പാരാമീറ്ററുകൾ ഉൾക്കൊള്ളുന്നു, and gPT-35-നേക്കാൾ ചെറുതാണെങ്കിലും, മലയാളത്തിനായി പ്രത്യേകം പരിശീലിപ്പിച്ച വൊക്കാബുലറിയും, Byte-Pair Encoding (BPE) ടോക്കണൈസറും ഉപയോഗിക്കുന്നു. മലയാളത്തിൽ സാധാരണയായി കാണപ്പെടുന്ന 95,000-ലധികം ദ്രുതഗതിയിലുള്ള (rare) ടോക്കണുകൾ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. While ഇത് മോഡലിന് "കേരളം" പോലുള്ള സാധാരണ വാക്കുകളും, "ചെങ്കൊമ്പൻ" പോലുള്ള അപൂർവ പദങ്ങളും കൃത്യമായി കൈകാര്യം ചെയ്യാൻ സഹായിക്കുന്നു.

മോഡൽ ആർക്കിടെക്ചറിൽ 24 ലേയറുകളും, 16 ഹെഡ് അറ്റൻഷനും, സ്വയം-ശ്രദ്ധാ (self-attention) പാളികളും ഉപയോഗിക്കുന്നു. ലക്ഷ്മി പ്രിയയിൽ പ്രത്യേകം ശ്രദ്ധേയമായത് "ലിപി അവബോധ അറ്റൻഷൻ" (Script-Aware Attention) എന്ന ഒരു ഭിന്നതയാണ്, since മലയാളത്തിലെ ചില്ലക്ഷരങ്ങളും, അതിനു മുകളിലുള്ള വിശേഷ ചിഹ്നങ്ങളും (diacritics) കൃത്യമായി കണക്കിലെടുക്കാൻ ഈ കഴിവ് സഹായിക്കുന്നു, and ഉദാഹരണത്തിന്, "മ" എന്ന അക്ഷരവും "മാ" എന്ന അക്ഷരവും വ്യത്യസ്ത ടോക്കണുകളായി പ്രോസസ്സ് ചെയ്യപ്പെടുന്നു.

ഞങ്ങളുടെ ഇൻഫ്രാസ്ട്രക്ചറിൽ, Amazon SageMaker-ൽ 128 A100 GPU-കളിൽ 3 ആഴ്ചകൾ കൊണ്ടാണ് പരിശീലനം പൂർത്തിയാക്കിയത്. ട്രെയിനിംഗ് ഡാറ്റയിൽ 150 ബില്യൺ ടോക്കണുകൾ ഉൾപ്പെടുത്തിയിട്ടുണ്ട് - അതിൽ 80% മലയാളം വെബ് പേജുകൾ, 10% സാഹിത്യ ഗ്രന്ഥങ്ങൾ, 10% സംഭാഷണ ഡാറ്റ (ചാറ്റ്, ഫോറം) എന്നിങ്ങനെയാണ്.

ട്രാൻസ്ഫോർമർ മോഡലുകളും മലയാളം ഭാഷാ മോഡലുകളും

2017-ൽ ഗൂഗിളിൻ്റെ "Attention is All You Need" പേപ്പറിൽ അവതരിപ്പിച്ച ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചർ, മലയാളം പോലുള്ള ഉ

.

Need a Custom App Built?

Let's discuss your project and bring your ideas to life.

Contact Me Today →

Back to Online Trends