Fandom

FOSS Community India

സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ്/NLP

< സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ്

431pages on
this wiki
Add New Page
Talk1 Share

Ad blocker interference detected!


Wikia is a free-to-use site that makes money from advertising. We have a modified experience for viewers using ad blockers

Wikia is not accessible if you’ve made further modifications. Remove the custom ad blocker rule(s) and the page will load as expected.

Goals 1)Build an open source corpus for reasearch purposes

2)Build language resources that would help the processing resources

3)Build processing resources

Can the rest of the interested people add their goal and area where people are planning to contribute .. Deepak ? Jagan?

Malayalam Natural Language Processing: Research and Development Edit

ചില വിവരങ്ങള്‍ ചേര്‍ക്കുന്നു.

കോര്‍പ്പസിനേയും NLPയെയും പറ്റി കുറച്ചുവിവരങ്ങളും ലക്ഷ്യങ്ങളുംEdit

ഈ വിഷയത്തെപ്പറ്റി പ്രാഥമിക വിവരങ്ങള്‍ നല്കുന്ന ഒരു പോസ്റ്റ് കൂടുതല്‍ പേര്‍ക്ക് ഇത്തരം കാര്യങ്ങള്‍ മനസ്സിലാക്കാന്‍ സഹായിക്കും എന്നു കരുതുന്നു. എന്താണ് ഒരു corporaയുടെ ആവശ്യകത എന്നും, നമ്മുടെ ലക്ഷ്യം എന്താണെന്നും വിശദീകരിക്കാന്‍ ശ്രമിക്കുന്നു.

ആദ്യമായി NLP ക്ക് corporaയുടെ ആവശ്യം എന്തിനാണെന്നു വിശദീകരിക്കാന്‍ ശ്രമിക്കാം,

കമ്പ്യൂട്ടറില്‍ natural language അല്ലെങ്കില്‍ മനുഷ്യഭാഷ കൈകാര്യം ചെയ്യാന്‍ വേണ്ടി രചിക്കുന്ന ഏതു പ്രയോഗവും അതിന്റെ ഉപയോഗക്ഷമത തെളിയിച്ചിരിക്കണം. അത് പരീക്ഷിക്കാന്‍ വേണ്ടി ഒരു standard set വേണം. ഈ സ്റ്റാന്‍ഡേര്‍ഡ് സെറ്റിന്റെ റോളാണ് corpora ചെയ്യുന്നത്. പല മലയാളം പ്രയോഗങ്ങളും ഇത്തരം ഒരു സംവിധാനമില്ലാത്തതിന്റെ തിക്തഫലം അനിഭവിക്കുന്നുണ്ട്.

കോര്‍പ്പസ്(corpora)Edit

ഇത്തരം ഒരു സെറ്റ് നിര്‍മിക്കുക എന്നു പറയുമ്പോള്‍ അത് സാമാന്യത്തില്‍ എല്ലാ NLP അപ്ലിക്കേഷനും പരീക്ഷിക്കാനും വിലയിരുത്താനും ഉള്ളതോ, അല്ലെങ്കില്‍ specialized ആയി ഓരോ വിഭാഗത്തിനും പ്രത്യേകമായോ നിര്‍മിക്കാം. ഉദാഹരണത്തിന്, സ്പീച്ച് സംബന്ധമായി ഉള്ള പ്രയോഗങ്ങളെ വിലയിരുത്താനായുള്ള കോര്‍പ്പസില്‍ ഓരോ അക്ഷരങ്ങളെയും വാക്കുകളെയും വരികളെയും ചിലപ്പോള്‍ ഖണ്ഡികകളേയും വരെ അതിന്റെ ശരിക്കുള്ള സംഭാഷണവുമായി(ശബ്ധവുമായി) ബന്ധിപ്പിച്ചിരിക്കും. ഇത്തരം ഒരു കോര്‍പ്പസ് ഉപയോഗിച്ച് speech recognition അല്ലെങ്കില്‍ text to speech conversion അല്‍ഗോരിതങ്ങളുടെ ക്ഷമത കണക്കാക്കാം.

നമ്മുടെ വെല്ലുവിളികള്‍Edit

ഇത് പക്ഷെ specialized കോര്‍പ്പസാണ്. നമ്മള്‍ നിര്‍മിക്കാനുദ്ദേശിക്കുന്നത് ഒരു generic അല്ലെങ്കില്‍ പൊതു കോര്‍പ്പസാണ്. അതില്‍ search retrieval extraction, character recognition, hand writing recognition തുടങ്ങി ഭാഷാ കമ്പ്യൂട്ടിങ്ങിന്റെ സമസ്തമേഖലകളിലും മലയാളത്തിനു വേണ്ടി നിര്‍മ്മിക്കുന്ന അല്‍ഗോരിതങ്ങള്‍ പരീക്ഷിക്കാനും ക്ഷമത വര്‍ദ്ധിപ്പിക്കാനും മാത്രമുള്ള കണ്ടന്റ് ഉണ്ടാവണം.

അതായത് ഡിജിറ്റല്‍ രൂപത്തിലുള്ള ഭാഷാ കണ്ടന്റും അതിന്റെ corresponding images, speech ഇതെല്ലാം കോര്‍പ്പസിലുണ്ടാവണം. ദൌത്യം ശ്രമകരമാണ്, വലുതും അതു കൊണ്ടുതന്നെ വ്യക്തമായ പ്ലാനിങ്ങോടുകൂടിവേണം നീങ്ങാന്‍. ഡിജിറ്റൈസ് ചെയ്ത കണ്ടെന്റ് കിറുകൃത്യമാവണം, എങ്കിലേ ലക്ഷ്യം കൈവരിക്കാനാവൂ. അതു പോലെത്തന്നെ, ഇത്തരത്തില്‍ ഉണ്ടാക്കിയ ശേഖരം എല്ലാര്‍ക്കും ഉപകാരപ്രദമാവുന്നരീതിയില്‍ സൂക്ഷിക്കുകയും accessന് വേണ്ടി APIകള്‍ നിര്‍മ്മിക്കുക എന്നതും പരമപ്രധാനമാണ്.

എല്ലാവരും അഭിപ്രായങ്ങള്‍ എഴുതുക. കൃത്യമായ ലക്ഷ്യ നിര്‍വചനത്തിനും തയ്യാറെടുപ്പിനും ശേഷം ജോലികള്‍ തുടങ്ങാം, ഈ രംഗത്ത് കൂടുതല്‍ അനുഭവ സമ്പത്തുള്ളവര്‍ പങ്കു വയ്ക്കുക.....

  Add the objectives, goals, milestones etc here

ചില ലിങ്കുകള്‍Edit


എന്റെ കമ്പ്യൂട്ടറിന് എന്റെ ഭാഷ

ഒരു സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് സംരംഭം

Also on Fandom

Random Wiki