27.5 C
Bangalore
December 8, 2018
Untitled

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സീരീസ് ഭാഗം- 5

ഒരു കമ്പ്യൂട്ടർ നിങ്ങൾക്കുവേണ്ടി ഒരു ബാർബർ ഷോപ്പിലേക്കോ ഹോട്ടലിലേക്കോ ഫോൺ ചെയ്തു റിസർവേഷൻ എടുത്തുതരുന്ന കാലത്തെപ്പറ്റി നിങ്ങൾ ചിന്തിച്ചിട്ടുണ്ടോ? എങ്കിൽ അറിയുക, നാം അവിടെയെത്തിയെന്ന്! അതാണ് ഗൂഗിൾ ഡ്യൂപ്ളെക്സ് (Google Duplex) ….

AI രംഗത്തെ ഏറ്റവും പ്രധാനപ്പെട്ട നാഴികക്കല്ലുകളിലൊന്നിനാണ് നമ്മൾ  സാക്ഷ്യം വഹിച്ചത്. നമുക്കുവേണ്ടി ഫോൺ കാളുകൾ നടത്താനും അവിടെയുള്ളവരോട് സംസാരിക്കാനും കഴിയുന്ന AI സംവിധാനമായ Google Duplex ഇന്നലെ ഗൂഗിൾ അവതരിപ്പിച്ചു (വീഡിയോ കാണുക). Google assistant കുറെ കാലമായി നമ്മൾ കണ്ടിരുന്നതാണെങ്കിലും അതിനു ധാരാളം പരിമിതികളുണ്ടായിരുന്നു. അതിൽനിന്നൊക്കെ വളരെയധികം മുന്നോട്ടുപോയ ഒരു മനുഷ്യൻതന്നെയെന്നു തോന്നിപ്പിക്കുമാറ് നമ്മുടെ സംസാരത്തിലെ ചെറിയ കാര്യങ്ങൾ വരെ (ഇടക്കുള്ള pause, hmmm, err ശബ്ദങ്ങൾ) ഉൾപ്പെടുത്തിയാണ് ഈ AI സംവിധാനം സംസാരിക്കുന്നത്!

ഇന്നലത്തെ പരിപാടിയിൽ രണ്ടു ഉദാഹരണങ്ങളാണ് google അവതരിപ്പിച്ചത്. അതിൽ ആദ്യത്തേത് ഒരു ബാർബർ ഷോപ്പിൽ മുടിവെട്ടാൻ റിസേർവ് ചെയ്യുന്നതാണ്. ഇത്തരം ഒരു കോളിൽ എന്തൊക്കെ സംഭവിക്കുമെന്ന് മുൻകൂട്ടി അറിയുക സാധ്യമല്ല. ബാർബർ ഷോപ്പിൽ ഫോൺ എടുത്തയാൾ പറയുന്നതിനനുസരിച്ചു ബുദ്ധിപരമായി സ്വയം പ്രതികരിക്കാനുള്ള കൃത്രിമബുദ്ധിക്കുപിന്നിലെ സങ്കീർണതകൾ പലതാണ്. അതെല്ലാം കൃത്യമായി ഉൾക്കൊള്ളിച്ച് ബാർബർ ഷോപ്പിലെ ആൾക്ക് തന്നോട് സംസാരിക്കുന്നത് ഒരു മെഷീനാണെന്നു ഒരിക്കൽപോലും സംശയം തോന്നാത്ത രീതിയിലാണ് google duplex സംസാരിക്കുന്നത്!

രണ്ടാമത്തെ ഉദാഹരണം അതിലും ബുദ്ധിമുട്ടേറിയതായിരുന്നു. restaurant reservation ആണ് അതിൽ google duplex ചെയ്യുന്നത്. അതിൽ ഫോൺ എടുക്കുന്നതാകാട്ടെ ചൈനീസ് അക്‌സെന്റിൽ ഇംഗ്ലീഷ് സംസാരിക്കുന്ന ആളും. അതോടൊപ്പം നാലുപേരിൽ താഴേ ഉള്ള ഗ്രൂപ്പിന് റിസർവേഷൻ പറ്റില്ല എന്ന് പറയുമ്പോൾ അതും AI മനസ്സിലാക്കുന്നുണ്ട്! ഇത്തരമൊരു സാഹചര്യമൊന്നും മുൻകൂട്ടി പഠിച്ച മാതൃകകളിൽനിന്നു പഠിച്ചെടുക്കാനായെന്നുവരില്ല. അവിടെയാണ് ഗൂഗിൾ എന്ന ബിഗ് ഡാറ്റ ഭീമൻ വികസിപ്പിച്ചെടുത്ത ഈ സംവിധാനം വേറിട്ടു നിൽക്കുന്നത്.

Google Duplex ഇൽ AI രംഗത്തെ ധാരാളം സാങ്കേതികവിദ്യകൾ ഉപയോഗിച്ചിട്ടുണ്ട്. ആദ്യം നമ്മൾ കൊടുക്കുന്ന ടാസ്ക് മനസിലാക്കണം. അതിനു automatic speech recognition (ASR) സാങ്കേതികവിദ്യയാണ് ഉപയോഗിക്കുന്നത്. നമ്മുടെ ശബ്ദത്തെ മൈക്രോഫോൺവച്ചു റെക്കോർഡ് ചെയ്ത്, അതിലെ വാക്കുകൾ കണ്ടുപിടിക്കുന്നതാണ് ASR. ഒരുതരത്തിൽ പറഞ്ഞാൽ speech-to-text. ഈ വാക്കുകളിൽനിന്നും അതിലെ അർഥം മനസിലാക്കണം. ഒരു ടാസ്ക് ആണെങ്കിൽ അതിലെ പ്രധാനവാക്കുകൾ (keywords) കണ്ടെത്തുകയാണ് ആദ്യപടി.

ഉദാഹരണത്തിന്, Book a dinner reservation for six people at ZamZam next Wednesday evening, എന്നാണു നമ്മൾ പറയുന്നതെങ്കിൽ ആ റെക്കോർഡിങ്ങിൽ നിന്നും ഈ വാക്കുകൾ ASR ഉപയോഗിച്ച് ആദ്യം കണ്ടെത്തും. എന്നിട്ടു keywords കണ്ടുപിടിക്കും.പ്രധാനമായും കണ്ടെത്തുന്നവ
what? : Book dinner
when? : Wednesday evening
where?: ZamZam
how many seats ? : six

ഇതിൽ നിന്നും വെബ് സെർച്ച് നടത്തി സംസമിലെ ഫോൺ നമ്പർ കണ്ടെത്തി ഫോൺ ചെയ്യുകയാണ് അടുത്തപടി. അവിടെ ഫോൺ എടുക്കുന്നയാൾ എങ്ങനെയാണ് പ്രതികരിക്കുകയെന്നു google duplex നു അറിയില്ലെന്നോർക്കണം. പിന്നീട് സംഭാഷണം നടക്കുകയാണ്. ഓരോ വാക്യങ്ങളും ASR ഉപയോഗിച്ചാണ് AI മനസിലാക്കുന്നത്. അതോടൊപ്പം നാച്ചുറൽ ലാംഗ്വേജ് അണ്ടർസ്റ്റാൻഡിങ് (NLU) എന്ന സങ്കേതവുമുപയോഗിച്ചെങ്കിലേ AI ക്കു സംഭാഷണം സാധ്യമാകൂ. അപ്പോൾ ഫോൺ എടുത്തയാളുടെ വാക്യങ്ങളുടെ ASR ഉം NLU ഉം ഉപയോഗിച്ച്, അടുത്തതായിപറയാനുള്ള മറുപടി text രൂപത്തിൽ ഉണ്ടാക്കപ്പെടുന്നു.

ഈ text നെ ശബ്ദങ്ങൾ (speech) ആക്കുകയാണ് അടുത്തപടി. ഇതിനു text-to-speech (TTS) എന്നാണു പറയുന്നത്. TTS ആണ് നമ്മുടെ സംസാരത്തിലെ അക്‌സെന്റ്, ഇടക്കുള്ള pause കൾ hmm,err പോലുള്ള ശബ്ദങ്ങൾ ഇടുന്നത്. ഒരു മെഷീന് അങ്ങനെ ശബ്ദങ്ങൾ ഉണ്ടാക്കണ്ടകാര്യമില്ല. പക്ഷെ അപ്പുറത്തു മഷിനോട്‌ സംസാരിക്കുന്നത് ഒരു മനുഷ്യനാണ്. തന്നോട് സംസാരിക്കുന്നത് ഒരു മെഷീൻ അല്ല, ഒരു മനുഷ്യൻ തന്നെയാണ് എന്നു തോന്നിപ്പിക്കാനാണ് ഇത്തരം ശബ്ദങ്ങൾ മനഃപൂർവം ഇടുന്നത്.

അപ്പോൾ Google Duplex എന്നാൽ ASR, NLU, TTS, web search integration എന്നീ അതിസങ്കീർണമായ AI സാങ്കേതികവിദ്യകളുടെ ആകെത്തുകയാണ്. ഗൂഗിളിന്റെ എതിരാളികളായ ആപ്പിൾ, ആമസോൺ, മൈക്രോസോഫ്ട് തുടങ്ങിയ കമ്പനികൾക്ക് വലിയൊരു വെല്ലുവിളിതന്നെയാണ് duplex.

അതോടൊപ്പം ധാരാളം ചോദ്യങ്ങളും ഇതുയർത്തുന്നുണ്ട്. ഒരു AI ആണ് തന്നോട് സംസാരിക്കുന്നതെന്ന് ഫോൺ എടുത്ത മനുഷ്യർക്ക്‌ മനസിലായിട്ടില്ല (ഒരു AI ക്കു ഇതു സാധ്യമായാൽ അത് Turing test പാസായി എന്നാണു പറയുക). അതുപറയാനുള്ള ഉത്തരവാദിത്വം ഗൂഗിളിനില്ലേ എന്നതാണ് പ്രധാനചോദ്യം. മറ്റുപല സ്വകാര്യതാപ്രശ്നങ്ങളും പലരും ഉയർത്തുന്നുണ്ട്‌.

എന്തൊക്കെയായാലും, AI രംഗത്തെ പ്രധാനപ്പെട്ട ഒരു മുന്നേറ്റമാണ് Google Duplex. മനുഷ്യൻ മറ്റുള്ളവരുമായി ബന്ധപ്പെടാൻ ഏറ്റവുമധികം ഉപയോഗിക്കുന്ന ഉപാധിയാണ് speech. അതിൽ ഇത്രവലിയൊരു മുന്നേറ്റമെന്നത് AI രംഗത്തുള്ളവർക്ക് വലിയ ഉണർവുതന്നെയാണ്. അതോടൊപ്പം അതുയർത്തുന്ന വെല്ലുവിളികളെ നാം എങ്ങനെ നേരിടുമെന്നും കാത്തിരുന്നു കാണാം.

Related posts

2 comments

Beena CM
Beena CM October 26, 2018 at 11:54 am

ഗൂഗിള്‍ duplex വീഡിയോ കണ്ടു. എത്രത്തോളം advanced ആയി നമ്മള്‍ എന്ന് മനസിലാവുന്നു. അപ്പോളും മറ്റൊരു ചോദ്യം, ഒരുപാട് സദസുകളില്‍ കേട്ടിട്ട് ഉള്ളതാണ്… ഈ developments ഭാവില്‍ നമ്മളെ നിയന്ത്രിക്കുന്ന മെഷീന്‍ ലോകം സൃഷ്ടിക്കുമോ?
നേരത്തെ ഉള്ള ഒരു ലേഖനത്തില്‍ സയന്‍സ് fiction സിനിമകളെപ്പറ്റി പറഞ്ഞിരുന്നുവല്ലോ. ഇത്തരത്തില്‍ ഉള്ള topics സിനിമയിലൂടെ നമ്മള്‍ കണ്ടതാണ്. എന്താണ് താങ്കളുടെ അഭിപ്രായം?

Reply
Deepak Baby
Deepak Baby October 26, 2018 at 7:37 pm

സത്യത്തിൽ ഈ വീഡിയോ കണ്ടപ്പോൾ ഞാനും ഞെട്ടി. ഈ മേഖലയിൽ ജോലി ചെയ്യുന്ന ആളാണെങ്കിലും ഇതുപോലൊന്ന് സാധ്യമാകുന്ന അത്രയും സാങ്കേതികത വളർന്നു എന്ന് സത്യത്തിൽ അറിയില്ലായിരുന്നു.. എങ്കിലും പണ്ട് സിനിമയിൽ ഒക്കെ കണ്ടതുപോലെ അത്രയും വളരാൻ ഇനിയും ദൂരമേറെ പോകാനുണ്ട്. നമ്മുടെ തലച്ചോറ് അത്ര സങ്കീർണമാണ്.. മുൻപ് പറഞ്ഞിരുന്നത്പോലെ കൃത്രിമ ബുദ്ധി ഉണ്ടാകുന്നത് ട്രെയിനിങ് ഡാറ്റയിൽ നിന്നാണ്.. പക്ഷെ നമ്മുടെ തലച്ചോറു ചെയ്യുന്നതുപോലെ അത്രയും സങ്കീർണമായ കാര്യങ്ങൾ ചെയ്യിക്കാൻ സാങ്കേതിക വിദ്യ ഇനിയും കുറെ വളരാനുണ്ട്.. reinforcement learning എന്ന ശാഖയുണ്ട്.. പുതിയതായി കാണുന്ന കാര്യങ്ങളിൽ നിന്ന് ലൈവ് ആയി പഠിച്ചത് അപ്ഡേറ്റ് ചെയ്യുന്ന രീതിയാണ്.. alphago എന്ന ഗെയിം കളിക്കുന്ന ഒരു കമ്പ്യൂട്ടറിനെക്കുറിച്ച് കേട്ടിട്ടുണ്ടാകും..അത് ഗെയിം മുന്നോട്ടുപോകുന്നതിന് അനുസരിച്ച കൂടുതൽ മൂവീസ് പഠിക്കുകയായിരുന്നു.. reinforcement learning ആണ് അത് ഉപയോഗിച്ചിരുന്നത്.. ഗൂഗിൾ ചെയ്തു നോക്കൂ.. അടുത്ത ഏതെങ്കിലും ഭാഗത്തിൽ അതിനെപ്പറ്റി പറയാം.. ഇതിന് പിന്നിലെ ഗണിതത്തിലേക്ക് മെല്ലെ അടുത്ത ലക്കങ്ങളിൽ കടക്കണം എന്നാണു ഉദ്ദേശിച്ചിരുന്നത്.. ബാക്കി ഭാഗങ്ങൾ ഉണ്ടാകും.. ഫീഡ്ബാക്കിന് വളരെ നന്ദി. 🙂

Reply

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.

%d bloggers like this: