ഒരു കമ്പ്യൂട്ടർ നിങ്ങൾക്കുവേണ്ടി ഒരു ബാർബർ ഷോപ്പിലേക്കോ ഹോട്ടലിലേക്കോ ഫോൺ ചെയ്തു റിസർവേഷൻ എടുത്തുതരുന്ന കാലത്തെപ്പറ്റി നിങ്ങൾ ചിന്തിച്ചിട്ടുണ്ടോ? എങ്കിൽ അറിയുക, നാം അവിടെയെത്തിയെന്ന്! അതാണ് ഗൂഗിൾ ഡ്യൂപ്ളെക്സ് (Google Duplex) ….

AI രംഗത്തെ ഏറ്റവും പ്രധാനപ്പെട്ട നാഴികക്കല്ലുകളിലൊന്നിനാണ് നമ്മൾ  സാക്ഷ്യം വഹിച്ചത്. നമുക്കുവേണ്ടി ഫോൺ കാളുകൾ നടത്താനും അവിടെയുള്ളവരോട് സംസാരിക്കാനും കഴിയുന്ന AI സംവിധാനമായ Google Duplex ഇന്നലെ ഗൂഗിൾ അവതരിപ്പിച്ചു (വീഡിയോ കാണുക). Google assistant കുറെ കാലമായി നമ്മൾ കണ്ടിരുന്നതാണെങ്കിലും അതിനു ധാരാളം പരിമിതികളുണ്ടായിരുന്നു. അതിൽനിന്നൊക്കെ വളരെയധികം മുന്നോട്ടുപോയ ഒരു മനുഷ്യൻതന്നെയെന്നു തോന്നിപ്പിക്കുമാറ് നമ്മുടെ സംസാരത്തിലെ ചെറിയ കാര്യങ്ങൾ വരെ (ഇടക്കുള്ള pause, hmmm, err ശബ്ദങ്ങൾ) ഉൾപ്പെടുത്തിയാണ് ഈ AI സംവിധാനം സംസാരിക്കുന്നത്!

ഇന്നലത്തെ പരിപാടിയിൽ രണ്ടു ഉദാഹരണങ്ങളാണ് google അവതരിപ്പിച്ചത്. അതിൽ ആദ്യത്തേത് ഒരു ബാർബർ ഷോപ്പിൽ മുടിവെട്ടാൻ റിസേർവ് ചെയ്യുന്നതാണ്. ഇത്തരം ഒരു കോളിൽ എന്തൊക്കെ സംഭവിക്കുമെന്ന് മുൻകൂട്ടി അറിയുക സാധ്യമല്ല. ബാർബർ ഷോപ്പിൽ ഫോൺ എടുത്തയാൾ പറയുന്നതിനനുസരിച്ചു ബുദ്ധിപരമായി സ്വയം പ്രതികരിക്കാനുള്ള കൃത്രിമബുദ്ധിക്കുപിന്നിലെ സങ്കീർണതകൾ പലതാണ്. അതെല്ലാം കൃത്യമായി ഉൾക്കൊള്ളിച്ച് ബാർബർ ഷോപ്പിലെ ആൾക്ക് തന്നോട് സംസാരിക്കുന്നത് ഒരു മെഷീനാണെന്നു ഒരിക്കൽപോലും സംശയം തോന്നാത്ത രീതിയിലാണ് google duplex സംസാരിക്കുന്നത്!

രണ്ടാമത്തെ ഉദാഹരണം അതിലും ബുദ്ധിമുട്ടേറിയതായിരുന്നു. restaurant reservation ആണ് അതിൽ google duplex ചെയ്യുന്നത്. അതിൽ ഫോൺ എടുക്കുന്നതാകാട്ടെ ചൈനീസ് അക്‌സെന്റിൽ ഇംഗ്ലീഷ് സംസാരിക്കുന്ന ആളും. അതോടൊപ്പം നാലുപേരിൽ താഴേ ഉള്ള ഗ്രൂപ്പിന് റിസർവേഷൻ പറ്റില്ല എന്ന് പറയുമ്പോൾ അതും AI മനസ്സിലാക്കുന്നുണ്ട്! ഇത്തരമൊരു സാഹചര്യമൊന്നും മുൻകൂട്ടി പഠിച്ച മാതൃകകളിൽനിന്നു പഠിച്ചെടുക്കാനായെന്നുവരില്ല. അവിടെയാണ് ഗൂഗിൾ എന്ന ബിഗ് ഡാറ്റ ഭീമൻ വികസിപ്പിച്ചെടുത്ത ഈ സംവിധാനം വേറിട്ടു നിൽക്കുന്നത്.

Google Duplex ഇൽ AI രംഗത്തെ ധാരാളം സാങ്കേതികവിദ്യകൾ ഉപയോഗിച്ചിട്ടുണ്ട്. ആദ്യം നമ്മൾ കൊടുക്കുന്ന ടാസ്ക് മനസിലാക്കണം. അതിനു automatic speech recognition (ASR) സാങ്കേതികവിദ്യയാണ് ഉപയോഗിക്കുന്നത്. നമ്മുടെ ശബ്ദത്തെ മൈക്രോഫോൺവച്ചു റെക്കോർഡ് ചെയ്ത്, അതിലെ വാക്കുകൾ കണ്ടുപിടിക്കുന്നതാണ് ASR. ഒരുതരത്തിൽ പറഞ്ഞാൽ speech-to-text. ഈ വാക്കുകളിൽനിന്നും അതിലെ അർഥം മനസിലാക്കണം. ഒരു ടാസ്ക് ആണെങ്കിൽ അതിലെ പ്രധാനവാക്കുകൾ (keywords) കണ്ടെത്തുകയാണ് ആദ്യപടി.

ഉദാഹരണത്തിന്, Book a dinner reservation for six people at ZamZam next Wednesday evening, എന്നാണു നമ്മൾ പറയുന്നതെങ്കിൽ ആ റെക്കോർഡിങ്ങിൽ നിന്നും ഈ വാക്കുകൾ ASR ഉപയോഗിച്ച് ആദ്യം കണ്ടെത്തും. എന്നിട്ടു keywords കണ്ടുപിടിക്കും.പ്രധാനമായും കണ്ടെത്തുന്നവ
what? : Book dinner
when? : Wednesday evening
where?: ZamZam
how many seats ? : six

ഇതിൽ നിന്നും വെബ് സെർച്ച് നടത്തി സംസമിലെ ഫോൺ നമ്പർ കണ്ടെത്തി ഫോൺ ചെയ്യുകയാണ് അടുത്തപടി. അവിടെ ഫോൺ എടുക്കുന്നയാൾ എങ്ങനെയാണ് പ്രതികരിക്കുകയെന്നു google duplex നു അറിയില്ലെന്നോർക്കണം. പിന്നീട് സംഭാഷണം നടക്കുകയാണ്. ഓരോ വാക്യങ്ങളും ASR ഉപയോഗിച്ചാണ് AI മനസിലാക്കുന്നത്. അതോടൊപ്പം നാച്ചുറൽ ലാംഗ്വേജ് അണ്ടർസ്റ്റാൻഡിങ് (NLU) എന്ന സങ്കേതവുമുപയോഗിച്ചെങ്കിലേ AI ക്കു സംഭാഷണം സാധ്യമാകൂ. അപ്പോൾ ഫോൺ എടുത്തയാളുടെ വാക്യങ്ങളുടെ ASR ഉം NLU ഉം ഉപയോഗിച്ച്, അടുത്തതായിപറയാനുള്ള മറുപടി text രൂപത്തിൽ ഉണ്ടാക്കപ്പെടുന്നു.

ഈ text നെ ശബ്ദങ്ങൾ (speech) ആക്കുകയാണ് അടുത്തപടി. ഇതിനു text-to-speech (TTS) എന്നാണു പറയുന്നത്. TTS ആണ് നമ്മുടെ സംസാരത്തിലെ അക്‌സെന്റ്, ഇടക്കുള്ള pause കൾ hmm,err പോലുള്ള ശബ്ദങ്ങൾ ഇടുന്നത്. ഒരു മെഷീന് അങ്ങനെ ശബ്ദങ്ങൾ ഉണ്ടാക്കണ്ടകാര്യമില്ല. പക്ഷെ അപ്പുറത്തു മഷിനോട്‌ സംസാരിക്കുന്നത് ഒരു മനുഷ്യനാണ്. തന്നോട് സംസാരിക്കുന്നത് ഒരു മെഷീൻ അല്ല, ഒരു മനുഷ്യൻ തന്നെയാണ് എന്നു തോന്നിപ്പിക്കാനാണ് ഇത്തരം ശബ്ദങ്ങൾ മനഃപൂർവം ഇടുന്നത്.

അപ്പോൾ Google Duplex എന്നാൽ ASR, NLU, TTS, web search integration എന്നീ അതിസങ്കീർണമായ AI സാങ്കേതികവിദ്യകളുടെ ആകെത്തുകയാണ്. ഗൂഗിളിന്റെ എതിരാളികളായ ആപ്പിൾ, ആമസോൺ, മൈക്രോസോഫ്ട് തുടങ്ങിയ കമ്പനികൾക്ക് വലിയൊരു വെല്ലുവിളിതന്നെയാണ് duplex.

അതോടൊപ്പം ധാരാളം ചോദ്യങ്ങളും ഇതുയർത്തുന്നുണ്ട്. ഒരു AI ആണ് തന്നോട് സംസാരിക്കുന്നതെന്ന് ഫോൺ എടുത്ത മനുഷ്യർക്ക്‌ മനസിലായിട്ടില്ല (ഒരു AI ക്കു ഇതു സാധ്യമായാൽ അത് Turing test പാസായി എന്നാണു പറയുക). അതുപറയാനുള്ള ഉത്തരവാദിത്വം ഗൂഗിളിനില്ലേ എന്നതാണ് പ്രധാനചോദ്യം. മറ്റുപല സ്വകാര്യതാപ്രശ്നങ്ങളും പലരും ഉയർത്തുന്നുണ്ട്‌.

എന്തൊക്കെയായാലും, AI രംഗത്തെ പ്രധാനപ്പെട്ട ഒരു മുന്നേറ്റമാണ് Google Duplex. മനുഷ്യൻ മറ്റുള്ളവരുമായി ബന്ധപ്പെടാൻ ഏറ്റവുമധികം ഉപയോഗിക്കുന്ന ഉപാധിയാണ് speech. അതിൽ ഇത്രവലിയൊരു മുന്നേറ്റമെന്നത് AI രംഗത്തുള്ളവർക്ക് വലിയ ഉണർവുതന്നെയാണ്. അതോടൊപ്പം അതുയർത്തുന്ന വെല്ലുവിളികളെ നാം എങ്ങനെ നേരിടുമെന്നും കാത്തിരുന്നു കാണാം.

Deepak Baby
Finished PhD from KU Leuven on speech enhancement and its applications to automatic speech recognition. Research expertise in statistical signal processing, automatic speech recognition, non-negative models, sparse representations, machine learning, neural networks and compressed sensing. Investigated exemplar-based sparse representation together with perceptually motivated features for speech enhancement and noise robust automatic speech recognition.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.