Қолданбалардың саны және дауыстық интерфейстердің маңыздылығы тез өсуде

Мазмұны

үлкен төрт
Америкалықтар сатып алғысы келеді
Жуыңыз, пісіріңіз, тазалаңыз!
Ескі ұғым. Оның уақыты келді ме?
техникалық қиын сұрақ
Дауыс? Графикалық өнер? Немесе екеуі де болуы мүмкін бе?
Қауіпсіздікке сақ болыңыз!

Жақында Орегон штатының Портленд қаласындағы американдық отбасы Алекстің дауыстық көмекшісі олардың жеке сөйлесулерін жазып алып, досына жібергенін білді. Бұқаралық ақпарат құралдары Даниел деп атаған үй иесі журналистерге «бұл құрылғыны енді ешқашан қоспайтынын, өйткені оған сенуге болмайтынын» айтты.

Alexa, АҚШ-тың ондаған миллион үйлеріндегі Echo (1) динамиктері мен басқа гаджеттерімен қамтамасыз етілген, ол өзінің атын немесе пайдаланушы айтқан "қоңырау сөзін" естігенде жазуды бастайды. Бұл теледидар жарнамасында «Alexa» сөзі айтылса да, құрылғы жазуды бастауы мүмкін дегенді білдіреді. Бұл жағдайда дәл солай болды, дейді Amazon аппараттық дистрибьютор.

«Әңгіменің қалған бөлігін дауыстық көмекші хабарлама жіберу пәрмені ретінде түсінді», - делінген компания хабарламасында. «Бір кезде Alexa дауыстап: «Кімге?» Деп сұрады. Қатты ағаш едендер туралы отбасылық әңгіменің жалғасы машина тұтынушының контактілер тізіміндегі элемент ретінде қабылдануы керек ». Кем дегенде, Amazon осылай ойлайды. Осылайша, аударма жазатайым оқиғалар қатарына қысқарады.

Дегенмен, алаңдаушылық әлі де сақталады. Өйткені, қандай да бір себептермен, біз әлі де өзімізді еркін сезінетін үйде қандай да бір «дауыс режиміне» кіруіміз керек, не айтып жатқанымызды, теледидар нені таратып жатқанын және, әрине, кеудедегі жаңа динамиктің не екенін көруіміз керек. тартпалар дейді. біз.

Дегенмен, Технологияның жетілмегендігі мен құпиялылық мәселелеріне қарамастан, Amazon Echo сияқты құрылғылардың танымалдылығының артуына байланысты адамдар өз дауыстарын пайдаланып компьютерлермен әрекеттесу идеясына үйрене бастады..

Amazon компаниясының техникалық директоры Вернер Фогельс 2017 жылдың соңында AWS re:Invent сессиясында атап өткендей, технология компьютерлермен өзара әрекеттесу мүмкіндігімізді осы уақытқа дейін шектеді. Біз Google жүйесіне кілт сөздерді пернетақта арқылы тереміз, себебі бұл әлі де машинаға ақпаратты енгізудің ең кең таралған және ең оңай жолы.

Фогельс айтты. -

үлкен төрт

Телефонда Google іздеу жүйесін пайдаланған кезде біз баяғыда сөйлесуге шақыратын микрофон белгісін байқаған болармыз. Бұл Google қазір (2), ол іздеу сұрауын белгілей алады, хабарламаны дауыспен енгізеді және т.б.. Соңғы жылдары Google, Apple және Amazon айтарлықтай жақсарды. дауысты тану технологиясы. Alexa, Siri және Google Assistant сияқты дауыстық көмекшілер сіздің дауысыңызды жазып қана қоймайды, сонымен қатар оларға не айтқаныңызды түсінеді және сұрақтарға жауап береді.

Google Now барлық Android пайдаланушыларына тегін қол жетімді. Қолданба, мысалы, дабылды қоя алады, ауа райы болжамын тексере алады және Google карталарында маршрутты тексере алады. Google Now күйлерінің сөйлесу кеңейтімі Google Assistant () – жабдықты пайдаланушыға виртуалды көмек. Ол негізінен мобильді және смарт үй құрылғыларында қол жетімді. Google Now-дан айырмашылығы, ол екі жақты алмасуға қатыса алады. Көмекші 2016 жылдың мамыр айында Google Allo хабар алмасу қолданбасының бөлігі ретінде, сондай-ақ Google Home дауыс динамигінде (3) дебют жасады.

3. Google Home

IOS жүйесінде өзінің виртуалды көмекшісі бар, Siri, ол Apple компаниясының iOS, watchOS, tvOS homepod және macOS операциялық жүйелерімен қамтылған бағдарлама. Siri iOS 5 және iPhone 4s-пен 2011 жылдың қазан айында Let's Talk iPhone конференциясында дебют жасады.

Бағдарлама сөйлесу интерфейсіне негізделген: ол пайдаланушының табиғи сөзін таниды (iOS 11-де командаларды қолмен енгізуге де болады), сұрақтарға жауап береді және тапсырмаларды орындайды. Машиналық оқытуды енгізудің арқасында уақыт өте келе көмекші жеке қалауларын талдайды пайдаланушыға неғұрлым сәйкес нәтижелер мен ұсыныстарды беру үшін. Siri тұрақты Интернет байланысын қажет етеді - мұнда негізгі ақпарат көздері Bing және Wolfram Alpha болып табылады. iOS 10 үшінші тарап кеңейтімдерін қолдауды енгізді.

Үлкен төрттіктің тағы бірі Cortana. Бұл Microsoft жасаған интеллектуалды жеке көмекші. Оған Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android және iOS платформаларында қолдау көрсетіледі. Cortana алғаш рет 2014 жылы сәуірде Сан-Францискода Microsoft Build Developer конференциясында таныстырылды. Бағдарламаның атауы Halo ойын сериясындағы кейіпкердің атынан шыққан. Cortana ағылшын, итальян, испан, француз, неміс, қытай және жапон тілдерінде қол жетімді.

Жоғарыда аталған бағдарламаның пайдаланушылары Alexa олар тілдік шектеулерді де ескеруі керек - цифрлық көмекші тек ағылшын, неміс, француз және жапон тілдерінде сөйлейді.

Amazon Virtual Assistant алғаш рет Amazon Lab126 әзірлеген Amazon Echo және Amazon Echo Dot смарт динамиктерінде қолданылған. Ол дауыспен өзара әрекеттесуді, музыканы ойнатуды, істер тізімін жасауды, дабыл орнатуды, подкаст ағынын, аудиокітапты ойнатуды және нақты уақыттағы ауа райы, жол қозғалысы, спорт және жаңалықтар (4) сияқты басқа жаңалықтар ақпаратын қосады. Alexa үйді автоматтандыру жүйесін жасау үшін бірнеше смарт құрылғыларды басқара алады. Оны Amazon дүкенінде ыңғайлы сауда жасау үшін де пайдалануға болады.

4. Пайдаланушылар жаңғырықты не үшін пайдаланады (зерттеу мәліметтері бойынша)

Пайдаланушылар Alexa тәжірибесін Alexa «дағдыларын» (), үшінші тараптар әзірлеген қосымша мүмкіндіктерді орнату арқылы жақсарта алады, әдетте басқа параметрлерде ауа райы және аудио бағдарламалары сияқты қолданбалар деп аталады. Көптеген Alexa құрылғылары виртуалды көмекшіні ояту құпия сөзі арқылы іске қосуға мүмкіндік береді.

Amazon бүгінгі күні смарт динамиктер нарығында үстемдік етеді (5). 2018 жылдың наурыз айында жаңа сервисті ұсынған IBM үздік төрттікке кіруге тырысуда Уотсонның көмекшісі, дауыстық басқаруы бар виртуалды көмекшілердің жеке жүйелерін жасағысы келетін компанияларға арналған. IBM шешімінің артықшылығы неде? Компания өкілдерінің айтуынша, бірінші кезекте, жекелендіру мен құпиялылықты қорғаудың әлдеқайда кең мүмкіндіктері.

Біріншіден, Watson Assistant бренді жоқ. Компаниялар осы платформада өз шешімдерін жасап, оларды өз брендімен белгілей алады.

Екіншіден, олар басқа VUI (дауыс пайдаланушы интерфейсі) технологияларына қарағанда, IBM бұл жүйеге мүмкіндіктер мен пәрмендерді қосуды жеңілдететін жеке деректер жиынын пайдалана отырып, өздерінің көмекші жүйелерін үйрете алады.

Үшіншіден, Watson Assistant IBM компаниясына пайдаланушы әрекеті туралы ақпаратты ұсынбайды - платформадағы шешімдерді әзірлеушілер тек құнды деректерді өздеріне сақтай алады. Сонымен қатар, құрылғыларды құрастыратын кез келген адам, мысалы, Alexa арқылы, олардың құнды деректері Amazon-да аяқталатынын білуі керек.

Watson Assistant қолданбасында бірнеше енгізулер бар. Жүйені, мысалы, Maserati концепциясына арналған дауыстық көмекші жасаған Harman пайдаланды (6). Мюнхен әуежайында IBM көмекшісі жолаушылардың қозғалуына көмектесу үшін Pepper роботына қуат береді. Үшінші мысал - Chameleon Technologies, мұнда дауыстық технология смарт үй есептегішінде қолданылады.

6. Maserati концепті автомобильіндегі Уотсонның көмекшісі

Мұндағы негізгі технология да жаңа емес екенін айта кеткен жөн. Watson Assistant бар IBM өнімдері, Watson Conversation және Watson виртуалды агенті үшін шифрлау мүмкіндіктерін, сондай-ақ тілді талдау мен сөйлесуге арналған API интерфейстерін қамтиды.

Amazon ақылды дауыс технологиясының көшбасшысы ғана емес, оны тікелей бизнеске айналдырады. Дегенмен, кейбір компаниялар Echo интеграциясымен әлдеқайда бұрын тәжірибе жасаған. BI және аналитика индустриясындағы Sisense компаниясы 2016 жылдың шілдесінде Echo интеграциясын енгізді. Өз кезегінде Roxy стартапы қонақжайлылық индустриясы үшін өзінің дауыспен басқарылатын бағдарламалық және аппараттық құралдарын жасауды шешті. Осы жылдың басында Synqq жазбалар мен күнтізбе жазбаларын пернетақтада термей-ақ қосу үшін дауысты және табиғи тілді өңдеуді пайдаланатын жазбаларды жазу қолданбасын ұсынды.

Бұл шағын бизнестің барлығының амбициялары жоғары. Ең бастысы, олар әрбір пайдаланушы өз деректерін Amazon, Google, Apple немесе Microsoft корпорацияларына жібергісі келмейтінін білді, олар дауыстық байланыс платформаларын құрудағы ең маңызды ойыншылар болып табылады.

Америкалықтар сатып алғысы келеді

2016 жылы дауыспен іздеу Google мобильді іздеулерінің 20%-ын құрады. Бұл технологияны күнделікті қолданатын адамдар оның ең үлкен артықшылықтарының қатарында оның ыңғайлылығы мен көп тапсырмалылығын атайды. (мысалы, көлік жүргізу кезінде іздеу жүйесін пайдалану мүмкіндігі).

Visiongain сарапшылары смарт цифрлық көмекшілердің ағымдағы нарықтық құнын $1,138 млрд деп бағалайды.Осындай механизмдер көбейіп келеді. Gartner мәліметтері бойынша, 2018 жылдың соңына дейін Біздің қарым-қатынасымыздың 30% технологиямен дауыс жүйелерімен сөйлесу арқылы болады.

Британдық зерттеу фирмасы IHS Markit AI-мен жұмыс істейтін цифрлық көмекшілер нарығы осы жылдың соңына дейін 4 миллиард құрылғыға жетеді және бұл сан 2020 жылға қарай 7 миллиардқа жетуі мүмкін деп есептейді.

eMarketer және VoiceLabs есептеріне сәйкес, 2017 миллион американдық 35,6 жылы кем дегенде айына бір рет дауысты басқаруды пайдаланған. Бұл өткен жылмен салыстырғанда 130 пайызға дерлік өскенін білдіреді. Тек цифрлық көмекшілер нарығы 2018 жылы 23% -ға өседі деп күтілуде. Бұл сіз оларды қазірдің өзінде пайдаланасыз дегенді білдіреді. 60,5 миллион американдықтар, бұл олардың өндірушілеріне нақты ақша әкеледі. RBC Capital Markets бағалауы бойынша, Alexa интерфейсі 2020 жылға қарай Amazon үшін 10 миллиард долларға дейін табыс әкеледі.

Жуыңыз, пісіріңіз, тазалаңыз!

Дауыстық интерфейстер тұрмыстық техника мен тұрмыстық электроника нарығына барған сайын батыл еніп келеді. Мұны өткен жылғы IFA 2017 көрмесі кезінде байқауға болады.Американдық Neato Robotics компаниясы, мысалы, Amazon Echo жүйесін қоса, бірнеше смарт үй платформаларының біріне қосылатын робот шаңсорғышты ұсынды. Echo смарт динамигімен сөйлесу арқылы сіз машинаға бүкіл үйіңізді күннің немесе түннің белгілі бір уақытында тазалауға нұсқау бере аласыз.

Көрмеде түрік компаниясы Vestel компаниясы Toshiba брендімен сататын смарт теледидарлардан неміс фирмасы Beurer жылытатын көрпелерге дейін басқа да дауыспен белсендірілген өнімдер көрсетілді. Осы электрондық құрылғылардың көпшілігін смартфондар арқылы қашықтан қосуға болады.

Дегенмен, Bosch өкілдерінің айтуынша, үй көмекшісі нұсқаларының қайсысы басым болатынын айту әлі ерте. IFA 2017 көрмесінде неміс техникалық тобы Эхоға қосылатын кір жуғыш машиналарды (7), пештерді және кофе машиналарын көрсетті. Сондай-ақ Bosch өз құрылғыларының болашақта Google және Apple дауыстық платформаларымен үйлесімді болғанын қалайды.

7. Amazon Echo желісіне қосылатын Bosch кір жуғыш машинасы

Fujitsu, Sony және Panasonic сияқты компаниялар AI негізіндегі дауыстық көмекші шешімдерін әзірлеуде. Sharp бұл технологияны нарыққа кіретін пештер мен шағын роботтарға қосуда. Nippon Telegraph & Telephone дауыспен басқарылатын жасанды интеллект жүйесін бейімдеу үшін аппараттық құралдар мен ойыншық жасаушыларды жалдайды.

Ескі ұғым. Оның уақыты келді ме?

Шын мәнінде, Voice User Interface (VUI) тұжырымдамасы ондаған жылдар бойы болды. Бірнеше жыл бұрын «Star Trek» немесе «2001: A Space Odyssey» фильмдерін көрген кез келген адам шамамен 2000 жылы компьютерлерді өз дауысымызбен басқарамыз деп күткен болуы мүмкін. Сондай-ақ, интерфейстің бұл түрінің әлеуетін көрген фантаст жазушылар ғана емес. 1986 жылы Nielsen зерттеушілері IT мамандарынан 2000 жылға қарай пайдаланушы интерфейстеріндегі ең үлкен өзгеріс не болатынын сұрады. Олар көбінесе дауыстық интерфейстердің дамуына назар аударды.

Мұндай шешімге үміттенуге негіз бар. Ауызша қарым-қатынас, сайып келгенде, адамдардың саналы түрде ой алмасуының ең табиғи жолы, сондықтан оны адам мен машина әрекеті үшін пайдалану әзірге ең жақсы шешім болып көрінеді.

деп аталатын алғашқы VUI интерфейстерінің бірі аяқ киім қорабы, 60-шы жылдардың басында IBM компаниясы жасаған. Бұл бүгінгі дауысты тану жүйелерінің бастаушысы болды. Дегенмен, VUI құрылғыларының дамуы есептеу қуатының шегімен шектелді. Нақты уақытта адам сөзін талдау және түсіндіру көп күш-жігерді қажет етеді және ол шын мәнінде мүмкін болатын деңгейге жету үшін елу жылдан астам уақыт қажет болды.

Дауыс интерфейсі бар құрылғылар 90-жылдардың ортасында жаппай өндірісте пайда бола бастады, бірақ танымал бола алмады. Дауыспен басқару (теру) бар бірінші телефон болды Philips Spark1996 жылы шығарылды. Дегенмен, бұл инновациялық және қолдануға оңай құрылғы технологиялық шектеулерден бос болмады.

Дауыстық интерфейс формаларымен жабдықталған басқа телефондар (RIM, Samsung немесе Motorola сияқты компаниялар жасаған) пайдаланушыларға дауыспен теруге немесе мәтіндік хабарламалар жіберуге мүмкіндік беретін нарыққа үнемі шығып тұрады. Бірақ олардың барлығы белгілі бір пәрмендерді есте сақтауды және оларды сол кездегі құрылғылардың мүмкіндіктеріне бейімделген мәжбүрлі, жасанды түрде айтуды талап етті. Бұл көптеген қателерді тудырды, бұл өз кезегінде пайдаланушылардың қанағаттанбауына әкелді.

Дегенмен, біз қазір компьютерлік оқытудың және жасанды интеллекттегі жетістіктер технологиямен өзара әрекеттесудің жаңа тәсілі ретінде сөйлесу әлеуетін ашатын есептеудің жаңа дәуіріне қадам басып жатырмыз (8). Дауыспен әрекеттесуді қолдайтын құрылғылардың саны VUI дамуына үлкен әсер еткен маңызды фактор болды. Бүгінгі күні әлем халқының 1/3 дерлік осы мінез-құлық түріне қолдануға болатын смартфондарға ие. Көптеген пайдаланушылар дауыс интерфейстерін бейімдеуге дайын сияқты.

8. Дауыс интерфейсінің қазіргі даму тарихы

Дегенмен, «Ғарыштық Одиссей» кейіпкерлері сияқты компьютермен еркін сөйлесу үшін біз бірқатар мәселелерді еңсеруіміз керек. Машиналар лингвистикалық нюанстарды өңдеуде әлі де жақсы емес. Сонымен қатар көптеген адамдар іздеу жүйесіне дауыстық пәрмендер беруді әлі де ыңғайсыз сезінеді.

Статистика көрсеткендей, дауыстық көмекшілер негізінен үйде немесе жақын достар арасында қолданылады. Әңгімелескендердің ешқайсысы қоғамдық орындарда дауыстық іздеуді пайдаланғанын мойындамады. Дегенмен, бұл блокада осы технологияның таралуымен жойылуы мүмкін.

техникалық қиын сұрақ

Жүйелер (ASR) алдында тұрған мәселе - сөйлеу сигналынан пайдалы деректерді алу және оны адам үшін белгілі бір мағынаға ие белгілі бір сөзбен байланыстыру. Әр уақытта шығарылатын дыбыстар әртүрлі.

Сөйлеу сигналының өзгермелілігі оның табиғи қасиеті болып табылады, соның арқасында біз, мысалы, екпінді немесе интонацияны танимыз. Сөйлеуді тану жүйесінің әрбір элементінің белгілі бір міндеті бар. Өңделген сигнал және оның параметрлері негізінде тілдік модельмен байланысқан акустикалық модель құрылады. Тану жүйесі аз немесе көп үлгілер негізінде жұмыс істей алады, ол жұмыс істейтін сөздіктің көлемін анықтайды. Олар болуы мүмкін шағын сөздіктер жеке сөздерді немесе командаларды танитын жүйелер жағдайында, сондай-ақ үлкен мәліметтер базасы тіл жиынтығының баламасын қамтитын және тілдік модельді (грамматиканы) ескере отырып.

Дауыстық интерфейстердің проблемалары бірінші кезекте кездеседі сөйлеуді дұрыс түсіну, онда, мысалы, тұтас грамматикалық тізбектер жиі түсірілген, лингвистикалық және фонетикалық қателер, қателер, олқылықтар, сөйлеу ақаулары, омонимдер, негізсіз қайталаулар және т.б. кездеседі.Бұл ACP жүйелерінің барлығы тез және сенімді жұмыс істеуі керек. Кем дегенде, бұл үміттер.

Қиындықтардың көзі де тану жүйесінің кірісіне енетін танылған сөйлеуден басқа дыбыстық сигналдар болып табылады, т.б. барлық түрлері кедергі және шу. Ең қарапайым жағдайда олар сізге қажет сүзгіден өткізіңіз. Бұл тапсырма күнделікті және оңай болып көрінеді - ақыр соңында, әртүрлі сигналдар сүзгіден өтеді және әрбір инженер-электроник мұндай жағдайда не істеу керектігін біледі. Дегенмен, егер сөйлеуді тану нәтижесі біздің үмітімізді қанағаттандыратын болса, мұны өте мұқият және мұқият жасау керек.

Қазіргі уақытта қолданылатын сүзгілеу сөйлеу сигналымен бірге микрофон қабылдайтын сыртқы шуды және оны тануды қиындататын сөйлеу сигналының ішкі қасиеттерін жоюға мүмкіндік береді. Дегенмен, анағұрлым күрделі техникалық мәселе талданатын сөйлеу сигналына кедергі ... басқа сөйлеу сигналы болған кезде туындайды, яғни, мысалы, айналасындағы қатты талқылаулар. Бұл сұрақ әдебиетте деп аталады. Бұл қазірдің өзінде деп аталатын күрделі әдістерді қолдануды талап етеді. деконволюция (ажырату) сигнал.

Сөйлеуді тану проблемалары мұнымен бітпейді. Сөйлеудің әртүрлі ақпарат түрлері бар екенін түсіну керек. Адамның дауысы иесінің жынысын, жасын, әртүрлі кейіпкерлерін немесе оның денсаулығының жағдайын болжайды. Сөйлеу сигналында кездесетін тән акустикалық құбылыстарға негізделген әртүрлі ауруларды диагностикалаумен айналысатын биомедициналық инженерияның кең бөлімі бар.

Сондай-ақ сөйлеу сигналын акустикалық талдаудың негізгі мақсаты динамикті анықтау немесе оның кім екенін тексеру (кілт, құпия сөз немесе PUK кодының орнына дауыс) болатын қолданбалар да бар. Бұл әсіресе ақылды құрылыс технологиялары үшін маңызды болуы мүмкін.

Сөйлеуді тану жүйесінің бірінші құрамдас бөлігі болып табылады микрофон. Дегенмен, микрофон қабылдайтын сигнал әдетте аз қолданылады. Зерттеулер көрсеткендей, дыбыс толқынының пішіні мен бағыты адамға, сөйлеу жылдамдығына және ішінара әңгімелесушінің көңіл-күйіне байланысты айтарлықтай өзгереді - ал аздаған дәрежеде олар айтылған командалардың мазмұнын көрсетеді.

Сондықтан сигналды дұрыс өңдеу керек. Қазіргі заманғы акустика, фонетика және информатика бірге сөйлеу сигналын өңдеу, талдау, тану және түсіну үшін пайдалануға болатын құралдардың бай жиынтығын ұсынады. Сигналдың динамикалық спектрі деп аталатын динамикалық спектрограммалар. Оларды алу өте оңай, ал динамикалық спектрограмма түрінде ұсынылған сөйлеуді суретті тануда қолданылатын әдістерге ұқсас әдістерді қолдану арқылы тану салыстырмалы түрде оңай.

Сөйлеудің қарапайым элементтерін (мысалы, командаларды) тұтас спектрограммалардың қарапайым ұқсастығы арқылы тануға болады. Мысалы, дауыспен белсендірілген ұялы телефон сөздігі әдетте оңай және тиімді анықтауға болатындай алдын ала жинақталған бірнеше оннан бірнеше жүзге дейінгі сөздер мен сөз тіркестерін қамтиды. Бұл қарапайым басқару тапсырмалары үшін жеткілікті, бірақ ол жалпы қолданбаны қатты шектейді. Схема бойынша құрастырылған жүйелер, әдетте, дауыстар арнайы дайындалған арнайы динамиктерді ғана қолдайды. Сондықтан жүйені басқару үшін өз дауысын пайдаланғысы келетін жаңа біреу болса, олар қабылданбайды.

Бұл операцияның нәтижесі деп аталады спектрограмма 2-Вт, яғни екі өлшемді спектр. Бұл блокта назар аудару керек тағы бір әрекет бар - сегменттеу. Жалпы айтқанда, біз үздіксіз сөйлеу сигналын бөлек тануға болатын бөліктерге бөлу туралы айтып отырмыз. Осы жеке диагноздардан ғана тұтастықты тану қалыптасады. Бұл процедура қажет, өйткені бір әрекетте ұзақ және күрделі сөйлеуді анықтау мүмкін емес. Сөйлеу сигналында қандай сегменттерді ажырату керектігі туралы толық томдар бұрыннан жазылған, сондықтан біз қазір ерекшеленетін сегменттер фонемалар (дыбыстық эквиваленттер), буындар немесе мүмкін аллофондар болуы керек екенін шешпейміз.

Автоматты түрде тану процесі әрқашан объектілердің кейбір ерекшеліктеріне сілтеме жасайды. Сөйлеу сигналы үшін әртүрлі параметрлердің жүздеген жиынтығы сыналған.Сөйлеу сигналы бар танылған фреймдерге бөлінеді және бар таңдалған мүмкіндіктербұл кадрлар тану процесінде ұсынылғандықтан, біз орындай аламыз (әр кадр үшін бөлек) категориялау, яғни. кадрға болашақта оны көрсететін идентификаторды тағайындау.

Келесі кезең фреймдерді бөлек сөздерге жинақтау - көбінесе деп аталатындарға негізделген. жасырын Марков үлгілерінің моделі (HMM-). Содан кейін сөздердің монтажы келеді толық сөйлемдер.

Енді біз бір сәтке Alexa жүйесіне орала аламыз. Оның мысалы адамды машиналық «түсінудің» көп сатылы процесін көрсетеді – дәлірек айтсақ: оның берген пәрмені немесе қойылған сұрақ.

Сөздерді түсіну, мағынаны түсіну және пайдаланушының ниетін түсіну мүлдем басқа нәрселер.

Сондықтан келесі қадам NLP модулінің жұмысы болып табылады (), оның міндеті пайдаланушы ниетін тану, яғни. бұйрықтың/сұрақтың ол айтылған контекстегі мағынасы. Егер ниет анықталса, онда дағдылар мен дағдылар деп аталатындарды тағайындау, яғни смарт көмекші қолдайтын ерекше мүмкіндік. Ауа-райы туралы сұрақ туындаған жағдайда, ауа-райы деректерінің көздері шақырылады, олар сөйлеуге өңделуі керек (TTS - механизм). Нәтижесінде пайдаланушы қойылған сұрақтың жауабын естиді.

Дауыс? Графикалық өнер? Немесе екеуі де болуы мүмкін бе?

Ең танымал заманауи өзара әрекеттесу жүйелері деп аталатын делдалға негізделген графикалық пайдаланушы интерфейсі (графикалық интерфейс). Өкінішке орай, GUI цифрлық өніммен өзара әрекеттесудің ең айқын тәсілі емес. Бұл пайдаланушылардың алдымен интерфейсті қалай пайдалану керектігін үйренуін және әрбір келесі өзара әрекеттесу кезінде осы ақпаратты есте сақтауын талап етеді. Көптеген жағдайларда дауыс әлдеқайда ыңғайлы, себебі сіз VUI интерфейсімен жай ғана құрылғымен сөйлесе аласыз. Пайдаланушыларды белгілі бір пәрмендерді немесе өзара әрекеттесу әдістерін есте сақтауға және есте сақтауға мәжбүрлемейтін интерфейс проблемаларды азайтады.

Әрине, VUI кеңеюі дәстүрлі интерфейстерден бас тартуды білдірмейді, керісінше, өзара әрекеттесудің бірнеше тәсілдерін біріктіретін гибридті интерфейстер қол жетімді болады.

Дауыс интерфейсі мобильді контексттегі барлық тапсырмаларға жарамайды. Оның көмегімен біз көлік жүргізетін досымызға қоңырау шаламыз, тіпті оған SMS жібереміз, бірақ соңғы аударымдарды тексеру өте қиын болуы мүмкін - жүйеге () берілетін және жүйе (жүйе) арқылы жасалған ақпараттың көлеміне байланысты. Рэйчел Хинман өзінің Mobile Frontier кітабында ұсынғандай, кіріс және шығыс ақпарат көлемі аз болатын тапсырмаларды орындау кезінде VUI пайдалану тиімдірек болады.

Интернетке қосылған смартфон ыңғайлы, бірақ ыңғайсыз (9). Пайдаланушы бірдеңе сатып алғысы немесе жаңа қызметті пайдаланғысы келген сайын басқа қолданбаны жүктеп алып, жаңа тіркелгі жасауы керек. Мұнда дауыстық интерфейстерді пайдалану және дамыту үшін өріс құрылды. Пайдаланушыларды әртүрлі қолданбаларды орнатуға немесе әрбір қызмет үшін жеке тіркелгілер жасауға мәжбүрлеудің орнына, сарапшылар VUI бұл ауыр тапсырмалардың ауыртпалығын AI-мен жұмыс істейтін дауыстық көмекшіге ауыстырады дейді. Ол үшін ауыр әрекеттерді орындау ыңғайлы болады. Біз оған тек бұйрық береміз.

9. Смарт телефон арқылы дауыстық интерфейс

Бүгінде интернетке телефон мен компьютер ғана қосылмаған. Смарт термостаттар, шамдар, шәйнектер және көптеген басқа IoT біріктірілген құрылғылар да желіге қосылған (10). Осылайша, айналамызда өмірімізді толтыратын сымсыз құрылғылар бар, бірақ олардың барлығы графикалық пайдаланушы интерфейсіне табиғи түрде сәйкес келе бермейді. VUI пайдалану оларды ортамызға оңай біріктіруге көмектеседі.

10. Интернет заттарымен дауыстық интерфейс

Дауыстық пайдаланушы интерфейсін жасау жақын арада дизайнердің негізгі шеберлігіне айналады. Бұл нақты мәселе – дауыстық жүйелерді енгізу қажеттілігі сізді белсенді дизайнға көбірек назар аударуға, яғни сөйлесудің әрбір кезеңінде пайдаланушының қажеттіліктері мен үміттерін болжайтын бастапқы ниеттерін түсінуге тырысады.

Дауыс – деректерді енгізудің тиімді жолы — ол пайдаланушыларға өз шарттары бойынша жүйеге жылдам командалар беруге мүмкіндік береді. Екінші жағынан, экран ақпаратты көрсетудің тиімді әдісін ұсынады: ол жүйелерге бір уақытта ақпараттың үлкен көлемін көрсетуге мүмкіндік береді, пайдаланушылар жадына жүктемені азайтады. Оларды бір жүйеге біріктіру жігерлендіретіні қисынды.

Amazon Echo және Google Home сияқты смарт динамиктер визуалды дисплейді мүлдем ұсынбайды. Орташа қашықтықта дауысты тану дәлдігін айтарлықтай жақсарта отырып, олар қолсыз жұмыс істеуге мүмкіндік береді, бұл өз кезегінде олардың икемділігі мен тиімділігін арттырады - олар тіпті дауыспен басқаруы бар смартфондары бар пайдаланушылар үшін де қажет. Дегенмен, экранның болмауы үлкен шектеу болып табылады.

Пайдаланушыларды ықтимал пәрмендер туралы хабардар ету үшін тек дыбыстық сигналдарды пайдалануға болады, ал шығысты дауыстап оқу ең негізгі тапсырмаларды қоспағанда, жалықтырады. Пісіру кезінде дауыс пәрменімен таймерді орнату өте жақсы, бірақ қанша уақыт қалғанын сұраудың қажеті жоқ. Тұрақты ауа-райы болжамын алу пайдаланушы үшін есте сақтау қабілетін сынауға айналады, ол бір қарағанда оларды экраннан алудың орнына апта бойы бірнеше фактілерді тыңдап, қабылдауы керек.

Дизайнерлер қазірдің өзінде бар гибридті ерітінді, Echo Show (11), ол негізгі Echo смарт динамикіне дисплей экранын қосқан. Бұл жабдықтың функционалдығын айтарлықтай кеңейтеді. Дегенмен, Echo Show әлі де смартфондар мен планшеттерде бұрыннан бар негізгі функцияларды орындауға қабілетті емес. Ол (әлі) интернетті шарлай алмайды, шолуларды көрсете алмайды немесе, мысалы, Amazon сатып алу себетінің мазмұнын көрсете алмайды.

Көрнекі дисплей адамдарға жай дыбыстан гөрі мол ақпарат берудің тиімді әдісі болып табылады. Дауыс басымдылығымен жобалау дауыспен өзара әрекеттесуді айтарлықтай жақсартуы мүмкін, бірақ ұзақ мерзімді перспективада өзара әрекеттесу үшін визуалды мәзірді ерікті түрде пайдаланбау бір қолды артқа байлап күресу сияқты болады. Үздіксіз дауыс пен дисплей интерфейстерінің күрделілігіне байланысты әзірлеушілер интерфейстерге гибридті тәсілді мұқият қарастыруы керек.

Сөйлеуді генерациялау және тану жүйелерінің тиімділігі мен жылдамдығын арттыру оларды қосымшалар мен салаларда қолдануға мүмкіндік берді, мысалы:

• әскери (ұшақтардағы немесе тікұшақтардағы дауыстық командалар, мысалы, F16 VISTA),

• автоматты мәтін транскрипциясы (сөйлеуден мәтінге),

• интерактивті ақпараттық жүйелер (Prime Speech, дауыстық порталдар),

• мобильді құрылғылар (телефондар, смартфондар, планшеттер),

• робототехника (жасанды интеллектпен біріктірілген Cleverbot – ASR жүйелері),

• автокөлік (Blue & Me сияқты көлік компоненттерін қолмен басқару),

• үй қолданбалары (ақылды үй жүйелері).

Қауіпсіздікке сақ болыңыз!

Автокөлік, тұрмыстық техника, жылыту/салқындату және үйдегі қауіпсіздік жүйелері және көптеген тұрмыстық техника көбінесе AI негізіндегі дауыстық интерфейстерді қолдана бастайды. Бұл кезеңде машиналармен миллиондаған сөйлесулерден алынған деректер жіберіледі есептеу бұлттары. Оларға маркетологтардың қызығушылық танытқаны анық. Және олар ғана емес.

Symantec қауіпсіздік сарапшыларының жақында жасалған есебінде дауыстық пәрмен пайдаланушыларына үйдегі қауіпсіздік жүйелерін былай қойғанда, есік құлыптары сияқты қауіпсіздік мүмкіндіктерін де бақыламау ұсынылады. Бұл құпия сөздерді немесе құпия ақпаратты сақтауға қатысты. Жасанды интеллект пен смарт өнімдердің қауіпсіздігі әлі жеткілікті зерттелмеген.

Үйдегі құрылғылар әрбір сөзді тыңдағанда, жүйені бұзу және дұрыс қолданбау қаупі үлкен алаңдаушылық тудырады. Егер шабуылдаушы жергілікті желіге немесе онымен байланысты электрондық пошта мекенжайларына қол жеткізсе, смарт құрылғы параметрлерін өзгертуге немесе зауыттық параметрлерге қалпына келтіруге болады, бұл құнды ақпараттың жоғалуына және пайдаланушы тарихының жойылуына әкеледі.

Басқаша айтқанда, қауіпсіздік мамандары дауыспен басқарылатын AI және VUI бізді ықтимал қауіптерден қорғауға және бейтаныс адам бірдеңе сұрағанда аузымызды жабуға әлі жеткілікті ақылды емес деп қорқады.