Голос майбутнього — що заважає розвиватися новим технологіям

catalogue of articles 6 ноября, 20196 ноября, 2019 Комментариев нет

Є така приказка: якби пес умів говорити, людина втратила б останнього друга. Можна цю жарт застосувати до комп’ютерів, які повільно засвоюють мова?
Голосове управління електронікою, перетворення мови в текст і навпаки вже сьогодні трансформує власні звички, пише The Economist. Замість натиснення кнопок управління сенсорним екраном ми тільки вимовляємо кодове слово, а техніка виконує команду. Що означає поширення цієї технології на глобальному рівні, які загрози чекають на нас у світі комп’ютерів з голосом» — пропонуємо ознайомитися з дослідженням від редакції The Economist.
Перспективи голосових технологій
Будь-яка досить просунута технологія сприймається, як магія, — так стверджував англійський письменник-фантаст Артур Чарльз Кларк (Sir Arthur Charles Clarke). Розпізнавання голосових команд цілком підтверджує тезу видатного британця. Хто з нас не відчуває себе чарівником, вимовляючи вголос фрази, які змушують електроніку виконувати задані операції? Смарт-динаміку Amazon Echo підходить роль магічного кришталевої кулі. Пристрій активується, тобто відгукується на ім’я «Alexa», може програвати музику, радіостанції, розповідає жарту, відповідає на запитання і навіть управляє іншою електронікою, — все це вголос за озвученим запитом. Станом на кінець минулого року 4% домогосподарств США мали Alexa на своєму столі. Відсоток досить високий як для пристрою нового формату, який став доступний широкій публіці тільки 1,5 роки тому. А ці дані навіть не враховують різдвяні продажу, які традиційно дуже успішні для гаджетів.
Голосові помічники в смартфонах також стають все популярнішими: Apple Siri в США обробляє понад 2 млрд голосових команд щотижня, а близько 20% пошукових запитів у Google Android-пристроїв, що працюють в Америці, вводяться також з голосу. Розпізнавання мови дозволяє без істотних перешкод надиктувати мобільного пристрою текст листа або повідомлення. Навіщо друкувати, якщо можна просто розповісти йому свою історію? Технологія змінює сам принцип взаємодії людини з технікою. Тепер, коли власник озвучує своє бажання гаджетом, їх співробітництво стає більш природним, до якого ми звикли ще з давніх часів.
Читайте також: Mycroft – нове покоління штучного інтелекту
Всі елементи інтерфейсу в комп’ютері розроблялися з метою полегшення умов праці користувачів. Щоб не вводити повністю цифрову команду, дизайнери придумували меню і віконця, іконки і сенсорні кнопки, врешті — повністю сенсорні екрани. Можливість розмовляти з комп’ютером» усуває необхідність розробляти інтерфейс в принципі. Комп’ютер без екрану і клавіатури може стати більш корисним, потужним і всюдисущим, ніж ми навіть можемо собі уявити.
Однак, голосові команди не зможуть повністю замінити інші методи управління електронікою. Іноді все ж зручніше ввести текст на екрані, ніж надиктувати його вголос — навіть Amazon розробляє пристрій з дисплеєм для додаткової управління Echo. Але саме розпізнавання голосу продовжує активно розвиватися і з’явиться найближчим часом у більшості побутових пристроїв. Наприклад, пральні машинки зможуть відповідати, скільки хвилин ще триватиме цикл прання, а нам не доведеться придивлятися до таймеру на панелі управління. У бізнесі технологія також знадобиться — корпоративні колл-центри і сервіси підтримки користувачів зможуть автоматизувати ще більше операцій. Але для повноцінного використання всього потенціалу голосового управління потрібно вирішити кілька нагальних питань.
Alexa, що таке глибоке навчання?
Технології голосового введення тексту існують давно, але у всі попередні роки вони не були достатньо надійними. Щоб машина розпізнала вашу команду, потрібно навчитися вимовляти слова з певною інтонацією і гучністю. Сьогодні тренуємося не ми, а комп’ютер — алгоритми обробляють мільйони прикладів людських голосів, акцентів і особливостей вимови, щоб з першого разу впізнавати слова. Матеріал для навчання система знаходить в інтернеті. Це — одне з найвизначніших досягнень різновиди технології штучного інтелекту, що має назву «глибоке навчання». Можна констатувати, що не тільки перетворення мови в текст, але і зворотний процес (озвучування електронного тексту) вже звучить природніше, більш звично для слухача. Поступово машини вчаться адекватно відтворювати задану людиною команду у вигляді мови.
Читайте також: Глибоке навчання штучного інтелекту. Все, що необхідно знати
Однак, глибоке навчання відповідає тільки за здатність правильно відтворювати текст, а не розуміти його. Найголовніша відмінність машинного голоси від живої мови, в той же час, є найбільшою перешкодою для розвитку голосового управління. І щоб ця технологія окупувала наші будинки, автомобілі і робочі місця — машини повинні навчитися розуміти мову. Без розуміння контексту загальної теми розмови алгоритм не зможе виконувати комплексі завдання. Адже сьогодні голосові асистенти справляються з односкладовими командами: «Гей, Сірі, ставимо таймер на 10 хв», «Alexa, знайди рецепт для свинячих реберець» тощо. У повсякденному промови рідко вживаються такі прості речення. Як правило, люди оперують складними висловлюваннями і майже завжди розуміють один одного.
Над вирішенням проблеми працюють вчені в дослідних інститутах, розробники в малих і крупних компаніях. Розквіт чатботов є кроком вперед у цьому напрямку: вони вміють підтримувати більш змістовний діалог, вже здатні підібрати клієнту оптимальний страховий поліс, забронювати квитки на літак і готель в пункті призначення.
Зручність і безпеку
Користувачі, а також зовнішні регулятори повинні зіграти свою роль у розвитку голосових комп’ютерних технологій. Навіть у сьогоднішній примітивній формі вони провокують серйозні протиріччя. З одного боку, системи з голосовим управлінням будуть тим краще, чим більше будуть мати персональних даних користувача — календар, електронні листи, облікові записи на сайтах та онлайн-сервіси. Але це створить додаткову загрозу безпеці інформації.
Деякі з пристроїв постійно знаходяться в стані пасивного «слухання», поки не почують команду активації. В інтернеті активно обговорюють потенційну небезпеку від постійно включених мікрофонів в оселях пересічних громадян. Не всі аудіосистеми відправляють аудіо на хмарний сервер до того, як отримують команду почати роботу. Саме після умовного «ОК, Google всі голосові запити надсилаються на сервер, де їх обробляють спеціальні алгоритми. Але важко встановити, хто саме володіє аудіозаписами (як до активації, так і після неї) і де вони в той або інший момент часу.
Читайте також: Прірва між біологічним і цифровим мозком звужується
Широкого розголосу набув випадок, коли поліція штату Арканзас звернулася до Amazon з вимогою надати доступ до всіх даних динаміка Echo, що міг «почути» вбивство в приміщенні. Компанія відмовилася, посилаючись на відсутність достатніх законних підстав для такого запиту. Фахівці з безпеки даних порівнюють випадок до відмови Тіма Кука надати ФБР доступ до інформації на заблокованому iPhone терориста. Обидва випадки підтверджують необхідність розробки чіткого нормативного регулювання, в інтересах загальної безпеки і захисту приватних даних.
Як показує історія розвитку технологій, споживачі почнуть активно користуватися голосовими сервісами навіть якщо питання захисту інформації не будуть вирішені. Приваблює зручність голосових технологій — цей аспект переважить міркування безпеки. Керування голосом дозволить поєднувати роботу з пристроєм під час поїздки за кермом, тренувань і прогулянок, навіть під час домашнього прибирання. Крім цього, технологія стане в нагоді людям з особливими потребами, які зможуть повноцінно керувати технікою.
Деякі фахівці прогнозують зміну ставлення до використання мови взагалі. Коли машини навчаться розпізнавати і перекладати на ходу, пересічним громадянам не обов’язково буде вчити іноземні висловлювання. Мови меншин будуть мати більше шансів на виживання і збереження, коли на них заговорять комп’ютери. У свій час поширення сенсорних екранів істотно вплинуло на взаємодію користувача з технікою, однак голосові технології принесуть більше змін. Вони фактично перетворять електронний пристрій на співрозмовника.

Каталог статей

Голос майбутнього — що заважає розвиватися новим технологіям

Добавить комментарий

Похожие записи:

Добавить комментарий