fbpx

Каталог статей

Каталог статей для размещения статей информационного характера

Мобільні телефони та гаджети

Додаток TypeTalk від Baidu використовує штучний інтелект для транскрипції голосу

Додаток TypeTalk від Baidu використовує штучний інтелект для транскрипції голосу

Baidu, можливо, не має такого визнання бренду в Сполучених Штатах, як у континентальному Китаї, де цей пекінський гігант займає близько 80 відсотків ринку інтернет-пошуку і накопичує щоквартальний прибуток, який регулярно перевищує сотні мільйонів доларів. Але він сподівається змінити це. У 2013 році азійський джаггернаут встромив кілок у землю Кремнієвої долини разом з Інститутом глибокого навчання, дослідницьким центром, який займається просуванням зусиль фірми в галузі штучного інтелекту. Тепер, частково завдяки зусиллям цієї лабораторії, Baidu дебютує з додатком, призначеним для Сполучених Штатів і не тільки: TypeTalk, сторонню клавіатуру для Android з функцією розпізнавання голосу на основі штучного інтелекту.

TypeTalk, яка була запущена в Google Play Store кілька місяців тому і отримала велике оновлення в понеділок, не є типовою клавіатурою. На відміну від Swype, SwiftKey або Google Keyboard, Baidu робить акцент на голосі, а не на натисканні: При виборі текстового поля з’являється гігантський білий значок мікрофона під інструкцією “Говорити зараз”.

“На наш погляд, ми застосували підхід, орієнтований на голос”, – сказав Біджит Халдер, менеджер по продуктам TypeTalk, в інтерв’ю Digital Trends. “Це в дизайні. Більшість клавіатур мають маленьку кнопку мікрофона збоку, але ми поставили голос на перше місце”.

  • Ця прихована функція iOS 16 перетворила мій iPhone на ідеальний гаджет для пошуку музики
  • Pixel Feature Drops раніше були вражаючими – тепер вони жахливо посередні
  • Секрет, як допомогти людям похилого віку вийти в Інтернет, прямо перед нами

Це може здатися не таким вже й новим – адже більшість пристроїв Android постачаються з функцією перетворення голосу в текст. Але в TypeTalk є більше, ніж здається на перший погляд. В основі клавіатури лежить машинний інтелект: механізм транскрипції голосу, відомий як Deep Speech. “Особливим інгредієнтом є високоточне розпізнавання мови, побудоване на технології Baidu, заснованій на глибокому навчанні”, – сказав у прес-релізі Ендрю Нг, головний науковий співробітник Baidu і засновник дослідницької ініціативи Google Google Brain.

Оптимізація також заслуговує на подяку. TypeTalk персоналізує результати транскрипції, адаптуючи пропозиції щодо слів і фраз для окремих користувачів. “Чим більше даних у вас є, тим кращий алгоритм у вас є”, – сказав Халдер. “Ви можете вчитися. Ви можете покращити свою роботу”. І він адаптується до навколишнього середовища: TypeTalk здійснює перетворення голосу в текст біля галасливого узбіччя дороги інакше, ніж транскрипцію в тихому кабінеті. “Ми вивчаємо випадки використання і [продовжуємо] вносити поліпшення”, – сказав він.

Якщо ви використовували вбудовану голосову транскрипцію Android, Siri від Apple на iOS або Cortana на Windows Phone, технологія транскрипції TypeTalk здасться вам знайомою. Натискання на іконку мікрофона починає транскрипцію, під час якої клавіатура виконує ряд функцій, що дозволяють заощадити час: Вона пише слова з великої літери на початку речень, припиняє прослуховування в періоди тиші і підтримує голосові команди для розділових знаків, таких як крапка, кома і двокрапка. Коли він зустрічає слово, в якому не зовсім впевнений, під ним з’являється підкреслення – разом зі спливаючим вікном зі списком пропозицій.

Ця остання функція, виявлення помилок, є компонентом, на який команда TypeText витратила величезну кількість зусиль з розробки. Причина, за словами Халдера, полягає в тому, наскільки помилки транскрипції можуть вплинути на точність. “Для виправлення помилки потрібен час і зосередженість”, – сказав він. “Навіть знайти слово з помилкою складно, а виправлення займає багато часу”. За даними Baidu, механізм транскрипції TypeText може знизити рівень помилок на 20,4 відсотка.

Це не єдина функція виправлення помилок, якою володіє TypeText. Жест двома пальцями дозволяє швидко виділяти частини речень – вільний простір над, під і з обох боків від іконки мікрофона виконує роль трекпада, свайп по якому виділяє слова і фрази в реченнях.

Baidu стверджує, що функції TypeTalk, взяті разом, мають потенціал для помітного прискорення транскрипції. Халдер вказав на нещодавнє дослідження, опубліковане Стенфордським університетом, Університетом Вашингтона та Baidu, яке продемонструвало, що механізм розпізнавання голосу Baidu – той самий, що використовується в TypeTalk – може дозволити користувачам вводити текст до трьох разів швидше, ніж, скажімо, шукати і дзьобати клавіші. “Середньостатистичний користувач може набирати від 40 до 50 слів за хвилину на мобільному телефоні, але до 150 слів за хвилину, коли розмовляє”, – сказав Халдер.

Транскрипція може бути головною функцією TypeTalk, але це не єдина функція, що заощаджує працю. Клавіатура Baidu має повну QWERTY-клавіатуру для ситуацій, коли транскрипція неможлива – з емодзі, алфавітно-цифровими клавішами, символами і підтримкою жестів, подібних до Swype, які генерують пропозиції слів на основі штучного інтелекту.

І він містить те, що Baidu називає QuickShare, інструмент, який підключається до сторонніх сервісів для надання зображень, результатів пошуку та інших інструментів. Підтримка бази даних GIF Giphy дозволяє переглядати і ділитися анімаційними фільмами; інтеграція з Yelp дозволяє шукати ресторани і місця; а обмін місцезнаходженням, як і слід було очікувати, дозволяє ділитися вашим поточним місцезнаходженням.

Baidu має великі плани щодо TypeTalk – вона розглядає його як “зростаючий” продукт, який буде “еволюціонувати” з часом. “На мобільних пристроях, в майбутньому, основна увага буде зосереджена на мовних інтерфейсах”, – сказав Халдер. “Це включає в себе не тільки перетворення мови в текст, але і всю мову і штучний інтелект, що стоїть за ним. І Baidu прагне до цього як компанія”.

Більш конкретно, в найближчі кілька місяців Халдер бачить інтелектуальну інтеграцію зі сторонніми сервісами. “Можливо, ви зможете сказати: “Приїдь і забери мене”, і він автоматично передасть ваше місцезнаходження і викличе машину”, – сказав він. “Це майбутнє клавіатури”.

Підтримка iOS від Apple, з іншого боку, не є такою. За словами Халдера, це пов’язано з обмеженнями останньої версії операційної системи виробника iPhone – сторонні клавіатури не можуть отримати доступ до мікрофону iPhone. “Ми зацікавлені в iOS та інших засобах отримання цієї функціональності, але поки Apple не змінить свою політику, підтримка неможлива”, – сказав він.

Будемо сподіватися, що цей день настане раніше, ніж пізніше.

Рекомендації редакції

  • Щойно придбали новий iPhone? Ось 12 порад та підказок, які допоможуть його освоїти
  • Забудьте про AirPods – ось чому я використовую навушники Samsung зі своїм iPhone
  • Apple може зробити немислиме – дозволити сторонні магазини додатків для iPhone
  • iOS 17 може бути приголомшливою, якщо Apple зробить ці 7 змін
  • Google тепер підтримує мої жахливі звички браузера, і мені це подобається

Source: digitaltrends.com

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *