Google набирає користувачів Reddit для поліпшення розпізнавання мови
Google набирає користувачів Reddit для поліпшення розпізнавання мови
Google Now, однойменний голосовий помічник пошукового гіганта Google, напрочуд добре розбирається в нюансах людської мови. Завдяки вбивчій комбінації машинного навчання і краудсорсингових даних, він може розбирати бурмотіння, шепіт і навіть найбільш спотворені фрази. У серпні минулого року, наприклад, компанія Google заявила, що скоротила кількість помилок при транскрипції голосу на 49 відсотків.
Але якщо є один елемент мовного розмаїття, який має тенденцію до помилок, то це акценти – лише нещодавно Now отримав офіційну підтримку індійських і австралійських діалектів. Однак, як повідомляється, Google має план покращення ситуації: залучення користувачів Reddit.
Як повідомляється, Reddit, соціальна мережа, можливо, так само відома своєю інтернет-активністю, як і її суперечливе вище керівництво, слугує пулом для набору голосових волонтерів Google. Компанія з Маунтін-В’ю, штат Каліфорнія, скористалася послугами сторонньої фірми Appen, яка почала наймати користувачів Reddit – або Реддітерів, як їх називають у розмовній мові – зі специфічними акцентами з метою покращення системи розпізнавання голосу Google.
Цього тижня оголошення про роботу від Appen почали з’являтися на низці суб-редакторів – термін Reddit для позначення окремих спільнот, які живуть під егідою більш широкої мережі. Оголошення в рівній мірі спрямовані на користувачів, які шукають роботу на неповний робочий день – тобто, редакторів /r/slavelabour, /r/WorkOnline, /r/beermoney – і тих, хто живе в містах з високою концентрацією характерних флексій, таких як /r/Edinburgh. Всі вони шукають одне і те ж: користувачів з певними мовними каденціями, які будуть підкорятися “збору мовних даних”.
“В даний час я набираю людей для збору … даних для Google”, – йдеться в одному із запитів, який вже видалено, на /r/slavelabour. “Для виконання завдання потрібно використовувати Android. Завдання полягає в тому, щоб записувати голосові підказки на кшталт “Indy now”, [і] “Google, котра година”. Кожна фраза займає близько 3-5 секунд”.
Робота в цілому досить складна – учасники повинні прочитати 2000 окремих фраз протягом трьох годин – але щедро винагороджується холодними, твердими грошима. Дорослі заробляють 27 фунтів (36 доларів), а діти до 16 років заробляють трохи менше – 20 фунтів (26 доларів) – але вони читають за коротшим, 45-хвилинним сценарієм з 500 фраз.
Google, схоже, зосереджується на одному акценті, зокрема, на шотландському різновиді. За словами Quartz, це відносно складний акцент, оскільки його своєрідна каденція часто викликає збої в роботі голосових помічників – від Now до Siri від Apple на iPhone і iPad.
Тренінги відносно прості. Учасники, які розмовляли з The Verge – різноманітною компанією з акцентами “Великобританії” і “Америки” на додаток до більш екзотичних діалектів, в тому числі “індійського” і “англійського з китайським акцентом” – повідомили, що їх перенаправляли на мобільну веб-сторінку вступу на службу. Після натискання на іконку “запис” на цій сторінці послідовно з’являлися фрази.
Деякі фрагменти, очевидно, стосувалися Google – “OK Google” і “Hey, Google”, – в той час як інші включали назви брендів, іграшок, відеоігор, назв фільмів і назв каналів YouTube. А ще інші були найрізноманітнішими: запити з пошукових систем Google на кшталт “Як приготувати торт на день народження”; ідіоми на кшталт “Гей, Гугл, охолонь” і навіть дріб’язкові питання (“Президенти по порядку”).
Зібрані зразки обробляються внутрішньою командою Aspen. Глава компанії Марк Браян, який розмовляв з The Verge, розбив робочий процес: співробітники аналізують записи “з усього світу” на 130 мовах, розбиваючи речення на граматичні основи. На наступному етапі, який Аспен називає “прикрашанням”, лінгвісти роблять контекстуальні анотації, відзначаючи такі деталі, як середовище, в якому були зроблені записи – на відкритому повітрі, наприклад, або в переповненому коридорі – і пристрій, який використовувався для їх проведення.
За словами Брайана, це важке завдання. Незначні поліпшення вимагають величезних обсягів даних і аналізу. “Щоб перейти від розуміння 95 відсотків слів до 99 відсотків, розпізнавач повинен переварити рідковживані слова, яких мільйони”, – сказав Браян в інтерв’ю The Verge. А “незвичайні” терміни на кшталт езотеричних назв продуктів є ще більш проблематичними – Appen повинен враховувати не тільки звичні вимови таких слів, але й унікальні вимови. “Однією з великих проблем є те, що ми називаємо розпізнаванням іменованих об’єктів”, – сказав Браян. “Це назви брендів, назви продуктів, імена людей і так далі. Отже, якщо ви запускаєте в Канаді, наприклад, вам потрібна не лише французька мова, але й канадська англійська з французьким акцентом”.
Ідеальний кінцевий результат? Стрибок у розпізнаванні голосу. Марсал Гавальда, керівник відділу машинного інтелекту компанії Yik Yak, розповів, що історично можливості систем розпізнавання мови були обмежені однорідністю даних, що надходили на вхід. “[Такі системи] навчалися на даних, зібраних в основному в університетах, і в основному серед студентської молоді”, – сказав він в інтерв’ю виданню Verge. У нього є термін для цього: електронний імперіалізм. “Різноманітність голосів відображає студентське населення 30 років тому”, – сказав Гавальда.
Вже зараз ситуація покращується… хоча і незначно. Google неправильно інтерпретує слова на мовах “другого рівня” – менш популярних мовах, яким такі компанії, як Google і Apple, приділяють менше уваги – набагато рідше, ніж це було раніше. Лише за останні два роки рівень помилок в індонезійській мові знизився з 40 до 18 відсотків, повідомив Fusion керівник відділу розпізнавання мовлення Google Йохан Шалквик (Johan Schalkwyk). Але таким компаніям, як Google, належить пройти довгий шлях – Шалквик сказав, що двигун розпізнавання голосу компанії потребує щонайменше 5 000 годин голосових даних, щоб “добре” розуміти мову.
Google, схоже, знадобиться набагато більше акцентованих редакторів.
Рекомендації редакції
- Samsung Galaxy S23: дата виходу, характеристики, ціна, чутки і новини
- Щойно придбали новий iPhone? Ось 12 порад та підказок, як його освоїти
- Найдешевший безлімітний 5G-план Verizon тільки що став ще дешевше
- Ця прихована функція iOS 16 перетворила мій iPhone в ідеальний гаджет для пошуку музики
- З Pixel 8 Google повинен вирішити проблему з камерою, що набридла
Source: digitaltrends.com