Google набирає користувачів Reddit для поліпшення розпізнавання мови

catalogue of articles 30 января, 202324 февраля, 2024 Комментариев нет

Google набирає користувачів Reddit для поліпшення розпізнавання мови

Google Now, однойменний голосовий помічник пошукового гіганта Google, напрочуд добре розбирається в нюансах людської мови. Завдяки вбивчій комбінації машинного навчання і краудсорсингових даних, він може розбирати бурмотіння, шепіт і навіть найбільш спотворені фрази. У серпні минулого року, наприклад, компанія Google заявила, що скоротила кількість помилок при транскрипції голосу на 49 відсотків.

Але якщо є один елемент мовного розмаїття, який має тенденцію до помилок, то це акценти – лише нещодавно Now отримав офіційну підтримку індійських і австралійських діалектів. Однак, як повідомляється, Google має план покращення ситуації: залучення користувачів Reddit.

Як повідомляється, Reddit, соціальна мережа, можливо, так само відома своєю інтернет-активністю, як і її суперечливе вище керівництво, слугує пулом для набору голосових волонтерів Google. Компанія з Маунтін-В’ю, штат Каліфорнія, скористалася послугами сторонньої фірми Appen, яка почала наймати користувачів Reddit – або Реддітерів, як їх називають у розмовній мові – зі специфічними акцентами з метою покращення системи розпізнавання голосу Google.

Цього тижня оголошення про роботу від Appen почали з’являтися на низці суб-редакторів – термін Reddit для позначення окремих спільнот, які живуть під егідою більш широкої мережі. Оголошення в рівній мірі спрямовані на користувачів, які шукають роботу на неповний робочий день – тобто, редакторів /r/slavelabour, /r/WorkOnline, /r/beermoney – і тих, хто живе в містах з високою концентрацією характерних флексій, таких як /r/Edinburgh. Всі вони шукають одне і те ж: користувачів з певними мовними каденціями, які будуть підкорятися “збору мовних даних”.

“В даний час я набираю людей для збору … даних для Google”, – йдеться в одному із запитів, який вже видалено, на /r/slavelabour. “Для виконання завдання потрібно використовувати Android. Завдання полягає в тому, щоб записувати голосові підказки на кшталт “Indy now”, [і] “Google, котра година”. Кожна фраза займає близько 3-5 секунд”.

Робота в цілому досить складна – учасники повинні прочитати 2000 окремих фраз протягом трьох годин – але щедро винагороджується холодними, твердими грошима. Дорослі заробляють 27 фунтів (36 доларів), а діти до 16 років заробляють трохи менше – 20 фунтів (26 доларів) – але вони читають за коротшим, 45-хвилинним сценарієм з 500 фраз.

Google, схоже, зосереджується на одному акценті, зокрема, на шотландському різновиді. За словами Quartz, це відносно складний акцент, оскільки його своєрідна каденція часто викликає збої в роботі голосових помічників – від Now до Siri від Apple на iPhone і iPad.

Тренінги відносно прості. Учасники, які розмовляли з The Verge – різноманітною компанією з акцентами “Великобританії” і “Америки” на додаток до більш екзотичних діалектів, в тому числі “індійського” і “англійського з китайським акцентом” – повідомили, що їх перенаправляли на мобільну веб-сторінку вступу на службу. Після натискання на іконку “запис” на цій сторінці послідовно з’являлися фрази.

Деякі фрагменти, очевидно, стосувалися Google – “OK Google” і “Hey, Google”, – в той час як інші включали назви брендів, іграшок, відеоігор, назв фільмів і назв каналів YouTube. А ще інші були найрізноманітнішими: запити з пошукових систем Google на кшталт “Як приготувати торт на день народження”; ідіоми на кшталт “Гей, Гугл, охолонь” і навіть дріб’язкові питання (“Президенти по порядку”).

Зібрані зразки обробляються внутрішньою командою Aspen. Глава компанії Марк Браян, який розмовляв з The Verge, розбив робочий процес: співробітники аналізують записи “з усього світу” на 130 мовах, розбиваючи речення на граматичні основи. На наступному етапі, який Аспен називає “прикрашанням”, лінгвісти роблять контекстуальні анотації, відзначаючи такі деталі, як середовище, в якому були зроблені записи – на відкритому повітрі, наприклад, або в переповненому коридорі – і пристрій, який використовувався для їх проведення.

За словами Брайана, це важке завдання. Незначні поліпшення вимагають величезних обсягів даних і аналізу. “Щоб перейти від розуміння 95 відсотків слів до 99 відсотків, розпізнавач повинен переварити рідковживані слова, яких мільйони”, – сказав Браян в інтерв’ю The Verge. А “незвичайні” терміни на кшталт езотеричних назв продуктів є ще більш проблематичними – Appen повинен враховувати не тільки звичні вимови таких слів, але й унікальні вимови. “Однією з великих проблем є те, що ми називаємо розпізнаванням іменованих об’єктів”, – сказав Браян. “Це назви брендів, назви продуктів, імена людей і так далі. Отже, якщо ви запускаєте в Канаді, наприклад, вам потрібна не лише французька мова, але й канадська англійська з французьким акцентом”.

Ідеальний кінцевий результат? Стрибок у розпізнаванні голосу. Марсал Гавальда, керівник відділу машинного інтелекту компанії Yik Yak, розповів, що історично можливості систем розпізнавання мови були обмежені однорідністю даних, що надходили на вхід. “[Такі системи] навчалися на даних, зібраних в основному в університетах, і в основному серед студентської молоді”, – сказав він в інтерв’ю виданню Verge. У нього є термін для цього: електронний імперіалізм. “Різноманітність голосів відображає студентське населення 30 років тому”, – сказав Гавальда.

Вже зараз ситуація покращується… хоча і незначно. Google неправильно інтерпретує слова на мовах “другого рівня” – менш популярних мовах, яким такі компанії, як Google і Apple, приділяють менше уваги – набагато рідше, ніж це було раніше. Лише за останні два роки рівень помилок в індонезійській мові знизився з 40 до 18 відсотків, повідомив Fusion керівник відділу розпізнавання мовлення Google Йохан Шалквик (Johan Schalkwyk). Але таким компаніям, як Google, належить пройти довгий шлях – Шалквик сказав, що двигун розпізнавання голосу компанії потребує щонайменше 5 000 годин голосових даних, щоб “добре” розуміти мову.

Google, схоже, знадобиться набагато більше акцентованих редакторів.

Каталог статей

Google набирає користувачів Reddit для поліпшення розпізнавання мови

Google набирає користувачів Reddit для поліпшення розпізнавання мови

Рекомендації редакції

Добавить комментарий

Google набирає користувачів Reddit для поліпшення розпізнавання мови

Рекомендації редакції

Похожие записи:

Добавить комментарий