Движок текстового мовлення Deep Voice 2 від Baidu може імітувати сотні людських акцентів

catalogue of articles

1 год назад

Движок текстового мовлення Deep Voice 2 від Baidu може імітувати сотні людських акцентів

Baidu, пекінський гігант, який контролює 80 відсотків китайського ринку інтернет-пошуку, інвестує значні кошти в штучний інтелект. У 2013 році вона відкрила Інститут глибокого навчання, науково-дослідний центр, зосереджений на машинному навчанні. А в травні вона представила найновішу версію Deep Voice, свого механізму перетворення тексту на мову на основі штучного інтелекту.

Deep Voice 2, який слідує за публічним дебютом Deep Voice на початку цього року, може відтворювати в реальному часі мову, яку майже неможливо відрізнити від людського голосу. Ще більш вражаючим є те, що для створення робочої моделі їй потрібно лише тридцять хвилин аудіо, і вона може імітувати регіональні акценти сотень різних мовців.

Це набагато краще, ніж у попередніх версіях Deep Voice, де на вивчення одного голосу йшло кілька годин.

Коли авторські права ускладнюють пошук саундтреків до відео, цей ШІ-музикант може допомогти
Google Фото тепер дозволяє шукати текст на зображеннях
Писати текст за кермом ризиковано, але як позбутися цієї звички? Запитуємо у експертів

Ключовим моментом є здатність Deep Voice 2 виявляти схожість між сотнями різних дикторів, щоб побудувати робочу модель людського голосу. Потім він автономно виводить унікальні голоси з цієї моделі – на відміну від голосових помічників, таких як Siri від Apple, які вимагають, щоб людина записала тисячі годин мовлення, яке інженери налаштовують вручну, Deep Voice 2 не вимагає керівництва або ручного втручання.

“Дайте йому правильні дані, і він зможе самостійно дізнатися, які функції важливі”, – сказав Ендрю Гіб’янський, науковий співробітник лабораторії штучного інтелекту Baidu в Кремнієвій долині, в інтерв’ю виданню The Verge.

Baidu – не єдина компанія, що інвестує у високоякісні технології перетворення тексту в мову. WaveNet від Google, продукт підрозділу DeepMind компанії, генерує голоси шляхом дискретизації реальної людської мови і самостійно створює свої власні звуки в різних голосах. Project VoCo від Adobe транскрибує людську мову в редагований текст в режимі реального часу. А канадський стартап Lyrebird ліцензує алгоритми, які можуть імітувати будь-який голос за допомогою лише однієї хвилини аудіозапису, створювати тисячу речень менш ніж за півсекунди, а також наповнювати мову, яку він створює, такими емоціями, як гнів, симпатія та стрес.

Але не варто очікувати, що Deep Voice 2 або WaveNet замінять Siri, Google Assistant або Amazon Alexa найближчим часом – додатки для перекладу на основі штучного інтелекту вимагають більше ресурсів, ніж сучасні телефони можуть розумно забезпечити. Але Baidu бачить потенціал в таких додатках, як програми для перетворення тексту в мову і голосові помічники. “Здатність швидко синтезувати кілька людських голосів матиме величезний вплив на такі продукти, як персональні асистенти та пристрої для читання електронних книг у майбутньому. Наприклад, кожен персонаж вашої електронної книги може мати унікальний голос, коли ви слухаєте електронну книгу”.

Движок текстового мовлення Deep Voice 2 від Baidu може імітувати сотні людських акцентів

Рекомендації редакції

Похожие записи: