Каталог статей

Движок текстового мовлення Deep Voice 2 від Baidu може імітувати сотні людських акцентів

Движок текстового мовлення Deep Voice 2 від Baidu може імітувати сотні людських акцентів

Baidu, пекінський гігант, який контролює 80 відсотків китайського ринку інтернет-пошуку, інвестує значні кошти в штучний інтелект. У 2013 році вона відкрила Інститут глибокого навчання, науково-дослідний центр, зосереджений на машинному навчанні. А в травні вона представила найновішу версію Deep Voice, свого механізму перетворення тексту на мову на основі штучного інтелекту.

Deep Voice 2, який слідує за публічним дебютом Deep Voice на початку цього року, може відтворювати в реальному часі мову, яку майже неможливо відрізнити від людського голосу. Ще більш вражаючим є те, що для створення робочої моделі їй потрібно лише тридцять хвилин аудіо, і вона може імітувати регіональні акценти сотень різних мовців.

Це набагато краще, ніж у попередніх версіях Deep Voice, де на вивчення одного голосу йшло кілька годин.

Ключовим моментом є здатність Deep Voice 2 виявляти схожість між сотнями різних дикторів, щоб побудувати робочу модель людського голосу. Потім він автономно виводить унікальні голоси з цієї моделі – на відміну від голосових помічників, таких як Siri від Apple, які вимагають, щоб людина записала тисячі годин мовлення, яке інженери налаштовують вручну, Deep Voice 2 не вимагає керівництва або ручного втручання.

“Дайте йому правильні дані, і він зможе самостійно дізнатися, які функції важливі”, – сказав Ендрю Гіб’янський, науковий співробітник лабораторії штучного інтелекту Baidu в Кремнієвій долині, в інтерв’ю виданню The Verge.

Baidu – не єдина компанія, що інвестує у високоякісні технології перетворення тексту в мову. WaveNet від Google, продукт підрозділу DeepMind компанії, генерує голоси шляхом дискретизації реальної людської мови і самостійно створює свої власні звуки в різних голосах. Project VoCo від Adobe транскрибує людську мову в редагований текст в режимі реального часу. А канадський стартап Lyrebird ліцензує алгоритми, які можуть імітувати будь-який голос за допомогою лише однієї хвилини аудіозапису, створювати тисячу речень менш ніж за півсекунди, а також наповнювати мову, яку він створює, такими емоціями, як гнів, симпатія та стрес.

Але не варто очікувати, що Deep Voice 2 або WaveNet замінять Siri, Google Assistant або Amazon Alexa найближчим часом – додатки для перекладу на основі штучного інтелекту вимагають більше ресурсів, ніж сучасні телефони можуть розумно забезпечити. Але Baidu бачить потенціал в таких додатках, як програми для перетворення тексту в мову і голосові помічники. “Здатність швидко синтезувати кілька людських голосів матиме величезний вплив на такі продукти, як персональні асистенти та пристрої для читання електронних книг у майбутньому. Наприклад, кожен персонаж вашої електронної книги може мати унікальний голос, коли ви слухаєте електронну книгу”.

Рекомендації редакції

Source: digitaltrends.com

Exit mobile version