fbpx

Каталог статей

Каталог статей для размещения статей информационного характера

Мобільні телефони та гаджети

Движок текстового мовлення Deep Voice 2 від Baidu може імітувати сотні людських акцентів

Движок текстового мовлення Deep Voice 2 від Baidu може імітувати сотні людських акцентів

Baidu, пекінський гігант, який контролює 80 відсотків китайського ринку інтернет-пошуку, інвестує значні кошти в штучний інтелект. У 2013 році вона відкрила Інститут глибокого навчання, науково-дослідний центр, зосереджений на машинному навчанні. А в травні вона представила найновішу версію Deep Voice, свого механізму перетворення тексту на мову на основі штучного інтелекту.

Deep Voice 2, який слідує за публічним дебютом Deep Voice на початку цього року, може відтворювати в реальному часі мову, яку майже неможливо відрізнити від людського голосу. Ще більш вражаючим є те, що для створення робочої моделі їй потрібно лише тридцять хвилин аудіо, і вона може імітувати регіональні акценти сотень різних мовців.

Це набагато краще, ніж у попередніх версіях Deep Voice, де на вивчення одного голосу йшло кілька годин.

  • Коли авторські права ускладнюють пошук саундтреків до відео, цей ШІ-музикант може допомогти
  • Google Фото тепер дозволяє шукати текст на зображеннях
  • Писати текст за кермом ризиковано, але як позбутися цієї звички? Запитуємо у експертів

Ключовим моментом є здатність Deep Voice 2 виявляти схожість між сотнями різних дикторів, щоб побудувати робочу модель людського голосу. Потім він автономно виводить унікальні голоси з цієї моделі – на відміну від голосових помічників, таких як Siri від Apple, які вимагають, щоб людина записала тисячі годин мовлення, яке інженери налаштовують вручну, Deep Voice 2 не вимагає керівництва або ручного втручання.

“Дайте йому правильні дані, і він зможе самостійно дізнатися, які функції важливі”, – сказав Ендрю Гіб’янський, науковий співробітник лабораторії штучного інтелекту Baidu в Кремнієвій долині, в інтерв’ю виданню The Verge.

Baidu – не єдина компанія, що інвестує у високоякісні технології перетворення тексту в мову. WaveNet від Google, продукт підрозділу DeepMind компанії, генерує голоси шляхом дискретизації реальної людської мови і самостійно створює свої власні звуки в різних голосах. Project VoCo від Adobe транскрибує людську мову в редагований текст в режимі реального часу. А канадський стартап Lyrebird ліцензує алгоритми, які можуть імітувати будь-який голос за допомогою лише однієї хвилини аудіозапису, створювати тисячу речень менш ніж за півсекунди, а також наповнювати мову, яку він створює, такими емоціями, як гнів, симпатія та стрес.

Але не варто очікувати, що Deep Voice 2 або WaveNet замінять Siri, Google Assistant або Amazon Alexa найближчим часом – додатки для перекладу на основі штучного інтелекту вимагають більше ресурсів, ніж сучасні телефони можуть розумно забезпечити. Але Baidu бачить потенціал в таких додатках, як програми для перетворення тексту в мову і голосові помічники. “Здатність швидко синтезувати кілька людських голосів матиме величезний вплив на такі продукти, як персональні асистенти та пристрої для читання електронних книг у майбутньому. Наприклад, кожен персонаж вашої електронної книги може мати унікальний голос, коли ви слухаєте електронну книгу”.

Рекомендації редакції

  • Новий D2 Air X10 від Garmin додає голосове управління за $550
  • В iOS 13.2 від Apple з’явилися нові емодзі, Deep Fusion, налаштування конфіденційності та багато іншого
  • Новий штучний інтелект і синтез голосу роблять Gatebox вашим наймилішим і найрозумнішим цифровим приятелем
  • Дружній ШІ від Microsoft Xiaoice може зрозуміти, чого ви хочете, ще до того, як ви запитаєте
  • Як повідомляється, компанія Essential створює телефон на базі ШІ, який імітує свого користувача

Source: digitaltrends.com

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *