fbpx

Каталог статей

Каталог статей для размещения статей информационного характера

Технології

Вчені навчили комп’ютер розуміти діалекти, читаючи твіттер

Вчені навчили комп’ютер розуміти діалекти, читаючи твіттер

Комп’ютери не є носіями більш проблематичних забобонів, які, на жаль, все ще зустрічаються в деяких частинах суспільства, але це не означає, що вони позбавлені недоліків. Одне із завдань, в якому машини часто виявляються менш вправними, – це розуміння інших діалектів, таких як діалект англійської мови, який, як вважається, походить з деяких афроамериканських спільнот. (Дослідники називають цей діалект “афро-американською англійською”, що, як ми розуміємо, може вважатися неточним для афроамериканців, які його не поділяють). Зараз дослідники навчають ШІ розпізнавати і використовувати цей діалект.

Коли йдеться про те, чому комп’ютери гірше розуміють деякі діалекти, ніж інші, є логічна причина: вчені-комп’ютерники, які протягом останніх 30 років навчали машини читати, часто використовували для навчання легкодоступні дані, такі як старі випуски “Уолл-стріт джорнал”. Така формальна письмова мова зробила багато систем обробки природної мови (NLP) менш пристосованими до розуміння мови, яка не відповідає дуже специфічному типу.

“Якщо ви подумаєте про традиційні засоби масової інформації, які існували протягом тривалого часу – такі речі, як книги або, нещодавно, газети – ви побачите дуже стандартизований діалект мови, пов’язаний з елітною освітою і тому подібне”, – сказав Digital Trends Брендан О’Коннор, експерт з обробки природної мови в Університеті штату Массачусетс в Амхерсті. “Це не є специфічним для англійської мови: ви бачите це в кожній мові світу”.

Як зазначив О’Коннор, це більше не повинно бути так. Інтернет – і особливо соціальні мережі – відкрили багатий потік даних про різні діалекти, які можуть бути використані для навчання наступної хвилі систем НЛП. У новій роботі О’Коннор та інші дослідники створили найбільший набір даних для вивчення афро-американської англійської мови з онлайн-спілкування, що складається з 59 мільйонів твітів від 2,8 мільйона користувачів.

“Афро-американський діалект англійської мови має … мільйони носіїв і відрізняється від стандартної англійської кількома цікавими особливостями”, – сказала О’Коннор. “Він відрізняється настільки, що наші інструменти штучного інтелекту, які розроблені для стандартизованої англійської мови, працюють з ним гірше; вони менш інтелектуальні в розумінні цього діалекту. Сучасні класифікатори часто неправильно характеризують афро-американську англійську як “не англійську””.

У своїй роботі О’Коннор і його колеги показали, що правильно налаштовані системи НЛП здатні розуміти англійську мову афроамериканців. Автори планують випустити свою нову модель в наступному році, щоб краще ідентифікувати англійську мову, написану на цьому діалекті.

“Майбутній наступний крок полягає в тому, щоб зробити системи, які можуть робити більш глибокий аналіз

Source: digitaltrends.com

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *