Генеративна змагальна мережа: альтернативне обличчя v. 1.1

catalogue of articles 8 ноября, 2019

Цього року на YouTube з’явилося відео, на якому Франсуаза Арді, французька співачка, пояснювала, чому президент США Дональд Трамп змусив свого прес-секретаря Шона Спайсер збрехати про чисельність натовпу під час інавгурації. Спайсер, за її словами, привів «альтернативні факти» щодо цього.
І все б нічого, але Франсуаза Арді, якому зараз 73, має вигляд 20-річної, а голос, що виходить з її вуст, належить радниці Трампа Келлиенн Конвей.
Відео під назвою «Альтернативне обличчя v. 1.1» скачав німецький художник Маріо Клингман. Цифровий привид Франсуази Арді в ньому озвучує інтерв’ю Келлиенн Конвей каналу NBC. Відео неякісне, хитке і пикселированное. Але Клингман навмисне не завдав собі клопоту з графічними редакторами, щоб продемонструвати можливості цифрового алгоритму під назвою «генеративна змагальна мережа» (Generative adversarial network, GAN). Адже відео автоматично згенерувала комп’ютерна програма на основі старих музичних кліпів Франсуази Арді. Це – реалістична запис того, що насправді ніколи не відбувалося.
Експеримент Клингмана є передвісником похмурого майбутнього, в якому неможливо буде відрізнити істину від омани. Віра в правдивість написаного слова все більше піддається атакам від того, що ми називаємо фейковими новинами. Але фото – і відеодокази для багатьох людей ще досі залишаються чимось внутрішньо правдивим.
GAN – це початок технологічної хвилі, яка має всі шанси зруйнувати.
Підробити голос – найпростіше. Комп’ютерна програма може згенерувати голос будь-якої людини. Для цього їй достатньо послухати його запис, вона, отже, розбиває на микрофрагменты, що комбінує в слова і пропозиції. Щоб зімітувати голос Трампа, достатньо передати машині записи його промов і продиктувати текст, який ви б хотіли вкласти йому в уста. Такі технологічні компанії, як британська DeepMind, Інститут глибинного навчання китайського цифрового гіганта Baidu і Інститут цифрових алгоритмів в Монреалі, вже створили дуже реалістичні алгоритми цифрового мовлення. Правда, вони ще вимагають обчислювальних потужностей, які сьогодні доступні тільки великим компаніям, але це може змінитися вже в найближчому майбутньому.
Створювати штучні зображення дещо складніше. Програму GAN в 2014 р. створив студент Інституту цифрових алгоритмів Йен Гудфеллоу під керівництвом одного з піонерів технології глибинного навчання Йошуа Бенджио. Хоча попередні алгоритми машинного навчання дозволяли комп’ютерів досить легко розрізняти малюнки, наприклад, кота і собаки, програмі ніяк не вдавалося згенерувати правдоподібне зображення тварини на основі тренувальних ілюстрацій в її пам’яті.
Щоб вирішити цю проблему, Гудфеллоу використовував звичну для людського суспільства ідею – змагання. Замість того, щоб вимагати від програми створити щось у вакуумі, він доповнив її цифровим противником, який інспектував згенеровані зображення і вирішував, наскільки вони правдиві. Відштовхуючись від супротивника, програма зрештою навчилася створювати досить точні зображення.
Сьогодні GAN може згенерувати невеликі, розміром з марку, зображення птахів. Скажіть програмі, що вам потрібна біла пташка, у неї повинно бути небагато чорного на голові і крилах і довгий помаранчевий дзьоб, – і машина намалює таку пташку спеціально для вас. Малюнки, звичайно, ще далекі від ідеальних, але на перший погляд здаються цілком правдивими.
Хоча зображення птахів розміром з марку мають мало шансів перевернути суспільство, речі швидко змінюються. За минулі п’ять років програми, які працюють на таких же алгоритмах, дозволили зменшити кількість помилок при розпізнаванні фотографій з 25% до кількох відсотків. Майк Тука, художник, який працює з програмами машинного навчання в лабораторії Google, зумів створити зображення людського обличчя з роздільною здатністю 768 пікселів на дюйм, що вдвічі перевищує всі попередні досягнення.
Гудфеллоу очікує, що вже через три роки настане навала на YouTube штучних відео, які неможливо відрізнити від справжніх. Інші дослідники говорять про більш тривалі терміни, проте всі сходяться на думці, що це питання «коли», а не «якщо». «Я думаю, що штучний інтелект змінить зміст доказів, яким ми звикли довіряти», – каже Гудфеллоу.
Технології, однак, породжують не тільки нові види фейків, але і способи боротьби з ними. Один із способів верифікації полягає в можливості завантажувати файли з вихідними даними про те, коли, де і як вони були зняті. Ця інформація дає можливість вилучити помилкову фотографію або відео на основі, наприклад, розбіжності з відомими місцевими умовами зазначеним часом.
Компанія NVIDIA, яка виробляє чіпи, на яких працює багато технологій у сфері штучного інтелекту, в 2014 р. проаналізувала фото висадки «Аполлона-11» на Місяць. Симулюючи поширення світла, фахівці NVIDIA довели, що дивні відблиски на скафандрі База Олдріна насправді є сонячним світлом, відбитим поверхнею Місяця, а не, як думають прихильники теорії «місячного змови», вогнями знімальної апаратури Голлівуду. Інший спосіб визначення справжності відео – криптографія. Апаратура, яка знімала відео, може зашифрувати в нього унікальний ключ, який засвідчує його автентичність.
У Міжнародній амністії вже тривалий час мають справу з деякими з цих проблем. В її лабораторії перевіряють зображення і відео зі сценами порушення прав людини. Використовуючи дані Google Earth, її фахівці перевіряють фонові ландшафти і визначають, чи є та чи інша фотографія або відео були зняті саме в тому місці, а не де-небудь. Крім того, за допомогою пошукової системи Wolfram Alpha вони відстежують погодні умови і визначають, чи збігаються вони з умовами на відео. Як правило, до Амністію потрапляють старі докази, які видають за нові, проте тепер їм доведеться мати справу і з штучно згенерованими.
Історія підроблених знімків така ж давня, як і історія фотографії. «Незважаючи на презумпцію правдивості, яка наділяє всі фото авторитетністю, робота фотографа часто не є винятком із хиткою комерції між мистецтвом і правдою», – пише Сьюзан Зонтаг у своїй книзі «Про фотографії». Але цифрові технології виводять цю «комерцію» на вищий рівень: трудомісткий процес наведення об’єктива на реальність тепер можна взагалі пропустити.

Вам также понравится

6 розумних пристроїв, на фоні яких Google Glass виглядають абсолютно звичним явищем

Вчені пролили світло на те, чому літій-іонні батареї іноді переживають бум

Polaroid запускає нові 3D-принтери та ручки для моделювання на CES 2017