«Кот Шрёдингера»

Дипфейк

фейковая вселенная
Чтобы изменить внешность, ещё десять лет назад нужны были грим, маска или пластическая операция. Сейчас достаточно нескольких кликов — и Илон Маск поёт: «Земля в иллюминаторе…», на месте Шарлиз Терон в рекламе духов появляется мистер Бин, портрет Моны Лизы оживает, и её фирменная улыбка вдруг теряет уверенность. Всё это стало возможным благодаря технологии deepfake, которая напрочь лишает уверенности в подлинности любого видео, зато открывает необыкновенный простор для творчества и приключений вашего цифрового клона в виртуальных мирах будущего.

Наивные вопросы


Дип… что?

Дипфейк — это видеоролик, в котором лицо одного человека подменяется другим при помощи алгоритмов машинного обучения. В этом слове соединены два понятия: глубокое обучение нейросетей (deep learning) и подделка (fake).

Как эта штука работает?

Есть несколько способов создать «обманку», но их объединяет общий принцип. Имя ему — GAN, генеративно-состязательная сеть (generative adversarial network). Это алгоритм машинного обучения, построенный на соревновании двух нейросетей. Одна зовётся Генератор, она создаёт фальшивки. Другая, Дискриминатор, выступает в роли эксперта, который пытается отличить подделку от оригинала. Чем лучше Генератор обманывает Дискриминатора, тем правдоподобнее выглядит дипфейк.

Кто создал первый дипфейк?

Пращуром дипфейков стал в конце ХХ века цифровой клон актёра — понятие, пришедшее из киноиндустрии. Внешность и голос умершего или живого актёра воссоздавали с помощью донейросетевой технологии CGI (computer-generated imagery — изображения, сгенерированные компьютером), получая виртуальную модель человека. Считается, что эра дипфейков началась в конце 2017 года, когда пользователь с ником DeepFakes выложил на Reddit несколько видео с контентом 18+. На них актрисам из видео для взрослых были «приделаны» лица голливудских звёзд. Технология быстро разошлась в интернете и запустила волну по созданию похожего контента. В недавнем исследовании нидерландская компания по кибербезопасности Deeptrace выявила, что ролики 18+ составляют 96% от общего числа дипфейков: на момент исследования их было около 15  тысяч во всей Сети.

Как простому человеку сделать дипфейк?

Это не так уж сложно. В сделанных с помощью алгоритма Face2Face видеороликах пользователи примеряют на себя лица знаменитостей. «Обманка» создаётся в режиме реального времени и искажает мимику выбранной звезды вслед за мимикой пользователя. В соцсети Reddit в январе 2018 года появилась похожая технология — приложение FakeApp. Российская разработка DeepFaceLab и приложение Reface позволяют вставлять лицо в видео, менять движение губ и саму речь.

Дипфейки опасны?

Кажется, уже да. Первые подобные видеоролики были плохого качества, и подделки легко распознавались, но технология быстро эволюционирует. По мере совершенствования дипфейков расширялось их применение в криминальной сфере. Теперь мошенники генерируют голос для звонков по телефону и создают компрометирующие видеоролики для шантажа. А в будущем? По прогнозам экспертов, дипфейки могут стать угрозой национальной безопасности. Повсеместный сбор биометрических данных создаёт дополнительные риски: фейковое изображение можно будет использовать вместе с фейковыми отпечатками пальцев или следами ДНК.

Кто же нас спасёт?

Социальные сети — Twitter, TikTok, Reddit — уже разрабатывают и применяют политику по защите пользователей от фальшивок. В некоторых странах вопрос с подделками решают на законодательном уровне. В Китае такие ролики маркируются, в некоторых штатах США, например в Калифорнии, запрещено распространять дипфейки с полтиками перед выборами. Во Франции ввели санкции за монтаж речи или изображения человека без его согласия.

Технология CGI помогла превратить актёра Билла Найи в настоящего морского дьявола © Buena Vista Home Entertainment


GAN: самоучитель для нейросетей

Как была создана и где применяется важнейшая из новых технологий машинного обучения

Однажды вечером докторант Монреальского университета Ян Гудфеллоу поспорил с друзьями за кружкой пива. Приятели поделились с ним идеей: они хотели создать нейросеть, которая будет придумывать лица никогда не существовавших людей. Получалось не очень. На сгенерированных изображениях не хватало то уха, то носа, а чаще все детали были на месте, но портрет больше походил на шизоидную аппликацию из вырезанных частей лица со странными пропорциями, чем на нормальную физиономию.

Ян Гудфеллоу © Apple Inc.

Разработчики планировали исправить болезненный творческий стиль нейросети, заставив её анализировать огромное число реальных фотографий. Но Гудфеллоу их высмеял. Для этого потребовались бы такие вычислительные мощности, которых у его приятелей просто не было. Так что у них ничего не получится, если только… Если только не создать вторую нейронную сеть, которая будет критиковать первую, а потом не стравить их, заставляя спорить, пока они не станут выдавать изображения нужного качества. На этот раз снисходительно улыбнулись уже друзья Гудфеллоу: какая только чушь не приходит в голову к концу вечера в знаменитом монреальском кабаке «Три пивовара»! На том и разошлись.

Но вместо того чтобы лечь спать и наутро забыть своё пьяное озарение, Ян Гудфеллоу пришёл домой и уселся за компьютер. Вскоре на свет появился алгоритм, который наделил машины даром воображения. Благодаря глубокому обучению они уже были способны видеть, слышать и распознавать. Дайте сети достаточное количество изображений, и она научится, скажем, отличать на снимках пешехода, который собирается перейти дорогу. Так появились автопилоты и Siri с Алисой.

Но как насчёт творчества — создания новой картины или симфонии? До GAN искусственный интеллект не был способен к творчеству. Новый алгоритм освободил человека от необходимости быть наставником для машин: благодаря соперничеству между двумя нейросетями система учится сама у себя. Это диалог антагонистов, работающих в одной команде, как если бы фальшивомонетчик всё более искусно подделывал купюры, а полицейский выискивал всё более тонкие способы опознать подделку. Обучение продолжается, пока алгоритм не начнёт путаться, где фальшивка, а где оригинал. Это означает, что машина научилась создавать нечто уникальное, но при этом неотличимое от реальности. Например, лицо никогда не существовавшего человека, которое вы не отличите от фото реальных людей. Разве не это называют творчеством?

Картинками и картинами, созданными искусственным интеллектом с помощью GAN, уже никого не удивить. Самая известная из них была продана на знаменитом лондонском аукционе Christie’s за 432,5 тысячи долларов. В названии «шедевра» — портрета некоего Эдмона Белами — угадывается привет отцу GAN: на французском bel ami означает «хороший друг». Примерно так переводится с английского фамилия Гудфеллоу.

Портрет Эдмона Белами © Christies.com

Детище Гудфеллоу помогло заработать не только художникам, но и специалистам по компьютерным спецэффектам. Раньше, чтобы создать вымышленную реальность, им требовались миллионы долларов, 3D-сканирование актёров и большие компьютерные мощности. Но чтобы поменять местами лица каскадёра и актёра, довольно ноутбука. С помощью GAN можно серьёзно улучшить качество изображения: нейросеть «додумывает» недостающие фрагменты, благодаря чему мы смотрим старые мультфильмы в HD-качестве, а медики могут во всех деталях разглядеть снимок, сделанный в плохом разрешении.

В 2017 году компания NVIDIA обучила нейронную сеть менять погоду и время суток на видео. Исследователи из Университета Карнеги — Меллона создали алгоритм, способный наложить мимику одного человека на лицо другого. А специалисты Вашингтонского университета научили нейросеть следить за тем, как человек на видео шевелит губами, сопоставлять его мимику со звуками, а затем превращать аудиозаписи в реалистичное видео. То есть голосового сообщения теперь достаточно, чтобы получить видео человека, который произносит эту речь. Разработчики из Facebook AI Research и вовсе обучили свою нейросеть распознавать движущегося человека на видео и произвольно менять его движения: управлять героем на видео можно так же, как персонажем в компьютерной игре. А можно ещё и фон вокруг поменять.

Визуализированная нейронная сеть © ars.electronica.art

GAN умеет работать в том числе с голосом: нейросетям достаточно послушать несколько минут записи, чтобы максимально достоверно подделать речь человека. Так мы и попали в дивный мир deepfake, в котором ничему нельзя верить. Пока ещё нейросеть оставляет массу цифровых следов, и специальные фильтры могут отличить оригинал от подделки. Но с каждым днём алгоритмы совершенствуются.

И всё-таки главное, что делает GAN, — это не перерисовывание лиц, а создание более самостоятельных машин. Пока ещё ИИ-программистам приходится подбирать нейросетям материал для обучения — например, сообщать, какие изображения содержат пешеходов, пересекающих дорогу, а какие нет. Но очень скоро нужда в этом отпадёт. Компьютеры будут гораздо лучше справляться с необработанными данными и смогут сами понять, чему им надо научиться. Недаром Ян Лекун, глава лаборатории искусственного интеллекта в Facebook, назвал GAN самой крутой идеей глубокого обучения за последние 20 лет.

Способность воображать и размышлять над различными сценариями — часть того, что делает нас людьми. И в этом смысле GAN приближает искусственный интеллект к человеческому.

Фальшивые звёзды

Что заставили делать и говорить знаменитостей создатели дипфейков — и как это меняет мир

Люк Скайуокер


Когда: 2020
Автор: Lucasfilm
Сюжет: в финальном эпизоде второго сезона сериала «Мандалорец» появляется молодой Люк, который забирает с собой Малыша Йоду.
Последствия: известный в YouTube дипфейкер Shamook решил посоревноваться с Disney и создал более правдоподобную версию помолодевшего Люка. Студия оценила талант и предложила сотрудничество. Ранее с помощью дипфейков умельцам компании удалось вернуть к жизни и нестареющую принцессу Лею.

© Disney, Shamook


Нэнси Пелоси


Когда: 2019
Автор: портал Politics WatchDogs
Сюжет: Пелоси, спикер палаты представителей конгресса США, произносит речь, но плохо выговаривает слова. Пользователи даже посчитали, что оппонентка президента Дональда Трампа (тогда между ними было личное противостояние) пьяна.
Последствия: Пелоси назвала видео «сексистским мусором». По её требованию YouTube удалил ролик, но в интернете остались его многочисленные копии. Досталось и самим Трампу с Обамой: в 2017‑м Барак назвал Дональда «засранцем» (deep shit), а «помогли» ему в этом режиссёр Джордан Пил и издание BuzzFeed.

© Politics WatchDogs

Сальвадор Дали


Когда: 2019 (к 115-му дню рождения)
Авторы: Музей Дали во Флориде и компания Goodby Silverstein & Partners из Сан‑Франциско
Сюжет: Дали приветствует гостей на специальном экране в одном из залов. Модель создавали на основе архивных материалов и видео с современными актёрами, похожими на художника. Голос Дали подарил артист с характерным испанским акцентом. 
Последствия: виртуальный Дали сопровождал посетителей музея на выставке Dali Lives. Мэтр жестикулировал, рисовал, шутил, рассказывал истории, общался со всеми желающими и делал с ними селфи. Чтобы добиться такого результата, создателям понадобилось более 6000 кадров с изображением художника  и 1000 часов машинного обучения.

© Goodby Silverstein & Partners

Том Круз


Когда: 2021
Авторы: Майлз Фишер (имитатор актёра) и Крис Юме (специалист по визуальным эффектам)
Сюжет: в серии роликов в TikTok Круз здоровается с пользователями, ударяет по мячу на поле для гольфа, рассказывает о встрече с Горбачёвым и показывает фокус с монеткой.
Последствия: видео набрали 8 миллионов просмотров, а алгоритмы не опознали их как подделки. Впрочем, до этого Майлз успешно копировал Круза и без технологических ухищрений. Например, в 2019 году он записал шуточное обращение от лица актёра на выборах.

Том Круз. Справа натуральный, слева фейковый © vfxchrisume.com

Фото обложки: shuttersv / Shutterstock

Опубликовано в журнале «Кот Шрёдингера» №1 (50) 2022 г.
/ Диктатура будущего #тренды