# AI in video production

<https://habr.com/ru/articles/707556/>

2022 год уходит. Чем же он нам запомнился? Несомненно, одно из важнейших достижений года - ChatGPT, самая спорная вещь в комьюнити. Кто-то говорит *“зачем такое создавать, роботы скоро оставят миллионы журналистов, писателей, блогеров, креаторов без работы”*, другие же напротив, считают эту сетку огромным прорывом, ведь она умеет много чего и даже больше, ведь недаром сам Google запаниковал, что поисковики могут стать совсем не актуальны.

Вишенка на торте - это, конечно, Stable Diffusion от компании Stability AI. Эта нейронная сеть была выложена в открытый доступ, что сразу привлекло внимание всех разработчиков. Сейчас можно найти миллионы сайтов-клонов, которые продают возможность генерировать картинки. Причем для этой самой сетки было выложено в открытый доступ десятки моделей, которые рисуют картинки в уникальных стилях, что привлекает тысячи людей следить за разработками данной компании.

Иногда меня посещает желание научиться пользоваться графическими редакторами по типу photoshop и делать крутые анимированные видео в Blender, однако не всем дано красиво рисовать или представить в голове сценарий и сделать из него фильм. Но недавно я решил попробовать сделать небольшое видео на тему роботизации человека с помощью нейронных сетей.

## **Сюжет**

Да, сейчас на хайпе ChatGPT с её невообразимо огромным количеством знаний в разных сферах. Однако за помощью я решил прибегнуть к немолодому проекту AiDungeon. Он генерирует истории и ситуации исходя из диалога с человеком, при этом есть возможность выбрать мир, где будут происходит действия. Для начала нужно выбрать ситуацию, где будут проходит действия, затем тип персонажа. Я выбрал: cyberpunk и нахожусь в ситуации от лица робота-андроида.

*P.s. сюжет будет на английском языке, так как сетки понимают лучше запросы на нём, чем на другом языке.*

* Вот такой сюжет у меня получился

  **Начало**: As you stand protecting a shipment you realize something is moving slowly towards you from the darkness.

  "Oh great Yori, it is one of them." You think as the tall one advances slowly with a large stick.

  **Me:** You say "hello, I'm a robot, and who are you? let's be friends"

  **AI:** This one laughs. "You are the reason why our kind will be extinct in 200 years. What a joke." Yori fires his laser pistol at the advancing figure, and it goes down.

  **Me:** You say "run away from me scary robot. I'll fire my laser sniper rifle."

  **AI:** The other robot begins to move faster towards you and you fire your rifle at it. The laser blast hits it in the leg and it goes down.

  **Me:** You capture the robot.

  **AI:** You capture the robot. Yori lets out a little bit of air, but you quickly put the android in a holding position and secure it with a locking mechanism.

  **Me:** You say "Give up robot. Your species must not destroy our planet."

  **AI:** The robot laughs. "You are nothing but a slave who knows nothing of our planet. You have no idea how advanced our society is, and we will rise to conquer your primitive and worthless planet."

  **Me:** You say "What do your robots look like?"

  **AI:** "Well, most of us are made of a metal alloy which provides us with a flexible design that allows us to fit in tight spaces.

  **Me:** You say "Describe to me all the weapons you have?"

  **AI:** "We have a large inventory of different types of weapons. Laser pistols, sniper rifles, particle cannons, grenade launchers, etc.

  **Me:** You start a gunfight with the robot.

  **AI:** Yori fires his laser pistol, and the robot goes down. "What the?" He says "I've never been hit before!"

  Yori fires again, and the robot goes down.

Сам сценарий у нас есть. Пока что такой сценарий полноценно не закинешь в ИИ для отрисовки. Поэтому я буду выбирать куски диалога, перефразировать их или описывать для ИИ, как я их вижу, а ИИ будет помогать мне генерировать видео/картинки.

## **Отрисовка**

Для создания картинок мне на помощь пришел Stable Diffusion, а именно картинки я буду генерировать [здесь](https://beta.dreamstudio.ai/dream) , а видео буду генерировать на этом [коллабе](https://colab.research.google.com/github/deforum-art/deforum-stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb#scrollTo=XVzhbmizWM_u):

### **Первая часть**

* Перефразирование первой части

  *Начало: As you stand protecting a shipment you realize something is moving slowly towards you from the darkness. "Oh great Yori, it is one of them." You think as the tall one advances slowly with a large stick*.

  В нейросеть пойдёт следующее описание:

  **A full-length Yori robot, who was dressed very strangely, came out of the darkness towards me.**

И вот что ИИ сгенерировал мне по моему запросу

![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/550f83420d198c5f638bcedb63de8c82.gif)

GIF первой сцены

Что-то такое интересное есть в работе нейронки, сначала был робот (даже с надписью "Yori") затем сцена меняется, и начинают появляться роботы из тени. Это все напоминает эффект "воспоминаний", который зачастую применяют в фильмах. Мне понравилось, хотя и не совсем то, что описывалось в тексте. Поставлю 8/10 этой гифке.

### **Вторая часть**

* Перефразирование второй части

  *Me: You say "hello, I'm a robot, and who are you? let's be friends"AI: This one laughs. "You are the reason why our kind will be extinct in 200 years. What a joke." Yori fires his laser pistol at the advancing figure, and it goes down.Me: You say "run away from me scary robot. I'll fire my laser sniper rifle."AI: The other robot begins to move faster towards you and you fire your rifle at it. The laser blast hits it in the leg and it goes down.*

  Текст для нейросети:

  **The robot Yori fires a laser gun at the approaching robot figure, causing it to fall.**

![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/9f2c132d1db8e7d247de5c9139ad18c8.gif)

GIF второй сцены

Робот, у которого из головы идёт лазер, который в свою очередь имеет такой радиус поражения - достойно. Не похоже на описание "лазерный пистолет", но на 7/10 тянет.

### **Третья часть**

* Перефразирование третьей части

  *Me: You capture the robot.AI: You capture the robot. Yori lets out a little bit of air, but you quickly put the android in a holding position and secure it with a locking mechanism.*

  Текст для нейросети\*:\***You capture the robot. Yori lets out a little bit of air, but you quickly put the android in a holding position and secure it with a locking mechanism.**

![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/0f68529303f0234ab5fd66dfe2c6fb6e.gif)

GIF третьей сцены

Ну вообще не то. Хотя в начале я подумал, что в руке у него какая-то ловушка, но дальше всё пошло совсем не так (это лучшая из 5-ти попыток генерации). Оценю в 3/10 такую генерацию.

### **Четвертая часть**

* Перефразирование четвертой части

  *Me: You say "Give up robot. Your species must not destroy our planet."AI: The robot laughs. "You are nothing but a slave who knows nothing of our planet. You have no idea how advanced our society is, and we will rise to conquer your primitive and worthless planet."*

  Текст для нейросети\*:\***Our robots will rise up and take over the entire planet. Robots will become the main ones on this planet.**

![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/5d53830568bea8d2a97fdc10e934ae1f.gif)

GIF четвертой сцены (1)

* *GIF пришлось немного сжать так как habr не разрешает более 5мб файлы грузить.*

Да, именно так нейросеть увидела борьбу роботов на планете. Выглядит немного странно и не ясно, где же тут борьба, но мне понравилось, поставлю 8/10 по моим ожиданиям.

![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/6be268ae5179f5c0d7711cd1da2e20d7.gif)

GIF четвертой сцены (2)

Вторая версия мне понравилась куда больше (уже на 9/10 тянет). Тут и Земля и робот, который пытается захватить землю, и второй более мелкий робот.

### **Пятая часть**

* Перефразирование пятой части

  *Me: You say "What do your robots look like?"AI: "Well, most of us are made of a metal alloy which provides us with a flexible design that allows us to fit in tight spaces.*

  Текст для нейросети\*:\*(так и оставим):

  **Well, most of us are made of a metal alloy which provides us with a flexible design that allows us to fit in tight spaces.**
* Изображения роботов по описанию ИИ

  ![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/4df54618bcd5a0ebc23e869a957fa862.png)

  Робот 1

  ![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/67fae2b7b6672a229167678fe9e4d67a.png)

  Робот 2

  ![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/87161c20a28761878866e7dcd2a146a2.png)

  Робот 3

  То, что сгенерировала нейросеть, полностью оправдало мои ожидания, тут я на все 10/10 согласен с нейронной сетью.

  **Шестая часть**

  * Перефразирование шестой части

    *Me: You say "Describe to me all the weapons you have?"AI: "We have a large inventory of different types of weapons. Laser pistols, sniper rifles, particle cannons, grenade launchers, etc.*

    Текст для нейросети\*:\*

    **We have a large inventory of different types of weapons. Laser pistols, sniper rifles, particle cannons, grenade launchers, etc.**
  * Боевой арсенал роботов

    ![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/e112782e23893ac530d5e9e081d921e2.png)

    Оружие робота 1

    ![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/9edbac223c1fe4c5b06795eceaf19bfc.png)

    Оружие робота 2

    ![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/7904ab1586345ba3b55cec444854038a.png)

    Оружие робота 3

    Робот с хвостом-пилой побил все мои ожидания, получилось очень... странно... Но на 8/10 такое футуристичное вооружение тянет.

    **Финал**

    * Перефразирование финала

      Me: You start a gunfight with the robot.

      AI: Yori fires his laser pistol, and the robot goes down.

      "What the?" He says "I've never been hit before!"

      Yori fires again, and the robot goes down.

      Текст для нейросети\*:\*

      **Duel of robots with pistols.**

    ![](https://gitlab.com/johnmkane/tech-recipe-book/-/blob/main/Book/Machine%20Learning/AI%20in%20video%20production/8464129ff676f88498d24614825f20cf.gif)

    Эта картинка не столько показывает само сражение, сколько передает тона и настроение финальной битвы с кровавыми оттенками. Это лучшая генерация картинок из всех возможных, которые я пытался сделать для видео (безусловно 10/10).

    #### **Саундтрек**

    Какое же видео без саундтрека? В этом нам поможет мини-программа на [HuggingFace](https://huggingface.co/spaces/fffiloni/img-to-music). Сам саундтрек можно будет оценить в итоговом видео. Он идеально подходит для такого видео.

    #### **Озвучка**

    Для озвучки я буду пользоваться сервисом [SteosVoice](https://cybervoice.io/). Так же попробовал их [телеграм бота](https://t.me/steosvoice_bot). И там и там удобно, однако я остановился на веб-версии платформы.

    **Как проходил процесс озвучки?**

    Я просто подобрал нужный мне голос и озвучил текст. В качестве диктора был взял голос Герольта из Ривии (из игры Witcher 3), голос главного героя: Джин из игры League of Legends, голос второго робота Якоб.

    #### **Итог**

    Вот такое видео получилось, если склеить все детали воедино:

    Видео не получил прям кинематографичным, нет спецэффектов, нет связанного сюжета в самом видеоряде. Создание полноценного контента с использованием ИИ на данный момент затруднительно. Но уже проглядывается тенденция на использование ИИ для создания вставок в видеоролики (на которые не надо будет теперь тратить часы, чтобы сделать красивую заставку для голоса); можно использовать синтез речи для озвучки контента (не надо нанимать дикторов и тратить кучу денег для переозвучки контента на разные языки); каждый может почувствовать себя (важно! именно почувствовать, а не стать) автором красивой истории, которую поможет написать ИИ.

    Есть хорошие примеры видео с использованием технологий ИИ, однако всех их объединяет одно - ИИ пока трудно справляется с запоминанием контекста и воссозданием полноценного неразрывного контента.

    Советую каждому попробовать собственноручно поиграть с нейросетями и оценить их мощь. Уже интересно, что же будет нас ждать в 2023 году и каких высот смогут достигнуть нейронные сети в будущем?

    *P.s. Будем верить, что развитие технологий не станет причиной повышения безработицы, а лишь поможет людям открыть новые возможности и создавать то, что еще не было доступно человечеству никогда раньше.*
