В Китае создана нейросеть CogVideo, которая генерирует короткие видео по текстовому описанию
Китайские разработчики создали нейронную сеть под названием CogVideo, которая умеет генерировать короткие видеоролики по текстовому описанию. CogVideo умеет создавать видео с относительно высокой частотой кадров — на 4 секунды видео приходится 32 кадра.
На данный момент нейросеть уже может создавать видео по запросам «лев, пьющий воду», «женщина верхом на лошади в море», «мужчина ест пиццу» и так далее. Что касается принципа работы, то он похож на то, что задействовано в нейросетях DALL-E 2 и Imagine, которые создают изображения по текстовому описанию.
Утверждается, что по качеству работы даже предварительная версия CogVideo превосходит все общедоступные модели нейросетей. Пока что авторы не предствили ни исходных кодов программы, ни моделей для обучения собственных нейросетей.
А ранее учёные сообщили, что нейросеть в процессе работы создала свой язык, при этом специалисты не могут его расшифровать.