Разное

Відео гугл: Google представила свой ИИ для создания HD-видеороликов из текстовых подсказок — Gerwin AI на vc.ru

Содержание

Google научил нейросети генерировать видео по текстовому описанию

Исследователи из Google представили две модели машинного обучения, генерирующие видеозаписи по текстовому описанию: одна лучше справляется с короткими запросами, а другая синтезирует длинные ролики по более детальным описаниям. За несколько дней до этого аналогичный алгоритм представили исследователи из Meta. Три статьи с описанием алгоритмов (Imagen Video и Phenaki от Google, Make-A-Video от Meta) опубликованы на arXiv.org.

В середине 2010-х годов алгоритмы машинного обучения, работающие с визуальным контентом, в основном использовались для его улучшения. Например, были широко распространены приложения для обработки фотографий, такие как Prisma, которое «перерисовывало» снимки в заданном стиле. Затем благодаря развитию архитектуры генеративно-состязательных нейросетей стало появляться много алгоритмов, качественно генерирующих те или иные объекты с нуля, например, широкую известность получила нейросеть NVIDIA для генерации лиц несуществующих людей.

В последние пару лет активное развитие получило смежное, но другое направление: генерация визуального контента по текстовому описанию (Text-to-Image). В 2021 году широкую известность получила нейросеть DALL-E от OpenAI, а также связанная с ней нейросеть CLIP. DALL-E умела генерировать изображения не определенных классов, а произвольные, соответствующие текстовому описанию, которое дал пользователь. К примеру, ее можно было попросить нарисовать горный пейзаж, домашнее животное или даже сцену, которой, вероятно, никогда не существовало в действительности, например, астронавта на коне. Уже в этом году OpenAI показала вторую версию этого алгоритма, а вскоре свой аналог под названием Imagen выпустила и Google.

Затем настал следующий этап: исследователи в области машинного обучения начали изучать возможность генерации видео по текстовому описанию (Text-to-Video). Работы в этом направлении велись и раньше, но существенного прогресса удалось достичь лишь недавно. В мае нейросеть под названием CogVideo выпустили китайские исследователи, а теперь практически одновременно (с разницей менее, чем в неделю) исследователи из Meta и Google представили сразу три таких алгоритма, показывающих существенно лучшие результаты: Meta разработала алгоритм Make-A-Video, а Google создала Imagen Video и Phenaki.

Первыми из этой тройки алгоритмов вышел Make-A-Video. В его основе лежит Text-to-Image модель, основанная на архитектуре DALL-E 2. Она получает на вход текст, превращает его в эмбеддинг (сжатое векторное представление тех же данных) и подает его на декодировщик, который диффузионным методом формирует двумерное изображение.

От редактора

Диффузионные модели работают следующим образом. Сначала берется качественное изображение (например, фотография), на которое поэтапно добавляется все больше шума до стадии, когда на нем будет уже только случайный шум. Затем из таких наборов исходных и «испорченных» изображений создается датасет, на котором нейросеть учится выполнять обратную операцию: генерировать из шума качественное изображение. В 2021 году исследователи из OpenAI показали, что такой метод генерации работает лучше и эффективнее традиционных генеративно-состязательных нейросетей.

Чтобы научить алгоритм учитывать и временное измерение, разработчики модифицировали сверточные слои и слои внимания так, чтобы они генерировали на основе эмбеддинга не одно изображение, а сразу 16, причем так, чтобы объекты и их движения были согласованы между кадрами. После этого полученный набор из первичных кадров разрешением 64 на 64 пикселя пропускается через нейросети, интерполирующие кадры и повышающие их разрешение. На выходе получается видео длиной в несколько секунд и разрешением 768 на 768 пикселей.

Примечательно, что во время обучения не использовались пары «текст — видео». Вместо этого Make-A-Video обучалась на парах «текст — изображение» и неразмеченных видео. Алгоритм обучали на датасетах LAION-5B (с отфильтрованными изображениями для взрослых, фотографиями с токсичным текстом или водяными знаками), WebVid-10M и HD-VILA-10M. Авторы показали, что Make-A-Video превосходит CogVideo и другие аналоги как по количественным метрикам (FVD и IS), так и при оценке добровольцами. Кроме генерации новых видео с нуля алгоритм умеет «оживлять» изображения. Примеры генерации и интерактивные демонстрации опубликованы на сайте проекта.

С разницей всего в несколько дней исследователи из Google представили два аналогичных алгоритма для генерации видео по текстовому запросу. Первый из них основан на Text-to-Image модели Imagen и получил название Imagen Video. Во многом схема работы алгоритма аналогична Make-A-Video. Получая текстовое описание ролика, он с помощью кодировщика T5 формирует эмбеддинг, а затем с помощью диффузионной сети Videо U-Net, представленной ранее в этом году, генерирует 16 пространственно и временно согласованных между собой кадров разрешением 40 на 24 пикселя. После этого каскад нейросетей интерполирует кадры, увеличивая их количество до 128 (5,3 секунды при 24 кадрах в секунду), и повышает разрешение до 1280 на 768 пикселей.

Imagen Video обучался на собственном датасете Google, состоящем из 14 миллионов пар «текст — видео» (это важное отличие от Make-A-Video, который обучался без таких пар), а также 60 миллионов пар «текст — изображение». Кроме того авторы использовали датасет LAION-400M с парами «текст — изображение». В отличие от коллег из Meta, исследователи из Google не сравнили качество работы Imagen Video с CogVideo (и из-за почти одновременной публикации вряд ли имели возможность сравнить с Make-A-Video).

Результаты работы алгоритма можно увидеть на сайте проекта.

Вторая генеративная нейросеть от Google называется Phenaki. Она была представлена один день с Make-A-Video, но не получила такой широкой огласки от Google. Phenaki отличается от двух других описанных алгоритмов тем, что предназначена для генерации более длинных роликов по более длинному и детальному текстовому запросу. Авторы отмечают, что длина может достигать и нескольких минут (а теоретически длина не ограничена). Также алгоритм отличается и по схеме работы. Авторы взяли за основу трансформер-нейросеть ViViT, которая преобразует видео в пространственно-временные токены. Также они использовали текстовый трансформер T5X, который преобразует в эмбеддинги текст. Так исследователи свели проблему генерации видео по описанию к задаче переноса между двумя последовательностями, которую как раз эффективно решают нейросети типа трансформер. В результате получаются видео произвольной длины в разрешении 128 на 128 пикселей.

Phenaki обучали на 15 миллионах пар «текст — видео» и 450 миллионах пар «текст — изображение» (из них 400 миллионов из LAION-400M). Авторы сравнили работу алгоритма количественно с некоторыми аналогами и показали сравнимые результаты по FID. Примеры можно увидеть на сайте проекта.

Авторам всех трех работ удалось достичь большого прогресса в качестве генерации видео, в том числе его стабильности. Но, как это было и с большинством алгоритмов для генерации изображений, разработчики не опубликовали модели в открытом доступе, опасаясь, что такая технология может быть использована во вред.

Нейросети умеют не только генерировать контент по текстовому описанию. Весной канадские исследователи научили алгоритм искать по нему баги в играх, например, видео геймплея по запросу «Машина, летающая в воздухе».

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Google представила генератор видео по тексту на базе Imagen

06.10.2022 Марина Глайборода

#Google#Искусственный Интеллект#нейросети

Исследователи Google объявили о разработке системы искусственного интеллекта Imagen Video, способной по словесным запросам генерировать видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду.

Excited to announce Imagen Video, our new text-conditioned video diffusion model that generates 1280×768 24fps HD videos! #ImagenVideohttps://t.co/JWj3L7MpBU
Work w/ @wchan212 @Chitwan_Saharia @jaywhang_ @RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I

— Jonathan Ho (@hojonathanho) October 5, 2022

Инструмент базируется на алгоритме Imagen, являющемся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма».

Изображения, сгенерированные Imagen. Данные: Google.

Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения.

В результате алгоритм генерирует 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS.

Первый этап генерации видео Imagen Video. Данные: Google.Промежуточный этап генерации видео Imagen Video. Данные: Google.Готовое видео, сгенерированное Imagen Video. Данные: Google.

Для обучения Imagen Video разработчики использовали 14 млн пар «видео-описание» и 60 млн «изображение-текст», а также общедоступный набор данных LAION-400M, что позволило модели применять ряд эстетических аспектов.

Видео, сгенерированное Imagen Video. Данные: Google.

Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или переносить стиль Ван Гога. По их словам, Imagen Video продемонстрировал понимание глубины и трехмерности, что позволило ему генерировать видео, как будто записанные дроном.

Видео, сгенерированное Imagen Video. Данные: Google.

Также система умеет правильно отображать текст. 

«В отличие от Stable Diffusion и DALL-E 2, которые пытаются превратить запрос вроде “логотип для Diffusion” в читаемые слова, Imagen Video воспроизводит его без проблем», — говорится в документе проекта.

По словам ИИ-исследователя из Университета Альберты Мэтью Гуздиала, проблема преобразования текста в видео до сих пор не решена.

«Мы вряд ли скоро достигнем чего-то вроде DALL-E 2 или Midjourney по качеству [создания роликов]», — заявил он.

Чтобы убрать дрожание в видео и избавиться от искажений, команда Imagen Video планирует объединить усилия с разработчиками Phenaki. Это еще один генератор от Google, превращающий длинные подробные подсказки в двухминутные ролики низкого качества.

В Google также отмечают, что используемые для обучения данные содержали неприемлемый контент, из-за чего Imagen Video иногда создает клипы с изображением насилия или сексуального характера. Поэтому компания не планирует выпускать модель или ее исходный код до исправления проблемы.

Напомним, в сентябре энтузиаст разработал генератор анимации по тексту Stable Diffusion Video.

В августе TikTok представил инструмент создания фонов для видео по словесным запросам.

В июне китайские исследователи разработали трансформер CogVideo с 9 млрд параметров для преобразования текста в анимацию.

Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!

Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Google Meet: онлайн-видеоконференции и встречи


Изменения в Google Meet

In Verbindung bleiben

Dank unkomplizierter Terminplanung, einfacher Aufzeichnung und Adaptive Layouts bleibst du in Kontakt.

Bildschirm freigeben

Du kannst deinen gesamten Bildschirm oder ein Fenster teilen, um Dokumente, Folien oder Tabellen zu präsentieren.

Große Videokonferenzen abhalten

Du kannst zu deinen Videokonferenzen bis zu 500 interne oder externe Teilnehmer einladen.

Per Telefon teilnehmen

Du kannst über die Google Meet App and einer Videokonferenz teilnehmen oder dich über die Einwahlnummer in der Einladung zur Besprechung auch einfach per Telefon einwählen.

Alles im Griff

Google Meet-Videokonferenzen sind sicher. Der Organisator bestimmt, wer an der Videokonferenz teilnehmen darf, und nur zugelassene Nutzer dürfen sich zuschalten.

Interne Veranstaltungen streamen

Du kannst Veranstaltungen wie Town-Hall-Meetings und Vertriebstagungen als Livestream an bis zu zu zu zu 100.000 Zuschauer in deiner Domain übertragen.

Die Häufigsten Fragen

Hangouts Meet и Hangouts Chat были добавлены в апреле 2020 года в Google Meet и Google Chat. В 2019 году появились новые продукты Google Meet и Google Chat. Weil wir allen Nutzern Professional Videokonferenzen ermöglichen möchten, haben wir im Mai 2020 eine kostenlose Version von Google Meet angekündigt.

Я. Bei Google Meet kommt die sichere Infrastruktur von Google Cloud zum Einsatz. Dadurch sind deine Informationen und deine Privatsphäre geschützt. Weitere Informationen zu unseren Datenschutzverpflichtungen, Sicherheitsvorkehrungen und Datenschutzmaßnahmen findest du hier.

Selbstverständlich. Bei der kostenlosen Version von Google Meet müssen sich alle Teilnehmer mit einem Google-Konto anmelden. Wer kein Google-Konto hat, kann mit einer geschäftlichen oder privaten E-Mail-Adresse eines erstellen.

Google Workspace-Kunden können auch Teilnehmer on Google-Konto zu Videokonferenzen einladen. Teilen Sie dazu einfach den Link oder die Besprechungs-ID mit allen eingeladenen Gästen.

Jeder Nutzer mit einem Google-Konto hat die Möglichkeit, kostenlos Videokonferenzen zu erstellen und bis zu 100 Personen dazu einzuladen. Diese Videokonferenzen können maximal 60 Minuten dauern.

Weitere Informationen zu zusätzlichen Funktionen wie internationalen Einwahlnummern, Aufzeichnung von Videokonferenzen, Livestreaming und Verwaltungseinstellungen finden Sie unter Abos und Preise.

Jede Besprechung erhält einen speziellen Besprechungscode mit einer Ablaufzeit. Wie Lange der Code gültig ist, hängt davon ab, in welchem ​​Workspace-Produkt die Besprechung erstellt wird. Weitere Informationen

Google Meet wird genau wie unsere anderen Produkte regelmäßig durch unabhängige Stellen auf Sicherheit, Datenschutz und Compliance hin überprüft. Anhand von Zertifizierungen, Compliance-Attestierungen und Prüfberichten können wir belegen, dass wir weltweite Standards erfüllen. Unsere globale Liste mit Zertifizierungen und Attestierungen findest du hier.

Die Einstellungen for die Google Workspace, beispielsweise, ob Google Meet Standardlösung for Videokonferenzen in Google Kalender ist, wird von IT-Administratoren festgelegt. Weitere Informationen dazu, wie du Google Meet для актива организации, найти в Google Workspace-Admin-Hilfe.

Лучшие практики поисковой оптимизации видео | Центр поиска Google | Документация

Видео — это растущий формат для создания и использования контента в Интернете, а индексы Google видео с миллионов разных сайтов для показа пользователям. Видео может отображаться в нескольких различных места в Google, включая главную страницу результатов поиска, результаты поиска видео, изображения Google, и откройте для себя:

Оптимизируйте свои видео для показа в Google, следуя этим рекомендациям:

  1. Помогите Google найти ваши видео
  2. Убедитесь, что ваши видео могут быть проиндексированы
  3. Разрешить Google извлекать файлы видеоконтента
  4. Включить определенные функции видео
  5. Удаляйте, ограничивайте или обновляйте свои видео по мере необходимости

Помогите Google найти ваши видео

  • Убедитесь, что каждое видео доступно на общедоступной веб-странице где пользователи можно посмотреть видео. Убедитесь, что страница не заблокирована файлом robots.txt. или робота noindex метатег; это гарантирует, что Google сможет найти и проиндексировать вашу страницу.
  • Чтобы сделать ваши видео максимально доступными, создайте отдельную страницу для каждого видео , где видео является наиболее заметной темой на странице. Некоторые функции требуют такого типа страница с видео, включая ключевые моменты, прямую трансляцию Значок и другие форматы расширенных результатов. Можно включить одно и то же видео в оба выделенная страница и ее исходная страница вместе с другой информацией, такой как новостная статья или страница сведений о продукте.

  • Включите свое видео в соответствующий тег HTML . Google может легче идентифицировать видео на вашей странице, если вокруг него есть тег HTML, например: , <вставка> ,