Видеоредактор Dumme с искусственным интеллектом создает YouTube Shorts за считанные минуты

Dumme, стартап, использующий искусственный интеллект для практического использования при редактировании видео, уже генерирует спрос, прежде чем открыться для публики. Компания, поддерживаемая Y Combinator, имеет сотни создателей видео, тестирующих свой продукт, который использует искусственный интеллект для создания коротких видеороликов из контента YouTube, и список ожидания из более чем 20 000 человек перед запуском, говорится в сообщении. Используя комбинацию как собственных, так и существующих моделей искусственного интеллекта, Дамме обещает, что он сможет не только сэкономить время на редактирование, но и — и в этом его главное требование — выполнять работу лучше, чем работающие по контракту (человеческие) сотрудники, которым часто поручают более черновую работу. работы по редактированию видео, такие как сокращение длинного контента для публикации на коротких платформах, таких как YouTube Shorts, TikTok или Instagram Reels.

Соучредитель и генеральный директор Dumme Мерване Драй, основанная в январе 2022 года и участвовавшая в программе стартап-акселератора Y Combinator Winter 2022, рассказала, что изначально его целью было создание поисковой системы для видео. Но около шести месяцев назад команда поняла, что лучшим продуктом было бы перепрофилирование тех же моделей искусственного интеллекта, которые они разрабатывали, для редактирования видеоклипов.

Вместе с соучредителями Уиллом Дальстромом (CPO) и Джорданом Брэннаном (CTO), имеющими опыт работы в области искусственного интеллекта, Драй понял, что Dumme, возможно, попал на правильный продукт, подходящий для рынка, после того, как их приложение стало вирусным, что привело к сбою их серверов.

«На самом деле мы не ожидали, что он получит большую популярность или что-то в этом роде, поэтому мы просто что-то выпустили», - объясняет Драй. «А потом произошло следующее: ночью мы проснулись и увидели, что серверы перегружены — типа, ничего на самом деле не работало. Поэтому мы все удалили и фактически составили своего рода список ожидания», — продолжает он. «На следующее утро мы, вероятно, проснулись и увидели там 5000 человек, и это было интересно».

Позже команда обнаружила, что создатель TikTok опубликовал короткое видео о продукте, что вызвало поток трафика на их сайт.

«На самом деле от этого он так и не успокоился», — отмечает Драй.

Продукт, который произносится как «пустышка», понравился создателям, поскольку его целью было упростить и ускорить работу, связанную с редактированием видео.

Кредиты изображений:Глупый

Использовать Dumme так же просто, как следует из названия. Для начала пользователь вставляет ссылку на видео YouTube, затем нажимает «Создать», и ИИ выводит несколько коротких видеороликов, демонстрирующих основные моменты из этого загруженного контента. Компания заявляет, что использует YouTube в качестве источника вместо поддержки необработанных видеоматериалов, чтобы передать модерацию контента на аутсорсинг — то есть, если это разрешено на YouTube, это разрешено и в Dumme.

Время обработки и количество полученных клипов будут зависеть от длины исходного видео.

Но, например, обработка часового видеоподкаста может занять около 20 минут, а клипы вы начнете получать примерно через пять минут, говорит Драй. По завершении авторы могут загружать видеоклипы, длительность которых по умолчанию составляет менее 60 секунд, и загружать их на любую платформу, поддерживающую короткий контент, например YouTube Shorts, а также на другие платформы, такие как Reels или TikTok.

Кредиты изображений:Глупый

Как все это работает на серверной стороне, конечно, гораздо сложнее. Компания заявляет, что первоначально Dumme узнает как можно больше из исходного видео через метаданные. Затем он расшифровывает видео и пытается понять смысл сказанного, одновременно просматривая кадры, чтобы попытаться расшифровать эмоции говорящего. Эти данные сопоставляются и передаются в языковую модель, которая пытается определить, какие части видео заслуживают вырезания. Затем это передается другой модели, которая отслеживает активные динамики и обрабатывает обрезку.

Дамм говорит, что работает с существующими моделями искусственного интеллекта, такими как GPT-4, доработанная версия Whisper и другими, созданными собственными силами — например, модель, которая отслеживает активные динамики в видеокадре. Одна из ее моделей также обучается на нескольких YouTube Shorts, чтобы узнать, что делает хороший вводный крючок для привлечения зрителей. И, хотя еще не запущена в эксплуатацию, команда также экспериментирует с моделью с открытым исходным кодом, LaViLa от Facebook Research, чтобы лучше понять контекст видео.