
Экспериментальную модель генерации видео с открытым исходным кодом VideoWorld обнародовал китайский технологический гигант ByteDance, сообщает 11 февраля издание Yicai.
В отличие от основных мультимодальных моделей, таких как Sora и DALL-E от американской компании OpenAI, которые генерируют видео на основе текста и подсказок, этот инструмент ИИ является первым в отрасли, способным распознавать и понимать мир через чисто визуальный ввод, такой как немаркированное видео, не полагаясь на текст или языковые модели.
Разработанный командой ByteDance Doubao Large Language Model (LLM), Пекинским университетом Цзяотун и Университетом науки и техники Китая, инструмент ИИ является частью академического исследовательского проекта, в рамках которого изучаются новые технические подходы, и еще не выпущен в качестве готового продукта, сообщили инсайдеры компании. По словам команды Doubao, эффективность извлечения знаний LLM из видеопоследовательностей значительно отстает от текстовых форм, в основном потому, что в видео много избыточной информации.
Это привело их к разработке VideoWorld, который способен обеспечить эффективное видеообучение за счет сохранения богатой визуальной информации и сжатия визуальных вариаций, возникающих в результате ключевых решений и действий. VideoWorld — не первый инструмент ИИ на основе видео, разработанный ByteDance. На прошлой неделе ByteDance заявила, что скоро выпустит еще один мультимодальный инструмент для создания видео под названием OmniHuman, который может генерировать видео ИИ только из одной фотографии и одного аудиоклипа.
Ранее пекинская компания также выпустила модель генерации текста в видео MagicVideo-V2 и общую мультимодальную модель UniDoc. Другие интернет-гиганты, такие как Alibaba Group Holding, Tencent Holdings и Kuaishou Technology, также недавно запустили инструменты генерации видео и раскрыли свои разработки в мультимодальной области.
По данным исследовательского отчета CITIC Securities, среди ведущих разработчиков мультимодальных LLM существует жесткая конкуренция. Жанр видео лучше соответствует потребностям конечных пользователей в развлечениях, особенно учитывая его сильную совместимость с индустрией короткого видео. Поэтому он обладает большим потенциалом для создания популярных приложений, хотя производительность моделей все еще нуждается в улучшении.
glavno.smi.today
Все новости:
glavno.smi.today
22042