В начале года волна мультимодальных обновлений шла очень быстро: 31 января Куайшоу выпустил Kling 3.0, 7 февраля ByteDance представила Seedance 2.0, 10 февраля — Seedream 5.0 и Qwen-Image-2.0 от Alibaba, что дополнительно укрепило базу для «текст-из-изображения/редактирования изображений».
Исследовательский институт Huachuang Securities, Яо Лэй, 12 числа в отчёте дал очень прямую оценку — генерация видео больше не просто демонстрация возможностей, а эволюционирует в инструмент, интегрируемый в рабочие процессы: «AI-генерация видео переходит от развлечений типа лотереи к точному промышленному производству». Причина задержки коммерциализации — в маргинальных издержках, вызванных «коллекцией карточек»: одинаковые запросы требуют многократного повторного генерации и доработки, а уровень отходов съедает время и бюджет.
Основной акцент обновлений Kling 3.0 и Seedance 2.0 — не только в качестве изображения, а в повышении управляемости: согласованность объектов между кадрами, семантическое следование сложным инструкциям и возможность редактировать после генерации — всё это снижает уровень отходов. В отчёте делается вывод: технологический прорыв создаёт основу для масштабируемых рабочих потоков на стороне B2B, и такие сферы, как электронная коммерция, короткометражные/мультфильмы, почувствуют это раньше.
Далее, в отчёте выделены два уровня влияния: один — продуктовая дифференциация — ByteDance больше занимается «эффективной инфраструктурой», а Kuaishou — «профессиональным повествованием»; другой — революция на стороне предложения, которая пересчитывает структуру издержек — маргинальные издержки производства контента всё больше напоминают издержки на вычислительные ресурсы. В инвестиционной логике это отражается в направлениях — IP-контент, авторские права, инструменты/модели AI для видео, а также облачные и платформенные потребности.
Что действительно решено — это снижение непредсказуемых затрат, вызванных «коллекцией карточек»
Отчёт неоднократно подчёркивает логическую цепочку: раньше AI-генерация видео была трудно коммерциализируемой не из-за невозможности сделать, а из-за нестабильности результата. Одни и те же сценарии, материалы и подсказки приводили к значительным колебаниям качества, что заставляло создателей многократно перегенерировать, и уровень маржинальных издержек выходил из-под контроля.
Отчёт считает, что новая генеративная модель важна тем, что «сдвигает» способность к генерации назад, а управляемость выводит на передний план: благодаря нативной мультимодальной архитектуре, согласованию инструкций и усилению согласованности объектов/семантики, уровень отходов снижается, и общие затраты на производство видео уменьшаются. Барьер для коммерциализации переопределяется — теперь это вопрос стабильности доставки, а не технической возможности.
Клиентская версия Kling 3.0 делает ставку на «киношное ощущение»: физическая реалистичность и длинная логическая нарративность — в приоритете
Ключевые слова Kling 3.0 — это два аспекта: системное обновление базовых возможностей и интеграция генерации и редактирования (Omni).
На видео стороне обновления сосредоточены на: повышении согласованности объектов при многокадровых/последовательных сценах; более тонком анализе сложных текстовых команд; снижении путаницы при одновременном присутствии нескольких персонажей, с акцентом на «точное отображение текста и визуальных ролей» (включая мультиязычность, диалекты, естественные мимики и речь).
Режим Omni — ещё одно важное изменение: возможность локально управлять и редактировать уже сгенерированный контент, уменьшая необходимость «перегенерации с нуля». В отчёте также выделены две более профессиональные функции: первая — создание видеоперсонажей (выделение черт, подгонка голоса, точное управление мимикой); вторая — встроенная настройка сцен, с увеличением времени генерации до 15 секунд, что позволяет задавать длительность, ракурсы, сюжетные элементы и движения камеры на уровне кадра.
На изображениях Kling 3.0 рассматривается как часть «рабочего процесса»: поддержка до 10 референсных изображений для фиксации контуров, ключевых элементов и цветовой гаммы; возможность свободного добавления/удаления элементов из нескольких референсов; поддержка пакетной генерации для сторибордов и материалов; а также улучшенное качество вывода и детализация.
Seedance 2.0 превращает видео в «настраиваемый» промышленный инструмент
Отчёт позиционирует Seedance 2.0 скорее как «стандарт промышленного уровня»: в основе — более строгие физические законы, естественные движения, точное понимание команд и стабильность стиля; выделяются три ключевые возможности — оптимизация согласованности (от лица, одежды, шрифтов, сценовых переходов); воспроизведение сложных движений и ракурсов с высоким уровнем управляемости; точное воспроизведение креативных шаблонов и эффектов.
Особое значение имеет интерактивный режим. В отчёте говорится, что Seedance 2.0 использует обозначения типа «@имя_ресурса» для указания назначения изображений/видео/аудио, что фактически разбивает «черный ящик» генерации на управляемый производственный процесс: модель может отдельно извлекать «@кадр» для движения камеры, «@изображение» для деталей, «@звук» для ритма, что значительно снижает уровень отходов.
Ограничения и возможности использования более приближены к «производственным требованиям»: поддержка до 9 изображений; до 3 видео, суммарной длиной не более 15 секунд; до 3 MP3, также не более 15 секунд; максимум 12 файлов на входе; длительность генерации — до 15 секунд (опционально 4-15 секунд); есть встроенные звуковые эффекты и музыка. Входные материалы организуются по разным схемам — «начальная и конечная рамка» или «всеобъемлющий референс».
ByteDance делает ставку на «эффективную инфраструктуру», Kuaishou — на «профессиональное повествование», а Alibaba — на вертикальные сценарии
Отчёт не фокусируется на «рейтингах» или сравнении по скорости, а больше на стратегических направлениях компаний.
Он выделяет 路线 ByteDance как инструментарий с низким порогом входа, низкими затратами и универсальностью, похожий на расширенную версию «剪映», цель — снизить издержки производства контента по всей сети и поддержать экосистему; Kuaishou — делает ставку на физическое моделирование, реализм сложных сцен и согласованность ролей, больше подходит для профессиональных проектов, таких как кино и сериалы; Alibaba — вектор на высокоточные обновления моделей для изображений в вертикальных сценариях (электронная коммерция), усиление возможностей цифровизации товаров.
Эти три направления не предполагают одинаковую бизнес-модель: одна — масштабное производство, другая — высококачественное повествование, третья — вертикальные индустрии с «готовностью к производству».
Революция на стороне предложения: маржинальные издержки приближаются к издержкам вычислений, а IP становится более редким
В бизнес-расчётах отчёт показывает, что «революция на стороне предложения» очень амбициозна: после повышения возможностей изображений и видео, маргинальные издержки производства всё больше будут приближаться к издержкам на вычислительные ресурсы.
Краткосрочно он выделяет два тренда: повышение эффективности производства материалов для маркетинга и электронной коммерции, что улучшит рентабельность; возможен взрыв производства в сегментах короткометражных и коротких сериалов. В долгосрочной перспективе акцент смещается на IP — поскольку контент становится проще в производстве, ценность будет сосредоточена на IP: ведущие IP и их производные получат более высокую оценку, а средние IP могут через AI-видео получить новую ценность. В то же время крупные игроки с мощной инфраструктурой облаков и платформами с замкнутым циклом трафика получат прямую выгоду от частых вызовов и интеграции.
Риск-менеджмент и отказ от ответственности
Рынок подвержен рискам, инвестировать нужно осторожно. Настоящий материал не является индивидуальной инвестиционной рекомендацией и не учитывает специфические цели, финансовое положение или потребности конкретных пользователей. Пользователи должны самостоятельно оценить соответствие приведённых мнений и выводов своей ситуации. За инвестиционные решения ответственность несёт сам пользователь.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Мульти-модальный «Deepseek момент» и дифференциация крупных компаний: ByteDance — «эффективность», Kuaishou — «профессионализм», Alibaba — «электронная коммерция»!
В начале года волна мультимодальных обновлений шла очень быстро: 31 января Куайшоу выпустил Kling 3.0, 7 февраля ByteDance представила Seedance 2.0, 10 февраля — Seedream 5.0 и Qwen-Image-2.0 от Alibaba, что дополнительно укрепило базу для «текст-из-изображения/редактирования изображений».
Исследовательский институт Huachuang Securities, Яо Лэй, 12 числа в отчёте дал очень прямую оценку — генерация видео больше не просто демонстрация возможностей, а эволюционирует в инструмент, интегрируемый в рабочие процессы: «AI-генерация видео переходит от развлечений типа лотереи к точному промышленному производству». Причина задержки коммерциализации — в маргинальных издержках, вызванных «коллекцией карточек»: одинаковые запросы требуют многократного повторного генерации и доработки, а уровень отходов съедает время и бюджет.
Основной акцент обновлений Kling 3.0 и Seedance 2.0 — не только в качестве изображения, а в повышении управляемости: согласованность объектов между кадрами, семантическое следование сложным инструкциям и возможность редактировать после генерации — всё это снижает уровень отходов. В отчёте делается вывод: технологический прорыв создаёт основу для масштабируемых рабочих потоков на стороне B2B, и такие сферы, как электронная коммерция, короткометражные/мультфильмы, почувствуют это раньше.
Далее, в отчёте выделены два уровня влияния: один — продуктовая дифференциация — ByteDance больше занимается «эффективной инфраструктурой», а Kuaishou — «профессиональным повествованием»; другой — революция на стороне предложения, которая пересчитывает структуру издержек — маргинальные издержки производства контента всё больше напоминают издержки на вычислительные ресурсы. В инвестиционной логике это отражается в направлениях — IP-контент, авторские права, инструменты/модели AI для видео, а также облачные и платформенные потребности.
Что действительно решено — это снижение непредсказуемых затрат, вызванных «коллекцией карточек»
Отчёт неоднократно подчёркивает логическую цепочку: раньше AI-генерация видео была трудно коммерциализируемой не из-за невозможности сделать, а из-за нестабильности результата. Одни и те же сценарии, материалы и подсказки приводили к значительным колебаниям качества, что заставляло создателей многократно перегенерировать, и уровень маржинальных издержек выходил из-под контроля.
Отчёт считает, что новая генеративная модель важна тем, что «сдвигает» способность к генерации назад, а управляемость выводит на передний план: благодаря нативной мультимодальной архитектуре, согласованию инструкций и усилению согласованности объектов/семантики, уровень отходов снижается, и общие затраты на производство видео уменьшаются. Барьер для коммерциализации переопределяется — теперь это вопрос стабильности доставки, а не технической возможности.
Клиентская версия Kling 3.0 делает ставку на «киношное ощущение»: физическая реалистичность и длинная логическая нарративность — в приоритете
Ключевые слова Kling 3.0 — это два аспекта: системное обновление базовых возможностей и интеграция генерации и редактирования (Omni).
На видео стороне обновления сосредоточены на: повышении согласованности объектов при многокадровых/последовательных сценах; более тонком анализе сложных текстовых команд; снижении путаницы при одновременном присутствии нескольких персонажей, с акцентом на «точное отображение текста и визуальных ролей» (включая мультиязычность, диалекты, естественные мимики и речь).
Режим Omni — ещё одно важное изменение: возможность локально управлять и редактировать уже сгенерированный контент, уменьшая необходимость «перегенерации с нуля». В отчёте также выделены две более профессиональные функции: первая — создание видеоперсонажей (выделение черт, подгонка голоса, точное управление мимикой); вторая — встроенная настройка сцен, с увеличением времени генерации до 15 секунд, что позволяет задавать длительность, ракурсы, сюжетные элементы и движения камеры на уровне кадра.
На изображениях Kling 3.0 рассматривается как часть «рабочего процесса»: поддержка до 10 референсных изображений для фиксации контуров, ключевых элементов и цветовой гаммы; возможность свободного добавления/удаления элементов из нескольких референсов; поддержка пакетной генерации для сторибордов и материалов; а также улучшенное качество вывода и детализация.
Seedance 2.0 превращает видео в «настраиваемый» промышленный инструмент
Отчёт позиционирует Seedance 2.0 скорее как «стандарт промышленного уровня»: в основе — более строгие физические законы, естественные движения, точное понимание команд и стабильность стиля; выделяются три ключевые возможности — оптимизация согласованности (от лица, одежды, шрифтов, сценовых переходов); воспроизведение сложных движений и ракурсов с высоким уровнем управляемости; точное воспроизведение креативных шаблонов и эффектов.
Особое значение имеет интерактивный режим. В отчёте говорится, что Seedance 2.0 использует обозначения типа «@имя_ресурса» для указания назначения изображений/видео/аудио, что фактически разбивает «черный ящик» генерации на управляемый производственный процесс: модель может отдельно извлекать «@кадр» для движения камеры, «@изображение» для деталей, «@звук» для ритма, что значительно снижает уровень отходов.
Ограничения и возможности использования более приближены к «производственным требованиям»: поддержка до 9 изображений; до 3 видео, суммарной длиной не более 15 секунд; до 3 MP3, также не более 15 секунд; максимум 12 файлов на входе; длительность генерации — до 15 секунд (опционально 4-15 секунд); есть встроенные звуковые эффекты и музыка. Входные материалы организуются по разным схемам — «начальная и конечная рамка» или «всеобъемлющий референс».
ByteDance делает ставку на «эффективную инфраструктуру», Kuaishou — на «профессиональное повествование», а Alibaba — на вертикальные сценарии
Отчёт не фокусируется на «рейтингах» или сравнении по скорости, а больше на стратегических направлениях компаний.
Он выделяет 路线 ByteDance как инструментарий с низким порогом входа, низкими затратами и универсальностью, похожий на расширенную версию «剪映», цель — снизить издержки производства контента по всей сети и поддержать экосистему; Kuaishou — делает ставку на физическое моделирование, реализм сложных сцен и согласованность ролей, больше подходит для профессиональных проектов, таких как кино и сериалы; Alibaba — вектор на высокоточные обновления моделей для изображений в вертикальных сценариях (электронная коммерция), усиление возможностей цифровизации товаров.
Эти три направления не предполагают одинаковую бизнес-модель: одна — масштабное производство, другая — высококачественное повествование, третья — вертикальные индустрии с «готовностью к производству».
Революция на стороне предложения: маржинальные издержки приближаются к издержкам вычислений, а IP становится более редким
В бизнес-расчётах отчёт показывает, что «революция на стороне предложения» очень амбициозна: после повышения возможностей изображений и видео, маргинальные издержки производства всё больше будут приближаться к издержкам на вычислительные ресурсы.
Краткосрочно он выделяет два тренда: повышение эффективности производства материалов для маркетинга и электронной коммерции, что улучшит рентабельность; возможен взрыв производства в сегментах короткометражных и коротких сериалов. В долгосрочной перспективе акцент смещается на IP — поскольку контент становится проще в производстве, ценность будет сосредоточена на IP: ведущие IP и их производные получат более высокую оценку, а средние IP могут через AI-видео получить новую ценность. В то же время крупные игроки с мощной инфраструктурой облаков и платформами с замкнутым циклом трафика получат прямую выгоду от частых вызовов и интеграции.
Риск-менеджмент и отказ от ответственности
Рынок подвержен рискам, инвестировать нужно осторожно. Настоящий материал не является индивидуальной инвестиционной рекомендацией и не учитывает специфические цели, финансовое положение или потребности конкретных пользователей. Пользователи должны самостоятельно оценить соответствие приведённых мнений и выводов своей ситуации. За инвестиционные решения ответственность несёт сам пользователь.