В рамках сравнения с Nano Banana Pro Alibaba и ByteDance в тот же день выпустили модель генерации изображений. Будет ли рынок массового применения AI-генерируемых изображений?

robot
Генерация тезисов в процессе

Китайско-американская гонка в области ИИ продолжается с азартом.

10 февраля компании Alibaba и ByteDance одновременно выпустили новые модели генерации изображений, обе ориентированы на конкуренцию с Google Nano Banana Pro.

В частности, Alibaba представила Qwen-Image-2.0, сосредоточенную на семантическом понимании и практическом редактировании, объединённую архитектуру генерации и редактирования, усиленную возможностями рендеринга китайских иероглифов, что позволяет лучше понимать длинные и сложные практические команды; ByteDance — Seedream5.0 Preview, ориентированную на поиск и создание изображений, с высокой точностью понимания подсказок, поддержкой более тонкой генерации текстур и управляемых настроек, глубокой адаптацией к полному процессу контент-креатива.

11 февраля один из операторов вычислительных мощностей сообщил журналисту «Daily Economic News», что ИИ уже широко применяется в сфере электронной коммерции: одна из областей — значительные затраты на токены (минимальные текстовые единицы) при создании цифровых персонажей, другая — расходование ресурсов на генерацию изображений для электронной торговли. Старший архитектор решений крупной модели Qwen-大模型熊撼天 в интервью отметил, что обновлённая модель Qwen-Image-2.0 также оптимизирована для сценариев электронной коммерции, включая детали производства товаров, управляемость текстом и вторичное редактирование.

Стоит отметить, что генерация изображений с помощью ИИ уже выходит за рамки визуального творчества и всё больше движется в сторону корпоративных и масштабных приложений. К 2025 году технологии генерации изображений постепенно проникнут в сферы электронной коммерции и рынка сериалов, а с развитием технологий — сможет ли к 2026 году появиться масштабируемый рынок?

Конкуренция с Nano Banana Pro: отечественные модели генерации изображений продолжают эволюцию

10 февраля Alibaba и ByteDance выпустили модели генерации изображений. Alibaba представила новую генеративную и редакционную модель Qwen-Image-2.0, а платформы, такие как Jianying и платформы AI-контента ByteDance, запустили Seedream5.0 Preview, обе модели ориентированы на конкуренцию с Google Nano Banana Pro.

По информации Alibaba, Qwen-Image-2.0 поддерживает ввод текста длиной до 1K токенов и разрешение 2K, точно рендерит сложные команды, легко создаёт профессиональные презентации и инфографику. Кроме того, модель полностью обновлена на базе двух крупных моделей Qwen-Image и Qwen-Image-Edit, впервые объединяя генерацию и редактирование изображений в одну модель, что обеспечивает более лёгкую архитектуру и значительный рост производительности.

В свою очередь, ByteDance заявила, что Seedream 5.0 Preview поддерживает вывод изображений в разрешениях 2K и 4K, и сейчас пользователи могут бесплатно опробовать 2K-вывод на платформе Yimeng.

Высокопоставленный специалист по разработке в публичной компании отметил, что ранее также использовал технологии генерации изображений для создания презентаций и корпоративных изображений, однако вопросы точности деталей текста и согласованности изображений всё ещё остаются.

Руководитель визуальной генерации Qwen в Alibaba, Ву Ченфэй, объяснил, что основные причины сбоев в детализации текста при генерации изображений — это два фактора. Первый — большинство моделей используют технологию VAE (вариационный автокодировщик), которая существенно влияет на обработку текста внутри изображений, особенно мелкого шрифта. Это связано с тем, что VAE по своей сути — механизм сжатия, и при большом количестве текста в изображении сложность генерации возрастает, а возможности VAE ограничены. Второй — ограниченность моделирующих возможностей самой модели. Способности VAE определяют её пределы, а качество и детализация создаваемых изображений напрямую зависят от возможностей модели.

Насколько далеко ещё до корпоративных масштабных решений в генерации изображений?

На сегодняшний день, с развитием моделей генерации изображений, их применение в сфере электронной коммерции и сериалов вызывает всё больший интерес, а концепция ИИ-сериалов продолжает набирать обороты на рынке.

11 февраля аналитик и генеральный директор iiMedia Research Чжан Ий заявил, что в настоящее время основной способ производства ИИ-сериалов — это генерация изображений с помощью ИИ, последующая их видеозапись, добавление озвучки и субтитров — это стандартная практика в индустрии.

В отчёте компании Dongwu Securities отмечается, что ИИ может снизить затраты на производство сериалов на 90%. Генеральный директор отдела ИИ-анимации «Чжунвэнь Онлайн» Чжоу Лицянь ранее отметил, что ИИ сокращает 11 сложных этапов традиционного производства сериалов до четырёх: создание сценария, генерация изображений, преобразование изображений в видео и постобработка, что значительно ускоряет производство.

Одной из проблем является сильная зависимость ИИ-сериалов от режима случайного выбора (抽卡). Главная проблема этого подхода — конечный результат почти полностью зависит от понимания и рассуждений ИИ, а единственная роль художника — доработка подсказок.

По данным iMedia Research, большинство пользователей считают, что ИИ-технологии ценны для снижения затрат (51,2%) и ускорения трансформации IP (47,7%). Также почти половина опрошенных отмечают недостатки в единстве стиля (47,1%) и эмоциональной выразительности озвучки (46,7%).

Чжан Ий считает, что рынок ИИ-сериалов сейчас переживает взрывной рост. Влияние ИИ на индустрию сериалов — это и возможность, и вызов: снижение затрат и ускорение трансформации IP способствует повышению эффективности и развитию контента, однако проблемы с единым стилем, качеством озвучки и развитием персонажей требуют усиления контроля за качеством и креативностью.

Помимо ИИ-сериалов, ещё одним рынком, который тихо меняется благодаря ИИ, является сфера электронной коммерции.

В сфере онлайн-шопинга существует большой спрос на использование изображений. 11 февраля один из операторов вычислительных мощностей сообщил журналисту, что генерация изображений с помощью ИИ — одна из наиболее востребованных задач у клиентов электронной коммерции, помимо цифровых персонажей.

熊撼天 отметил, что сценарий применения модели Qwen-Image в электронной коммерции — один из основных. Обновлённая модель Qwen-Image-2.0 основана на предыдущих версиях и оптимизирована для применения в этой сфере, что способствует внедрению решений на уровне предприятий.

На примере электронной коммерции, 熊撼天 подчеркнул, что описание товаров на страницах, демонстрация эффектов одежды — всё это можно реализовать с помощью новой модели генерации изображений. В отличие от предыдущих моделей, требовавших вторичной редакции для достижения управляемых результатов, новая модель объединяет задачи редактирования и генерации изображений в одну, что повышает эффективность продавцов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить