Порівняння з Nano Banana Pro: Alibaba та ByteDance випустили моделі генерації зображень у той самий день. Чи очікує нас масштабне застосування AI-генеративних зображень на ринку?
Гонка за ШІ між Китаєм і Сполученими Штатами у повному розпалі.
10 лютого Alibaba та Byte випустили нові моделі генерації зображень в один день, і обидва провідні виробники провели порівняння з Nano Banana Pro від Google.
Серед них Alibaba Qwen-Image-2.0 зосереджується на семантичному розумінні та практичному редагуванні, об’єднує архітектуру генерації та редагування, посилює здатність рендерингу китайських ієрогліфів і краще розуміє наддовгі й складні практичні інструкції; Byte Seedream 5.0 Preview зосереджений на отриманні зображень і тонкому керуванні, значно підвищуючи точність розуміння підказок, підтримуючи тоншу генерацію текстур і кероване коригування, а також глибоко адаптуючись до всього процесу створення контенту.
11 лютого оператор обчислювальної потужності повідомив репортеру «Daily Economic News», що наразі існує багато застосувань ШІ в сценаріях електронної комерції: одне — це очевидне споживання токенів (мінімальних текстових одиниць) цифровими людьми, а інше — споживання AI-образів електронної комерції. Сюн Шаотян, старший архітектор рішень Qianwen Model, у інтерв’ю заявив, що оновлена модель Qwen-Image-2.0 також оптимізована з точки зору деталей виробництва продукту, керування текстом і вторинного редагування на основі сценаріїв електронної комерції.
Варто зазначити, що нинішня генерація зображень на основі ШІ більше не обмежується лише візуальним створінням, а ще більше рухається у напрямку корпоративного та масштабного застосування. У 2025 році технологія генерації зображень поступово проникне на ринок електронної комерції та комікс-драми, і з розвитком технологій генерації зображень на основі штучного інтелекту чи зможе вона відкрити масштабний ринок додатків у 2026 році?
Завдяки бенчмаркінгу Nano Banana Pro, модель малювання на основі ШІ еволюціонувала
10 лютого і Alibaba, і Byte випустили моделі генерації зображень. Alibaba Qianwen випустила нове покоління моделей генерації та редагування зображень Qwen-Image-2.0, а модель генерації зображень ByteDance Seedream5.0 Preview була запущена на платформах, таких як ByteDance Jianying та платформа для створення Byte AI Little Skylark, обидві з яких порівнюються з Google Nano Banana Pro.
За даними Alibaba Qianwen, Qwen-Image-2.0 підтримує наддовгий вхід тексту з 1K токенів і 2K високої роздільної здатності, що дозволяє точно рендерити складні інструкції та легко генерувати професійні PPT та інфографіку. Водночас Qwen-Image-2.0 оновлюється на основі двох основних моделей Qwen-Image і Qwen-Image-Edit, вперше об’єднуючи генерацію та редагування зображень в одну модель і досягаючи значного покращення продуктивності генерації зображень і модифікації зображень завдяки легшій архітектурі моделі.
Byte зазначив, що зображення Seedream 5.0 Preview підтримують вихід у роздільній здатності 2K та 4K, і користувачі наразі можуть безкоштовно відчути ефект виводу 2K на платформі Seedream.
Старший керівник R&D компанії, що котирується на біржі, сказав, що часто використовував технологію штучного інтелекту для створення зображень PPT та корпоративних продуктів, але все ж існували певні недоліки у послідовності тексту та зображень.
Ву Ченфей, керівник візуальної генерації Qwen, сказав, що зменшення деталей тексту зображень у ШІ здебільшого пов’язане з двома причинами. По-перше, поточна модель генерації зображень загалом використовує технологію VAE (варіаційний автоенкодер), і процес реконструкції VAE має значний вплив на обробку тексту у зображеннях, особливо у тексті малого розміру. Це тому, що VAE фактично є механізмом стиснення, і коли в зображенні багато тексту, складність генерації значно зростає, і це обмежено верхньою межею потужності VAE. По-друге, вона обмежена можливостями моделювання моделей генерації зображень. VAE визначає верхню межу можливостей моделі, а здатність генеративної моделі моделювати безпосередньо впливає на реалістичність і якість відновлення деталей при генерації зображень.
Наскільки далеко генерація зображень ШІ від корпоративних додатків?
На даний момент, з ітерацією моделі малювання ШІ, її застосування на ринках електронної комерції та комікс-драм привернуло значну увагу, а концепція штучного інтелекту продовжує набирати популярності на ринку капіталу.
11 лютого Чжан Ї, генеральний директор і головний аналітик iiMedia Consulting, заявив, що нинішній основний підхід до виробництва комікс-драм на основі штучного інтелекту — це зображення, створені ШІ, які перетворюються на зображення та відео, а потім поєднуються з штучним інтелектом і субтитрами для завершення фільму, що наразі є відносно стандартною формою в індустрії.
Soochow Securities у дослідницькому звіті зазначила, що ШІ може знизити вартість виробництва комедійних драм на 90%. Чжоу Ліцян, генеральний директор відділу AI-анімації Chinese Online, раніше зазначив, що ШІ оптимізував 11 складних виробничих процесів традиційних комедійних драм до чотирьох етапів: створення сценарію, генерація зображень, зображення на відео та постобробка, що значно підвищує швидкість виробництва.
Одна з суті проблеми полягає в тому, що комікси про штучний інтелект сильно покладаються на модель генерації карт. Найбільша проблема цієї моделі в тому, що фінальний ефект генерації майже повністю залежить від власного розуміння та здатності до мислення ШІ, і єдине, що може зробити шухляда карт — це відшліфувати слова запитів.
Згідно з даними iMedia Research, більшість користувачів підтверджують цінність технологій ШІ у зниженні виробничих витрат (51,2%) та прискоренні конвертації IP (47,7%). Водночас майже половина користувачів також вказала на очевидні недоліки єдності стилю зображення (47,1%) та емоційної продуктивності дубляжу (46,7%).
Чжан Ї вважає, що нинішній ринок комікс-драм на основі штучного інтелекту приніс стрімке зростання. Вплив технології штучного інтелекту на індустрію комікс-драм має як можливості, так і виклики, не лише через зниження виробничих витрат і прискорення трансформації інтелектуальної власності, а й через зниження виробничих витрат і прискорення трансформації інтелектуальної власності тощо, а й через змушування індустрії посилювати креативність контенту та контроль якості, прагнучи масштабу через питання якості, такі як однорідність стилю фарбування, текстура дубляжу та створення персонажів.
Окрім коміксів про ШІ, ще одним великим ринком, який ШІ поступово змінює, є сфера електронної комерції.
Існує великий попит на використання зображень у сценаріях покупок в електронній комерції. 11 лютого оператор обчислювальної потужності повідомив журналістам, що AI-картування наразі є попитом для користувачів електронної комерції для споживання токенів відносно великих розмірів окрім цифрових людей.
Сюн Шаотянь зазначив, що сценарій електронної комерції є одним із основних сценаріїв для реалізації моделі Qenwen Qwen-Image, а оновлений Qwen-Image-2.0 також базується на застосуванні сценаріїв електронної комерції, які були оновлені та оптимізовані на основі попередньої моделі, що, як очікується, сприятиме впровадженню корпоративних додатків.
Візьмемо як приклад сферу електронної комерції, Сюн Шаотянь сказав, що зображення опису на сторінці з деталями товару та ефект одягу моделі можна краще поєднати з новою моделлю генерації зображень. Порівняно з попереднім поколінням моделей генерації зображень, які вимагають керованого відображення продукту через вторинне редагування, нові ітерації моделей інтегрують завдання редагування та генерації зображень в одну модель, що підвищує ефективність продавців електронної комерції.
(Джерело статті: Daily Economic News)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Порівняння з Nano Banana Pro: Alibaba та ByteDance випустили моделі генерації зображень у той самий день. Чи очікує нас масштабне застосування AI-генеративних зображень на ринку?
Гонка за ШІ між Китаєм і Сполученими Штатами у повному розпалі.
10 лютого Alibaba та Byte випустили нові моделі генерації зображень в один день, і обидва провідні виробники провели порівняння з Nano Banana Pro від Google.
Серед них Alibaba Qwen-Image-2.0 зосереджується на семантичному розумінні та практичному редагуванні, об’єднує архітектуру генерації та редагування, посилює здатність рендерингу китайських ієрогліфів і краще розуміє наддовгі й складні практичні інструкції; Byte Seedream 5.0 Preview зосереджений на отриманні зображень і тонкому керуванні, значно підвищуючи точність розуміння підказок, підтримуючи тоншу генерацію текстур і кероване коригування, а також глибоко адаптуючись до всього процесу створення контенту.
11 лютого оператор обчислювальної потужності повідомив репортеру «Daily Economic News», що наразі існує багато застосувань ШІ в сценаріях електронної комерції: одне — це очевидне споживання токенів (мінімальних текстових одиниць) цифровими людьми, а інше — споживання AI-образів електронної комерції. Сюн Шаотян, старший архітектор рішень Qianwen Model, у інтерв’ю заявив, що оновлена модель Qwen-Image-2.0 також оптимізована з точки зору деталей виробництва продукту, керування текстом і вторинного редагування на основі сценаріїв електронної комерції.
Варто зазначити, що нинішня генерація зображень на основі ШІ більше не обмежується лише візуальним створінням, а ще більше рухається у напрямку корпоративного та масштабного застосування. У 2025 році технологія генерації зображень поступово проникне на ринок електронної комерції та комікс-драми, і з розвитком технологій генерації зображень на основі штучного інтелекту чи зможе вона відкрити масштабний ринок додатків у 2026 році?
Завдяки бенчмаркінгу Nano Banana Pro, модель малювання на основі ШІ еволюціонувала
10 лютого і Alibaba, і Byte випустили моделі генерації зображень. Alibaba Qianwen випустила нове покоління моделей генерації та редагування зображень Qwen-Image-2.0, а модель генерації зображень ByteDance Seedream5.0 Preview була запущена на платформах, таких як ByteDance Jianying та платформа для створення Byte AI Little Skylark, обидві з яких порівнюються з Google Nano Banana Pro.
За даними Alibaba Qianwen, Qwen-Image-2.0 підтримує наддовгий вхід тексту з 1K токенів і 2K високої роздільної здатності, що дозволяє точно рендерити складні інструкції та легко генерувати професійні PPT та інфографіку. Водночас Qwen-Image-2.0 оновлюється на основі двох основних моделей Qwen-Image і Qwen-Image-Edit, вперше об’єднуючи генерацію та редагування зображень в одну модель і досягаючи значного покращення продуктивності генерації зображень і модифікації зображень завдяки легшій архітектурі моделі.
Byte зазначив, що зображення Seedream 5.0 Preview підтримують вихід у роздільній здатності 2K та 4K, і користувачі наразі можуть безкоштовно відчути ефект виводу 2K на платформі Seedream.
Старший керівник R&D компанії, що котирується на біржі, сказав, що часто використовував технологію штучного інтелекту для створення зображень PPT та корпоративних продуктів, але все ж існували певні недоліки у послідовності тексту та зображень.
Ву Ченфей, керівник візуальної генерації Qwen, сказав, що зменшення деталей тексту зображень у ШІ здебільшого пов’язане з двома причинами. По-перше, поточна модель генерації зображень загалом використовує технологію VAE (варіаційний автоенкодер), і процес реконструкції VAE має значний вплив на обробку тексту у зображеннях, особливо у тексті малого розміру. Це тому, що VAE фактично є механізмом стиснення, і коли в зображенні багато тексту, складність генерації значно зростає, і це обмежено верхньою межею потужності VAE. По-друге, вона обмежена можливостями моделювання моделей генерації зображень. VAE визначає верхню межу можливостей моделі, а здатність генеративної моделі моделювати безпосередньо впливає на реалістичність і якість відновлення деталей при генерації зображень.
Наскільки далеко генерація зображень ШІ від корпоративних додатків?
На даний момент, з ітерацією моделі малювання ШІ, її застосування на ринках електронної комерції та комікс-драм привернуло значну увагу, а концепція штучного інтелекту продовжує набирати популярності на ринку капіталу.
11 лютого Чжан Ї, генеральний директор і головний аналітик iiMedia Consulting, заявив, що нинішній основний підхід до виробництва комікс-драм на основі штучного інтелекту — це зображення, створені ШІ, які перетворюються на зображення та відео, а потім поєднуються з штучним інтелектом і субтитрами для завершення фільму, що наразі є відносно стандартною формою в індустрії.
Soochow Securities у дослідницькому звіті зазначила, що ШІ може знизити вартість виробництва комедійних драм на 90%. Чжоу Ліцян, генеральний директор відділу AI-анімації Chinese Online, раніше зазначив, що ШІ оптимізував 11 складних виробничих процесів традиційних комедійних драм до чотирьох етапів: створення сценарію, генерація зображень, зображення на відео та постобробка, що значно підвищує швидкість виробництва.
Одна з суті проблеми полягає в тому, що комікси про штучний інтелект сильно покладаються на модель генерації карт. Найбільша проблема цієї моделі в тому, що фінальний ефект генерації майже повністю залежить від власного розуміння та здатності до мислення ШІ, і єдине, що може зробити шухляда карт — це відшліфувати слова запитів.
Згідно з даними iMedia Research, більшість користувачів підтверджують цінність технологій ШІ у зниженні виробничих витрат (51,2%) та прискоренні конвертації IP (47,7%). Водночас майже половина користувачів також вказала на очевидні недоліки єдності стилю зображення (47,1%) та емоційної продуктивності дубляжу (46,7%).
Чжан Ї вважає, що нинішній ринок комікс-драм на основі штучного інтелекту приніс стрімке зростання. Вплив технології штучного інтелекту на індустрію комікс-драм має як можливості, так і виклики, не лише через зниження виробничих витрат і прискорення трансформації інтелектуальної власності, а й через зниження виробничих витрат і прискорення трансформації інтелектуальної власності тощо, а й через змушування індустрії посилювати креативність контенту та контроль якості, прагнучи масштабу через питання якості, такі як однорідність стилю фарбування, текстура дубляжу та створення персонажів.
Окрім коміксів про ШІ, ще одним великим ринком, який ШІ поступово змінює, є сфера електронної комерції.
Існує великий попит на використання зображень у сценаріях покупок в електронній комерції. 11 лютого оператор обчислювальної потужності повідомив журналістам, що AI-картування наразі є попитом для користувачів електронної комерції для споживання токенів відносно великих розмірів окрім цифрових людей.
Сюн Шаотянь зазначив, що сценарій електронної комерції є одним із основних сценаріїв для реалізації моделі Qenwen Qwen-Image, а оновлений Qwen-Image-2.0 також базується на застосуванні сценаріїв електронної комерції, які були оновлені та оптимізовані на основі попередньої моделі, що, як очікується, сприятиме впровадженню корпоративних додатків.
Візьмемо як приклад сферу електронної комерції, Сюн Шаотянь сказав, що зображення опису на сторінці з деталями товару та ефект одягу моделі можна краще поєднати з новою моделлю генерації зображень. Порівняно з попереднім поколінням моделей генерації зображень, які вимагають керованого відображення продукту через вторинне редагування, нові ітерації моделей інтегрують завдання редагування та генерації зображень в одну модель, що підвищує ефективність продавців електронної комерції.
(Джерело статті: Daily Economic News)