En comparaison avec Nano Banana Pro, Alibaba et ByteDance ont publié le même jour un modèle de génération d'images. L'IA générant des images naturelles pourrait-elle connaître une application à grande échelle sur le marché ?

robot
Création du résumé en cours

La course à l’IA entre la Chine et les États-Unis fait rage.

Le 10 février, Alibaba et ByteDance ont publié le même jour de nouveaux modèles de génération d’images, tous deux visant le Nano Banana Pro de Google.

Parmi eux, Qwen-Image-2.0 d’Alibaba se concentre sur la compréhension sémantique et l’édition pratique, avec une architecture unifiée de génération et d’édition, renforçant la capacité de rendu des caractères chinois, permettant une meilleure compréhension des instructions longues et complexes ; Seedream5.0 Preview de ByteDance met en avant la recherche d’images en temps réel et un contrôle précis, améliorant significativement la précision de compréhension des prompts, supportant une génération de textures plus fine et un ajustement contrôlable, s’adaptant en profondeur à l’ensemble du processus de création de contenu.

Le 11 février, un opérateur de puissance de calcul a confié à un journaliste du « Daily Economic News » que l’IA est déjà largement utilisée dans le contexte du commerce électronique, notamment pour la consommation de tokens (unités minimales de texte) par les avatars numériques, ainsi que pour la génération d’images par IA dans le commerce électronique.熊撼天, architecte senior des solutions pour le modèle avancé de Qwen, a déclaré lors d’une interview que cette mise à jour de Qwen-Image-2.0 est également optimisée pour le contexte du commerce électronique, notamment en ce qui concerne les détails de production des produits, la contrôlabilité du texte et la réédition.

Il est à noter que la génération d’images par IA ne se limite plus à la création visuelle, mais s’oriente de plus en plus vers des applications à l’échelle des entreprises. D’ici 2025, la technologie de génération d’images devrait progressivement s’infiltrer dans le commerce électronique et le marché des séries animées. Avec les progrès de cette technologie, la question est : 2026 pourra-t-elle voir une application à grande échelle ?

En regard du Nano Banana Pro, l’évolution des modèles d’IA générateurs d’images nationaux

Le 10 février, Alibaba et ByteDance ont tous deux lancé des modèles de génération d’images. Alibaba a publié Qwen-Image-2.0, une nouvelle génération de modèles de génération et d’édition d’images, tandis que la plateforme Xiaoyunque de ByteDance, ainsi que d’autres plateformes comme Jianying et le plateforme de création IA Byte, ont lancé Seedream5.0 Preview, tous deux visant le Nano Banana Pro de Google.

Selon Alibaba, Qwen-Image-2.0 supporte une entrée de texte ultra-longue de 1K tokens et une résolution de 2K, permettant de rendre avec précision des instructions complexes et de générer facilement des PPT professionnels et des infographies. De plus, Qwen-Image-2.0 a été entièrement amélioré sur la base des deux grands modèles Qwen-Image et Qwen-Image-Edit, intégrant pour la première fois la génération et l’édition d’images dans un seul modèle, avec une architecture plus légère, réalisant une amélioration significative des performances de génération et de modification d’images.

De leur côté, ByteDance indique que Seedream 5.0 Preview supporte des résolutions de sortie de 2K et 4K, et que les utilisateurs peuvent actuellement expérimenter gratuitement la sortie 2K sur la plateforme Jiyun.

Un cadre supérieur en R&D d’une société cotée a déclaré qu’ils utilisaient déjà fréquemment la technologie de génération d’images par IA pour réaliser des PPT et des images de produits d’entreprise, mais que des problèmes subsistaient, notamment la cohérence des détails textuels et des images.

Wu Chenfei, responsable de la génération visuelle chez Qwen, a expliqué que la principale cause de la défaillance dans la précision des détails textuels dans la génération d’images par IA réside dans deux aspects. Premièrement, la majorité des modèles de génération d’images utilisent actuellement la technologie VAE (auto-encodeur variationnel), dont le processus de reconstruction influence fortement le traitement du texte dans l’image, en particulier pour les petits caractères. Cela est dû au fait que VAE est essentiellement un mécanisme de compression, ce qui rend la génération de textes nombreux dans une image plus difficile, limitée par la capacité de traitement de VAE. Deuxièmement, cela dépend aussi de la capacité de modélisation du modèle de génération d’images. La capacité de VAE détermine la limite de capacité du modèle, tandis que la capacité de modélisation du générateur influence directement la fidélité et la restitution des détails de l’image.

À quel point la génération d’images par IA est-elle encore éloignée de l’application à l’échelle des entreprises ?

Actuellement, avec l’évolution des modèles de génération d’images par IA, leur application dans le commerce électronique et le marché des séries animées suscite beaucoup d’attention, et le concept d’IA pour les séries animées connaît une montée continue sur le marché des capitaux.

Le 11 février, Zhang Yi, CEO et analyste principal d’iMedia Consulting, a déclaré que la production de séries animées par IA repose principalement sur la génération d’images par IA, leur vidéoisation, puis l’ajout de voix et de sous-titres par IA pour finaliser la production, ce qui constitue la forme standard dans l’industrie actuellement.

Wang Zhiqiang, de Dongwu Securities, a indiqué dans un rapport que l’IA pourrait réduire de 90 % le coût de production des séries animées. Zhou Liquang, directeur général du département d’animation IA de Chinese Online, a précédemment déclaré que l’IA simplifiait les 11 processus complexes traditionnels de production de séries animées en quatre étapes : création de scénario, génération d’images, conversion d’images en vidéo, post-traitement, augmentant ainsi considérablement la vitesse de production.

L’un des problèmes majeurs est que la création de séries animées par IA dépend fortement du mode de génération par tirage aléatoire. Le problème principal de ce mode est que le résultat final dépend presque entièrement de la compréhension et du raisonnement de l’IA elle-même, le seul rôle du générateur étant d’affiner les prompts.

Selon iMedia Research, la majorité des utilisateurs reconnaissent la valeur de la technologie IA pour réduire les coûts de production (51,2 %) et accélérer la transformation des IP (47,7 %). Par ailleurs, près de la moitié des utilisateurs soulignent que la cohérence du style visuel (47,1 %) et la performance émotionnelle du doublage (46,7 %) présentent encore des lacunes.

Zhang Yi pense que le marché des séries animées par IA connaît une croissance explosive. L’impact de la technologie IA sur cette industrie offre à la fois des opportunités et des défis : elle permet d’augmenter l’efficacité de la production et de faire évoluer la forme du contenu en réduisant les coûts et en accélérant la transfert des IP, mais en même temps, des problèmes de qualité tels que l’uniformité du style, la qualité du doublage et la caractérisation des personnages obligent l’industrie à renforcer la créativité et la qualité tout en poursuivant la croissance à grande échelle.

Au-delà des séries animées, la génération d’images par IA modifie discrètement un autre marché : celui du commerce électronique.

Dans le contexte du shopping en ligne, de nombreux besoins en images existent. Le 11 février, un opérateur de puissance de calcul a confié à un journaliste que la génération d’images par IA est actuellement une des principales demandes des clients e-commerce, en plus des avatars numériques, en raison de la forte consommation de tokens.

熊撼天 a indiqué que le contexte du commerce électronique est l’un des principaux scénarios d’application du modèle Qwen-Image, dont la mise à jour vers Qwen-Image-2.0 s’appuie sur ce contexte, avec des améliorations et optimisations pour favoriser l’application à l’échelle des entreprises.

Prenons l’exemple du commerce électronique : 熊撼天 a expliqué que la description des pages produits, les images de présentation, ou encore les effets de tenues sur des mannequins peuvent être mieux réalisés avec le nouveau modèle. Contrairement à la génération d’images précédente, qui nécessitait une édition secondaire pour un contrôle précis, la nouvelle version fusionne la génération et l’édition dans un seul modèle, améliorant ainsi l’efficacité des vendeurs en ligne.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)