¿Frente a Nano Banana Pro, Alibaba y ByteDance lanzan el mismo día modelos de generación de imágenes? ¿El mercado de aplicaciones a gran escala de AI Shengtu se avecina?
Carrera de IA entre China y EE. UU., la competencia está en pleno auge.
El 10 de febrero, Alibaba y ByteDance lanzaron simultáneamente nuevos modelos de generación de imágenes, ambos dirigidos a competir con el Nano Banana Pro de Google.
Entre ellos, Qwen-Image-2.0 de Alibaba se centra en la comprensión semántica y la edición práctica, con una arquitectura unificada para generación y edición, fortaleciendo la capacidad de renderizado de caracteres chinos, y mejorando la comprensión de instrucciones largas y complejas; mientras que Seedream5.0 Preview de ByteDance destaca por la búsqueda de imágenes generadas y el control fino, mejorando significativamente la precisión en la comprensión de las indicaciones, soportando una generación de texturas más detallada y ajustes controlados, adaptándose profundamente a todo el proceso de creación de contenido.
El 11 de febrero, un operador de capacidad de cómputo reveló a un periodista de Daily Economic News que actualmente la IA tiene varias aplicaciones en escenarios de comercio electrónico, una de ellas es el consumo de tokens (la unidad mínima de texto) por parte de personajes digitales, y otra, el consumo en la generación de imágenes por IA en comercio electrónico. 熊撼天, arquitecto senior de soluciones para modelos grandes en Qwen, afirmó en una entrevista que la actualización del modelo Qwen-Image-2.0 también se ha optimizado en aspectos como los detalles de producción de productos, el control del texto y la edición secundaria, específicamente para escenarios de comercio electrónico.
Es importante destacar que la generación de imágenes por IA ya no se limita a la creación visual, sino que avanza hacia aplicaciones a nivel empresarial y en escala. Para 2025, se espera que la tecnología de generación de imágenes se infiltre gradualmente en escenarios de comercio electrónico y mercado de series animadas. Con los avances en esta tecnología, ¿podría 2026 marcar el inicio de una aplicación en escala?
Competencia con Nano Banana Pro: la evolución de los modelos de generación de imágenes nacionales
El 10 de febrero, Alibaba y ByteDance lanzaron modelos de generación de imágenes. Alibaba presentó Qwen-Image-2.0, una nueva generación de modelos de generación y edición de imágenes, mientras que plataformas como Jianying y Xiaoyunque de ByteDance lanzaron Seedream5.0 Preview, ambos dirigidos a competir con el Nano Banana Pro de Google.
Según Alibaba, Qwen-Image-2.0 soporta entradas de texto ultra largas de hasta 1K tokens y resoluciones de 2K, permitiendo renderizar instrucciones complejas con precisión y generar fácilmente presentaciones profesionales y infografías. Además, Qwen-Image-2.0 ha sido completamente actualizado sobre los modelos Qwen-Image y Qwen-Image-Edit, integrando por primera vez generación y edición en un solo modelo, con una arquitectura más ligera que mejora significativamente el rendimiento en generación y edición de imágenes.
Por su parte, ByteDance indicó que Seedream 5.0 Preview soporta resoluciones de 2K y 4K, y actualmente los usuarios pueden experimentar gratuitamente la salida en 2K en la plataforma Jiyun.
Un alto ejecutivo de I+D de una empresa cotizada afirmó que anteriormente también se utilizaba tecnología de generación de imágenes por IA para crear PPTs y gráficos empresariales, pero aún existen defectos en detalles de texto y coherencia con las imágenes.
吴晨飞, responsable de generación visual en Qwen, explicó que los problemas en los detalles del texto en las imágenes generadas por IA se deben principalmente a dos causas. Primero, la mayoría de los modelos de generación de imágenes actuales utilizan tecnología VAE (autoencoder variacional), cuya capacidad de reconstrucción afecta significativamente el manejo del texto en las imágenes, especialmente en textos pequeños. Esto se debe a que VAE es un mecanismo de compresión, y cuando hay mucho contenido textual, la dificultad de generación aumenta notablemente, limitada por la capacidad del VAE. Segundo, la capacidad de modelado del modelo de generación de imágenes también limita los resultados; la capacidad del VAE determina el límite del modelo, y la capacidad de modelado afecta directamente la fidelidad y el nivel de detalle en las imágenes generadas.
¿Qué tan lejos está la generación de imágenes por IA de aplicaciones a nivel empresarial?
Actualmente, con la iteración de modelos de generación de imágenes por IA, su aplicación en el mercado de comercio electrónico y series animadas está recibiendo mucha atención, y el concepto de IA en series animadas continúa en auge en el mercado de capitales.
El 11 de febrero, Zhang Yi, CEO y analista principal de iiMedia Research, afirmó que la producción de series animadas por IA actualmente se basa principalmente en la generación de imágenes por IA, que luego se convierten en videos, acompañados de doblaje y subtítulos, formando la forma estándar de la industria.
Securities Wuzhou señaló en un informe que la IA puede reducir en un 90% los costos de producción de series animadas. Zhou Liqiang, gerente general del departamento de animación IA de China Literature, afirmó anteriormente que la IA ha simplificado los 11 procesos complejos tradicionales de producción de series animadas en cuatro pasos: creación de guiones, generación de imágenes, conversión de imágenes a video y postproducción, aumentando significativamente la velocidad de producción.
Uno de los problemas clave es que las series animadas por IA dependen en gran medida del modo de generación por “抽卡” (sorteo de cartas). La mayor limitación de este método es que el resultado final depende casi por completo de la comprensión y razonamiento de la IA, y el único trabajo del generador es perfeccionar las indicaciones.
Según iMedia Research, la mayoría de los usuarios valoran que la IA ayuda a reducir costos de producción (51.2%) y a acelerar la transformación de IP (47.7%). Además, casi la mitad de los usuarios señalaron que la IA aún presenta deficiencias en la coherencia del estilo visual (47.1%) y en la expresión emocional del doblaje (46.7%).
Zhang Yi opina que el mercado de series animadas por IA está experimentando un crecimiento explosivo. La influencia de la tecnología IA en la industria de series animadas presenta tanto oportunidades como desafíos: por un lado, impulsa la eficiencia y la innovación en contenido mediante la reducción de costos y la aceleración de la transformación de IP; por otro, la calidad en aspectos como el estilo visual, la textura del doblaje y la caracterización, obliga a la industria a fortalecer la creatividad y el control de calidad para lograr una producción a escala.
Fuera de las series animadas, otra gran área que está siendo transformada silenciosamente por la IA es el escenario del comercio electrónico.
En el comercio electrónico, existe una gran demanda de uso de imágenes. El 11 de febrero, un operador de capacidad de cómputo reveló a un periodista que la generación de imágenes por IA es actualmente una de las principales demandas de los clientes de comercio electrónico, además de los personajes digitales, debido al alto consumo de tokens.
熊撼天 afirmó que el escenario de comercio electrónico es uno de los principales en los que se implementa el modelo Qwen-Image, y que la actualización a Qwen-Image-2.0 también se basa en aplicaciones en este escenario, habiendo sido optimizada y mejorada respecto a modelos anteriores, con potencial para impulsar aplicaciones a nivel empresarial.
Por ejemplo, en comercio electrónico, 熊撼天 señaló que las imágenes para páginas de detalles de productos y efectos de vestuario de modelos pueden ser mejoradas con el nuevo modelo. A diferencia de la generación de imágenes anterior, que requería edición secundaria para control, la nueva iteración fusiona la edición y generación en un solo modelo, mejorando la eficiencia de los vendedores en línea.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¿Frente a Nano Banana Pro, Alibaba y ByteDance lanzan el mismo día modelos de generación de imágenes? ¿El mercado de aplicaciones a gran escala de AI Shengtu se avecina?
Carrera de IA entre China y EE. UU., la competencia está en pleno auge.
El 10 de febrero, Alibaba y ByteDance lanzaron simultáneamente nuevos modelos de generación de imágenes, ambos dirigidos a competir con el Nano Banana Pro de Google.
Entre ellos, Qwen-Image-2.0 de Alibaba se centra en la comprensión semántica y la edición práctica, con una arquitectura unificada para generación y edición, fortaleciendo la capacidad de renderizado de caracteres chinos, y mejorando la comprensión de instrucciones largas y complejas; mientras que Seedream5.0 Preview de ByteDance destaca por la búsqueda de imágenes generadas y el control fino, mejorando significativamente la precisión en la comprensión de las indicaciones, soportando una generación de texturas más detallada y ajustes controlados, adaptándose profundamente a todo el proceso de creación de contenido.
El 11 de febrero, un operador de capacidad de cómputo reveló a un periodista de Daily Economic News que actualmente la IA tiene varias aplicaciones en escenarios de comercio electrónico, una de ellas es el consumo de tokens (la unidad mínima de texto) por parte de personajes digitales, y otra, el consumo en la generación de imágenes por IA en comercio electrónico. 熊撼天, arquitecto senior de soluciones para modelos grandes en Qwen, afirmó en una entrevista que la actualización del modelo Qwen-Image-2.0 también se ha optimizado en aspectos como los detalles de producción de productos, el control del texto y la edición secundaria, específicamente para escenarios de comercio electrónico.
Es importante destacar que la generación de imágenes por IA ya no se limita a la creación visual, sino que avanza hacia aplicaciones a nivel empresarial y en escala. Para 2025, se espera que la tecnología de generación de imágenes se infiltre gradualmente en escenarios de comercio electrónico y mercado de series animadas. Con los avances en esta tecnología, ¿podría 2026 marcar el inicio de una aplicación en escala?
Competencia con Nano Banana Pro: la evolución de los modelos de generación de imágenes nacionales
El 10 de febrero, Alibaba y ByteDance lanzaron modelos de generación de imágenes. Alibaba presentó Qwen-Image-2.0, una nueva generación de modelos de generación y edición de imágenes, mientras que plataformas como Jianying y Xiaoyunque de ByteDance lanzaron Seedream5.0 Preview, ambos dirigidos a competir con el Nano Banana Pro de Google.
Según Alibaba, Qwen-Image-2.0 soporta entradas de texto ultra largas de hasta 1K tokens y resoluciones de 2K, permitiendo renderizar instrucciones complejas con precisión y generar fácilmente presentaciones profesionales y infografías. Además, Qwen-Image-2.0 ha sido completamente actualizado sobre los modelos Qwen-Image y Qwen-Image-Edit, integrando por primera vez generación y edición en un solo modelo, con una arquitectura más ligera que mejora significativamente el rendimiento en generación y edición de imágenes.
Por su parte, ByteDance indicó que Seedream 5.0 Preview soporta resoluciones de 2K y 4K, y actualmente los usuarios pueden experimentar gratuitamente la salida en 2K en la plataforma Jiyun.
Un alto ejecutivo de I+D de una empresa cotizada afirmó que anteriormente también se utilizaba tecnología de generación de imágenes por IA para crear PPTs y gráficos empresariales, pero aún existen defectos en detalles de texto y coherencia con las imágenes.
吴晨飞, responsable de generación visual en Qwen, explicó que los problemas en los detalles del texto en las imágenes generadas por IA se deben principalmente a dos causas. Primero, la mayoría de los modelos de generación de imágenes actuales utilizan tecnología VAE (autoencoder variacional), cuya capacidad de reconstrucción afecta significativamente el manejo del texto en las imágenes, especialmente en textos pequeños. Esto se debe a que VAE es un mecanismo de compresión, y cuando hay mucho contenido textual, la dificultad de generación aumenta notablemente, limitada por la capacidad del VAE. Segundo, la capacidad de modelado del modelo de generación de imágenes también limita los resultados; la capacidad del VAE determina el límite del modelo, y la capacidad de modelado afecta directamente la fidelidad y el nivel de detalle en las imágenes generadas.
¿Qué tan lejos está la generación de imágenes por IA de aplicaciones a nivel empresarial?
Actualmente, con la iteración de modelos de generación de imágenes por IA, su aplicación en el mercado de comercio electrónico y series animadas está recibiendo mucha atención, y el concepto de IA en series animadas continúa en auge en el mercado de capitales.
El 11 de febrero, Zhang Yi, CEO y analista principal de iiMedia Research, afirmó que la producción de series animadas por IA actualmente se basa principalmente en la generación de imágenes por IA, que luego se convierten en videos, acompañados de doblaje y subtítulos, formando la forma estándar de la industria.
Securities Wuzhou señaló en un informe que la IA puede reducir en un 90% los costos de producción de series animadas. Zhou Liqiang, gerente general del departamento de animación IA de China Literature, afirmó anteriormente que la IA ha simplificado los 11 procesos complejos tradicionales de producción de series animadas en cuatro pasos: creación de guiones, generación de imágenes, conversión de imágenes a video y postproducción, aumentando significativamente la velocidad de producción.
Uno de los problemas clave es que las series animadas por IA dependen en gran medida del modo de generación por “抽卡” (sorteo de cartas). La mayor limitación de este método es que el resultado final depende casi por completo de la comprensión y razonamiento de la IA, y el único trabajo del generador es perfeccionar las indicaciones.
Según iMedia Research, la mayoría de los usuarios valoran que la IA ayuda a reducir costos de producción (51.2%) y a acelerar la transformación de IP (47.7%). Además, casi la mitad de los usuarios señalaron que la IA aún presenta deficiencias en la coherencia del estilo visual (47.1%) y en la expresión emocional del doblaje (46.7%).
Zhang Yi opina que el mercado de series animadas por IA está experimentando un crecimiento explosivo. La influencia de la tecnología IA en la industria de series animadas presenta tanto oportunidades como desafíos: por un lado, impulsa la eficiencia y la innovación en contenido mediante la reducción de costos y la aceleración de la transformación de IP; por otro, la calidad en aspectos como el estilo visual, la textura del doblaje y la caracterización, obliga a la industria a fortalecer la creatividad y el control de calidad para lograr una producción a escala.
Fuera de las series animadas, otra gran área que está siendo transformada silenciosamente por la IA es el escenario del comercio electrónico.
En el comercio electrónico, existe una gran demanda de uso de imágenes. El 11 de febrero, un operador de capacidad de cómputo reveló a un periodista que la generación de imágenes por IA es actualmente una de las principales demandas de los clientes de comercio electrónico, además de los personajes digitales, debido al alto consumo de tokens.
熊撼天 afirmó que el escenario de comercio electrónico es uno de los principales en los que se implementa el modelo Qwen-Image, y que la actualización a Qwen-Image-2.0 también se basa en aplicaciones en este escenario, habiendo sido optimizada y mejorada respecto a modelos anteriores, con potencial para impulsar aplicaciones a nivel empresarial.
Por ejemplo, en comercio electrónico, 熊撼天 señaló que las imágenes para páginas de detalles de productos y efectos de vestuario de modelos pueden ser mejoradas con el nuevo modelo. A diferencia de la generación de imágenes anterior, que requería edición secundaria para control, la nueva iteración fusiona la edición y generación en un solo modelo, mejorando la eficiencia de los vendedores en línea.