Đối thủ Nano Banana Pro Alibaba, Byte cùng ngày phát hành mô hình tạo hình ảnh AI, liệu thị trường ứng dụng quy mô lớn của AI sinh hình sẽ sớm xuất hiện?

robot
Đang tạo bản tóm tắt

Trận đua AI giữa Trung Quốc và Mỹ đang diễn ra sôi động.

Ngày 10 tháng 2, Alibaba và ByteDance cùng ngày công bố các mô hình tạo hình ảnh mới, cả hai đều hướng tới đối thủ là Google Nano Banana Pro.

Trong đó, Alibaba Qwen-Image-2.0 tập trung vào hiểu ngữ nghĩa và chỉnh sửa thực dụng, kiến trúc tổng hợp tạo và chỉnh sửa, tăng cường khả năng hiển thị ký tự Trung Quốc, có thể hiểu tốt hơn các lệnh dài và phức tạp; Seedream5.0 Preview của ByteDance chủ yếu về truy xuất hình ảnh sinh động và điều chỉnh tinh vi, nâng cao độ chính xác của hiểu lệnh, hỗ trợ tạo kết cấu tinh xảo và điều chỉnh kiểm soát, phù hợp sâu với toàn bộ quy trình sáng tạo nội dung.

Ngày 11 tháng 2, một nhà cung cấp năng lực tính toán đã tiết lộ với phóng viên Báo Kinh tế Thường nhật rằng hiện tại AI đã có nhiều ứng dụng trong cảnh quan thương mại điện tử, một loại là tiêu thụ token (đơn vị nhỏ nhất của văn bản) của nhân vật số, loại còn lại là tiêu thụ hình ảnh sinh động của AI trong thương mại điện tử. Kiến trúc sư giải pháp cao cấp của mô hình lớn Qwen, Hùng Hán Thiên, cho biết, lần cập nhật này của mô hình Qwen-Image-2.0 cũng dựa trên cảnh thương mại điện tử, tối ưu hóa chi tiết sản xuất hàng hóa, khả năng kiểm soát văn bản và chỉnh sửa thứ cấp.

Điều đáng chú ý là, hiện nay, hình ảnh sinh động của AI không còn giới hạn trong sáng tạo thị giác nữa, mà còn tiến sâu vào lĩnh vực ứng dụng doanh nghiệp quy mô lớn. Đến năm 2025, công nghệ tạo hình ảnh sẽ dần thâm nhập vào cảnh thương mại điện tử và thị trường phim dài, cùng với tiến bộ của công nghệ hình ảnh sinh động AI, liệu đến năm 2026 có thể chào đón thị trường ứng dụng quy mô lớn?

Đối thủ Nano Banana Pro, mô hình AI sinh hình nội địa tiếp tục tiến hóa

Ngày 10 tháng 2, Alibaba và ByteDance đều công bố các mô hình tạo hình ảnh. Alibaba ra mắt mô hình tạo và chỉnh sửa hình ảnh thế hệ mới Qwen-Image-2.0, trong khi các nền tảng của ByteDance như Jianying, nền tảng sáng tạo AI Xiaoyunque cũng ra mắt Seedream5.0 Preview, cả hai đều hướng tới đối thủ là Google Nano Banana Pro.

Theo giới thiệu từ Alibaba Qwen, Qwen-Image-2.0 hỗ trợ đầu vào văn bản dài hơn 1K token và độ phân giải cao 2K, có thể chính xác hiển thị các lệnh phức tạp, dễ dàng tạo ra các bản trình bày chuyên nghiệp và đồ họa thông tin. Đồng thời, Qwen-Image-2.0 được nâng cấp dựa trên hai mô hình chính là Qwen-Image và Qwen-Image-Edit, lần đầu tiên tích hợp tạo hình và chỉnh sửa hình ảnh trong một mô hình, với kiến trúc nhẹ hơn, nâng cao đáng kể hiệu suất sinh hình và chỉnh sửa.

Về phía ByteDance, Seedream 5.0 Preview hỗ trợ đầu ra hình ảnh với độ phân giải 2K và 4K, hiện người dùng có thể trải nghiệm miễn phí hiệu quả 2K trên nền tảng Yimeng.

Một lãnh đạo cao cấp của công ty niêm yết cho biết, trước đó cũng thường dùng công nghệ hình ảnh sinh của AI để làm PPT và hình ảnh sản phẩm doanh nghiệp, nhưng vẫn còn tồn tại một số vấn đề như chi tiết văn bản và sự nhất quán của hình ảnh.

Chịu trách nhiệm về hình ảnh của Qwen, Wu Chenfei cho biết, nguyên nhân chính gây ra sự sụp đổ chi tiết văn bản trong hình ảnh sinh của AI chủ yếu là do hai lý do. Thứ nhất, các mô hình tạo hình hiện nay đều sử dụng công nghệ VAE (Biến phân tự mã hóa), quá trình tái tạo của VAE ảnh hưởng đáng kể đến xử lý chữ trong hình ảnh, đặc biệt là chữ nhỏ. Điều này do VAE về bản chất là một cơ chế nén, khi nội dung chữ trong hình nhiều, việc tạo ra hình ảnh sẽ khó khăn hơn rõ rệt, bị giới hạn bởi khả năng xử lý của VAE. Thứ hai, do khả năng mô hình của các mô hình tạo hình còn hạn chế. VAE quyết định giới hạn khả năng của mô hình, còn khả năng mô hình của mô hình sinh ảnh ảnh hưởng trực tiếp đến độ chân thực và chất lượng phục hồi chi tiết của hình ảnh.

AI sinh hình còn cách ứng dụng doanh nghiệp bao xa?

Hiện tại, với sự tiến bộ của các mô hình AI sinh hình, ứng dụng trong thị trường thương mại điện tử và phim dài đang thu hút sự chú ý, thị trường chứng khoán cũng ngày càng quan tâm đến khái niệm phim dài AI.

Ngày 11 tháng 2, CEO kiêm trưởng phân tích của iMedia Consulting, Trương Ý, cho biết, hiện tại, sản xuất phim dài AI chủ yếu dựa vào tạo hình ảnh bằng AI, sau đó chuyển thành video hình ảnh, kết hợp lồng tiếng và phụ đề của AI để hoàn thành sản phẩm, đây là hình thái tiêu chuẩn của ngành hiện nay.

Securities Đông Ngô trong báo cáo nghiên cứu cũng chỉ ra rằng, AI có thể giảm 90% chi phí sản xuất phim dài. Trước đó, Tổng giám đốc bộ phận hoạt hình AI của Chinese Online, Chu Lihang, từng nói rằng AI đã rút ngắn 11 quy trình phức tạp của phim dài truyền thống thành 4 bước: sáng tác kịch bản, tạo hình ảnh, chuyển đổi hình ảnh thành video, hậu kỳ, nâng cao đáng kể tốc độ sản xuất.

Một trong những vấn đề then chốt là phim dài AI cực kỳ phụ thuộc vào chế độ tạo hình theo gacha. Vấn đề lớn nhất của chế độ này là, hiệu quả tạo ra cuối cùng gần như hoàn toàn phụ thuộc vào khả năng hiểu và suy luận của AI, còn người tạo gacha chỉ có thể mài dũa các lệnh gợi ý.

Dữ liệu của iMedia Research cho thấy, đa số người dùng tin tưởng vào giá trị của công nghệ AI trong giảm chi phí sản xuất (51,2%) và thúc đẩy chuyển đổi IP nhanh hơn (47,7%). Đồng thời, gần một nửa người dùng cũng chỉ ra rằng, về mặt phong cách hình ảnh thống nhất (47,1%) và cảm xúc lồng tiếng (46,7%), còn tồn tại những thiếu sót rõ rệt.

Trương Ý cho rằng, thị trường phim dài AI hiện đang bước vào giai đoạn bùng nổ. Công nghệ AI mang lại cả cơ hội và thách thức cho ngành phim dài, vừa thúc đẩy nâng cao hiệu quả sản xuất và hình thái nội dung bằng cách giảm chi phí, vừa thúc đẩy ngành nâng cao chất lượng sáng tạo và kiểm soát chất lượng do các vấn đề về phong cách hình ảnh, cảm xúc lồng tiếng và xây dựng nhân vật.

Ngoài phim dài AI, một thị trường khác đang âm thầm thay đổi do AI sinh hình chính là cảnh quan thương mại điện tử.

Trong cảnh mua sắm trực tuyến, nhu cầu sử dụng hình ảnh rất lớn. Ngày 11 tháng 2, một nhà vận hành năng lực tính toán tiết lộ với phóng viên rằng, hình ảnh sinh của AI là một trong những nhu cầu tiêu thụ token lớn của khách hàng trong thương mại điện tử, ngoài nhân vật số.

Hùng Hán Thiên cho biết, cảnh thương mại điện tử là một trong những cảnh chính để mô hình Qwen-Image của Alibaba triển khai, lần cập nhật này của Qwen-Image-2.0 cũng dựa trên ứng dụng trong cảnh thương mại điện tử, đã được nâng cấp và tối ưu hóa dựa trên mô hình trước đó, kỳ vọng thúc đẩy ứng dụng doanh nghiệp quy mô lớn.

Lấy cảnh thương mại điện tử làm ví dụ, Hùng Hán Thiên nói, các hình ảnh mô tả trang chi tiết sản phẩm, hiệu quả phối đồ của người mẫu, có thể hoàn thiện tốt hơn với mô hình tạo hình mới. So với thế hệ trước cần chỉnh sửa thứ cấp để kiểm soát hình ảnh sản phẩm, mô hình mới tích hợp nhiệm vụ chỉnh sửa và tạo hình trong một mô hình, từ đó nâng cao hiệu quả của các nhà bán hàng thương mại điện tử.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim