Sự phân hóa của các tập đoàn lớn trong thời điểm “Deepseek” đa mô hình: ByteDance tập trung “hiệu quả”, Kuaishou nhấn mạnh “chuyên môn”, Alibaba tập trung “thương mại điện tử”!

robot
Đang tạo bản tóm tắt

Đầu năm, chuỗi cập nhật đa mô hình này diễn ra rất dày đặc: ngày 31 tháng 1, Kuaishou đưa可灵 (Kling) lên phiên bản 3.0; ngày 7 tháng 2, ByteDance phát hành Seedance 2.0; ngày 10 tháng 2, Seedream 5.0 của ByteDance và Qwen-Image-2.0 của Alibaba lại bổ sung một bước cho nền tảng “văn sinh đồ/hình ảnh chỉnh sửa”.

Yao Lei của Viện Nghiên cứu Chứng khoán Huachuang nhận định trong báo cáo ngày 12 tháng 2 rất rõ ràng — tạo video bằng AI không còn chỉ là trò trình diễn kỹ thuật nữa, mà đang tiến hóa thành công cụ có thể tích hợp vào quy trình làm việc: “AI tạo video đang từ giải trí theo kiểu hộp quà bí ẩn chuyển sang sản xuất công nghiệp chính xác.” Vấn đề khiến thương mại chưa thể khởi sắc, chính là do chi phí biên phát sinh từ “rút thẻ” (gacha) không thể kiểm soát: cùng một nhu cầu, phải tạo đi tạo lại, chỉnh sửa nhiều lần, tỷ lệ phế phẩm tiêu tốn thời gian và ngân sách.

Điểm trọng tâm nâng cấp của可灵 3.0 và Seedance 2.0 lần này không chỉ đơn thuần nâng cao chất lượng hình ảnh, mà còn nâng cao khả năng kiểm soát: tính nhất quán của chủ thể xuyên cảnh, theo sát ý nghĩa các lệnh phức tạp, và khả năng chỉnh sửa “sản xuất xong vẫn có thể sửa” — tất cả nhằm giảm thiểu tỷ lệ phế phẩm. Kết luận của báo cáo là: bước nhảy công nghệ này giúp AI video có nền tảng để tiến vào quy trình làm việc quy mô lớn cho doanh nghiệp, các ngành như quảng cáo thương mại điện tử, sản xuất phim ngắn/hoạt hình sẽ cảm nhận được tác động sớm hơn.

Tiếp theo, báo cáo phân chia ảnh hưởng thành hai tầng: một là sự phân hóa về lộ trình sản phẩm — ByteDance giống như đang xây dựng “hạ tầng hiệu quả”, trong khi Kuaishou thiên về “kể chuyện chuyên nghiệp”; hai là cuộc cách mạng về phía cung cấp, tái cấu trúc chi phí — chi phí biên của sản xuất nội dung ngày càng giống chi phí tính toán. Đối chiếu với các hướng đầu tư, báo cáo tập trung lợi ích vào IP nội dung, bản quyền nội dung, công cụ/mô hình AI video, cùng các yêu cầu về đám mây và nền tảng.

Điều thực sự được giải quyết chính là chi phí không kiểm soát do “rút thẻ” mang lại

Báo cáo nhấn mạnh vòng logic này nhiều lần: trước đây, khó thương mại hóa AI video không phải vì “không thể làm ra”, mà vì “làm ra quá không ổn định”. Cùng một kịch bản, cùng một nguyên liệu và lệnh hướng dẫn, chất lượng thành phẩm dao động lớn, buộc các nhà sáng tạo phải tạo đi tạo lại nhiều lần để đánh cược kết quả, khiến chi phí biên mất kiểm soát.

Báo cáo cho rằng ý nghĩa của thế hệ mô hình mới nằm ở việc đưa “khả năng tạo ra” xuống phía sau, còn “kiểm soát” được đặt lên hàng đầu: thông qua kiến trúc đa mô hình nguyên bản, căn chỉnh lệnh, và tăng cường tính nhất quán của chủ thể/tuân thủ ý nghĩa, giảm tỷ lệ phế phẩm, tổng chi phí sản xuất video mới giảm theo. Ngưỡng thương mại hóa vì thế được xác định lại — từ “có thể làm được hay không” chuyển thành “có thể ổn định giao hàng hay không”.

可灵 3.0 đặt cược vào “cảm giác phim bom tấn”: ưu tiên mô phỏng vật lý chân thực và kể chuyện dài

Báo cáo tóm tắt từ khóa của可灵 3.0 gồm hai điểm chính: Nâng cấp hệ thống năng lực cơ bản và tích hợp tạo và chỉnh sửa (Omni).

Về phía video, điểm nâng cấp chính của可灵 3.0 là: tăng cường tính nhất quán của chủ thể trong các cảnh nhiều góc/liên tục hành động; phân tích lệnh phức tạp chính xác hơn; giảm rối rắm trong chỉ định đại diện nhiều người cùng xuất hiện, đồng thời nhấn mạnh “kết hợp chính xác giữa văn bản và vai trò hình ảnh” (bao gồm đa ngôn ngữ, giọng địa phương, biểu cảm tự nhiên).

Chế độ Omni là một thay đổi trọng tâm khác: dựa trên nội dung đã tạo, thực hiện chỉnh sửa cục bộ có kiểm soát, giảm thiểu “phải làm lại từ đầu”. Báo cáo còn đề cập đến hai khả năng sáng tạo chuyên sâu hơn: một là tạo chủ thể video (trích xuất đặc điểm nhân vật và giọng nói gốc, thực hiện khớp khẩu hình chính xác và điều khiển); hai là khả năng tùy chỉnh phân cảnh nguyên bản, nâng thời lượng tạo ra tối đa lên 15 giây, cho phép chỉ định thời lượng, góc quay, góc nhìn, nội dung kể chuyện và cách vận hành máy quay tại cấp độ cảnh quay.

Về mặt hình ảnh,可灵图片 3.0 cũng được xem như một phần “bổ sung quy trình làm việc”: hỗ trợ tối đa 10 hình tham khảo để cố định đường nét chủ thể, yếu tố cốt lõi và tông màu; nhiều hình tham khảo có thể tự do chỉ định, thêm bớt, chỉnh sửa; hỗ trợ xuất hàng loạt bộ hình, dùng cho storyboard/đóng gói nguyên liệu; đồng thời nâng cao chất lượng xuất hình độ phân giải cao và thể hiện chi tiết.

Seedance 2.0 biến video thành “công cụ có thể lập trình”

Báo cáo định vị Seedance 2.0 như một “tiêu chuẩn công nghiệp”: nhấn mạnh hơn về tính hợp lý của quy luật vật lý, hành động tự nhiên, hiểu lệnh chính xác, giữ phong cách ổn định; đồng thời nổi bật ba khả năng chính — tối ưu hóa tính nhất quán (từ khuôn mặt đến trang phục, chi tiết chữ, chuyển cảnh); khả năng tái tạo các cảnh quay và hành động phức tạp một cách kiểm soát cao; và mô hình/phương pháp tạo mẫu sáng tạo/hiệu ứng phức tạp chính xác.

Quan trọng hơn, là cách tương tác. Báo cáo cho rằng Seedance 2.0 dùng cú pháp “@Tên nguyên liệu” để chỉ định mục đích của hình ảnh/video/âm thanh, thực chất là phân tách quá trình sinh ra hộp đen thành quy trình sản xuất có kiểm soát: mô hình có thể trích xuất @quay phim, @chi tiết hình ảnh, @nhịp điệu âm thanh, từ đó giảm rõ rệt tỷ lệ phế phẩm.

Các giới hạn và hướng dẫn sử dụng cũng gần gũi hơn với “điều kiện sản xuất”: hỗ trợ tối đa 9 hình đầu vào; tối đa 3 video, tổng thời lượng không quá 15 giây; hỗ trợ MP3 tải lên tối đa 3 file, tổng thời lượng không quá 15 giây; tổng số file đầu vào hỗn hợp tối đa 12; thời lượng tạo ra tối đa 15 giây (tùy chọn 4-15 giây); kèm theo hiệu ứng âm thanh/phụ đề tự tạo. Các cách tổ chức nguyên liệu như “khung đầu/cuối” và “tham khảo toàn diện” phù hợp với các phương thức tổ chức khác nhau của nguyên liệu.

ByteDance theo “hạ tầng hiệu quả”, Kuaishou theo “kể chuyện chuyên nghiệp”, Alibaba thiên về thương mại điện tử

Báo cáo không quá chú trọng vào xếp hạng “điểm số”, mà quan tâm hơn đến chiến lược của các nhà sản xuất.

Báo cáo tóm tắt chiến lược của ByteDance là xây dựng các công cụ có khả năng tổng quát, chi phí thấp, dễ tiếp cận, tương tự như “剪映” ở dạng cao cấp hơn, mục tiêu giảm chi phí sản xuất nội dung toàn mạng và thúc đẩy hệ sinh thái; Kuaishou tập trung vào mô phỏng vật lý, cảm giác thực của các cảnh phức tạp và tính nhất quán của nhân vật, phù hợp hơn cho các demo phim, nội dung điện ảnh có yêu cầu cao về tính liên tục; Alibaba với dự án 千问 tập trung vào mô hình hình ảnh độ trung thực cao, hướng đến các cảnh ngành dọc (thương mại điện tử), tăng cường khả năng số hóa sản phẩm.

Ba hướng này không hướng tới cùng một mô hình kinh doanh: một là mở rộng quy mô, một là cung cấp nội dung chất lượng cao, một là phục vụ các ngành dọc “có thể dùng ngay để sản xuất”.

Cách mạng cung cấp nội dung: chi phí biên hội tụ về chi phí tính toán, IP trở nên khan hiếm hơn

Trong dự báo thương mại, báo cáo mô tả “cách mạng cung cấp” rất quyết liệt: Sau khi khả năng nền tảng về hình ảnh và video được nâng cao, chi phí biên của sản xuất nội dung sẽ ngày càng gần với chi phí tính toán.

Trong ngắn hạn, họ kỳ vọng hai thay đổi chính: nâng cao hiệu quả sản xuất nguyên liệu của các nhà dịch vụ marketing/thương mại điện tử, cải thiện lợi nhuận gộp; trong ngành phim ngắn/hoạt hình, có thể bùng nổ năng lực sản xuất. Trung hạn, mâu thuẫn tập trung vào IP — khi nội dung dễ sản xuất hơn, giá trị của IP sẽ tập trung hơn vào các IP hàng đầu và các sản phẩm liên quan, giá trị của IP trung bình cũng có thể được định giá lại qua AI video. Đồng thời, các tập đoàn sở hữu hạ tầng tính toán mạnh (đám mây) và các nền tảng có luồng dữ liệu vòng kín sẽ hưởng lợi trực tiếp từ các lần gọi dịch vụ thường xuyên của các mô hình suy luận.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim