Perpecahan perusahaan besar dalam momen "Deepseek" multimodal: ByteDance fokus pada "efisiensi", Kuaishou mengutamakan "keahlian", Alibaba berkonsentrasi pada "e-commerce"!
Awal tahun ini, pembaruan multimodal ini datang sangat cepat: pada 31 Januari, Kuaishou meluncurkan Kling 3.0; pada 7 Februari, ByteDance merilis Seedance 2.0; dan pada 10 Februari, Seedream 5.0 dari ByteDance serta Qwen-Image-2.0 dari Alibaba kembali menambah fondasi “pembuatan gambar/penyuntingan gambar”.
Yao Lei dari Institut Riset Sekuritas Huachuang memberikan penilaian yang langsung dalam laporannya—pembuatan video AI tidak lagi sekadar menunjukkan kemampuan teknis, melainkan berevolusi menjadi alat yang dapat masuk ke dalam alur kerja: “Pembuatan video AI sedang melangkah dari hiburan kotak keberuntungan ke produksi industri yang presisi.” Masalah utama yang menghambat komersialisasi adalah biaya marginal yang tidak terkendali akibat “pengambilan kartu”: kebutuhan yang sama harus dihasilkan berulang kali, diperbaiki berulang kali, sehingga tingkat pemborosan dan waktu serta anggaran terbuang sia-sia.
Fokus utama peningkatan Kling 3.0 dan Seedance 2.0 bukan sekadar meningkatkan kualitas gambar, melainkan menempatkan kontrol sebagai prioritas utama: konsistensi subjek lintas kamera, pemahaman semantik instruksi kompleks, serta kemampuan “mengedit setelah dihasilkan” untuk mengurangi tingkat pemborosan. Kesimpulan dari laporan adalah bahwa loncatan teknologi ini memberi dasar bagi AI video untuk masuk ke dalam alur kerja skala besar di sisi bisnis B2B, dan iklan e-commerce serta produksi serial/film pendek akan merasakan dampaknya lebih awal.
Lebih jauh, laporan membagi pengaruhnya menjadi dua lapisan: satu adalah diferensiasi jalur produk—ByteDance lebih fokus pada “infrastruktur efisiensi”, sementara Kuaishou lebih condong ke “narasi profesional”; yang lain adalah revolusi di sisi pasokan yang mengubah struktur biaya—biaya marginal produksi konten semakin mirip dengan biaya komputasi. Dalam hal peluang investasi, laporan menempatkan manfaatnya pada IP konten, hak cipta konten, alat/model video AI, serta kebutuhan sisi inferensi cloud dan platform.
Yang benar-benar terselesaikan adalah biaya tidak terkendali akibat “pengambilan kartu”
Laporan menegaskan kembali sebuah rangkaian logika: sebelumnya, kesulitan komersialisasi video AI bukan karena “tidak bisa dibuat”, melainkan karena “pembuatan terlalu tidak stabil”. Dengan skrip, bahan, dan prompt yang sama, kualitas hasil sering berfluktuasi, memaksa kreator untuk melakukan beberapa kali generasi ulang demi memastikan hasil, sehingga biaya marginalnya menjadi tidak terkendali.
Laporan berpendapat bahwa makna dari model generasi generasi baru adalah menempatkan “kemampuan menghasilkan” di belakang, dan “kontrol” di depan: melalui arsitektur multimodal asli, penyelarasan instruksi, serta penegasan terhadap konsistensi subjek/penegasan semantik, tingkat pemborosan dapat ditekan, sehingga biaya produksi video secara keseluruhan akan menurun. Dengan demikian, ambang batas komersialisasi kembali diatur—dari “apakah bisa dibuat” menjadi “apakah bisa dikirim secara stabil”.
Kling 3.0 mengandalkan “kesan film besar”: realisme fisik dan narasi logika panjang lebih diutamakan
Laporan merangkum kata kunci Kling 3.0 menjadi dua hal: Peningkatan sistem kemampuan dasar, dan integrasi pembuatan serta penyuntingan (Omni).
Di sisi video, peningkatan Kling 3.0 terutama terletak pada: konsistensi subjek yang lebih kuat dalam adegan multi-kamera/gerak berkelanjutan; analisis instruksi teks yang lebih detail; serta pengurangan kebingungan referensi saat banyak orang tampil bersama, dengan penekanan pada “pemetaan akurat antara teks dan karakter visual” (termasuk multibahasa, dialek, ekspresi wajah, dan gerak mulut yang alami).
Mode Omni adalah perubahan lain yang juga menjadi fokus: melakukan modifikasi lokal yang dapat dikontrol pada konten yang sudah dihasilkan, mengurangi kebutuhan “mengulang dari awal”. Laporan juga menyebutkan dua kemampuan yang lebih profesional: pertama, mampu membuat subjek video (mengambil fitur karakter dan suara asli, melakukan pencocokan mulut dan penggerak yang presisi); kedua, kemampuan kustomisasi storyboard asli, serta meningkatkan durasi satu kali generasi hingga 15 detik, memungkinkan penentuan durasi, sudut pandang, narasi, dan gerakan kamera pada level shot.
Di sisi gambar, Kling Image 3.0 juga dianggap sebagai bagian dari “penyempurnaan alur kerja”: mendukung maksimal 10 gambar referensi untuk mengunci kontur subjek, elemen inti, dan tone warna; gambar referensi dapat dipilih dan diubah secara bebas; mendukung output batch untuk storyboards/asset packs; serta memperkuat output resolusi tinggi dan detail.
Seedance 2.0 menjadikan video sebagai “alat industri yang dapat diatur”
Laporan menempatkan Seedance 2.0 lebih sebagai “standar industri”: menekankan dasar yang lebih memperhatikan hukum fisika yang masuk akal, gerakan alami, pemahaman instruksi yang akurat, serta menjaga gaya tetap stabil; dan menonjolkan tiga kemampuan utama—pengoptimalan konsistensi (dari wajah hingga pakaian, detail font, transisi scene); replikasi gerakan dan pengambilan gambar yang kompleks dan sulit secara terkendali; serta replikasi template kreatif/efek kompleks secara presisi.
Yang lebih penting adalah paradigma interaksi. Laporan berpendapat bahwa Seedance 2.0 menggunakan “@nama素材” untuk menentukan penggunaan gambar/video/audio, secara esensial memecah proses pembuatan kotak hitam menjadi alur produksi yang dapat dikendalikan: model dapat mengekstrak @gerakan kamera video, @detail gambar, @ritme audio, sehingga secara signifikan mengurangi “tingkat pemborosan”.
Penggunaan dan batasan yang diberikan juga lebih mendekati “kendala produksi”: mendukung input gambar ≤9 gambar; input video ≤3 dan durasi total tidak lebih dari 15 detik; audio mendukung unggahan MP3 ≤3 dan durasi total tidak lebih dari 15 detik; total input campuran maksimal 12 file; durasi pembuatan ≤15 detik (opsional 4-15 detik); serta menyediakan output dengan efek suara/musik bawaan. Pada pintu masuk, “frame awal dan akhir” serta “referensi serba bisa” mengacu pada metode pengorganisasian bahan yang berbeda.
ByteDance fokus pada “infrastruktur efisiensi”, Kuaishou pada “narasi profesional”, dan Alibaba lebih condong ke vertikal e-commerce
Laporan tidak terlalu memandang “peringkat performa”, melainkan lebih memperhatikan strategi masing-masing perusahaan.
Laporan merangkum jalur ByteDance sebagai alat yang rendah hambatan dan biaya rendah, dengan kemampuan generalisasi, mirip bentuk lanjutan dari “Jianying”, bertujuan menurunkan biaya produksi konten secara keseluruhan dan mendukung ekosistem; Kuaishou menekankan simulasi fisik, realisme adegan kompleks, dan konsistensi karakter, lebih cocok untuk demo film, sinema, dan konten profesional yang membutuhkan kesinambungan tinggi; Alibaba Qianwen lebih fokus pada pembaruan model gambar berkualitas tinggi untuk skenario vertikal (e-commerce), memperkuat kemampuan digitalisasi produk.
Ketiga jalur ini tidak mengarah ke model bisnis yang sama: satu mengejar throughput skala besar, satu mengejar narasi berkualitas tinggi, dan satu lagi menargetkan “ketersediaan langsung produksi” di industri vertikal.
Revolusi sisi pasokan konten: biaya marginal semakin mendekati biaya komputasi, IP malah menjadi semakin langka
Dalam pengembangan komersial, laporan menggambarkan “revolusi sisi pasokan” secara cukup agresif: setelah kemampuan dasar gambar dan video meningkat secara bersamaan, biaya marginal produksi konten akan semakin mendekati biaya komputasi.
Dalam jangka pendek, mereka lebih optimis terhadap dua perubahan: peningkatan efisiensi produksi bahan untuk layanan pemasaran/e-commerce, yang akan meningkatkan margin; serta kemungkinan ledakan kapasitas di industri serial pendek dan serial pendek. Dalam jangka menengah dan panjang, mereka menyoroti IP—ketika konten lebih mudah diproduksi, nilai langka akan lebih terkonsentrasi pada IP: IP utama dan produk turunannya akan memiliki nilai lebih tinggi, dan IP menengah pun berpotensi mengalami penilaian ulang melalui AI video. Sementara itu, perusahaan besar yang memiliki infrastruktur komputasi kuat (cloud) dan skenario lalu lintas tertutup (platform) akan lebih langsung menikmati manfaat dari frekuensi panggilan inferensi yang tinggi.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Perpecahan perusahaan besar dalam momen "Deepseek" multimodal: ByteDance fokus pada "efisiensi", Kuaishou mengutamakan "keahlian", Alibaba berkonsentrasi pada "e-commerce"!
Awal tahun ini, pembaruan multimodal ini datang sangat cepat: pada 31 Januari, Kuaishou meluncurkan Kling 3.0; pada 7 Februari, ByteDance merilis Seedance 2.0; dan pada 10 Februari, Seedream 5.0 dari ByteDance serta Qwen-Image-2.0 dari Alibaba kembali menambah fondasi “pembuatan gambar/penyuntingan gambar”.
Yao Lei dari Institut Riset Sekuritas Huachuang memberikan penilaian yang langsung dalam laporannya—pembuatan video AI tidak lagi sekadar menunjukkan kemampuan teknis, melainkan berevolusi menjadi alat yang dapat masuk ke dalam alur kerja: “Pembuatan video AI sedang melangkah dari hiburan kotak keberuntungan ke produksi industri yang presisi.” Masalah utama yang menghambat komersialisasi adalah biaya marginal yang tidak terkendali akibat “pengambilan kartu”: kebutuhan yang sama harus dihasilkan berulang kali, diperbaiki berulang kali, sehingga tingkat pemborosan dan waktu serta anggaran terbuang sia-sia.
Fokus utama peningkatan Kling 3.0 dan Seedance 2.0 bukan sekadar meningkatkan kualitas gambar, melainkan menempatkan kontrol sebagai prioritas utama: konsistensi subjek lintas kamera, pemahaman semantik instruksi kompleks, serta kemampuan “mengedit setelah dihasilkan” untuk mengurangi tingkat pemborosan. Kesimpulan dari laporan adalah bahwa loncatan teknologi ini memberi dasar bagi AI video untuk masuk ke dalam alur kerja skala besar di sisi bisnis B2B, dan iklan e-commerce serta produksi serial/film pendek akan merasakan dampaknya lebih awal.
Lebih jauh, laporan membagi pengaruhnya menjadi dua lapisan: satu adalah diferensiasi jalur produk—ByteDance lebih fokus pada “infrastruktur efisiensi”, sementara Kuaishou lebih condong ke “narasi profesional”; yang lain adalah revolusi di sisi pasokan yang mengubah struktur biaya—biaya marginal produksi konten semakin mirip dengan biaya komputasi. Dalam hal peluang investasi, laporan menempatkan manfaatnya pada IP konten, hak cipta konten, alat/model video AI, serta kebutuhan sisi inferensi cloud dan platform.
Yang benar-benar terselesaikan adalah biaya tidak terkendali akibat “pengambilan kartu”
Laporan menegaskan kembali sebuah rangkaian logika: sebelumnya, kesulitan komersialisasi video AI bukan karena “tidak bisa dibuat”, melainkan karena “pembuatan terlalu tidak stabil”. Dengan skrip, bahan, dan prompt yang sama, kualitas hasil sering berfluktuasi, memaksa kreator untuk melakukan beberapa kali generasi ulang demi memastikan hasil, sehingga biaya marginalnya menjadi tidak terkendali.
Laporan berpendapat bahwa makna dari model generasi generasi baru adalah menempatkan “kemampuan menghasilkan” di belakang, dan “kontrol” di depan: melalui arsitektur multimodal asli, penyelarasan instruksi, serta penegasan terhadap konsistensi subjek/penegasan semantik, tingkat pemborosan dapat ditekan, sehingga biaya produksi video secara keseluruhan akan menurun. Dengan demikian, ambang batas komersialisasi kembali diatur—dari “apakah bisa dibuat” menjadi “apakah bisa dikirim secara stabil”.
Kling 3.0 mengandalkan “kesan film besar”: realisme fisik dan narasi logika panjang lebih diutamakan
Laporan merangkum kata kunci Kling 3.0 menjadi dua hal: Peningkatan sistem kemampuan dasar, dan integrasi pembuatan serta penyuntingan (Omni).
Di sisi video, peningkatan Kling 3.0 terutama terletak pada: konsistensi subjek yang lebih kuat dalam adegan multi-kamera/gerak berkelanjutan; analisis instruksi teks yang lebih detail; serta pengurangan kebingungan referensi saat banyak orang tampil bersama, dengan penekanan pada “pemetaan akurat antara teks dan karakter visual” (termasuk multibahasa, dialek, ekspresi wajah, dan gerak mulut yang alami).
Mode Omni adalah perubahan lain yang juga menjadi fokus: melakukan modifikasi lokal yang dapat dikontrol pada konten yang sudah dihasilkan, mengurangi kebutuhan “mengulang dari awal”. Laporan juga menyebutkan dua kemampuan yang lebih profesional: pertama, mampu membuat subjek video (mengambil fitur karakter dan suara asli, melakukan pencocokan mulut dan penggerak yang presisi); kedua, kemampuan kustomisasi storyboard asli, serta meningkatkan durasi satu kali generasi hingga 15 detik, memungkinkan penentuan durasi, sudut pandang, narasi, dan gerakan kamera pada level shot.
Di sisi gambar, Kling Image 3.0 juga dianggap sebagai bagian dari “penyempurnaan alur kerja”: mendukung maksimal 10 gambar referensi untuk mengunci kontur subjek, elemen inti, dan tone warna; gambar referensi dapat dipilih dan diubah secara bebas; mendukung output batch untuk storyboards/asset packs; serta memperkuat output resolusi tinggi dan detail.
Seedance 2.0 menjadikan video sebagai “alat industri yang dapat diatur”
Laporan menempatkan Seedance 2.0 lebih sebagai “standar industri”: menekankan dasar yang lebih memperhatikan hukum fisika yang masuk akal, gerakan alami, pemahaman instruksi yang akurat, serta menjaga gaya tetap stabil; dan menonjolkan tiga kemampuan utama—pengoptimalan konsistensi (dari wajah hingga pakaian, detail font, transisi scene); replikasi gerakan dan pengambilan gambar yang kompleks dan sulit secara terkendali; serta replikasi template kreatif/efek kompleks secara presisi.
Yang lebih penting adalah paradigma interaksi. Laporan berpendapat bahwa Seedance 2.0 menggunakan “@nama素材” untuk menentukan penggunaan gambar/video/audio, secara esensial memecah proses pembuatan kotak hitam menjadi alur produksi yang dapat dikendalikan: model dapat mengekstrak @gerakan kamera video, @detail gambar, @ritme audio, sehingga secara signifikan mengurangi “tingkat pemborosan”.
Penggunaan dan batasan yang diberikan juga lebih mendekati “kendala produksi”: mendukung input gambar ≤9 gambar; input video ≤3 dan durasi total tidak lebih dari 15 detik; audio mendukung unggahan MP3 ≤3 dan durasi total tidak lebih dari 15 detik; total input campuran maksimal 12 file; durasi pembuatan ≤15 detik (opsional 4-15 detik); serta menyediakan output dengan efek suara/musik bawaan. Pada pintu masuk, “frame awal dan akhir” serta “referensi serba bisa” mengacu pada metode pengorganisasian bahan yang berbeda.
ByteDance fokus pada “infrastruktur efisiensi”, Kuaishou pada “narasi profesional”, dan Alibaba lebih condong ke vertikal e-commerce
Laporan tidak terlalu memandang “peringkat performa”, melainkan lebih memperhatikan strategi masing-masing perusahaan.
Laporan merangkum jalur ByteDance sebagai alat yang rendah hambatan dan biaya rendah, dengan kemampuan generalisasi, mirip bentuk lanjutan dari “Jianying”, bertujuan menurunkan biaya produksi konten secara keseluruhan dan mendukung ekosistem; Kuaishou menekankan simulasi fisik, realisme adegan kompleks, dan konsistensi karakter, lebih cocok untuk demo film, sinema, dan konten profesional yang membutuhkan kesinambungan tinggi; Alibaba Qianwen lebih fokus pada pembaruan model gambar berkualitas tinggi untuk skenario vertikal (e-commerce), memperkuat kemampuan digitalisasi produk.
Ketiga jalur ini tidak mengarah ke model bisnis yang sama: satu mengejar throughput skala besar, satu mengejar narasi berkualitas tinggi, dan satu lagi menargetkan “ketersediaan langsung produksi” di industri vertikal.
Revolusi sisi pasokan konten: biaya marginal semakin mendekati biaya komputasi, IP malah menjadi semakin langka
Dalam pengembangan komersial, laporan menggambarkan “revolusi sisi pasokan” secara cukup agresif: setelah kemampuan dasar gambar dan video meningkat secara bersamaan, biaya marginal produksi konten akan semakin mendekati biaya komputasi.
Dalam jangka pendek, mereka lebih optimis terhadap dua perubahan: peningkatan efisiensi produksi bahan untuk layanan pemasaran/e-commerce, yang akan meningkatkan margin; serta kemungkinan ledakan kapasitas di industri serial pendek dan serial pendek. Dalam jangka menengah dan panjang, mereka menyoroti IP—ketika konten lebih mudah diproduksi, nilai langka akan lebih terkonsentrasi pada IP: IP utama dan produk turunannya akan memiliki nilai lebih tinggi, dan IP menengah pun berpotensi mengalami penilaian ulang melalui AI video. Sementara itu, perusahaan besar yang memiliki infrastruktur komputasi kuat (cloud) dan skenario lalu lintas tertutup (platform) akan lebih langsung menikmati manfaat dari frekuensi panggilan inferensi yang tinggi.