تباين الشركات الكبرى تحت لحظة "Deepseek" متعددة الوسائط: ByteDance تركز على "الكفاءة"، Kuaishou تتجه نحو "الاحتراف"، Alibaba تركز على "التجارة الإلكترونية"!
تأتي موجة التحديثات متعددة الوسائط في بداية العام بشكل مكثف: في 31 يناير، قامت كوايشو بدفع Kling إلى الإصدار 3.0، وفي 7 فبراير، أصدرت بيجيتس Seedance 2.0، وفي 10 فبراير، أطلقت بيجيتس Seedream 5.0 وQwen-Image-2.0 من علي، مما عزز أساس “نصوص الصور/تحرير الصور”.
تقرير يوانتشوان للأوراق المالية، الذي أصدرته يوي لي في 12 من الشهر، كان حكمه واضحًا — إنتاج الفيديو بالذكاء الاصطناعي لم يعد مجرد عرض تقني، بل يتطور ليصبح أداة يمكن دمجها في سير العمل: “يتم حالياً الانتقال من الترفيه العشوائي إلى الإنتاج الصناعي الدقيق باستخدام الذكاء الاصطناعي للفيديو.” أما السبب وراء بطء التجارب التجارية، فهو يعود إلى “بطاقات السحب” التي تؤدي إلى تكاليف هامشية غير قابلة للتحكم: الحاجة لإعادة الإنتاج مرارًا وتكرارًا لنفس الطلب، مما يستهلك الوقت والميزانية بسبب نسبة الفاقد العالية.
التركيز في ترقية Kling 3.0 وSeedance 2.0 ليس فقط على تحسين الجودة، بل على رفع مستوى السيطرة إلى أولوية أعلى: التوافق بين الكاميرات، وفهم المعنى في الأوامر المعقدة، و"القدرة على التعديل بعد الإنتاج"، جميعها مجتمعة لتقليل نسبة الفاقد. استنتاج التقرير هو أن القفزات التقنية تضع أساسًا لدخول الفيديو بالذكاء الاصطناعي إلى سير عمل واسع النطاق في القطاع التجاري، حيث ستشعر قطاعات الإعلان الإلكتروني، والإنتاج القصير/الدرامي، بالتأثير بشكل أسرع.
وبتقديم تحليل أعمق، يقسم التقرير التأثير إلى مستويين: أحدهما هو تنويع مسارات المنتجات — بيجيتس تركز على “البنية التحتية للكفاءة”، بينما كوايشو تميل إلى “السرد الاحترافي”؛ والثاني هو ثورة جانب العرض التي تعيد حساب تكاليف الإنتاج — التكاليف الحدية لإنتاج المحتوى أصبحت أكثر تشابهًا مع تكاليف الحوسبة. وبالارتباط بمؤشرات الاستثمار، يركز التقرير على الاستفادة في حقوق الملكية الفكرية، وحقوق النشر، وأدوات/نماذج الفيديو بالذكاء الاصطناعي، بالإضافة إلى الطلب على السحابة والمنصات.
ما تم حله فعليًا هو التكاليف غير القابلة للتحكم الناتجة عن “بطاقات السحب”
يؤكد التقرير مرارًا على سلسلة منطقية: أن صعوبة تسويق الفيديو بالذكاء الاصطناعي في الماضي لم تكن بسبب “عدم القدرة على الإنتاج”، بل بسبب “عدم استقرار الإنتاج”. نفس النص، ونفس المواد، والأوامر، كانت تؤدي إلى تذبذب كبير في جودة المنتج النهائي، مما يضطر المبدعين إلى تكرار عمليات التوليد للمراهنة على النتيجة، مما يجعل التكاليف الحدية خارجة عن السيطرة.
يعتقد التقرير أن معنى الجيل الجديد من النماذج هو وضع “قدرة التوليد” في المرتبة الثانية، و"السيطرة" في المقدمة: من خلال بنية متعددة الوسائط الأصلية، ومحاذاة الأوامر، وتعزيز التوافق بين الكيانات والمعنى، يمكن تقليل نسبة الفاقد، وبالتالي تنخفض تكاليف إنتاج الفيديو بشكل عام. ونتيجة لذلك، يُعاد تحديد عتبة التسويق — من “هل يمكننا الإنتاج” إلى “هل يمكننا التسليم بشكل مستقر”.
Kling 3.0 يراهن على “شعور الأفلام الكبيرة”: الواقعية الفيزيائية والسرد الطويل تأتي في المقام الأول
يلخص التقرير كلمات رئيسية لـ Kling 3.0 في أمرين: ترقية النظام للقدرات الأساسية، وتوحيد التوليد والتحرير (Omni).
بالنسبة للفيديو، تركز ترقية Kling 3.0 على: تعزيز التوافق بين الكيانات في مشاهد متعددة الكاميرات/حركات متواصلة؛ تحليل الأوامر النصية المعقدة بشكل أدق؛ تقليل الالتباس في الإشارة بين الشخصيات عند وجود أكثر من شخص في إطار واحد، مع التأكيد على “التحويل الدقيق بين النص والأدوار البصرية” (بما يشمل اللغات المتعددة، اللهجات، وتعبيرات الوجه والحركات بشكل طبيعي).
وضع Omni هو تغيير آخر تم التركيز عليه: إجراء تعديلات محلية قابلة للتحكم على المحتوى المُنتج، وتقليل الحاجة إلى إعادة الإنتاج من الصفر. كما أشار التقرير إلى قدرتين أكثر تخصصًا في الإبداع: الأولى هي إنشاء كيانات الفيديو (استخراج خصائص الشخصيات وصوتها، وتحقيق تطابق دقيق في حركة الفم والتعبيرات)؛ والثانية هي القدرة على تخصيص المشاهد بشكل أصلي، وزيادة مدة التوليد إلى 15 ثانية، مع إمكانية تحديد مدة المشهد، والزوايا، والمواضع، والمحتوى السردي، وطريقة الحركة.
بالنسبة للصور، يُنظر إلى إصدار Kling 3.0 على أنه جزء من “تكامل سير العمل”: دعم حتى 10 صور مرجعية لتحديد ملامح الكيان، والعناصر الأساسية، والنغمة؛ إمكانية تحديد العناصر وإجراء التعديلات عليها بحرية؛ دعم إخراج مجموعات الصور بشكل جماعي لصناعة لوحات القصة/حزم المواد؛ مع تعزيز جودة الإخراج والتفاصيل.
Seedance 2.0 يجعل الفيديو أداة “قابلة للبرمجة”
يحدد التقرير موقع Seedance 2.0 بشكل أكثر كأنه “معيار صناعي”: يركز على أساسيات تتعلق بقوانين الفيزياء، وطبيعة الحركات، وفهم الأوامر بدقة، والحفاظ على استقرار الأسلوب؛ مع إبراز ثلاث قدرات رئيسية — تحسين التوافق (من ملامح الوجه إلى الملابس، وتفاصيل الخطوط، وتغير المشاهد)؛ إعادة إنتاج الحركات المعقدة واللقطات ذات الصعوبة بشكل قابل للتحكم؛ واستنساخ القوالب الإبداعية والتأثيرات المعقدة بدقة.
الأهم هو نمط التفاعل. يعتقد التقرير أن Seedance 2.0 يستخدم “@اسم المادة” لتحديد استخدام الصور/الفيديو/الصوت، وهو في جوهره تفكيك عملية التوليد “الصندوق الأسود” إلى سير عمل قابل للتحكم: يمكن للنموذج أن يستخرج بشكل منفصل @حركة الكاميرا للفيديو، و@تفاصيل الصورة، و@إيقاع الصوت، مما يقلل بشكل كبير من نسبة الفاقد.
كما أن القيود التي يذكرها التقرير تتماشى مع “قيود الإنتاج”: دعم إدخال الصور حتى 9 صور؛ إدخال فيديو حتى 3 مقاطع، لا تتجاوز المدة الإجمالية 15 ثانية؛ دعم MP3 لثلاث ملفات صوتية، لا تتجاوز المدة الإجمالية 15 ثانية؛ حد أقصى لملفات الإدخال المختلطة 12 ملفًا؛ مدة التوليد حتى 15 ثانية (اختياري من 4 إلى 15 ثانية)؛ مع توفير مؤثرات صوتية/موسيقى مدمجة.
بيجيتس تتجه نحو “البنية التحتية للكفاءة”، وكوايشو تتجه نحو “السرد الاحترافي”، وعلي تركز أكثر على السوق الإلكترونية
لا يركز التقرير على ترتيب المنافسة بناءً على الأداء، بل على استراتيجيات الشركات.
يلخص التقرير مسار بيجيتس بأنه أدوات ذات عتبة منخفضة، وتكاليف منخفضة، ومرونة عالية، تشبه “تعديل الفيديو” بشكل متقدم، بهدف تقليل تكاليف إنتاج المحتوى على مستوى الشبكة، ودعم النظام البيئي؛ بينما تركز كوايشو على “المحاكاة الفيزيائية”، والواقعية في المشاهد المعقدة، والتوافق بين الشخصيات، وهو أكثر ملاءمة للعروض السينمائية، والأفلام ذات السرد المتواصل؛ أما علي، فتركز على تحديث نماذج الصور عالية الدقة، مع توجه أكثر نحو السيناريوهات الرأسية (التجارة الإلكترونية)، مع تعزيز قدرات الرقمنة للمنتجات.
هذه المسارات الثلاث لا تتبع نفس النموذج التجاري: أحدها يهدف إلى الإنتاج الضخم، وآخر يركز على تقديم سرد عالي الجودة، والثالث يختص بالقطاعات الرأسية “الجاهزة للإنتاج”.
ثورة جانب العرض: التكاليف الحدية تتقارب مع تكاليف الحوسبة، وحقوق الملكية الفكرية تصبح أكثر ندرة
في سياق التوقعات التجارية، يصف التقرير “ثورة جانب العرض” بأنها أكثر حدة: بعد تحسين قدرات الصور والفيديو، ستتجه التكاليف الحدية لإنتاج المحتوى بشكل متزايد نحو تكاليف الحوسبة.
على المدى القصير، يركز على نوعين من التغييرات: زيادة كفاءة إنتاج المواد للمسوقين/مقدمي خدمات التجارة الإلكترونية، مما يحسن الأرباح؛ وظهور طفرة في قدرات الإنتاج في صناعة المسلسلات القصيرة والدرامية. وعلى المدى الطويل، يوجه التركيز نحو حقوق الملكية الفكرية — فكلما أصبح الإنتاج أسهل، زادت قيمة حقوق الملكية، خاصة حقوق IP الرائدة والمنتجات المشتقة، مع احتمال أن يعيد الذكاء الاصطناعي تقييم قيمة حقوق IP المتوسطة. في الوقت نفسه، ستستفيد الشركات الكبرى التي تمتلك بنية تحتية قوية من الحوسبة (السحابة) وسيناريوهات تدفق المرور المغلقة (المنصات) بشكل مباشر من الفوائد الناتجة عن الاستدعاءات المتكررة في نماذج الاستنتاج.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تباين الشركات الكبرى تحت لحظة "Deepseek" متعددة الوسائط: ByteDance تركز على "الكفاءة"، Kuaishou تتجه نحو "الاحتراف"، Alibaba تركز على "التجارة الإلكترونية"!
تأتي موجة التحديثات متعددة الوسائط في بداية العام بشكل مكثف: في 31 يناير، قامت كوايشو بدفع Kling إلى الإصدار 3.0، وفي 7 فبراير، أصدرت بيجيتس Seedance 2.0، وفي 10 فبراير، أطلقت بيجيتس Seedream 5.0 وQwen-Image-2.0 من علي، مما عزز أساس “نصوص الصور/تحرير الصور”.
تقرير يوانتشوان للأوراق المالية، الذي أصدرته يوي لي في 12 من الشهر، كان حكمه واضحًا — إنتاج الفيديو بالذكاء الاصطناعي لم يعد مجرد عرض تقني، بل يتطور ليصبح أداة يمكن دمجها في سير العمل: “يتم حالياً الانتقال من الترفيه العشوائي إلى الإنتاج الصناعي الدقيق باستخدام الذكاء الاصطناعي للفيديو.” أما السبب وراء بطء التجارب التجارية، فهو يعود إلى “بطاقات السحب” التي تؤدي إلى تكاليف هامشية غير قابلة للتحكم: الحاجة لإعادة الإنتاج مرارًا وتكرارًا لنفس الطلب، مما يستهلك الوقت والميزانية بسبب نسبة الفاقد العالية.
التركيز في ترقية Kling 3.0 وSeedance 2.0 ليس فقط على تحسين الجودة، بل على رفع مستوى السيطرة إلى أولوية أعلى: التوافق بين الكاميرات، وفهم المعنى في الأوامر المعقدة، و"القدرة على التعديل بعد الإنتاج"، جميعها مجتمعة لتقليل نسبة الفاقد. استنتاج التقرير هو أن القفزات التقنية تضع أساسًا لدخول الفيديو بالذكاء الاصطناعي إلى سير عمل واسع النطاق في القطاع التجاري، حيث ستشعر قطاعات الإعلان الإلكتروني، والإنتاج القصير/الدرامي، بالتأثير بشكل أسرع.
وبتقديم تحليل أعمق، يقسم التقرير التأثير إلى مستويين: أحدهما هو تنويع مسارات المنتجات — بيجيتس تركز على “البنية التحتية للكفاءة”، بينما كوايشو تميل إلى “السرد الاحترافي”؛ والثاني هو ثورة جانب العرض التي تعيد حساب تكاليف الإنتاج — التكاليف الحدية لإنتاج المحتوى أصبحت أكثر تشابهًا مع تكاليف الحوسبة. وبالارتباط بمؤشرات الاستثمار، يركز التقرير على الاستفادة في حقوق الملكية الفكرية، وحقوق النشر، وأدوات/نماذج الفيديو بالذكاء الاصطناعي، بالإضافة إلى الطلب على السحابة والمنصات.
ما تم حله فعليًا هو التكاليف غير القابلة للتحكم الناتجة عن “بطاقات السحب”
يؤكد التقرير مرارًا على سلسلة منطقية: أن صعوبة تسويق الفيديو بالذكاء الاصطناعي في الماضي لم تكن بسبب “عدم القدرة على الإنتاج”، بل بسبب “عدم استقرار الإنتاج”. نفس النص، ونفس المواد، والأوامر، كانت تؤدي إلى تذبذب كبير في جودة المنتج النهائي، مما يضطر المبدعين إلى تكرار عمليات التوليد للمراهنة على النتيجة، مما يجعل التكاليف الحدية خارجة عن السيطرة.
يعتقد التقرير أن معنى الجيل الجديد من النماذج هو وضع “قدرة التوليد” في المرتبة الثانية، و"السيطرة" في المقدمة: من خلال بنية متعددة الوسائط الأصلية، ومحاذاة الأوامر، وتعزيز التوافق بين الكيانات والمعنى، يمكن تقليل نسبة الفاقد، وبالتالي تنخفض تكاليف إنتاج الفيديو بشكل عام. ونتيجة لذلك، يُعاد تحديد عتبة التسويق — من “هل يمكننا الإنتاج” إلى “هل يمكننا التسليم بشكل مستقر”.
Kling 3.0 يراهن على “شعور الأفلام الكبيرة”: الواقعية الفيزيائية والسرد الطويل تأتي في المقام الأول
يلخص التقرير كلمات رئيسية لـ Kling 3.0 في أمرين: ترقية النظام للقدرات الأساسية، وتوحيد التوليد والتحرير (Omni).
بالنسبة للفيديو، تركز ترقية Kling 3.0 على: تعزيز التوافق بين الكيانات في مشاهد متعددة الكاميرات/حركات متواصلة؛ تحليل الأوامر النصية المعقدة بشكل أدق؛ تقليل الالتباس في الإشارة بين الشخصيات عند وجود أكثر من شخص في إطار واحد، مع التأكيد على “التحويل الدقيق بين النص والأدوار البصرية” (بما يشمل اللغات المتعددة، اللهجات، وتعبيرات الوجه والحركات بشكل طبيعي).
وضع Omni هو تغيير آخر تم التركيز عليه: إجراء تعديلات محلية قابلة للتحكم على المحتوى المُنتج، وتقليل الحاجة إلى إعادة الإنتاج من الصفر. كما أشار التقرير إلى قدرتين أكثر تخصصًا في الإبداع: الأولى هي إنشاء كيانات الفيديو (استخراج خصائص الشخصيات وصوتها، وتحقيق تطابق دقيق في حركة الفم والتعبيرات)؛ والثانية هي القدرة على تخصيص المشاهد بشكل أصلي، وزيادة مدة التوليد إلى 15 ثانية، مع إمكانية تحديد مدة المشهد، والزوايا، والمواضع، والمحتوى السردي، وطريقة الحركة.
بالنسبة للصور، يُنظر إلى إصدار Kling 3.0 على أنه جزء من “تكامل سير العمل”: دعم حتى 10 صور مرجعية لتحديد ملامح الكيان، والعناصر الأساسية، والنغمة؛ إمكانية تحديد العناصر وإجراء التعديلات عليها بحرية؛ دعم إخراج مجموعات الصور بشكل جماعي لصناعة لوحات القصة/حزم المواد؛ مع تعزيز جودة الإخراج والتفاصيل.
Seedance 2.0 يجعل الفيديو أداة “قابلة للبرمجة”
يحدد التقرير موقع Seedance 2.0 بشكل أكثر كأنه “معيار صناعي”: يركز على أساسيات تتعلق بقوانين الفيزياء، وطبيعة الحركات، وفهم الأوامر بدقة، والحفاظ على استقرار الأسلوب؛ مع إبراز ثلاث قدرات رئيسية — تحسين التوافق (من ملامح الوجه إلى الملابس، وتفاصيل الخطوط، وتغير المشاهد)؛ إعادة إنتاج الحركات المعقدة واللقطات ذات الصعوبة بشكل قابل للتحكم؛ واستنساخ القوالب الإبداعية والتأثيرات المعقدة بدقة.
الأهم هو نمط التفاعل. يعتقد التقرير أن Seedance 2.0 يستخدم “@اسم المادة” لتحديد استخدام الصور/الفيديو/الصوت، وهو في جوهره تفكيك عملية التوليد “الصندوق الأسود” إلى سير عمل قابل للتحكم: يمكن للنموذج أن يستخرج بشكل منفصل @حركة الكاميرا للفيديو، و@تفاصيل الصورة، و@إيقاع الصوت، مما يقلل بشكل كبير من نسبة الفاقد.
كما أن القيود التي يذكرها التقرير تتماشى مع “قيود الإنتاج”: دعم إدخال الصور حتى 9 صور؛ إدخال فيديو حتى 3 مقاطع، لا تتجاوز المدة الإجمالية 15 ثانية؛ دعم MP3 لثلاث ملفات صوتية، لا تتجاوز المدة الإجمالية 15 ثانية؛ حد أقصى لملفات الإدخال المختلطة 12 ملفًا؛ مدة التوليد حتى 15 ثانية (اختياري من 4 إلى 15 ثانية)؛ مع توفير مؤثرات صوتية/موسيقى مدمجة.
بيجيتس تتجه نحو “البنية التحتية للكفاءة”، وكوايشو تتجه نحو “السرد الاحترافي”، وعلي تركز أكثر على السوق الإلكترونية
لا يركز التقرير على ترتيب المنافسة بناءً على الأداء، بل على استراتيجيات الشركات.
يلخص التقرير مسار بيجيتس بأنه أدوات ذات عتبة منخفضة، وتكاليف منخفضة، ومرونة عالية، تشبه “تعديل الفيديو” بشكل متقدم، بهدف تقليل تكاليف إنتاج المحتوى على مستوى الشبكة، ودعم النظام البيئي؛ بينما تركز كوايشو على “المحاكاة الفيزيائية”، والواقعية في المشاهد المعقدة، والتوافق بين الشخصيات، وهو أكثر ملاءمة للعروض السينمائية، والأفلام ذات السرد المتواصل؛ أما علي، فتركز على تحديث نماذج الصور عالية الدقة، مع توجه أكثر نحو السيناريوهات الرأسية (التجارة الإلكترونية)، مع تعزيز قدرات الرقمنة للمنتجات.
هذه المسارات الثلاث لا تتبع نفس النموذج التجاري: أحدها يهدف إلى الإنتاج الضخم، وآخر يركز على تقديم سرد عالي الجودة، والثالث يختص بالقطاعات الرأسية “الجاهزة للإنتاج”.
ثورة جانب العرض: التكاليف الحدية تتقارب مع تكاليف الحوسبة، وحقوق الملكية الفكرية تصبح أكثر ندرة
في سياق التوقعات التجارية، يصف التقرير “ثورة جانب العرض” بأنها أكثر حدة: بعد تحسين قدرات الصور والفيديو، ستتجه التكاليف الحدية لإنتاج المحتوى بشكل متزايد نحو تكاليف الحوسبة.
على المدى القصير، يركز على نوعين من التغييرات: زيادة كفاءة إنتاج المواد للمسوقين/مقدمي خدمات التجارة الإلكترونية، مما يحسن الأرباح؛ وظهور طفرة في قدرات الإنتاج في صناعة المسلسلات القصيرة والدرامية. وعلى المدى الطويل، يوجه التركيز نحو حقوق الملكية الفكرية — فكلما أصبح الإنتاج أسهل، زادت قيمة حقوق الملكية، خاصة حقوق IP الرائدة والمنتجات المشتقة، مع احتمال أن يعيد الذكاء الاصطناعي تقييم قيمة حقوق IP المتوسطة. في الوقت نفسه، ستستفيد الشركات الكبرى التي تمتلك بنية تحتية قوية من الحوسبة (السحابة) وسيناريوهات تدفق المرور المغلقة (المنصات) بشكل مباشر من الفوائد الناتجة عن الاستدعاءات المتكررة في نماذج الاستنتاج.