مقارنة بـ Nano Banana Pro، أطلقت علي و Byte في نفس اليوم نموذج توليد الصور، هل ستشهد سوق تطبيقات الصور الحية على نطاق واسع؟

robot
إنشاء الملخص قيد التقدم

منافسة الذكاء الاصطناعي بين الصين والولايات المتحدة تتصاعد بشكل حاد.

في 10 فبراير، أطلقت شركتا علي بابا وبيكسل في نفس اليوم نماذج جديدة لتوليد الصور، حيث استهدفت الشركتان نموذج جوجل Nano Banana Pro.

ومن بين ذلك، ركزت شركة علي بابا على Qwen-Image-2.0 الذي يركز على الفهم الدلالي والتحرير العملي، مع بنية موحدة للتوليد والتحرير، مع تعزيز قدرات عرض الأحرف الصينية بشكل أفضل، مما يمكنه من فهم الأوامر الطويلة والمعقدة بشكل أكثر دقة؛ بينما ركزت شركة بيكسل على Seedream5.0 Preview الذي يختص بالبحث عن الصور الحية والتحكم الدقيق، مع تحسين دقة فهم الكلمات الرئيسية، ودعم توليد أنسجة أكثر تفصيلًا وضبطًا، مع تكامل عميق مع عمليات الإبداع المحتوى.

وفي 11 فبراير، كشف أحد مزودي الحوسبة عن أن الذكاء الاصطناعي يُستخدم حالياً بشكل واسع في سيناريوهات التجارة الإلكترونية، حيث يُستهلك بشكل واضح في نوعين: الأول هو استهلاك النصوص القصيرة (Token) من قبل الشخصيات الرقمية، والثاني هو استهلاك نماذج توليد الصور في التجارة الإلكترونية. وقال المهندس شيون هانتين، كبير مهندسي الحلول في نموذج Qwen، في مقابلة إن النموذج المحدث Qwen-Image-2.0 تم تحسينه خصيصًا لسيناريوهات التجارة الإلكترونية، مع التركيز على تفاصيل إنتاج المنتجات، والتحكم في النصوص، والتحرير الثانوي.

ومن الجدير بالذكر أن توليد الصور بواسطة الذكاء الاصطناعي لم يعد يقتصر على الإبداع البصري فحسب، بل يتجه بشكل متزايد نحو تطبيقات على مستوى الشركات وعلى نطاق واسع. ومن المتوقع أن تتغلغل تقنيات توليد الصور في سيناريوهات التجارة الإلكترونية وسوق المسلسلات الكوميدية بحلول 2025، ومع تقدم تقنيات توليد الصور، هل يمكن أن نشهد سوقًا للتطبيقات على نطاق واسع بحلول 2026؟

مقارنة مع Nano Banana Pro، تطور نماذج الذكاء الاصطناعي المحلية لتوليد الصور

في 10 فبراير، أطلقت شركتا علي بابا وبيكسل نماذج لتوليد الصور. أطلقت علي بابا نموذج Qwen-Image-2.0 الجديد للتوليد والتحرير، بينما أطلقت شركة ByteDance منصة صغيرة تُدعى Xiaoyunque، التي تعتمد على Seedream5.0 Preview، وتستهدف كلاهما المنافسة مع نموذج جوجل Nano Banana Pro.

ووفقًا لمعلومات من شركة علي بابا، يدعم Qwen-Image-2.0 إدخال نصوص طويلة تصل إلى 1000 رمز ودقة عالية تصل إلى 2000 بكسل، مع قدرة على عرض أوامر معقدة بدقة، وتوليد عروض تقديمية ومخططات معلوماتية بشكل احترافي. كما أن النموذج تم تطويره على أساس النموذجين Qwen-Image وQwen-Image-Edit، مع دمج التوليد والتحرير في نموذج واحد، مما أدى إلى تحسين كبير في أداء توليد الصور وتعديلها، مع بنية أخف وزنًا.

أما شركة ByteDance، فذكرت أن Seedream 5.0 Preview يدعم إخراج الصور بدقة 2K و4K، ويمكن للمستخدمين حاليًا تجربة إخراج 2K مجانًا على منصة Yimeng.

وقال مسؤول كبير في شركة مدرجة إنهم كانوا يستخدمون تقنيات توليد الصور بالذكاء الاصطناعي سابقًا لصنع عروض تقديمية وصور منتجات للشركات، لكن لا تزال هناك بعض العيوب، خاصة فيما يتعلق بتفاصيل النصوص وتوافق الصور.

وأفاد وو تشنفي، مسؤول توليد الصور البصرية في شركة علي بابا، أن مشكلة تدهور تفاصيل النصوص في الصور المولدة تعود إلى سببين رئيسيين. الأول هو أن نماذج التوليد الحالية تعتمد بشكل رئيسي على تقنية VAE (المشفر التلقائي المتغير)، والتي تؤثر بشكل كبير على معالجة النصوص داخل الصور، خاصة النصوص الصغيرة. وذلك لأن VAE هو آلية ضغط، وعندما تحتوي الصور على الكثير من النصوص، تزداد صعوبة التوليد، وتكون محدودة بقدرة VAE على المعالجة. السبب الثاني هو محدودية قدرات نماذج التوليد ذاتها، حيث أن قدرة النموذج على التوليد الحقيقي والتفاصيل يعتمد على قدراته في النمذجة، والتي تتأثر بشكل مباشر بجودة الصورة النهائية.

ما مدى بعد توليد الصور بالذكاء الاصطناعي عن التطبيقات على مستوى الشركات؟

حاليًا، مع تطور نماذج توليد الصور بالذكاء الاصطناعي، يزداد الاهتمام بتطبيقاتها في سوق التجارة الإلكترونية وسوق المسلسلات الكوميدية، مع استمرار ارتفاع مفهوم “الدراما بالذكاء الاصطناعي” في السوق.

وفي 11 فبراير، قال Zhang Yi، المدير التنفيذي لشركة iMedia، إن صناعة الدراما الكوميدية باستخدام الذكاء الاصطناعي تعتمد بشكل رئيسي على توليد الصور بواسطة الذكاء الاصطناعي، ثم تحويلها إلى فيديوهات، مع إضافة أصوات وترجمات باستخدام الذكاء الاصطناعي، وهو الشكل السائد حاليًا في الصناعة.

وأشارت شركة Dongwu Securities في تقريرها إلى أن الذكاء الاصطناعي يمكن أن يخفض تكاليف إنتاج الدراما الكوميدية بنسبة تصل إلى 90%. وقال Zhou Liquang، المدير العام لقسم الرسوم المتحركة بالذكاء الاصطناعي في شركة Chinese Online، إن الذكاء الاصطناعي يُبسط 11 عملية معقدة في صناعة الدراما التقليدية إلى أربع خطوات: كتابة النص، توليد الصور، تحويل الصور إلى فيديو، والمعالجة النهائية، مما يسرع بشكل كبير من الإنتاج.

ومن أحد أسباب المشكلة هو أن صناعة الدراما الكوميدية تعتمد بشكل كبير على نمط “السحب والإفلات” في التوليد. المشكلة الكبرى في هذا النمط أن النتيجة النهائية تعتمد بشكل كبير على فهم النموذج، وقدرته على الاستنتاج، حيث أن المبدع الوحيد هو من يضبط النصائح والتعليمات.

وتُظهر بيانات iMedia أن غالبية المستخدمين يعتقدون أن تقنيات الذكاء الاصطناعي تُفيد في خفض التكاليف (51.2%) وتسريع تحويل المحتوى إلى علامات تجارية (47.7%). كما أشار نصف المستخدمين تقريبًا إلى وجود نقص واضح في توحيد أسلوب الصورة (47.1%)، والتعبير العاطفي في الصوت (46.7%).

ويرى Zhang Yi أن سوق الدراما الكوميدية بالذكاء الاصطناعي يشهد الآن نموًا سريعًا. وتؤثر تقنيات الذكاء الاصطناعي على صناعة الدراما الكوميدية بفرص وتحديات، حيث تساهم في خفض التكاليف، وتسريع تحويل المحتوى، مما يرفع من كفاءة الإنتاج ويطور أشكال المحتوى، لكنها في الوقت ذاته تفرض على الصناعة تحسين جودة الأسلوب، والصوت، وتطوير الشخصيات، لضمان الجودة مع التوسع.

وبجانب ذلك، فإن توليد الصور بالذكاء الاصطناعي يُغير بشكل غير معلن سوقًا آخر هو سيناريوهات التجارة الإلكترونية.

وفي سياق التسوق الإلكتروني، توجد حاجة كبيرة لاستخدام الصور. وفي 11 فبراير، كشف أحد مزودي الحوسبة أن توليد الصور بالذكاء الاصطناعي هو أحد الطلبات الرئيسية التي تستهلك tokens بشكل كبير، بجانب الشخصيات الرقمية.

وقال شيون هانتين إن سيناريو التجارة الإلكترونية هو أحد السيناريوهات الرئيسية التي تنفذ فيها نماذج Qwen-Image، وأن التحديث الأخير للنموذج Qwen-Image-2.0 يعتمد على تطبيقات التجارة الإلكترونية، مع تحسينات وتطويرات على النماذج السابقة، مما يعزز من تطبيقات الشركات على مستوى المؤسسات.

وأشار إلى أن، في سيناريو التجارة الإلكترونية، يمكن أن تتكامل صور وصف المنتجات، وعروض الملابس، بشكل أفضل مع نماذج توليد الصور الجديدة. مقارنةً بالإصدارات السابقة التي كانت تتطلب تحريرًا ثانويًا لتحقيق السيطرة على الصور، فإن النموذج الجديد يدمج مهام التوليد والتحرير في نموذج واحد، مما يرفع من كفاءة البائعين على المنصات الإلكترونية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.42Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.41Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.42Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.42Kعدد الحائزين:1
    0.00%
  • تثبيت