Veo 3.1 من Google: نموذج توليد الفيديو الذي يضرب بالواقعية الفيزيائية والسينمائية
تحديث Veo 3.1 يجمع بين دقة 4K وصوت متزامن أصلي وتحسينات في الالتزام بالـ prompt، لكنه يبقى محدوداً بـ8 ثوانٍ ويواجه منافسة قوية في اللوحة الرائدة.
فريق AI DayaHimour
٥ أبريل ٢٠٢٦
في أكتوبر 2025 أطلقت جوجل Veo 3.1، النسخة المحدثة من نموذج توليد الفيديو الذي أعلن عنه في مايو ضمن فعاليات I/O. لم يكن التحديث مجرد ترقية روتينية؛ بل جاء مدعوماً بتحسينات ملموسة في جودة الصوت الأصلي المتزامن، والالتزام بالإشارات النصية، والواقعية الفيزيائية التي تجعل الحركات تبدو طبيعية تماماً. ثم جاء تحديث يناير 2026 بعنوان “Ingredients to Video” ليضيف دعماً أفضل للصور المرجعية، وإنتاج فيديو عمودي 9:16 جاهز لـ YouTube Shorts، ورفع دقة إلى 4K. النتيجة: نموذج يستهدف الاستخدام الإنتاجي الحقيقي أكثر من مجرد الترفيه.
Veo 3.1 ليس chatbotاً ينتج فيديو عشوائياً. هو نظام مبني على نموذج latent diffusion يعالج الفيديو والصوت معاً، مما يسمح بتوليد حوار متزامن، ومؤثرات صوتية، وموسيقى خلفية تتناسب مع السياق البصري. المدة القصوى لكل مقطع 8 ثوانٍ (4 أو 6 أو 8 ثوانٍ حسب الإعداد)، مع إمكانية التمديد عبر chaining أو إضافة إطارات أولى وأخيرة. الدقة تصل إلى 4K في الوضع المتقدم، والنسب 16:9 أو 9:16، بمعدل 24 إطاراً في الثانية. هذه المواصفات تجعله مناسباً للإعلانات القصيرة والمحتوى الاجتماعي أكثر من الأفلام الطويلة.
الفرق الجوهري بين Veo 3 وVeo 3.1
Veo 3 أدخل الصوت الأصلي المتزامن لأول مرة، لكنه كان يعاني أحياناً من عدم دقة في النسيج الحقيقي والالتزام بالـ prompt. Veo 3.1 حسّن ذلك بشكل ملحوظ: صوت أغنى وأكثر طبيعية، حركة كاميرا أكثر سينمائية، وفهم أعمق للأساليب الإخراجية. التحديث الإضافي في يناير ركز على الـ “ingredients” أي الصور المرجعية، فأصبح يحافظ على الشخصيات والخلفيات بشكل أفضل، ويسمح بإضافة عناصر جديدة تتناسق مع الأسلوب الموجود. بعض المستخدمين لاحظوا أن Veo 3.1 أبطأ بنسبة 8-12% بدون صوت، وتصل الزيادة إلى 25-30% مع الصوت، لكن الجودة النهائية تبرر الفرق في معظم الحالات الإنتاجية.
كيف يقف Veo 3.1 أمام المنافسين في لوحة Artificial Analysis
لا يحتل Veo 3.1 المركز الأول في كل اللوحات، لكنه يبقى منافساً قوياً. حسب أحدث بيانات Artificial Analysis في أبريل 2026:
| الترتيب التقريبي | النموذج | Elo Score (Text-to-Video) | نقاط القوة الرئيسية | نقاط الضعف البارزة |
|---|---|---|---|---|
| 1-3 | Kling 3.0 Pro | ~1241 | واقعية بشرية، حركة سلسة | صوت أقل تكاملاً |
| 4-5 | Runway Gen-4.5 | ~1230 | فيزياء دقيقة، الالتزام بالـ prompt | لا صوت أصلي متزامن |
| ~13 | Veo 3.1 | ~1215 | صوت متزامن ممتاز، واقعية نسيجية | قصير المدة، تكلفة مرتفعة |
| ~12 | Sora 2 Pro | ~1205 | محاكاة فيزيائية قوية، سرد متماسك | أقل مرونة في التحكم السينمائي |
| متأخر | Seedance 2.0 | ~1180-1270 (Image-to-Video) | تكامل صوتي-بصري ممتاز | أقل في الدقة الفيزيائية النقية |
Veo 3.1 يتفوق بوضوح في الصوت المتزامن والنسيج الحقيقي (textures) الذي يجعل الأشياء تبدو ملموسة. Runway Gen-4.5 يفوز في الدقة الفيزيائية والحركة المقصودة، بينما Kling 3.0 يبرع في الشخصيات البشرية. Sora 2 Pro لا يزال الأقوى في المحاكاة الفيزيائية المعقدة مثل الاصطدامات والجاذبية، لكنه أقل مرونة في التحكم بالكاميرا. Seedance 2.0 (من ByteDance) يقدم تكاملاً صوتياً-بصرياً جيداً لكنه يتأخر في بعض اللوحات.
نقاط التفوق الحقيقية: الواقعية الفيزيائية والسيطرة الإبداعية
ما يميز Veo 3.1 فعلاً هو القدرة على إنتاج حركات تبدو طبيعية تماماً: يد بشرية تلامس كوباً بوزن حقيقي، قماش يتمايل مع الرياح، أو شعر يتحرك بشكل عضوي. النموذج مدرب على بيانات فيزيائية حقيقية، مما يقلل من الأخطاء الشائعة مثل التشوهات أو الاختفاء المفاجئ للأجسام. كما أن الصوت الأصلي ليس مجرد إضافة؛ هو متكامل مع الصورة، فالحوار يتزامن مع حركة الشفاه، والمؤثرات الصوتية تتناسب مع الحركة.
في Flow – أداة التحرير الخاصة بجوجل – يستطيع المستخدم إضافة إطارات مرجعية، تمديد المقاطع، أو توليد انتقال سلس بين المشاهد. هذا يجعل Veo 3.1 مناسباً لصناع الإعلانات الذين يحتاجون عشرات النسخ السريعة من فيديو واحد.
الوصول والتسعير: متاح لكن بتكلفة
Veo 3.1 متاح حالياً عبر تطبيق Gemini (للمشتركين في Pro أو Ultra)، وأداة Flow، وYouTube Shorts، وGoogle Vids، بالإضافة إلى Gemini API وVertex AI. الاشتراك Google AI Ultra (249.99 دولار شهرياً) يمنح وصولاً كاملاً. في الـ API، التسعير يتراوح بين 0.10-0.40 دولار للثانية حسب النسخة (Fast أو Standard، مع أو بدون صوت). في أبريل 2026 أعلنت جوجل خفض أسعار Veo 3.1 Fast وإصدار Lite اقتصادي (حوالي 0.05-0.12 دولار/ثانية) ليصبح أكثر جاذبية للإنتاج عالي الحجم. لا يزال النموذج محدوداً جغرافياً في بعض الدول، ويتطلب حساب Google Cloud مفعّل الفوترة.
القيود والعيوب التي لا يمكن تجاهلها
رغم التقدم، Veo 3.1 لا يزال يعاني من قيود واضحة. أبرزها المدة القصيرة (8 ثوانٍ كحد أقصى لكل توليد)، مما يجبر المستخدمين على الاعتماد على الـ chaining الذي قد يفقد التماسك أحياناً. في المشاهد المعقدة جداً (حشود كبيرة أو تفاعلات فيزيائية شديدة) قد تظهر أخطاء صغيرة في الحركة أو الإضاءة. كذلك، التكلفة ترتفع بسرعة عند الإنتاج الكبير، خاصة مع الصوت. مقارنة بـ Runway Gen-4.5 أو Kling 3.0، يبدو Veo أقل مرونة في التحكم الدقيق بالكاميرا أحياناً، وأغلى نسبياً في الاستخدام اليومي.
التأثير الفعلي على صناعة الفيديو والإعلانات
في عالم الإعلانات، أصبح Veo 3.1 أداة تحولية. وكالات الإعلان تستطيع الآن إنتاج عشرات النسخ المختلفة من حملة واحدة في ساعات بدلاً من أيام التصوير. الشركات الصغيرة التي لم تكن تستطيع تحمل تكاليف الإنتاج التقليدي تجد فيه فرصة لمنافسة العلامات الكبرى. أما في صناعة السينما، فيُستخدم حالياً للـ pre-visualization أو المشاهد الثانوية، لكن الاعتماد الكامل عليه لا يزال بعيداً بسبب الحاجة إلى التماسك عبر دقائق طويلة.
الجانب السلبي واضح: زيادة خطر المحتوى المضلل والـ deepfakes، خاصة مع الواقعية العالية. جوجل تفرض فلاتر أمان قوية، لكن الانتشار السريع يجعل السيطرة تحدياً. كذلك، قد يؤدي انخفاض التكلفة إلى تقليص بعض الوظائف في مرحلة ما قبل الإنتاج، لكنه يفتح أبواباً جديدة للمبدعين المستقلين.
Veo 3.1 ليس النهاية، بل خطوة مهمة في سباق لا يتوقف. جوجل نجحت في جعل توليد الفيديو أقرب إلى الأدوات الإنتاجية الحقيقية بدلاً من مجرد تجربة تقنية. لكن المنافسة من Kling وRunway وSeedance تذكرنا بأن لا نموذج واحد يسيطر على كل شيء. في النهاية، الذي سيفوز هو الذي يجمع بين الجودة والتكلفة والمرونة الإنتاجية بشكل متوازن. Veo 3.1 يقترب من هذا التوازن أكثر من أي وقت مضى، لكنه لا يزال بحاجة إلى خطوات إضافية قبل أن يصبح الأداة الافتراضية لكل مخرج.
عدد القراءات
... قارئ