Grok Voice Think Fast 1.0: وكيل xAI الصوتي يتصدر τ-voice Bench بفارق 20 نقطة
في 23 أبريل 2026، أطلقت xAI نموذج grok-voice-think-fast-1.0 الصوتي محققاً 67.3% في اختبار τ-voice Bench الشامل، متجاوزاً Gemini 3.1 Flash Live (43.8%) وGPT Realtime 1.5 (35.3%) بفارق يتخطى 20 نقطة مئوية.
فريق AI DayaHimour
٢٣ أبريل ٢٠٢٦
أعلنت xAI يوم 23 أبريل 2026 عن إطلاق grok-voice-think-fast-1.0، وهو وكيل صوتي زودته بقدرات تفكير آني وتفوق مباشر على كل المنافسين في اختبار τ-voice Bench. النموذج لم يدخل السوق بهدوء، بل قفز إلى صدارة لوحة القيادة محققاً 67.3% في النتيجة الإجمالية، بينما وقف Gemini 3.1 Flash Live عند 43.8% و GPT Realtime 1.5 عند 35.3%. الفارق تجاوز 23 نقطة مئوية عن أقرب المتنافسين، وما يميز الرقم أنه لم يأتِ في اختبار نظري، بل في محاكاة لأسوأ ظروف الصوت الحقيقية: ضوضاء خلفية، لهجات ثقيلة، مقاطعات سريعة، وتناوب طبيعي في الحديث.
حين ننظر إلى سابقه grok-voice-fast-1.0 الذي سجل 38.3% فقط، نجد أن النقلة ليست مجرد تحسين تدريجي، بل قفزة معمارية أضافت “تفكيراً صامتاً” دون أن تمس زمن الاستجابة. هذا ما يفسر كيف انتقل النموذج من مؤخرة السباق إلى صدارته في أقل من عام.
4 مشكلات قاسية حُلّت من الجذر
بنَت xAI النموذج حول أربعة محاور لطالما شكّلت عنق الزجاجة لنشر الوكلاء الصوتيين تجارياً:
دقة الجمع في البيئات الفوضوية ـ يلتقط Grok Voice Think Fast 1.0 عناوين البريد الإلكتروني وأرقام الهواتف وأرقام الحسابات حتى مع الكلام السريع أو التصحيحات المتقطعة، بالطريقة نفسها التي يعالج بها العقل البشري التصحيح دون أن يفقد السياق. التعامل مع اللهجات لم يعد ميزة جانبية بل صار شرطاً أساسياً.
تنسيق 28 أداة في جلسة واحدة ـ الوكيل قادر على استدعاء ما يصل إلى 28 أداة تغطي مئات مسارات العمل، من منح أرصدة الخدمة إلى استبدال الأجهزة، ومن تغيير الخطط إلى تسوية نزاعات الفواتير. كل هذا يحدث دون أن يشعر المتصل بتعقيد خلف الكواليس.
تفكير خفي آني ـ النموذج يُجري استدلالاً في الخلفية حول الحالات الحدّية قبل النطق، مما يمحو ظاهرة الثقة الزائفة. في مثال عملي، سُئل: “أيّ أشهر السنة تحتوي على حرف X؟” فأجاب بدقة: “لا يوجد أي شهر يحتوي على حرف X”، بينما هرعت نماذج أخرى إلى تخمين فبراير بثقة تامة.
مقاومة الفوضى الصوتية ـ اختُبر النموذج عبر ضغط الترميز الهاتفي، ضوضاء الشارع، واللهجات الحادة، وهو يدعم أكثر من 25 لغة أصلية، مما يجعله جاهزاً لمراكز اتصال عالمية الطابع.
الأداء بالأرقام: τ-voice Bench
جاءت النتائج من اختبار τ-voice Bench الذي يحاكي سيناريوهات ثلاث قطاعات بعينها. الجدول أدناه يُظهر الفارق بين Grok Voice Think Fast 1.0 والمنافسين:
| القطاع | Grok Voice Think Fast 1.0 | Gemini 3.1 Flash Live | GPT Realtime 1.5 |
|---|---|---|---|
| الاتصالات (خطط، فوترة، صيانة) | 73.7% | 40.4% | 21.1% |
| الطيران (حجوزات، تأخيرات، رحلات معقدة) | 66% | 64% | 36% |
| التجزئة (طلبات، مرتجعات، ضوضاء) | 62.3% | 45.6% | 38.6% |
في الاتصالات بلغ الفارق 33 نقطة مئوية، وهو مشهد نادر في اختبارات نماذج الذكاء الاصطناعي. حتى في الطيران، حيث يقترب Gemini عند 64%، بقي Grok متقدماً بنقطتين في بيئة تتطلب دقة عالية في تعديل مسارات الرحلات.
المعايير المرجعية — τ-voice Bench (أبريل 2026)
Starlink: الاختبار الميداني لم ينتظر
لم تنتظر xAI إقناع السوق بالنظرية، بل أدخلت النموذج في العمليات الحية لشريكتها Starlink. خط الهاتف +1 (888) GO STARLINK بات يُدار بصوت Grok لأعمال البيع وخدمة العملاء. الأرقام التي كُشف عنها قوية:
- 20% معدل تحويل المبيعات أثناء المكالمة نفسها.
- 70% من استفسارات الدعم تُحل ذاتياً دون أي تدخل بشري.
هذه المؤشرات تنقل الوكلاء الصوتيين من طور التجربة إلى طور التشغيل الكامل. وفي وقت تشهد فيه أنظمة خدمة العملاء حول العالم ضغطاً متزايداً، يصبح نموذج يعالج المئات من السيرورات بأداة واحدة خياراً استراتيجياً لا ترفاً تقنياً.
السعر: 0.05 دولار للدقيقة مع توافق OpenAI Realtime API
أحد أكبر المفاجآت أن النموذج يأتي بسعر 0.05 دولار للدقيقة (3.00 دولارات للساعة) عبر wss://api.x.ai/v1/realtime، وهو نصف تكلفة واجهة OpenAI Realtime API تقريباً. كما أن واجهة برمجة التطبيقات متوافقة مع معيار OpenAI Realtime API، مما يسمح للمطورين بالتبديل بسلاسة دون إعادة بناء التكاملات.
يُسمح بـ 100 جلسة متزامنة لكل فريق و30 دقيقة كحد أقصى للجلسة، وهو ما يغطي تفاعلات الدعم والمبيعات النموذجية. في الوقت نفسه، أوقفت xAI الإصدار السابق grok-voice-fast-1.0 رسمياً وأوصت بالترحيل إلى النموذج الجديد.
ماذا بعد هذا التقدم؟
بعد 18 شهراً من دخولها ميدان الصوت، لم تكتفِ xAI بمنافسة الأسماء الكبرى، بل تصدرت لوحة القيادة بفارق يصعب تجاهله. الأداء في الاتصالات، تحديداً، يرسم مستقبلاً تصبح فيه مراكز الاتصال التقليدية استثناءً لا قاعدة.
يبقى التحدي الحقيقي في سرعة رد المنافسين. تاريخياً، تزول الفجوات الكبيرة سريعاً في أسواق الذكاء الاصطناعي. لكن الجمع بين التفكير الخفي والسعر المنخفض والتجربة الميدانية مع Starlink يجعل من grok-voice-think-fast-1.0 أكثر من مجرد رقم في لوحة قيادة. إنها نقطة بداية لواقع جديد.