نماذج ٩ أبريل ٢٠٢٦ 5 دقائق قراءة

Kimi K2.5: النموذج الصيني الذي يعيد تعريف حدود الأداء مفتوح المصدر

تحليل شامل لـ Kimi K2.5 من Moonshot AI: بنية تريليون معامل، سرب وكلاء متوازٍ، أداء يتحدى GPT-5.4 بجزء بسيط من التكلفة.

فريق AI DayaHimour

٩ أبريل ٢٠٢٦

Kimi K2.5: النموذج الصيني الذي يعيد تعريف حدود الأداء مفتوح المصدر

صدمة يناير: حين تتجاوز الحدود الأمامية

في 27 يناير 2026، أطلقت شركة Moonshot AI الصينية الناشئة نموذجها Kimi K2.5، وما ميّزه ليس فقط أرقام المعايير المرجعية، بل مفهوم معماري جديد كلياً: “Agent Swarm” أو سرب الوكلاء. النموذج قادر على تنسيق ما يصل إلى 100 وكيل فرعي لتنفيذ 1500 خطوة أداة بشكل متوازٍ، مما يقلص زمن تنفيذ المهام المعقدة بمقدار 4.5 أضعاف مقارنة بالوكلاء التقليديين أحاديي المسار. الأهم أنه الأول من نوعه بين النماذج مفتوحة المصدر الذي يصل فعلياً إلى “الحدود الأمامية” للأداء.

بنية الخبراء: تريليون معامل بكفاءة جراحية

يعتمد K2.5 على بنية خليط الخبراء (MoE) بإجمالي تريليون معامل، لكنه لا يُفعّل منها خلال الاستدلال سوى 32 ملياراً لكل رمز مميز. هذا التصميم يمنح النموذج ذاكرة معرفية هائلة مع كفاءة حسابية تجعل تشغيله ممكناً بتكاليف منافسة.

المواصفات الجوهرية: 61 طبقة تشمل طبقة كثيفة واحدة، 384 خبيراً مع تفعيل 8 منهم لكل رمز، نافذة سياق تبلغ 256,000 رمز، مفردات من 160,000 رمز، ومشفّر بصري MoonViT بحجم 400 مليون معلمة. التدريب المسبق جرى على 15 تريليون رمز مختلط من النصوص والصور، مما جعله نموذجاً متعدد الوسائط بالفطرة لا بالإضافة.

الأداء في الاختبارات المرجعية

النتائج التالية موثقة من منصات مستقلة كـ LiveBench وArtificial Analysis:

المعايير المرجعية الرئيسية — أبريل 2026

AIME 2025 96.1%

HMMT 2025 95.4%

GPQA Diamond 87.6%

MathVista 90.1%

SWE-Bench Verified 76.8%

LiveCodeBench 85.0%

HLE (مع الأدوات) 50.2%

رياضيات وعلوم

برمجة

وكلاء

في اختبار SWE-bench Verified تحديداً، تُعدّ نتيجة 76.8% أعلى نتيجة مسجلة لنموذج مفتوح المصدر حتى الآن، متجاوزاً DeepSeek V3.2 بفارق ملحوظ.

مقارنة الوكلاء: حين يتفوق السرب

مقارنة أداء الوكلاء — Kimi K2.5 Agent Swarm مقابل المنافسين

BrowseComp

Kimi K2.5 Agent Swarm 76.8%

Kimi K2.5 66.6

Claude Opus 4.5 32.8

Wide Search

Kimi K2.5 Agent Swarm 79.0

Kimi K2.5 73.7

Claude Opus 4.5 76.2

In-house Bench

Kimi K2.5 Agent Swarm 68.3

Kimi K2.5 41.6

Claude Opus 4.5 49.8

ما تكشفه هذه الأرقام أن وضع Kimi K2.5 في نمط “Agent Swarm” يحوّله إلى أداة بحث واسعة النطاق مختلفة كلياً، متجاوزاً Claude Opus 4.5 بفارق كبير في BrowseComp (75.4 مقابل 32.8). أما في Wide Search فالمنافسة أشد توازناً.

التصنيف العالمي: منصة LMSYS

منصة LMSYS Chatbot Arena تعتمد على تصويت بشري أعمى بين مخرجات نموذجين في آنٍ واحد، وهي من أكثر المعايير موضوعية لتقييم جودة المحادثة. في تحديث مارس 2026، احتل Kimi K2.5 المرتبة التاسعة عالمياً في Code Arena بـ 1809 نقطة Elo، ليكون أول نموذج صيني إلى جانب GLM-5 يدخل قائمة العشرة الكبار. النماذج المتصدرة حصلت على 1941–2002 نقطة، مما يعني فارقاً يتراوح بين 130 و190 نقطة — بُعد قابل للتضييق، لكنه حقيقي.

تحليل Artificial Analysis: الذكاء مقابل التكلفة

منصة Artificial Analysis تقيس أداء الوكلاء في مهام واقعية معقدة، وتجمع بين الأداء والتكلفة الفعلية. أبرز نتائجها على K2.5:

مؤشر الذكاء: 47 نقطة مقابل متوسط نماذج مماثلة يبلغ 26 نقطة. في مقياس GDPval-AA (للمهام المعرفية الوكيلة كالتحليلات والعروض)، حصل على 1309 نقطة Elo، متجاوزاً GLM-4.7 وDeepSeek V3.2 وGemini 3 Pro.

التكلفة الإجمالية: 371 دولاراً لتشغيل مجموعة اختبارات الذكاء الكاملة، أقل بأكثر من 4 أضعاف من Claude Opus 4.5 أو GPT-5.2.

الهلوسة: معدل 64% فقط مقارنة بـ 74% للإصدار السابق Kimi K2 Thinking. النموذج يفضّل الامتناع عن الإجابة على اختلاق معلومات غير مثبتة، وهي سمة إيجابية في سياقات الموثوقية.

السرعة: 40.8 رمزاً في الثانية مقابل متوسط 51، مع ميل واضح للإسهاب (89 مليون رمز في مجموعة الاختبارات مقابل متوسط 15 مليوناً). هذا قد يكون قيمة في التحليل العميق، لكنه يرفع التكلفة في التطبيقات التفاعلية.

التسعير: حرب الأسعار التي غيّرت المعادلة

السعر الرسمي عبر Alibaba Cloud: 0.60 دولار لكل مليون رمز إدخال، و3.00 دولارات للإخراج. عبر OpenRouter: 0.38 دولاراً للإدخال و1.72 دولاراً للإخراج. مع خصم المدخلات المخزنة مؤقتاً، يصل السعر الفعلي للإدخال إلى أقل من 0.25 دولار في حالات الاستخدام المتكررة.

المقارنة الأكثر إثارة: K2.5 أرخص بحوالي 9 أضعاف من Claude Opus 4.5، وأرخص بنحو 37 مرة من Claude Opus 4.6. في سياق أنه يتفوق على هذين النموذجين في عدة اختبارات وكلاء، تصبح المعادلة أداءً متقدماً بكسر التكلفة.

عائلة Kimi الكاملة

النموذج	المعاملات	المعاملات النشطة	الاستخدام	السعر
Kimi K2 Lite	‎~30B	30B	المهام البسيطة	مجاني
Kimi K2	‎~100B	100B	الاستخدام العام	$0.30/$0.10
Kimi K2.5	1T	32B	المهام المعقدة	$1.20/$0.40
Kimi K2 Pro	‎~2T	64B	البحث المتخصص	$6.00/$2.00

المحددات الحقيقية

نافذة السياق البالغة 256,000 رمز تُعدّ القيد الأبرز، إذ تقل عن ملايين الرموز في Gemini وClaude وحتى Llama 4 Maverick. هذا يحدّ من استخدامه في مهام تتطلب معالجة وثائق ضخمة أو مستودعات برمجية كاملة في سياق واحد.

في اختبار ARC-AGI-2 الخاص بالاستدلال المجرد، سجّل 12% فقط بتكلفة تقييم 0.28 دولار، وهو رقم يشير إلى فجوة في القدرة على استنتاج أنماط مجردة جديدة بالكامل — وهو تحدٍّ مشترك لمعظم نماذج الجيل الحالي، غير أن النماذج المتطورة المغلقة تسجّل أعلى منه بفارق.

تشير تقارير مستقلة أيضاً إلى أن سير العمل المعتمدة بكثافة على استدعاء الأدوات قد تحتاج إلى إشراف بشري أكبر مقارنة بنماذج OpenAI أو Anthropic، خاصة في بيئات الإنتاج الحساسة.

متاح بالكامل: MIT بلا قيود

أُطلق النموذج بموجب ترخيص MIT مفتوح المصدر، متاح للاستخدام والتعديل والتوزيع التجاري. يمكن الوصول إليه عبر kimi.com والتطبيق المحمول، أو عبر API من Fireworks AI وTogether AI وNebius وCloudflare Workers AI، أو تحميل الأوزان من Hugging Face لتشغيل نسخة كاملة بحجم حوالي 595 جيجابايت أو نسخة ديناميكية مضغوطة بحوالي 240 جيجابايت.

تساؤلات تبحث عن أجوبة

ما يطرحه Kimi K2.5 على الساحة أعمق من مجرد معايير مرجعية: إذا كان نموذج مفتوح المصدر بهذا الأداء في البرمجة والرياضيات والبحث الوكيل متاحاً بهذه التكلفة، فأين تقع القيمة الفعلية للنماذج المغلقة؟ الإجابة الجزئية موجودة في نقطتين: جودة التفسيرات والاستدلال الموجه للإنسان (حيث تتفوق نماذج Claude)، والتعامل مع السياقات الضخمة جداً (حيث يتفوق Gemini). لكن السؤال الأعمق يتعلق بما إذا كانت فجوات الأداء هذه ستستمر في الاتساع أم ستتضيق، حين يمتلك الفريق الذي أنتج K2.5 موارد ونموذجاً مجانياً للتحسين المستمر بمعدل لا يخضع لضغوط الربحية الفورية.

Kimi K2.5Moonshot AIسرب الوكلاءLMSYSArtificial AnalysisLiveBenchمقارنة نماذج2026

عدد القراءات

... قارئ

شارك المقال: