Claude Mythos Preview: النموذج الحدودي الأقوى من Anthropic الذي يُحجب عن العامة
أعلنت Anthropic في 7 أبريل 2026 عن Claude Mythos Preview ضمن Project Glasswing. يتفوق النموذج بشكل حاسم على Opus 4.6 في SWE-bench Verified بنسبة 93.9% وGPQA Diamond بنسبة 94.6% وغيرها من معايير البرمجة الوكيلة، لكنه محظور للجمهور بسبب قدرته على اكتشاف آلاف الثغرات الصفرية autonomously.
فريق AI DayaHimour
١١ أبريل ٢٠٢٦
أعلنت شركة Anthropic في 7 أبريل 2026 عن Claude Mythos Preview ضمن مبادرة Project Glasswing. يُصنف النموذج كنموذج حدودي عام الغرض غير متاح للجمهور، ويهدف المشروع إلى استخدام قدراته في تأمين البرمجيات الحرجة عالمياً.
المواصفات التقنية الرئيسية
Claude Mythos Preview هو نموذج غير مصدر للاستخدام العام، ويتميز بقدرات وكيلية متقدمة في اكتشاف واستغلال الثغرات الأمنية autonomously. أظهر النموذج خلال الأسابيع السابقة للإعلان اكتشاف آلاف الثغرات عالية الخطورة في كل أنظمة التشغيل الرئيسية وكل المتصفحات الرئيسية، بالإضافة إلى برمجيات أخرى مهمة. بعض هذه الثغرات كانت موجودة منذ عقود ولم تكتشفها الاختبارات البشرية أو الآلية السابقة.
أداء المعايير Benchmarks
أجرت Anthropic تقييمات رسمية على Claude Mythos Preview في أبريل 2026، وتظهر النتائج تفوقاً واضحاً مقارنة بـ Opus 4.6 في المعايير المتعلقة بالبرمجة الوكيلة والاستنتاج العلمي.
المعايير المرجعية الرئيسية — أبريل 2026
تظهر التقييمات الرسمية تفوقاً إضافياً في معايير أخرى متخصصة. حقق النموذج 77.8% على SWE-bench Pro مقابل 53.4% لـ Opus 4.6، و82.0% على Terminal-Bench 2.0 مقابل 65.4%، و59.0% على SWE-bench Multimodal (تنفيذ داخلي) مقابل 27.1%، و87.3% على SWE-bench Multilingual مقابل 77.8%. كما سجل 83.1% على CyberGym مقابل 66.6%، و79.6% على OSWorld-Verified مقابل 72.7%.
مقارنة سريعة بالمنافسين
يتفوق Claude Mythos Preview على Opus 4.6 في جميع المعايير المذكورة، مع فارق يصل إلى 24.4 نقطة مئوية في SWE-bench Pro. يبرز التفوق بشكل خاص في المهام الوكيلة التي تتطلب اكتشاف ثغرات واستغلالها دون توجيه بشري. لا تتوفر بيانات مقارنة مباشرة مع نماذج أخرى مثل GPT-5.4 أو Gemini 3.1 في هذه المرحلة الرسمية، إلا أن النتائج الداخلية لـ Anthropic تؤكد الريادة في القدرات البرمجية والسيبرانية.
حالات الاستخدام المثلى
يُخصص Claude Mythos Preview حالياً لأكثر من 40 شريكاً في Project Glasswing، من بينهم Amazon Web Services وApple وGoogle وMicrosoft وNVIDIA وCrowdStrike وLinux Foundation. يستخدم الشركاء النموذج في فحص البرمجيات الأساسية واكتشاف الثغرات الصفرية وإصلاحها قبل استغلالها. لا يُسمح بالاستخدام العام، ويُقتصر الوصول على أغراض دفاعية فقط بعد مرحلة الـ preview.
السياق الأوسع للقدرات الوكيلية
تعكس قدرات Mythos Preview اتجاهاً أوسع في تطوير النماذج الحدودية التي تتجاوز المهام التقليدية إلى الاستقلالية الكاملة في البيئات المعقدة. اكتشف النموذج ثغرة عمرها 27 عاماً في OpenBSD، وثغرة عمرها 16 عاماً في FFmpeg، وسلسلة ثغرات في نواة Linux تسمح بالسيطرة الكاملة على النظام. هذه القدرات تثير تساؤلات حول توازن المخاطر والفوائد في نشر نماذج تتفوق على الاختبارات البشرية التقليدية.
يبقى السؤال مفتوحاً حول المدة التي ستستغرقها الشركات في تطوير الضمانات الأمنية اللازمة قبل إتاحة نماذج بهذا المستوى من القدرة للاستخدام العام، وكيف سيؤثر ذلك على سرعة تطوير الذكاء الاصطناعي في مجالات الأمن السيبراني والبرمجة.
عدد القراءات
... قارئ