Claude Opus 4.7 من أنثروبيك: مراجعة النموذج الجديد للبرمجة الوكيلة (أبريل 2026)
أعلنت أنثروبيك نموذج Claude Opus 4.7 في 16 أبريل 2026: قفزة 11 نقطة في SWE-Bench Pro، رؤية 3.75 ميغابكسل، مستوى xhigh، تسعير، ومقارنة مع GPT-5.4 وGemini 3.1.
فريق AI DayaHimour
١٦ أبريل ٢٠٢٦
أعلنت شركة أنثروبيك في 16 أبريل 2026 عن الإتاحة العامة لنموذجها الجديد Claude Opus 4.7، ليحلّ مباشرةً محلّ Opus 4.6 الصادر في فبراير، ويُكرّس إيقاع الإصدارات كل شهرين الذي باتت تلتزم به الشركة. غير أن هذه النسخة لم تظهر في الفراغ؛ فقبل ساعات من الإعلان، كشفت أنثروبيك عن وجود نموذج داخلي أقوى يحمل الاسم الرمزي Claude Mythos Preview، وأقرّت صراحةً بأن Opus 4.7 “أقل قدرةً منه على نطاق واسع”. هذا الاعتراف النادر يضع الإصدار الجديد في موقعٍ غير مألوف: فهو ليس ذروة ما أنتجته الشركة، بل النسخة الأكثر أماناً المتاحة تجارياً، ومختبرٌ حيّ لحزمة ضوابط الأمان قبل أي توسيع مستقبلي لنماذج فئة Mythos.
Opus 4.7 يتفوق في معيار SWE-Bench Pro على كل من GPT-5.4 Pro من OpenAI وGemini 3.1 Pro من جوجل، ويُعيد ترتيب المشهد في البرمجة الوكيلة طويلة الأمد ومعالجة الصور عالية الدقة واستخدام الحاسوب. ما يلي قراءة تفصيلية لما جاء في الإصدار، وما يعنيه للمطورين والمؤسسات التي تبني فوق Claude.
البرمجة الوكيلة: جوهر الإصدار
الرهان الأول لـ Opus 4.7 هو المهام البرمجية الممتدة التي تستغرق ساعات، لا دقائق. أنثروبيك تصف النموذج بأنه قادر على الدخول في مشاريع كانت تتطلب إشرافاً بشرياً لصيقاً، مع ميل واضح إلى التحقق من مخرجاته قبل تسليمها، بدلاً من تنفيذ الأوامر حرفياً. عملياً، النموذج يتوقف ليُراجع افتراضاته، ويُعلن صراحةً عن بيانات مفقودة بدلاً من تخمين قيم وهمية — وهو سلوك أشارت إليه بالإيجاب فرق هندسية في Vercel وHex وBox خلال مرحلة الوصول المبكّر.
على SWE-Bench Pro، قفز الأداء من 53.4% في Opus 4.6 إلى 64.3% في النسخة الجديدة، متجاوزاً GPT-5.4 الذي يقف عند 57.7% وGemini 3.1 Pro عند 54.2%. هذه قفزة 11 نقطة داخل شريحتين متتاليتين من نفس العائلة، وهو مكسب نادر في مرحلة توصف بأنها مرحلة تشبّع معايير. على CursorBench ارتفع المعدل من 58% إلى 70%، وهو مؤشر له وزن خاص لأن Cursor من أوسع بيئات البرمجة استخداماً لنماذج كلود. أما على Rakuten-SWE-Bench، الذي يُحاكي تذاكر إنتاج حقيقية لا مسائل محضرة، فقد حلّ النموذج ثلاثة أضعاف المهام مقارنة بسلفه، مع مكاسب من خانتين في جودة الكود وتغطية الاختبارات. وفي اختبار أنثروبيك الداخلي المكوّن من 93 مهمة برمجية، أنجز Opus 4.7 أربع مهام عجز عنها كل من Opus 4.6 وSonnet 4.6، ورفع معدل الحل الإجمالي بـ 13%.
المعايير المرجعية — أبريل 2026
المعايير المرجعية الرئيسية — أبريل 2026
على معيار GPQA Diamond تتقارب النماذج الرائدة بشكل لافت: Opus 4.7 عند 94.2%، وGPT-5.4 Pro عند 94.4%، وGemini 3.1 Pro عند 94.3%. هذا التقارب يشير إلى أن التمييز بين المنصات لم يعد ممكناً عبر معايير المعرفة العلمية المجردة، وأن المعركة الحقيقية انتقلت إلى الأداء التطبيقي في المهام متعددة الخطوات. في المقابل، لا تسير كل المؤشرات في صالح أنثروبيك: في BrowseComp الذي يقيس البحث القائم على الوكلاء، تراجع الأداء إلى 79.3% مقابل 83.7% لسلفه، ويتخلف عن GPT-5.4 الذي يسجل 89.3%. وعلى Terminal-Bench 2.0، يسجّل Opus 4.7 نسبة 69.4% مقابل 75.1% لـ GPT-5.4. هذا التراجع قد يكون الوجه الآخر لفضيلة الحذر؛ فالنموذج الذي يُفضّل الإعلان عن المعلومات الناقصة يدفع ثمن ذلك في معايير تُكافئ الإنجاز الكامل للمهمة مهما كانت جودته.
الرؤية البصرية: ثلاثة أضعاف الدقة السابقة
أكبر قفزة وصفية في Opus 4.7 تأتي من جانب الرؤية. يعالج النموذج الآن صوراً بدقة تصل إلى 2,576 بكسل على الحافة الطويلة، أي نحو 3.75 ميغابكسل، بعد أن كانت النماذج السابقة من عائلة Claude تتوقف عند 1,568 بكسل (قرابة 1.15 ميغابكسل). الزيادة تفوق ثلاثة أضعاف، وأثرها العملي في computer use حاسم: الإحداثيات التي يُنتجها النموذج باتت تتطابق واحد-إلى-واحد مع بكسلات الشاشة الفعلية، ما يُلغي كلياً عبء معامِلات التحجيم التي كان على المطورين حسابها يدوياً. النتيجة ظهرت في XBOW للرؤية البصرية، حيث ارتفع الأداء من 54.5% في Opus 4.6 إلى 98.5% في النسخة الجديدة — قفزةٌ تُعيد تعريف فئات مثل تحليل المستندات الكثيفة، وقراءة لقطات الشاشة، والتعامل مع واجهات المستخدم المعقدة.
أدوات المطورين: مستوى xhigh وميزانيات المهام
يُضيف الإصدار مستوى جهد جديداً باسم xhigh، يقع بين high وmax، ويمنح تحكماً أدق في المقايضة بين عمق التفكير وزمن الاستجابة. توصي أنثروبيك ببدء أعباء العمل البرمجية الوكيلة بمستوى high أو xhigh، وقد أصبح xhigh الإعداد الافتراضي في Claude Code لجميع الخطط. إلى جانبه، يدخل نظام task budgets مرحلة تجريبية ليُتيح للمطورين تخصيص ميزانيات التفكير بدقة على المهام الطويلة، مع منع الانزلاق نحو دوامات تفكير مكلفة دون نتيجة.
داخل Claude Code تحديداً، يُطلق الإصدار أمر /ultrareview الذي يُشغّل جلسة مراجعة مخصصة تُحاكي مراجعاً بشرياً خبيراً — لا تقتصر على اكتشاف أخطاء الصياغة، بل تلتقط ثغرات التصميم وعيوب المنطق. وضع Auto Mode، الذي يسمح لكلود باتخاذ قرارات مستقلة دون طلب تأكيد متكرر، توسّع ليشمل مستخدمي خطة Max بعد أن كان حكراً على فرق تجريبية مختارة.
الذاكرة المبنية على نظام الملفات شهدت هي الأخرى تحسيناً جوهرياً. النموذج يحتفظ بالملاحظات المفتاحية عبر جلسات عمل ممتدة ومتعددة المراحل، ويستعيدها حين يحتاجها، ما يجعله أكثر فاعلية في المشاريع التي تمتد أياماً أو أسابيع. الإصدار يدعم أيضاً تنسيق سير العمل المتوازي بين فرق من الوكلاء، مع قدرة معلنة على مواصلة التنفيذ بعد فشل بعض الأدوات — وهو سيناريو كان يُوقف Opus 4.6 كلياً في كثير من الأحيان.
التسعير والتوفر وتكلفة خفية في الرموز
النموذج متاح فوراً عبر جميع منتجات Claude وواجهة برمجة التطبيقات، إضافةً إلى Amazon Bedrock وGoogle Cloud Vertex AI وMicrosoft Foundry. أبقت أنثروبيك على التسعير دون تغيير: 5 دولارات لكل مليون رمز إدخال، و25 دولاراً لكل مليون رمز إخراج، مع خصم يصل إلى 90% عبر التخزين المؤقت للـ prompts. من جانبها، أعلنت GitHub عن دعمه في Copilot لمستخدمي الخطط المدفوعة.
رغم ثبات السعر الظاهري، ثمة تكلفة خفية ينبغي التنبّه لها: Opus 4.7 يعتمد tokenizer محدّثاً يُحوّل النص نفسه إلى عدد رموز أكبر بمعامل يتراوح بين 1.0 و1.35 حسب نوع المحتوى. بعبارة أخرى، قد ترتفع تكلفة الطلب الواحد بشكل ملموس رغم عدم تغيّر السعر لكل رمز. وعلى مستوى الـ API، هناك تغيير مهم في السلوك: تمرير temperature أو top_p أو top_k سيُنتج خطأ 400، بعد أن حذفت أنثروبيك هذه المعاملات لصالح نظام التفكير التكيفي. المسار الرسمي للتحكم في سلوك الإخراج بات عبر مستويات الجهد الجديدة ونظام ميزانيات المهام.
Mythos وProject Glasswing: الوجه الآخر للإصدار
لا يمكن قراءة Opus 4.7 دون قراءة الإطار الذي تحرّكت فيه أنثروبيك قبيل إطلاقه. الكشف عن Claude Mythos Preview وإطلاق Project Glasswing شكّل لحظة فارقة في ملف أمان الذكاء الاصطناعي. وثّقت الشركة أن Mythos اكتشف خلال الاختبار الداخلي آلاف الثغرات من نوع zero-day في كل نظام تشغيل رئيسي وكل متصفح كبير. من أبرز الحالات: ثغرة تنفيذ تعليمات عن بُعد في FreeBSD عمرها 17 عاماً (CVE-2026-4747)، اكتشفها النموذج واستغلّها مستقلاً دون تدخل بشري بعد التوجيه الأول، وثغرة أخرى في OpenBSD عمرها 27 عاماً. وأظهر Mythos قدرةً على ربط عدة ثغرات صغيرة في سلسلة هجوم واحدة مترابطة.
هذا المستوى من القدرة هو ما جعل أنثروبيك تمتنع عن إتاحة Mythos للعامة، وتستعيض عن ذلك بـ Project Glasswing: برنامج شراكة مع 12 منظمة محورية بينها Amazon وApple وMicrosoft وGoogle وCisco وCrowdStrike وNvidia وJPMorgan Chase ومؤسسة Linux، مع وصول ممتد إلى قرابة 40 جهة للعمل الدفاعي. رصدت الشركة 100 مليون دولار من أرصدة الاستخدام للبرنامج، إضافةً إلى 4 ملايين دولار كتبرعات لمنظمات أمن المصادر المفتوحة.
في هذا الإطار، يحمل Opus 4.7 دوراً محدداً: هو أول نموذج من أنثروبيك يشحن بضوابط آلية لرصد طلبات الأمن السيبراني عالية الخطورة وحجبها. تُفصح الشركة أن ما ستتعلّمه من تشغيل هذه الضوابط على نموذج “أقل خطورة” سيُرشد قرارات التوسّع المستقبلي لنماذج فئة Mythos. وللمحترفين الذين يستخدمون Opus 4.7 لأغراض مشروعة كأبحاث الثغرات واختبارات الاختراق، فُتح برنامج التحقق السيبراني (Cyber Verification Program) بوصفه المسار الرسمي لرفع القيود.
الفجوة بين النموذجين ليست هامشية: Mythos يُسجّل 93.9% على SWE-Bench Verified مقابل 87.6% لـ Opus 4.7، و77.8% مقابل 64.3% على SWE-Bench Pro. النموذج المقيّد أقوى بفارق حقيقي، وهذه الفجوة هي بالضبط مصدر التوتر الذي تديره أنثروبيك داخلياً: نموذج قادر، لكنها تمنعه.
من الناحية المالية، تتحرك الشركة من موقع قوة استثنائي. إيراداتها السنوية المحسوبة تخطّت 30 مليار دولار، ووفق تقارير من صناديق استثمارية كبرى بدأت الشركة استقبال عروض عند تقييم 800 مليار دولار — أكثر من ضعف تقييم جولة Series G البالغ 380 مليار دولار في فبراير 2026. Claude Code وحده يُسهم بنحو 2.5 مليار دولار من الإيرادات السنوية المحسوبة.
خلاصة تحليلية
Opus 4.7 يُرسّخ موقع أنثروبيك كقائد في البرمجة الوكيلة، لكنه يُبقي جملة من الأسئلة مفتوحة: إلى أي حد ستُعيق الضوابط التلقائية استخدامات المطورين المشروعة مع مرور الوقت؟ وكم يمكن للشركة الاحتفاظ بنموذجها الأقوى خلف شراكة محدودة في ظل تصاعد ضغوط OpenAI وGoogle؟ ومتى يبلغ السباق النقطة التي تتحوّل فيها الضوابط الأمنية من ميزة تنافسية إلى عبءٍ لا يتحمّله طرف دون آخر؟ إجابات هذه الأسئلة ستتحدّد في الأشهر القليلة المقبلة، حين يصبح واضحاً ما إذا كان نموذج Mythos سيخرج من القفص، أم أن قفصه سيتّسع ليشمل كامل صناعة الذكاء الاصطناعي.
عدد القراءات
... قارئ