Fable5 في العمل: قفزة واضحة للبرمجة، وحدود يجب إدارتها قبل الدفع
الدرس الأهم من تجربة Fable5 ليس أنه “موديل جديد أقوى من غيره”. الدرس الحقيقي أن الفارق القادم في الذكاء الاصطناعي لن يظهر فقط في جودة الإجابة، بل في قدرة الموديل على تنفيذ عمل طويل، مكلف، ومتعدد الخطوات، بدون أن تحتاج أن تبقى واقفاً فوق رأسه طوال الوقت.
وهنا تحديداً يبدأ Fable5 من Anthropic بإثارة الاهتمام. ليس لأنه مثالي في كل شيء، بل لأنه في البرمجة والـ agentic coding أعطى إشارات عملية لم أرَ مثلها منذ فترة طويلة.
في المقابل، التجربة لم تكن كلها انبهاراً. في العربية والشعر كانت النتيجة ضعيفة. في بعض الداشبوردات كانت الفكرة جيدة لكن التنفيذ يحتاج تدقيقاً. وفي موضوع التكلفة، أي استخدام غير مضبوط قد يتحول بسرعة إلى فاتورة مزعجة.
لماذا Fable5 مهم الآن؟
Fable5 مهم لأنه، حسب ما ورد في الفيديو، خارج من نفس العائلة الأساسية التي يدور حولها الحديث: Mythos. هذا وحده يشرح سبب الحماس، لأن Mythos كان من النماذج التي سمع عنها كثيرون لكن لم يكن الوصول إليها متاحاً إلا لمجموعة محدودة.
النسخة التي أصبحت متاحة للمستخدمين هي Fable5، مع قيود واضحة. حسب التجربة، من الآن وحتى 22/6/2026 يمكن استخدامه ضمن الكريدت الموجود في الحساب لبعض الاشتراكات، وبعد هذا التاريخ قد يصبح استخدامه صرفاً إضافياً منفصلاً.
هذه النقطة ليست تفصيلاً مالياً صغيراً. عندما نتحدث عن موديل قادر على استهلاك كميات ضخمة من التوكن في مهام طويلة، يصبح السؤال العملي هو: هل القيمة التي يخلقها تستحق الكلفة؟
لذلك لم أتعامل معه كمجرد موديل للدردشة. تعاملت معه كأداة يمكن أن تدخل في شغل حقيقي: برمجة، داشبوردات، مراقبة مؤشرات، وتجربة بناء لعبة كاملة من برومبت واحد.
لا تقيّم Fable5 من البنشمارك فقط
الأرقام التي عرضتها Anthropic مثيرة. في بعض اختبارات agentic coding، ظهر Fable5 و Mythos 5 بنتائج أعلى بوضوح من موديلات مثل GPT 5.5 و Claude Opus 4.8 حسب ما عُرض في الفيديو.
لكن يجب التعامل مع هذه الأرقام بحذر. كل شركة تعرف كيف تعرض أرقامها بأفضل صورة، ولا يوجد سبب يدفعنا إلى شراء الحماس بالكامل لمجرد أن الرسم البياني جميل.
الأهم من البنشمارك هو نمط الأداء. الفكرة التي تكررت في الإعلان والتجربة هي أن Fable5 يتحسن كلما كانت المهمة أطول وأكثر تعقيداً. أي أن الفرق لا يظهر فقط في سؤال وجواب، بل في مشروع كامل يحتاج تخطيطاً، كتابة كود، مراجعة، وتعديل.
هذا هو الاختبار الحقيقي لأي موديل جديد اليوم. ليس: هل يجيب بسرعة؟ بل: هل يستطيع أن يمسك مهمة كبيرة ويمشي بها إلى نتيجة مفيدة؟
الإشارة الأقوى: البرمجة وليست المحادثة
إذا أردت اختصار التجربة بجملة واحدة: Fable5 يبدو أقرب إلى قفزة في البرمجة من كونه قفزة في كل استخدامات الذكاء الاصطناعي.
في الكتابة العربية لم يبهرني. في جمع بعض المؤشرات الاقتصادية والسلعية كانت النتيجة مفيدة كتصميم أولي، لكن الأرقام والرسومات تحتاج تحققاً. أما في بناء واجهات وتجارب برمجية، فهنا ظهر الفرق بوضوح.
وهذا مهم لأي شخص يستخدم AI في العمل. لا تسأل فقط: “ما هو أقوى موديل؟” اسأل: “في أي نوع من المهام يصبح هذا الموديل أقوى فعلاً؟”
اختبار العربية كشف الحدود بسرعة
بدأت بتجربة بسيطة لكنها كاشفة: طلبت من Fable5 كتابة شعر مرتبط بشغلي في المشتريات، مع إدخال حماس منتخب الأردن ودخوله كأس العالم، وطلبت منه أن يتجنب الصيغ العادية والمستهلكة في الشعر العربي.
النتيجة لم تكن مقنعة. كان هناك بعض الالتقاط الذكي للتفاصيل، مثل إدخال “النشامى” وأجواء الدوام والبيانات والموردين، لكن النص ككل لم يحمل جودة شعرية قوية.
هذا لا يعني أن Fable5 ضعيف مطلقاً. لكنه يذكّرنا بشيء مهم: الموديل الخارق في الكود ليس بالضرورة خارقاً في اللغة، خصوصاً عندما ندخل في الذائقة العربية والشعر والأسلوب.
التطبيق العملي هنا واضح: لا تبنِ تقييمك لأي موديل على انطباع واحد. اختبره في المهمة التي تهمك أنت، لا في المهمة التي يتصدر بها الترند.
داشبورد AI loops: هنا بدأت القيمة العملية تظهر
التجربة الثانية كانت أقرب لاستخدام فعلي في بيئة عمل. الفكرة: إذا كنت سأبني نظاماً يعتمد على AI loops متعددة، فأنا أحتاج داشبورد أراقب منه كل شيء.
طلبت من Fable5 تصور داشبورد يعرض اللوبس المختلفة، أين وصلت، ما المدخلات، ما المراجعات، ما المخرجات، كم التكلفة، وما المشاكل المفتوحة.
النتيجة كانت قوية كتصميم أولي. ظهر داشبورد حديث يعرض أمثلة مثل Market Intelligence، Procurement Risk، YouTube Research، Inbox، و Code Quality Assurance. كل لوب لها حالة، مهام، تكلفة، مخاطر، ونسبة تقدم.
الأهم أن الداشبورد لم يكن مجرد شكل جميل. كان يفكر بمنطق تشغيل النظام: مدخلات، معالجة، مراجعة، مخرجات، ومخاطر. هذا بالضبط ما تحتاجه إذا كنت تبني agents أو loops تعمل لفترات طويلة.
هل كان المنتج النهائي جاهزاً للإنتاج؟ لا. لكنه كتصميم أولي، وبالقيود التي وضعتها على التوكن والكريدت، كان أفضل من أغلب ما رأيته من موديلات سابقة في برومبت بسيط.
داشبورد المشتريات: فكرة ممتازة، لكن لا تثق بالأرقام فوراً
التجربة الثالثة كانت مرتبطة بعملي في المشتريات في الخليج العربي. طلبت منه بناء رادار لمراقبة المواد والمؤشرات التي تؤثر على أغلب الصناعات: الطاقة، المعادن، المواد الأساسية، وبعض مؤشرات دول الخليج.
ظهرت عناصر مفيدة مثل النفط الخام، الغاز الطبيعي، الألمنيوم، النحاس، القمح، اليوريا، الفوسفات، نمو الناتج، سعر الصرف، والتضخم. كفكرة إدارية، هذا نوع الداشبورد الذي يمكن أن يوفر ساعات من البحث إذا تم ربطه بمصادر موثوقة.
لكن هنا ظهرت نقطة مهمة: بعض الرسومات والمؤشرات بدت غير مضمونة. لم أشعر أن كل الشارتات واقعية أو دقيقة، ولذلك لا يمكن أخذ النتيجة كما هي واستخدامها في قرار شراء أو إدارة مخاطر.
وهذه ليست مشكلة Fable5 وحده. أي موديل AI يعطيك داشبورد بيانات يجب أن يُعامل كمسودة تشغيلية، لا كمصدر حقيقة نهائي.
الاستخدام الصحيح هنا هو أن تجعل الموديل يبني الهيكل، يحدد المؤشرات، يقترح مصادر، وينظم العرض. أما الأرقام والقرارات، فيجب أن تمر عبر تحقق بشري أو ربط مباشر بمصادر بيانات موثوقة.
لعبة 3D ببرومبت واحد: اللحظة التي غيّرت الانطباع
أقوى اختبار كان اللعبة. طلبت منه بناء لعبة أف رودينج ثلاثية الأبعاد في صحراء الإمارات، بسيارة Jeep، بحيث أستطيع القيادة على الكثبان والتطعيس.
النتيجة كانت مفاجئة. اللعبة لم تكن مجرد مكعب يتحرك على أرض صفراء. كان هناك مشهد صحراوي، سيارة، تحكم، أوضاع قيادة، صوت، عدادات، بوصلة، RPM، سرعة، وحتى منطق فيزيائي يجعل السيارة تغرز أو تحتاج عزم أعلى.
الأجمل أن اللعبة تضمنت تفاصيل لم أطلبها كلها صراحة: 2H، 4H، 4L، diff lock، hand brake، camera control، و recovery. هذه ليست تفاصيل تجميلية فقط؛ هذه تفاصيل تعكس فهماً لتجربة الأف رودينج نفسها.
عندما جربت القيادة، ظهرت لحظات مقنعة: السيارة تعاني على الرمل، تحتاج إلى 4L للخروج، والفيزياء ليست مثالية لكنها منطقية بما يكفي لتجعلك تقول: هذا أكبر من مجرد ديمو عادي.
هنا ظهر الفرق الحقيقي. برومبت واحد، تحت قيود كريدت وتوكن، أنتج تجربة قابلة للعب وبها تفاصيل وظيفية. قبل سنة، الوصول إلى نتيجة بهذا الشكل من طلب واحد لم يكن شيئاً بديهياً.
القيمة ليست في “الانبهار” بل في تقليل عدد اللفات
من السهل أن ننبهر بلعبة 3D أو داشبورد جميل. لكن القيمة العملية الأهم بالنسبة لي هي تقليل عدد اللفات.
في السابق، للوصول إلى واجهة مثل داشبورد AI loops أو لعبة بهذا المستوى، كنت تحتاج عدة محاولات: برومبت أول، تعديل، إصلاح، تحسين واجهة، إصلاح أخطاء، ثم ضبط التفاصيل. مع Fable5، بدا أن المسافة من الفكرة إلى النسخة الأولى المفيدة أصبحت أقصر.
هذا لا يلغي دور الإنسان. لكنه يغير مكان دور الإنسان. بدلاً من أن تقضي وقتك في دفع الموديل خطوة خطوة، يمكنك أن تقضي وقتك في تحديد القيود، تقييم الجودة، واختيار أين يستحق أن يصرف توكن أكثر.
وهنا تحديداً تصبح مهارة إدارة الموديل أهم من مهارة كتابة برومبت جميل فقط.
التكلفة هي الاختبار الذي لا يظهر في العروض المبهرجة
في الفيديو، كان هناك قيد واضح على التجربة: الكريدت والتوكن. لم أترك Fable5 يعمل براحة كاملة، لأن هذه الموديلات قادرة على حرق مبالغ كبيرة بسرعة إذا لم تضع حدوداً.
حسب ما ورد، التسعير المعروض كان 10 دولارات لكل مليون توكن إدخال و50 دولاراً لكل مليون توكن مخرجات. ومع المهام الطويلة، هذه الأرقام ليست نظرية. يمكن للموديل أن يستهلك الكثير خلال فترة قصيرة.
لهذا كنت أقول له صراحة في البرومبت: انتبه للكريدت، استخدم التوكن بحذر، والهدف أن تنجز شيئاً مميزاً بأقل عدد توكن ممكن.
هذه طريقة تفكير مهمة لأي فريق يريد استخدام Fable5 أو أي موديل مشابه. لا تطلب “أفضل نتيجة ممكنة” فقط. اطلب أفضل نتيجة ضمن ميزانية، زمن، وتكلفة توكن واضحة.
قيود الأمان قد تظهر في أماكن غريبة
من النقاط التي ظهرت أيضاً أن Fable5 موضوع عليه مستوى أمان حساس. أحياناً قد يرفض إجابة غير مؤذية لأنه يفسرها كشيء قد يستخدم بطريقة سيئة.
حسب ما ورد في الفيديو، الشركة تقول إن نسبة الرفض الخاطئ أقل من 5%. لكن الانطباع مما يذكره بعض المستخدمين على منصة X يبدو أعلى من ذلك.
هنا يجب أن نكون منصفين. الأمان في موديل بهذه القدرة ليس موضوعاً ثانوياً، خصوصاً إذا كان قادراً على العمل لفترات طويلة وتنفيذ مهام معقدة. لكن في الاستخدام اليومي، الرفض الخاطئ قد يصبح عائقاً حقيقياً.
التطبيق العملي: إذا كنت ستستخدم Fable5 في نظام إنتاجي، اختبر حالات الرفض مبكراً. لا تكتشف في منتصف مشروع مهم أن الموديل يتوقف عند طلبات طبيعية لأنه بالغ في تفسير المخاطر.
أين أرى Fable5 مناسباً الآن؟
من هذه التجربة، أراه مناسباً أكثر لثلاث فئات من المهام.
1. بناء النماذج الأولية بسرعة
إذا لديك فكرة لعبة، داشبورد، واجهة، أو أداة داخلية، Fable5 قد يساعدك على الوصول إلى نسخة أولى قوية بسرعة. ليس بالضرورة نسخة إنتاجية، لكنها كافية لتختبر الفكرة وتعرضها وتبني فوقها.
2. agentic coding والمهام الطويلة
القيمة الأكبر تظهر عندما تعطيه مهمة فيها خطوات، مراجعة، وتنفيذ. هذا ليس استخدام “اكتب لي كود بسيط”، بل استخدام أقرب إلى: خطط، ابنِ، راجع، صحح، وقرّبني من نتيجة قابلة للاستخدام.
3. تصميم أنظمة مراقبة وتشغيل
داشبورد AI loops كان مثالاً جيداً. الموديل فهم أن النظام يحتاج مدخلات، مهام، مخاطر، تكلفة، وحالة تقدم. هذه طريقة تفكير مفيدة لأي شخص يبني أدوات داخلية أو يدير عمليات تعتمد على الذكاء الاصطناعي.
وأين لا أنصح بالانبهار الزائد؟
لا أنصح بتقييم Fable5 من الشعر أو الكتابة العربية الإبداعية. في هذه التجربة، لم تكن النتيجة قوية.
ولا أنصح باستخدامه كمصدر أرقام نهائي في الداشبوردات الاقتصادية أو مؤشرات المشتريات بدون تحقق. يمكنه بناء الهيكل بسرعة، لكنه لا يعفيك من مسؤولية التحقق.
ولا أنصح بتركه يعمل بلا حدود تكلفة. كلما زادت قدرة الموديل على العمل الطويل، زادت أهمية التحكم بالكريدت والتوكن.
الخلاصة: قفزة حقيقية، لكن ليست في كل الاتجاهات
رأيي بعد التجربة أن Fable5 أعطانا دفعة واضحة للأمام، خصوصاً في البرمجة والمهام التنفيذية الطويلة. ليس مجرد تحسين صغير فوق موديلات سابقة، بل إشارة إلى مستوى جديد في بناء الأشياء من طلبات قصيرة.
لكن هذا لا يجعله موديلًا سحرياً. هو قوي حيث صُمم ليكون قوياً: الكود، الواجهات، الـ agents، والمهام المركبة. أما اللغة العربية الإبداعية والدقة الرقمية في الداشبوردات، فهناك حدود واضحة يجب احترامها.
أهم ما تعلمته من هذه التجربة: المستقبل القريب لن يكون عن “من يكتب أجمل جواب”، بل عن “من يستطيع تحويل الفكرة إلى منتج أولي قابل للتجربة بأقل لفات وأقل تكلفة”.
وهنا Fable5 يستحق الانتباه.
سؤالي لك: لو كان لديك وصول إلى Fable5 اليوم، ما الاختبار الحقيقي الذي ستضعه أمامه؟ لعبة؟ داشبورد عمل؟ كود إنتاجي؟ أم مهمة عربية صعبة؟