كل المقالات

مشهد معيار LLM عربي 2026

المعايير الرئيسية الخمسة

AraMMLU

ما هو: ترجمة عربية لـ MMLU — 57 موضوعًا عبر STEM، علوم إنسانية، علوم اجتماعية، مهنية. نقاط القوّة: اتّساع + قابلية المقارنة مع MMLU إنجليزي. ما يفتقد: آثار الترجمة. معالجة اللهجة. محاذاة ثقافية. تحوّل لغوي. متانة معاكسة. درجات 2025-2026 النموذجية: GPT-4 ~73%، Jais-30B ~50%، Fanar 2.0 ~55%، ALLaM المرحلة 1 ~50%.

AraBench

ما هو: معيار عربي متعدّد المهامّ يغطّي تصنيف، NER، مشاعر، QA، تلخيص. نقاط القوّة: عناصر عربية أصلية في بعض المهامّ. ما يفتقد: تصنيف عائلة لهجة. عمق ثقافي. مجموعة فرعية تحوّل لغوي. درجات 2025-2026 النموذجية: أعلى النماذج MENA-أصلية ~70-80% على تصنيف، ~50-65% على توليد.

AlGhafa-Bench (TII / Falcon)

ما هو: معيار اتّباع تعليمات عربي من TII، أُطْلِق مع نماذج عربية فئة Falcon. نقاط القوّة: تقييم ضبط تعليمات عربي أصلي. ما يفتقد: تغطية لهجة. عمق تصنيف لكل مهمّة. مجموعة فرعية معاكسة. درجات 2025-2026 النموذجية: Falcon Arabic ~65%، Jais-30B ~62%، Fanar 2.0 ~70%.

ArabicQA

ما هو: فهم قراءة عربي — QA استخراجي على ويكيبيديا عربية + أخبار. نقاط القوّة: محتوى مصدر عربي أصلي. ما يفتقد: QA لهجة. عمق استدلال. QA عبر-وثائق. درجات 2025-2026 النموذجية: أعلى LLMs عربية ~75-85% F1.

Pira-Ar

ما هو: QA مفتوح المجال مع ترجمات عربية. نقاط القوّة: قدرة QA مفتوح المجال. ما يفتقد: لهجة، ثقافي، تحوّل لغوي، معاكس. درجات 2025-2026 النموذجية: أعلى LLMs عربية ~50-65%.

ما تخفيه درجات المعيار

فجوة تصنيف اللهجة

نموذج يُحَقِّق 67% إجمالي على AraMMLU قد يكون:

الدرجات الإجمالية تخفي فجوات لكل عائلة-لهجة.

المحاذاة الثقافية لا تُقاس

المعايير القياسية لا تشمل مجموعات فرعية محاذاة ثقافية. نموذج يُسَجِّل جيّدًا على AraMMLU قد يُنتج مخرجات غير ملائمة دينيًا أو ثقافيًا في الإنتاج.

التحوّل اللغوي لا يُقاس

محادثات الإنتاج في MENA مُحَوَّلَة لغويًا بشدّة. المعايير القياسية تختبر عربيًا أحادي اللغة. نموذج يُسَجِّل 70% على AraMMLU قد يفشل على إدخال إنتاج مُحَوَّل لغويًا.

المتانة المعاكسة لا تُقاس

المعايير القياسية تستخدم موجّهات حسنة التشكيل. نشر الإنتاج يواجه موجّهات معاكسة / حالة-حدّية.

شكّ تسرّب مجموعة التقييم

النماذج المُدَرَّبَة على ويكيبيديا العربية المكشوطة من الويب + المُخْتَبَرَة على معايير مبنية من ويكيبيديا العربية قد يكون لديها تسرّب مجموعة تقييم.

كيف تقرأ درجات المعيار لقرارات إنتاج

السؤال 1: ما المعايير التي يُبَلِّغ المختبر؟

إذا أبلغ المختبر فقط درجات إجمالية AraMMLU + AraBench، النشر الخاصّ باللهجة محفوف بالمخاطر. اطلب تصنيف لكل عائلة.

السؤال 2: ما قصّة المحاذاة الثقافية؟

إذا لم ينشر المختبر تقييم محاذاة ثقافية صريح، النموذج قد يُنتج مخرجات غير ملائمة في الإنتاج.

السؤال 3: ما قصّة التحوّل اللغوي؟

إذا لم يُظْهِر المختبر تقييم تحوّل لغوي، النموذج على الأرجح يتعامل مع التحوّل اللغوي الإنتاجي بشكل ضعيف.

السؤال 4: ما قصّة المعاكس؟

إذا لم ينشر المختبر تقييم معاكس / فريق أحمر، أوضاع فشل النموذج غير معروفة.

السؤال 5: شفافية نشر مجموعة التقييم؟

إذا نشر المختبر عناصر التقييم، يمكنك التحقّق من السلامة + الفحص للتسرّب.

ما نوصي به لمختبر FM + نشر ذكاء اصطناعي عربي جدّي

  1. لا تعتمد على الدرجات الإجمالية لقرارات النشر. الإجمالي يُخْفِي أوضاع فشل.
  2. ابنِ تقييمًا مخصّصًا لحالة استخدامك. AraMMLU ليس اختبار استعداد نشر.
  3. أضف مجموعات فرعية محاذاة ثقافية + تحوّل لغوي + معاكس. غير قابلة للتفاوض لنشر مسؤول.
  4. استخدم تأشير حقيقة-أرض بلغوي بدكتوراه على مجموعة تقييمك. ضوضاء crowd-sourced 15% تخفي فروق نموذج حقيقية.
  5. شَغِّل مقارنة عبر-المختبرات على نفس مجموعة الاختبار المخصّصة.
ناقش تقييم LLM عربي → جلسة 30 دقيقة اقرأ منهجية التقييم