٢١ مايو ٢٠٢٦ معيار LLM عربي 2026

مشهد معيار LLM عربي 2026

المعايير الرئيسية الخمسة

AraMMLU

ما هو: ترجمة عربية لـ MMLU — 57 موضوعًا عبر STEM، علوم إنسانية، علوم اجتماعية، مهنية. نقاط القوّة: اتّساع + قابلية المقارنة مع MMLU إنجليزي. ما يفتقد: آثار الترجمة. معالجة اللهجة. محاذاة ثقافية. تحوّل لغوي. متانة معاكسة. درجات 2025-2026 النموذجية: GPT-4 ~73%، Jais-30B ~50%، Fanar 2.0 ~55%، ALLaM المرحلة 1 ~50%.

AraBench

ما هو: معيار عربي متعدّد المهامّ يغطّي تصنيف، NER، مشاعر، QA، تلخيص. نقاط القوّة: عناصر عربية أصلية في بعض المهامّ. ما يفتقد: تصنيف عائلة لهجة. عمق ثقافي. مجموعة فرعية تحوّل لغوي. درجات 2025-2026 النموذجية: أعلى النماذج MENA-أصلية ~70-80% على تصنيف، ~50-65% على توليد.

AlGhafa-Bench (TII / Falcon)

ما هو: معيار اتّباع تعليمات عربي من TII، أُطْلِق مع نماذج عربية فئة Falcon. نقاط القوّة: تقييم ضبط تعليمات عربي أصلي. ما يفتقد: تغطية لهجة. عمق تصنيف لكل مهمّة. مجموعة فرعية معاكسة. درجات 2025-2026 النموذجية: Falcon Arabic ~65%، Jais-30B ~62%، Fanar 2.0 ~70%.

ArabicQA

ما هو: فهم قراءة عربي — QA استخراجي على ويكيبيديا عربية + أخبار. نقاط القوّة: محتوى مصدر عربي أصلي. ما يفتقد: QA لهجة. عمق استدلال. QA عبر-وثائق. درجات 2025-2026 النموذجية: أعلى LLMs عربية ~75-85% F1.

Pira-Ar

ما هو: QA مفتوح المجال مع ترجمات عربية. نقاط القوّة: قدرة QA مفتوح المجال. ما يفتقد: لهجة، ثقافي، تحوّل لغوي، معاكس. درجات 2025-2026 النموذجية: أعلى LLMs عربية ~50-65%.

ما تخفيه درجات المعيار

فجوة تصنيف اللهجة

نموذج يُحَقِّق 67% إجمالي على AraMMLU قد يكون:

75% على مجموعة فرعية فصحى
55% على مجموعة فرعية خليجي
50% على مجموعة فرعية مصري
40% على مجموعة فرعية مغاربي

الدرجات الإجمالية تخفي فجوات لكل عائلة-لهجة.

المحاذاة الثقافية لا تُقاس

المعايير القياسية لا تشمل مجموعات فرعية محاذاة ثقافية. نموذج يُسَجِّل جيّدًا على AraMMLU قد يُنتج مخرجات غير ملائمة دينيًا أو ثقافيًا في الإنتاج.

التحوّل اللغوي لا يُقاس

محادثات الإنتاج في MENA مُحَوَّلَة لغويًا بشدّة. المعايير القياسية تختبر عربيًا أحادي اللغة. نموذج يُسَجِّل 70% على AraMMLU قد يفشل على إدخال إنتاج مُحَوَّل لغويًا.

المتانة المعاكسة لا تُقاس

المعايير القياسية تستخدم موجّهات حسنة التشكيل. نشر الإنتاج يواجه موجّهات معاكسة / حالة-حدّية.

شكّ تسرّب مجموعة التقييم

النماذج المُدَرَّبَة على ويكيبيديا العربية المكشوطة من الويب + المُخْتَبَرَة على معايير مبنية من ويكيبيديا العربية قد يكون لديها تسرّب مجموعة تقييم.

كيف تقرأ درجات المعيار لقرارات إنتاج

السؤال 1: ما المعايير التي يُبَلِّغ المختبر؟

إذا أبلغ المختبر فقط درجات إجمالية AraMMLU + AraBench، النشر الخاصّ باللهجة محفوف بالمخاطر. اطلب تصنيف لكل عائلة.

السؤال 2: ما قصّة المحاذاة الثقافية؟

إذا لم ينشر المختبر تقييم محاذاة ثقافية صريح، النموذج قد يُنتج مخرجات غير ملائمة في الإنتاج.

السؤال 3: ما قصّة التحوّل اللغوي؟

إذا لم يُظْهِر المختبر تقييم تحوّل لغوي، النموذج على الأرجح يتعامل مع التحوّل اللغوي الإنتاجي بشكل ضعيف.

السؤال 4: ما قصّة المعاكس؟

إذا لم ينشر المختبر تقييم معاكس / فريق أحمر، أوضاع فشل النموذج غير معروفة.

السؤال 5: شفافية نشر مجموعة التقييم؟

إذا نشر المختبر عناصر التقييم، يمكنك التحقّق من السلامة + الفحص للتسرّب.

ما نوصي به لمختبر FM + نشر ذكاء اصطناعي عربي جدّي

لا تعتمد على الدرجات الإجمالية لقرارات النشر. الإجمالي يُخْفِي أوضاع فشل.
ابنِ تقييمًا مخصّصًا لحالة استخدامك. AraMMLU ليس اختبار استعداد نشر.
أضف مجموعات فرعية محاذاة ثقافية + تحوّل لغوي + معاكس. غير قابلة للتفاوض لنشر مسؤول.
استخدم تأشير حقيقة-أرض بلغوي بدكتوراه على مجموعة تقييمك. ضوضاء crowd-sourced 15% تخفي فروق نموذج حقيقية.
شَغِّل مقارنة عبر-المختبرات على نفس مجموعة الاختبار المخصّصة.

ناقش تقييم LLM عربي → جلسة 30 دقيقة اقرأ منهجية التقييم

القيود وإخلاء المسؤوليّة

قيود هذا التحليل. يَعكِس هذا المقال قراءة Annota8 للأدلّة المتاحة علنًا حتّى تاريخ آخر تعديل له. مواقع المورّدين، الأطر التنظيميّة، أرقام المقاييس ونطاق البرامج يمكن أن تتغيّر دون إشعار. حيث تُذكر نطاقات عدديّة، تلك الأرقام قابلة للتحقّق من المصدر المرتبط في قسم المراجع داخل المقال — لم تُعِد Annota8 إجراء المقاييس بنفسها ما لم يُذكر ذلك صراحةً في المقال.

الموقف القانوني والخصوصيّة. Annota8 شركة عمليّات بيانات ذكاء اصطناعي في مرحلة مبكّرة في إطلاق ناعم. لا نَملِك حاليًّا شهادة SOC 2، أو ISO 27001، أو شهادة PDPL، أو أيّ شهادة أمن أو خصوصيّة من طرف ثالث. نُصمِّم وَفقًا لمبادئ PDPL ونَقدِر على توقيع DPA مَبنيّة على نموذج SCC الأوروبي. الموقف التوافقي المحدّد لارتباطك متاح عند الطلب من [email protected].

لا شيء في هذا المقال يُمثِّل استشارة قانونيّة أو ضريبيّة أو استثماريّة. الاستشهادات التنظيميّة يجب التحقّق منها مع مستشار قانوني في ولايتك القضائيّة. أسماء المورّدين المذكورة في هذا المقال مرجَّعة كسياق مشهد صناعي فحسب — Annota8 لا تَدَّعِي ادّعاءً تنافسيًّا للمنتج، ولا علاقة عملاء، ولا أيّ ارتباط آخر مع أيّ من المنصّات المذكورة، ما لم يُذكر ذلك صراحةً.

تواصَل مع الفريق:[email protected] · annota8.ai