كل المقالات

كيف تحصل مختبرات نماذج الأساس في MENA على بيانات التدريب

برامج نماذج الأساس الخمسة في MENA

النموذجالراعيالدولةالتخصّص
ALLaMSDAIAKSALLM وطني، الفصحى + لهجة سعودية، حالات استخدام حكومي
JaisG42 / Inceptionالإماراتأوّل LLM عربي إنتاجي (2023)، قوي بالفصحى
FanarQCRIقطرLLM عربي-إسلامي متخصّص، أطروحة جودة-قبل-كمّ
FalconTIIالإماراتعائلة LLM وزن-مفتوح، متعدّد اللغات شامل العربية
KarnakAIC مصرمصرLLM قوي باللهجة المصرية، إطلاق مخطّط 2026

كلّ برنامج يختلف في تغطية اللهجة، معمارية الأساس، مجموعة التدريب، النشر المُسْتَهدَف.

استراتيجيات مصادر بيانات التدريب

مجموعة تدريب مسبق بحجم الويب

كل المختبرات الخمسة تبدأ بمجموعة تدريب مسبق عربية بحجم الويب. مصادر نموذجية:

حجم مجموعة التدريب المسبق النموذجي: 100ب-1ت رمز. التغطية تميل بشدّة نحو الفصحى. تغطية اللهجة رفيعة.

مجموعة SFT (الضبط الدقيق المُشرَف) المُنسَّقَة

بعد التدريب المسبق، النماذج تُضْبَط على أزواج اتّباع التعليمات. استراتيجيات المصادر:

نهج الترجمة فقط ينتج نماذج تبدو كإنجليزية مترجمة. SFT عربي أصلي هو المميّز.

حجم مجموعة SFT النموذجي: 10K-1M زوج تعليمة-استجابة. هنا حيث يهمّ التأشير البشري المُنسَّق أكثر.

مجموعة تفضيل RLHF

لاتّباع التعليمات + الأمان، النماذج تُحاذَى عبر RLHF (التعلّم المعزّز من تغذية راجعة بشرية). المصادر:

حجم مجموعة RLHF النموذجي: 10K-100K تصنيف تفضيل.

بناء مجموعة التقييم

بشكل منفصل عن التدريب، كل مختبر يبني مجموعات تقييم:

ما يحتاجه كلّ برنامج

ALLaM (SDAIA)

Jais (G42 / Inception)

Fanar (QCRI)

Falcon (TII)

Karnak (Egypt AIC)

تحوّل الجودة-قبل-الكمّ

Fanar 2.0 (QCRI، أواخر 2025) كان نقطة تحوّل. مُدَرَّب على 8x رموز أقلّ من النظراء، سجّل أعلى على المعايير العربية. الإشارة: بيانات عربية عالية الجودة مُنسَّقَة تتفوّق على تجميع ويب غير مُمَيَّز.

هذا التحوّل يغيّر ملف طلب التأشير:

هذا هو العمل الذي بُنِيَت له Annota8.

أين يغيّر الكادر المُنسَّق النموذج

ثلاثة أماكن حيث الكادر المُنسَّق + ضمان الجودة بلغوي بدكتوراه يحرّك إبرة التقييم بشكل ملموس:

  1. كتابة تعليمات SFT عربية أصلية — التعليمات المُتَرجَمَة تبدو كترجمات. التعليمات المكتوبة عربيًا بشكل أصلي تنتج نماذج تبدو أصلية.

  2. تصنيف تفضيل RLHF بمعايرة ثقافية — تصنيفات التفضيل التي لا تحسب للسياق الثقافي العربي تنتج نماذج غير مُحاذاة.

  3. بناء مجموعة تقييم مُصَنَّفَة باللهجة — مجموعات التقييم التي تجمع اللهجات العربية معًا تخفي ضعف النموذج.

إذا لم يحصل برنامج نموذج الأساس على هذه الثلاثة من بائع التأشير، فأنت تترك جودة النموذج على الطاولة.

ما يقدّمه Annota8 لمختبرات نماذج الأساس MENA

Annota8 يدعم مختبرات نماذج الأساس الوطنية في MENA عبر:

انظر الحلول: مختبرات نماذج الأساس للحصول على كومة القدرات الكاملة.

ناقش بيانات تدريب FM → جلسة 30 دقيقة اقرأ حلول نموذج الأساس