كيف تحصل مختبرات نماذج الأساس في MENA على بيانات التدريب
برامج نماذج الأساس الخمسة في MENA
| النموذج | الراعي | الدولة | التخصّص |
|---|---|---|---|
| ALLaM | SDAIA | KSA | LLM وطني، الفصحى + لهجة سعودية، حالات استخدام حكومي |
| Jais | G42 / Inception | الإمارات | أوّل LLM عربي إنتاجي (2023)، قوي بالفصحى |
| Fanar | QCRI | قطر | LLM عربي-إسلامي متخصّص، أطروحة جودة-قبل-كمّ |
| Falcon | TII | الإمارات | عائلة LLM وزن-مفتوح، متعدّد اللغات شامل العربية |
| Karnak | AIC مصر | مصر | LLM قوي باللهجة المصرية، إطلاق مخطّط 2026 |
كلّ برنامج يختلف في تغطية اللهجة، معمارية الأساس، مجموعة التدريب، النشر المُسْتَهدَف.
استراتيجيات مصادر بيانات التدريب
مجموعة تدريب مسبق بحجم الويب
كل المختبرات الخمسة تبدأ بمجموعة تدريب مسبق عربية بحجم الويب. مصادر نموذجية:
- Common Crawl — مُصَفَّى لكشف اللغة العربية + الجودة
- ويكيبيديا العربية — فصحى عالية الجودة، ~1.2م مقالة
- أرشيفات الأخبار + الإعلام — الجزيرة، العربية، الشرق الأوسط
- بيانات حكومية مفتوحة — قوانين، لوائح، اتصالات رسمية
- كتب + أدب — نطاق عامّ + مجموعات مرخّصة
- نصوص دينية — مجموعات قرآنية + أحاديث
- علمي + تقني — منشورات أكاديمية عربية، ترجمات تقنية
حجم مجموعة التدريب المسبق النموذجي: 100ب-1ت رمز. التغطية تميل بشدّة نحو الفصحى. تغطية اللهجة رفيعة.
مجموعة SFT (الضبط الدقيق المُشرَف) المُنسَّقَة
بعد التدريب المسبق، النماذج تُضْبَط على أزواج اتّباع التعليمات. استراتيجيات المصادر:
- الترجمة من الإنجليزية — ترجم مجموعات فئة Alpaca أو فئة ShareGPT إلى العربية
- توليد تعليمات عربية أصلية — اكتب تعليمات + استجابات عربية من الصفر
- هجين — ترجم للاتّساع، أصلي للأمانة الثقافية / اللهجة
نهج الترجمة فقط ينتج نماذج تبدو كإنجليزية مترجمة. SFT عربي أصلي هو المميّز.
حجم مجموعة SFT النموذجي: 10K-1M زوج تعليمة-استجابة. هنا حيث يهمّ التأشير البشري المُنسَّق أكثر.
مجموعة تفضيل RLHF
لاتّباع التعليمات + الأمان، النماذج تُحاذَى عبر RLHF (التعلّم المعزّز من تغذية راجعة بشرية). المصادر:
- توليد استجابات مرشّحة
- المؤشّرون البشريّون يصنّفون المرشّحين
- تدريب نموذج مكافأة على التصنيفات
- استخدام نموذج المكافأة لضبط النموذج الأساس
حجم مجموعة RLHF النموذجي: 10K-100K تصنيف تفضيل.
بناء مجموعة التقييم
بشكل منفصل عن التدريب، كل مختبر يبني مجموعات تقييم:
- معايير مترجمة (MMLU، HellaSwag، ARC مُتَرجَمَة للعربية)
- معايير عربية أصلية (AraMMLU، AraBench، AlGhafa-Bench)
- مجموعات تقييم مُصَنَّفَة باللهجة
- مجموعات تقييم محاذاة ثقافية
ما يحتاجه كلّ برنامج
ALLaM (SDAIA)
- تعزيز تغطية اللهجة السعودية
- الفصحى + مجال حكومي سعودي
- مجموعات تقييم محاذاة ثقافية سعودية
- خطّ أنابيب تأشير ممتثل لـ PDPL داخل المملكة
- انظر صفحة ALLaM
Jais (G42 / Inception)
- تعزيز اللهجة الخليجية الإماراتية
- تحوّل لغوي عربي-إنجليزي متعدّد اللغات
- محاذاة مؤسسية للاستخدام التجاري الإماراتي
- انظر صفحة Jais
Fanar (QCRI)
- أطروحة جودة-قبل-كمّ مُنسَّقَة
- عمق مجال ثقافي إسلامي
- محاذاة تعليمية + دينية
- انظر صفحة Fanar
Falcon (TII)
- عائلة نموذج وزن-مفتوح بتغطية عربية
- اتّساع متعدّد اللغات
- مشاركة مجتمع open-source
- انظر صفحة Falcon
Karnak (Egypt AIC)
- قوّة اللهجة المصرية (قاهري + صعيدي + إسكندراني)
- محاذاة ثقافية مصرية
- تحوّل لغوي عربي-مصري ثنائي اللغة
- انظر صفحة Karnak
تحوّل الجودة-قبل-الكمّ
Fanar 2.0 (QCRI، أواخر 2025) كان نقطة تحوّل. مُدَرَّب على 8x رموز أقلّ من النظراء، سجّل أعلى على المعايير العربية. الإشارة: بيانات عربية عالية الجودة مُنسَّقَة تتفوّق على تجميع ويب غير مُمَيَّز.
هذا التحوّل يغيّر ملف طلب التأشير:
- تنسيق التدريب المسبق يهمّ أكثر — إزالة تكرار، تصفية جودة، اختيار قائم على المصنّف
- جودة SFT تهمّ أكثر — كتابة تعليمات عربية أصلية بلغوي بدكتوراه، ليس ترجمة crowd-sourced
- تصنيف اللهجة يهمّ أكثر — أهداف تغطية صريحة لكل عائلة + عائلة فرعية
- المحاذاة الثقافية تهمّ أكثر — مجموعات تقييم صريحة، حسّاسية ثقافية على مستوى الإرشاد
هذا هو العمل الذي بُنِيَت له Annota8.
أين يغيّر الكادر المُنسَّق النموذج
ثلاثة أماكن حيث الكادر المُنسَّق + ضمان الجودة بلغوي بدكتوراه يحرّك إبرة التقييم بشكل ملموس:
-
كتابة تعليمات SFT عربية أصلية — التعليمات المُتَرجَمَة تبدو كترجمات. التعليمات المكتوبة عربيًا بشكل أصلي تنتج نماذج تبدو أصلية.
-
تصنيف تفضيل RLHF بمعايرة ثقافية — تصنيفات التفضيل التي لا تحسب للسياق الثقافي العربي تنتج نماذج غير مُحاذاة.
-
بناء مجموعة تقييم مُصَنَّفَة باللهجة — مجموعات التقييم التي تجمع اللهجات العربية معًا تخفي ضعف النموذج.
إذا لم يحصل برنامج نموذج الأساس على هذه الثلاثة من بائع التأشير، فأنت تترك جودة النموذج على الطاولة.
ما يقدّمه Annota8 لمختبرات نماذج الأساس MENA
Annota8 يدعم مختبرات نماذج الأساس الوطنية في MENA عبر:
- تنسيق مجموعة التدريب المسبق
- كتابة تعليمات SFT عربية أصلية (طبقة لغوي بدكتوراه قاهرية)
- تصنيف تفضيل RLHF بمعايرة ثقافية
- بناء مجموعة تقييم مُصَنَّفَة باللهجة
- مجموعات تقييم محاذاة ثقافية
- نشر سيادي (سحابة KSA أو داخل الموقع)
- PDPL تشغيلي، خيارات كادر مفحوص بمستوى حكومي
انظر الحلول: مختبرات نماذج الأساس للحصول على كومة القدرات الكاملة.