٢١ مايو ٢٠٢٦ بيانات تدريب نموذج أساس MENA

كيف تحصل مختبرات نماذج الأساس في MENA على بيانات التدريب

برامج نماذج الأساس الخمسة في MENA

النموذج	الراعي	الدولة	التخصّص
ALLaM	SDAIA	KSA	LLM وطني، الفصحى + لهجة سعودية، حالات استخدام حكومي
Jais	G42 / Inception	الإمارات	أوّل LLM عربي إنتاجي (2023)، قوي بالفصحى
Fanar	QCRI	قطر	LLM عربي-إسلامي متخصّص، أطروحة جودة-قبل-كمّ
Falcon	TII	الإمارات	عائلة LLM وزن-مفتوح، متعدّد اللغات شامل العربية
Karnak	AIC مصر	مصر	LLM قوي باللهجة المصرية، إطلاق مخطّط 2026

كلّ برنامج يختلف في تغطية اللهجة، معمارية الأساس، مجموعة التدريب، النشر المُسْتَهدَف.

استراتيجيات مصادر بيانات التدريب

مجموعة تدريب مسبق بحجم الويب

كل المختبرات الخمسة تبدأ بمجموعة تدريب مسبق عربية بحجم الويب. مصادر نموذجية:

Common Crawl — مُصَفَّى لكشف اللغة العربية + الجودة
ويكيبيديا العربية — فصحى عالية الجودة، ~1.2م مقالة
أرشيفات الأخبار + الإعلام — الجزيرة، العربية، الشرق الأوسط
بيانات حكومية مفتوحة — قوانين، لوائح، اتصالات رسمية
كتب + أدب — نطاق عامّ + مجموعات مرخّصة
نصوص دينية — مجموعات قرآنية + أحاديث
علمي + تقني — منشورات أكاديمية عربية، ترجمات تقنية

حجم مجموعة التدريب المسبق النموذجي: 100ب-1ت رمز. التغطية تميل بشدّة نحو الفصحى. تغطية اللهجة رفيعة.

مجموعة SFT (الضبط الدقيق المُشرَف) المُنسَّقَة

بعد التدريب المسبق، النماذج تُضْبَط على أزواج اتّباع التعليمات. استراتيجيات المصادر:

الترجمة من الإنجليزية — ترجم مجموعات فئة Alpaca أو فئة ShareGPT إلى العربية
توليد تعليمات عربية أصلية — اكتب تعليمات + استجابات عربية من الصفر
هجين — ترجم للاتّساع، أصلي للأمانة الثقافية / اللهجة

نهج الترجمة فقط ينتج نماذج تبدو كإنجليزية مترجمة. SFT عربي أصلي هو المميّز.

حجم مجموعة SFT النموذجي: 10K-1M زوج تعليمة-استجابة. هنا حيث يهمّ التأشير البشري المُنسَّق أكثر.

مجموعة تفضيل RLHF

لاتّباع التعليمات + الأمان، النماذج تُحاذَى عبر RLHF (التعلّم المعزّز من تغذية راجعة بشرية). المصادر:

توليد استجابات مرشّحة
المؤشّرون البشريّون يصنّفون المرشّحين
تدريب نموذج مكافأة على التصنيفات
استخدام نموذج المكافأة لضبط النموذج الأساس

حجم مجموعة RLHF النموذجي: 10K-100K تصنيف تفضيل.

بناء مجموعة التقييم

بشكل منفصل عن التدريب، كل مختبر يبني مجموعات تقييم:

معايير مترجمة (MMLU، HellaSwag، ARC مُتَرجَمَة للعربية)
معايير عربية أصلية (AraMMLU، AraBench، AlGhafa-Bench)
مجموعات تقييم مُصَنَّفَة باللهجة
مجموعات تقييم محاذاة ثقافية

ما يحتاجه كلّ برنامج

ALLaM (SDAIA)

تعزيز تغطية اللهجة السعودية
الفصحى + مجال حكومي سعودي
مجموعات تقييم محاذاة ثقافية سعودية
خطّ أنابيب تأشير ممتثل لـ PDPL داخل المملكة
انظر صفحة ALLaM

Jais (G42 / Inception)

تعزيز اللهجة الخليجية الإماراتية
تحوّل لغوي عربي-إنجليزي متعدّد اللغات
محاذاة مؤسسية للاستخدام التجاري الإماراتي
انظر صفحة Jais

Fanar (QCRI)

أطروحة جودة-قبل-كمّ مُنسَّقَة
عمق مجال ثقافي إسلامي
محاذاة تعليمية + دينية
انظر صفحة Fanar

Falcon (TII)

عائلة نموذج وزن-مفتوح بتغطية عربية
اتّساع متعدّد اللغات
مشاركة مجتمع open-source
انظر صفحة Falcon

Karnak (Egypt AIC)

قوّة اللهجة المصرية (قاهري + صعيدي + إسكندراني)
محاذاة ثقافية مصرية
تحوّل لغوي عربي-مصري ثنائي اللغة
انظر صفحة Karnak

تحوّل الجودة-قبل-الكمّ

Fanar 2.0 (QCRI، أواخر 2025) كان نقطة تحوّل. مُدَرَّب على 8x رموز أقلّ من النظراء، سجّل أعلى على المعايير العربية. الإشارة: بيانات عربية عالية الجودة مُنسَّقَة تتفوّق على تجميع ويب غير مُمَيَّز.

هذا التحوّل يغيّر ملف طلب التأشير:

تنسيق التدريب المسبق يهمّ أكثر — إزالة تكرار، تصفية جودة، اختيار قائم على المصنّف
جودة SFT تهمّ أكثر — كتابة تعليمات عربية أصلية بلغوي بدكتوراه، ليس ترجمة crowd-sourced
تصنيف اللهجة يهمّ أكثر — أهداف تغطية صريحة لكل عائلة + عائلة فرعية
المحاذاة الثقافية تهمّ أكثر — مجموعات تقييم صريحة، حسّاسية ثقافية على مستوى الإرشاد

هذا هو العمل الذي بُنِيَت له Annota8.

أين يغيّر الكادر المُنسَّق النموذج

ثلاثة أماكن حيث الكادر المُنسَّق + ضمان الجودة بلغوي بدكتوراه يحرّك إبرة التقييم بشكل ملموس:

كتابة تعليمات SFT عربية أصلية — التعليمات المُتَرجَمَة تبدو كترجمات. التعليمات المكتوبة عربيًا بشكل أصلي تنتج نماذج تبدو أصلية.
تصنيف تفضيل RLHF بمعايرة ثقافية — تصنيفات التفضيل التي لا تحسب للسياق الثقافي العربي تنتج نماذج غير مُحاذاة.
بناء مجموعة تقييم مُصَنَّفَة باللهجة — مجموعات التقييم التي تجمع اللهجات العربية معًا تخفي ضعف النموذج.

إذا لم يحصل برنامج نموذج الأساس على هذه الثلاثة من بائع التأشير، فأنت تترك جودة النموذج على الطاولة.

ما يقدّمه Annota8 لمختبرات نماذج الأساس MENA

Annota8 يدعم مختبرات نماذج الأساس الوطنية في MENA عبر:

تنسيق مجموعة التدريب المسبق
كتابة تعليمات SFT عربية أصلية (طبقة لغوي بدكتوراه قاهرية)
تصنيف تفضيل RLHF بمعايرة ثقافية
بناء مجموعة تقييم مُصَنَّفَة باللهجة
مجموعات تقييم محاذاة ثقافية
نشر سيادي (سحابة KSA أو داخل الموقع)
PDPL تشغيلي، خيارات كادر مفحوص بمستوى حكومي

انظر الحلول: مختبرات نماذج الأساس للحصول على كومة القدرات الكاملة.

ناقش بيانات تدريب FM → جلسة 30 دقيقة اقرأ حلول نموذج الأساس

القيود وإخلاء المسؤوليّة

قيود هذا التحليل. يَعكِس هذا المقال قراءة Annota8 للأدلّة المتاحة علنًا حتّى تاريخ آخر تعديل له. مواقع المورّدين، الأطر التنظيميّة، أرقام المقاييس ونطاق البرامج يمكن أن تتغيّر دون إشعار. حيث تُذكر نطاقات عدديّة، تلك الأرقام قابلة للتحقّق من المصدر المرتبط في قسم المراجع داخل المقال — لم تُعِد Annota8 إجراء المقاييس بنفسها ما لم يُذكر ذلك صراحةً في المقال.

الموقف القانوني والخصوصيّة. Annota8 شركة عمليّات بيانات ذكاء اصطناعي في مرحلة مبكّرة في إطلاق ناعم. لا نَملِك حاليًّا شهادة SOC 2، أو ISO 27001، أو شهادة PDPL، أو أيّ شهادة أمن أو خصوصيّة من طرف ثالث. نُصمِّم وَفقًا لمبادئ PDPL ونَقدِر على توقيع DPA مَبنيّة على نموذج SCC الأوروبي. الموقف التوافقي المحدّد لارتباطك متاح عند الطلب من [email protected].

لا شيء في هذا المقال يُمثِّل استشارة قانونيّة أو ضريبيّة أو استثماريّة. الاستشهادات التنظيميّة يجب التحقّق منها مع مستشار قانوني في ولايتك القضائيّة. أسماء المورّدين المذكورة في هذا المقال مرجَّعة كسياق مشهد صناعي فحسب — Annota8 لا تَدَّعِي ادّعاءً تنافسيًّا للمنتج، ولا علاقة عملاء، ولا أيّ ارتباط آخر مع أيّ من المنصّات المذكورة، ما لم يُذكر ذلك صراحةً.

تواصَل مع الفريق:[email protected] · annota8.ai