٢٦ مايو ٢٠٢٦ مقارنة ALLaM Karnak Fanar

ALLaM v2 + Karnak + Fanar: مقارنة عملية لمختبرات التدريب في الشرق الأوسط وشمال إفريقيا 2026

TL;DR

ثلاثة نماذج أساس عربية وطنية وصلت إلى نضج إنتاجي بحلول منتصف ٢٠٢٦: ALLaM (SDAIA / HUMAIN، السعودية) — عائلة نماذج لغوية كبيرة متمحورة حول العربية، وأحدث نشر إنتاجي هو ALLaM 34B الذي يشغّل HUMAIN Chat^[1]. Karnak (AIC، مصر) — نموذج مُعمَّق مبني على Qwen3-30B-A3B-Instruct-2507 (نحو ٤٠ مليار معامل) مُحسَّن للفصحى والإنجليزية، أُطلق رسميًا في ١١ فبراير ٢٠٢٦ في Ai Everything MEA بالقاهرة^[2]؛ تغطية العاميّة المصريّة تتولّاها أداة مستقلّة من AIC اسمها BelMasry^[3]. Fanar 2.0 (QCRI) — نموذج بحجم ٢٧ مليار معامل دُرِّب تدريبًا متواصلًا انطلاقًا من Gemma-3-27B على نحو ١٦٦ مليار رمز مُنسَّق، أي ما يقارب ٦ أضعاف أقلّ من رموز التدريب المتواصل في Fanar 1.0 (~تريليون رمز)، مع تحسّن على ArabicMMLU و Belebele^[4]. يظلّ Jais و Falcon (الإمارات) مرجعَين مهمَّين. ما يُحدِث الفارق في الإنتاج ليس حجم المجموعة بل: SFT (الضبط الدقيق المُشرَف) عربي أصلي، بيانات تفضيل RLHF (التعلّم المعزَّز من التغذية البشرية) بمعايرة ثقافية، مجموعات تقييم مُصنَّفة باللهجة، وعمل red-team عربي أصيل لاختبار الـ jailbreak. كلّ رقم في هذا المقال مصدره بطاقات النماذج العلنيّة وأوراق المختبرات.

لماذا هذه الثلاثة، ولماذا الآن

بعد عامين من سباق نماذج الأساس العربية، انقسم السوق إلى ثلاث طبقات: نماذج وطنية مدعومة حكوميًا (ALLaM، Fanar، Karnak)، ونماذج تجاريّة-إقليميّة مفتوحة الأوزان (Jais، Falcon)، ونماذج عالميّة في الواجهة مع طبقة عربيّة (GPT-4o، Claude، Gemini، Llama 4). هذا المقال يفكّك الطبقة الأولى لأنّها الطبقة التي تُشترى ضمن صفقات سياديّة وتفويضات تكامل القطاع العامّ.

من زاوية الممارس، سأحدّد المعمارية، وموقف مصادر البيانات، واستراتيجية المحاذاة، وتغطية اللهجات، وخيارات النشر، والفجوة الفعليّة بين معايير يوم الإطلاق وما يظهر فعلًا في الإنتاج. ثمّ أبيّن أين يندرج عمل التأشير المُنسَّق.

جدول مقارنة المواصفات السريعة

البُعد	ALLaM (SDAIA / HUMAIN)	Karnak (AIC مصر)	Fanar 2.0 (QCRI)
الراعي	الهيئة السعودية للبيانات والذكاء الاصطناعي؛ مُشغَّل عبر HUMAIN^[1]	مركز الابتكار التطبيقي، مصر (وزارة الاتّصالات / ITIDA)^[2]	معهد قطر لبحوث الحوسبة، جامعة حمد بن خليفة^[4]
الإصدار العلني	ورقة ALLaM التقنية يوليو ٢٠٢٤^[5]؛ HUMAIN Chat مع ALLaM 34B مباشر منذ ٢٠٢٥^[1]	أُطلق في ١١ فبراير ٢٠٢٦ في Ai Everything MEA بالقاهرة؛ متاح على Hugging Face عند `Applied-Innovation-Center/Karnak`^[2]^[6]	Fanar 1.0 (٢٠٢٤)؛ Fanar 2.0 أُعلن في ٩ ديسمبر ٢٠٢٥^[7]
المعمارية الأساس	فكّ ترميز ذاتي الانحدار فقط مع توسيع مفردات للعربية وتدريب مسبق ثنائي اللغة^[5]	Qwen3-30B-A3B-Instruct-2507 مع تعميق إلى ~٤٠ مليار معامل؛ مُجزّئ مُحسَّن للعربية^[6]	تدريب متواصل لنموذج Gemma-3-27B^[4]
تغطية اللغة الرئيسية	عربي (فصحى + لهجات بما فيها السعوديّة عبر الإدخال الصوتي)^[1] + إنجليزي	عربي وإنجليزي؛ بطاقة النموذج تذكر الاثنين دون تخصيص لهجي صريح^[6]. العاميّة المصريّة تخدمها أداة مستقلّة من AIC اسمها BelMasry^[3]	فصحى + لهجات (خليجيّة، شاميّة، مصريّة) وفق بطاقة النموذج^[4]
الترخيص	مملوك / بوّابة وطنيّة؛ ALLaM-2-7B-instruct متاح على Azure AI^[8]	Apache 2.0 (بطاقة Hugging Face)^[6]	Apache 2.0 (بطاقة Hugging Face)^[4]
النشر	تطبيق HUMAIN Chat للمستخدم النهائي؛ ALLaM-2-7B-instruct على Microsoft Azure AI Foundry^[1]^[8]	أوزان على Hugging Face؛ نشر داخل مصر عبر منظومة تطبيقات AIC^[2]	أوزان مفتوحة على Hugging Face + منصّة Fanar^[4]^[7]
حجم التدريب (العلني)	ALLaM-2-7B: ٤ تريليون رمز إنجليزي في التدريب المسبق + ١٫٢ تريليون رمز مزيج عربي/إنجليزي^[9]؛ ALLaM 13B: ٣ تريليون رمز إجمالًا^[9]	خطّ متعدّد المراحل (تدريب مسبق متواصل + SFT)؛ العدد الإجمالي للرموز غير منشور في بطاقة النموذج^[6]	Fanar 2.0: ~١٦٦ مليار رمز للتدريب المتواصل (عربي + إنجليزي + كود)، أي ما يقارب ٦ أضعاف أقلّ من Fanar 1.0 (~تريليون رمز)^[4]^[10]
المعايير المنشورة	حسب ورقة ALLaM، الأحدث على MMLU العربي و ACVA و Arabic Exams^[5]	لا توجد معايير منشورة في بطاقة النموذج وقت كتابة هذا المقال^[6]	ArabicMMLU ٧٤٫٦٧٪، MMLU ٧٨٫٨٩٪، Belebele ٨٦٫٨١٪، GSM8K ٩٣٫٧٠٪^[4]

تحفّظ: لم يَنشر أيٌّ من المختبرات الثلاثة تركيبات اللهجات أو توزيعات SFT/RLHF بشكل كامل. ما هو علني هو ادّعاء عالي المستوى في بطاقة النموذج + الورقة الفنّيّة.

ALLaM — تحليل تفصيلي

المعمارية + المجموعة. ALLaM عائلة نماذج متمحورة حول العربية من SDAIA. تصف ورقة ٢٠٢٤ التقنية معمارية فكّ ترميز ذاتي الانحدار فقط مع توسيع مفردات يتناسب مع الصرف العربي، وتدريب مسبق ثنائي اللغة^[5]. وصفة التدريب المسبق المنشورة لـ ALLaM-2-7B-instruct تتمّ على مرحلتين: ٤ تريليون رمز إنجليزي، ثمّ ١٫٢ تريليون رمز مزيج عربي/إنجليزي^[9]. كما أعلنت SDAIA عن مجموعة بيانات عربيّة بحجم ٥٠٠ مليار رمز ضمن المجهود الأوسع^[9].

الملكيّة التشغيليّة. بتأسيس HUMAIN في مايو ٢٠٢٥ (دمج جمع بين SCAI وفريق نماذج SDAIA ووحدات تقنيّة وطنيّة أخرى)، أصبح ملف منتج ALLaM ضمن مسؤوليّة HUMAIN^[1]. ALLaM 34B يشغّل HUMAIN Chat، الذي يضمّ بحثًا في الويب في الوقت الفعلي، وإدخالًا صوتيًّا عبر لهجات عربية متعدّدة، وتحوّلًا لغويًّا (code-switching) بين العربيّة والإنجليزيّة^[1].

ضبط التعليمات. SFT على أزواج تعليمة-استجابة عربيّة + ترجمات منقّحة؛ ومحاذاة قائمة على التفضيل البشري ضمن وصفة التدريب المنشورة^[5]. لم تُكشف نسب بيانات SFT الأصليّة عربيًّا مقابل المُترجَمة بدقّة.

المعايير المنشورة. تذكر ورقة ALLaM نتائج هي الأحدث على MMLU العربي و ACVA و Arabic Exams وقت النشر^[5].

ما يصنع الفارق في الإنتاج (الفجوة):

ArabicMMLU مفيد، لكنّه لا يقيس الفهم الحواري للهجة السعوديّة. النماذج التي تتصدّر ArabicMMLU تظلّ بحاجة إلى مجموعات تقييم مُصنَّفة باللهجة للتحقّق من المدخلات النجديّة أو الحجازيّة.
محاذاة المحتوى الحكومي تتطلّب عيّنات خاصّة بحالة الاستخدام. التعميم من معايير عامّة لا يُنتج استجابات وزاريّة دقيقة.
سلوك التحوّل اللغوي (code-switching) بين العربيّة والإنجليزيّة هو نمط الإدخال السائد في كثير من تطبيقات الخدمة المباشرة للعملاء في الخليج، ولا تغطّيه معايير العربيّة في يوم الإطلاق تغطيةً وافية.

النشر. HUMAIN Chat واجهة المستخدم النهائي؛ كما أن ALLaM-2-7B-instruct منشور في كتالوج النماذج على Microsoft Azure AI Foundry^[8].

حالات الاستخدام التجاريّة. المساعدات الحكوميّة، بوابات خدمة المواطن، الاستجابات على المحتوى العربي داخل التطبيقات السعوديّة، الربط مع ICD/SNOMED من التقارير السريريّة العربيّة كطبقة بنية تحتيّة.

Karnak — تحليل تفصيلي

المعمارية + المجموعة. Karnak صادر عن مركز الابتكار التطبيقي (AIC) في مصر. هو نموذج لغة سببي مُعمَّق مبني فوق Qwen/Qwen3-30B-A3B-Instruct-2507، وتذكر بطاقة النموذج ~٤٠ مليار معامل بعد التعميق، ومُجزّئًا مُحسَّنًا للعربيّة، ونافذة سياق آمنة تصل إلى ٢٠٬٠٠٠ رمز^[6]. التدريب خطّ متعدّد المراحل: أوزان مدرّبة مسبقًا ← تعميق ← تدريب مسبق متواصل ← SFT^[6]. المجموعة موصوفة فقط بأنّها “بيانات عالية الجودة مُرشَّحة عبر خطّ معالجة صارم” — ولم تُنشر التركيبة التفصيليّة^[6].

موقف اللهجة. تصف بطاقة النموذج Karnak بأنّه نموذج عربي وإنجليزي، ولا تدّعي تخصّصًا في العاميّة المصريّة^[6]. ضمن خطّ منتجات AIC، تتولّى معالجة العاميّة المصريّة أداة مستقلّة باسم BelMasry أُعلنت بالتوازي مع Karnak في Ai Everything MEA 2026^[3]. وصف Karnak بأنّه “نموذج اللهجة المصريّة” خطأ في تموضعه.

التطبيقات المرافقة. أعلنت وزارة الاتّصالات المصريّة عن مجموعة من التطبيقات المعتمدة على Karnak عند الإطلاق: SIA (مدرّس اللغة العربيّة والتاريخ المصري)، مساعد قانوني وتنظيمي بالذكاء الاصطناعي، AcQua (تدقيق مراكز الاتّصال)، محرّكات ذكاء اصطناعي للرعاية الصحّيّة، Torgoman (الترجمة)، و Loghat (تعليم الإنجليزيّة)^[2].

المعايير المنشورة. لا تُدرج بطاقة نموذج Karnak على Hugging Face أيّ درجات معيارية علنيّة حتى كتابة هذا المقال^[6]. إلى حين نشر AIC تقريرًا فنّيًّا و/أو نتائج Open Arabic LLM Leaderboard (OALL) طرف-ثالث، لن يتمكّن المشترون من تقييم النموذج باستقلاليّة مقابل ArabicMMLU أو AlGhafa (TII) أو سائر التقييمات العربيّة الكلاسيكيّة.

ما يصنع الفارق في الإنتاج (الفجوة):

النموذج العامّ للفصحى ومنتج اللهجة منفصلان. الممارس الذي يختار أداة AIC المناسبة لحالة استخدامه يحتاج إلى الاختيار بين Karnak (عربي عامّ + إنجليزي) و BelMasry (معالجة لغة طبيعيّة للعاميّة المصريّة).
لا توجد بعدُ درجات منشورة على ArabicMMLU / AlGhafa / OALL — يصعب على المشترين تقييم Karnak باستقلاليّة مقابل نظرائه.
حالات الاستخدام الماليّة + القانونيّة المصريّة تتطلّب طبقات SFT إضافيّة خاصّة بالمجال.

النشر. أوزان Apache 2.0 على Hugging Face^[6]؛ نشر سيادي داخل مصر عبر منظومة تطبيقات AIC.

حالات الاستخدام التجاريّة. تطبيقات التعليم المصريّة، الذكاء الاصطناعي لخدمة المواطن، المساعدات القانونيّة والتنظيميّة للقطاع العامّ، الترجمة، وتدقيق مراكز الاتّصال.

Fanar 2.0 — تحليل تفصيلي

المعمارية + المجموعة. Fanar 2.0 من QCRI (أُعلن في ٩ ديسمبر ٢٠٢٥ في World Summit AI Doha) هو الأكثر إثارة من بين النماذج الوطنيّة العربيّة الثلاثة من زاوية الممارس^[7]. هو نموذج بحجم ٢٧ مليار معامل، بُني عبر تدريب متواصل لـ google/gemma-3-27b-pt على ما يقارب ١٦٦ مليار رمز من بيانات عربيّة وإنجليزيّة وكود مُنسَّقة — أي نحو ٦ أضعاف أقلّ من رموز التدريب المتواصل في Fanar 1.0 المُعلَنة بنحو ١ تريليون رمز (تقرّبها QCRI في اتّصالاتها الخاصّة بأنّها “أقلّ بنحو ثمانية أضعاف”)^[4]^[10]. نسبة الـ ٦ أضعاف هي مقارنة مع Fanar 1.0، وليست مقارنة مع نماذج نظيرة. إجمالي الحوسبة كان نحو ٧٥٬٠٠٠ ساعة معالجة H100^[4].

ضبط التعليمات. SFT على نحو ٤ ملايين تعليمة؛ DPO على نحو ٢٨٠ ألف زوج تفضيل^[4].

المعايير المنشورة. وفق بطاقة Fanar-2-27B-Instruct: ArabicMMLU ٧٤٫٦٧٪، MMLU (إنجليزي) ٧٨٫٨٩٪، Belebele ٨٦٫٨١٪، GSM8K ٩٣٫٧٠٪^[4]. كما تذكر QCRI تحسّنات قدرها +٧٫٣٢ نقطة على ArabicMMLU، و+٣٫٥٥ نقطة على Belebele، و+٧٫٥٧ نقطة على MMLU مقارنةً بـ Fanar 1.0^[4]^[10].

تغطية اللهجات. تذكر بطاقة Fanar 2.0 صراحة دعم الفصحى + الخليجيّة والشاميّة والمصريّة^[4].

ما يصنع الفارق في الإنتاج (الفجوة):

أطروحة “الجودة قبل الكمّ” تدعمها المعايير المنشورة، لكنّ الأداء الإنتاجي على الأعباء الخاصّة بلهجة معيّنة يظلّ يعتمد على تقييم خاصّ بالتطبيق.
عمل red-team عربي منشور محدود عبر المختبرات الثلاثة جميعًا — يبقى سطح jailbreak باللغة العربيّة (التحوّل اللغوي، النقل الحرفي، الطلبات المؤطّرة دينيًّا، الطلبات المؤطّرة قبليًّا) موثّقًا توثيقًا ضعيفًا.

النشر. أوزان Apache 2.0 على Hugging Face + منصّة Fanar^[4]^[7].

حالات الاستخدام التجاريّة. المحتوى التعليمي العربي، خدمات المعرفة الإسلاميّة، فهم النصوص القانونيّة والشرعيّة، المحتوى الأكاديمي العربي، الترجمة.

Jais و Falcon — السياق الإقليمي

لا يمكن مناقشة نماذج الأساس العربيّة بدون Jais (Inception / G42 / MBZUAI / Cerebras، الإمارات) و Falcon (TII، الإمارات):

Jais 30B صدر في ٩ نوفمبر ٢٠٢٣ بـ ١٢٦ مليار رمز عربي + ٢٥١ مليار رمز إنجليزي + ٥٠ مليار رمز كود، ودُرِّب على حاسوب Cerebras الفائق Condor Galaxy-1^[11]. Jais مرجع تأسيسي لنماذج اللغة العربيّة الإنتاجيّة بتصميم معماري متمحور حول العربيّة.
Falcon عائلة TII من النماذج مفتوحة الأوزان؛ صدر Falcon 3 (في ١٧ ديسمبر ٢٠٢٤) مدرّبًا على ١٤ تريليون رمز، ثمّ أصدرت TII لاحقًا Falcon Arabic المبني على معمارية Falcon 3-7B ببيانات تدريب عربيّة أصليّة تشمل الفصحى واللهجات الإقليميّة^[12]. يستهدف Falcon Arabic القمّة في Open Arabic LLM Leaderboard بين النماذج المتاحة إقليميًّا^[12]. الترخيص هو TII Falcon License — رخصة مشتقّة من Apache-2.0 مع عتبة إيرادات تجاريّة^[12].

يستعمل كثير من فرق المنتج في الشرق الأوسط وشمال إفريقيا Falcon أو Jais كقاعدة، ثمّ يُجرون ضبطًا دقيقًا (fine-tuning) بمجموعة خاصّة بالمجال. أمّا النماذج الوطنيّة الثلاثة المذكورة أعلاه فتخدم سوقًا مختلفة — صفقات سياديّة + قطاع عامّ + متطلّبات إقامة بيانات.

ما تقيسه المعايير مقابل ما يصنع الفارق

ما يُقاس	ما لا يُقاس (لكنّه يهمّ)
ArabicMMLU (MBZUAI، معرفة عربيّة متعدّدة المهام)	فهم لهجي عميق داخل عائلة لهجة واحدة
MMLU (إنجليزي، للمقارنة عبر اللغات)	المعايرة الثقافيّة في الاستجابات
AlGhafa (TII، مهامّ عربيّة أصليّة)	سلوك التحوّل اللغوي عربي-إنجليزي
Belebele (فهم القراءة باللهجات العربيّة)	مقاومة الـ jailbreak باللغة العربيّة
لوحة OALL (تقييم مجمَّع للنماذج العربيّة)	جودة الاستجابة في حالة استخدام محدّدة (قانونيّة، طبّيّة، ماليّة)
GSM8K / تقييمات الرياضيّات (مُترجَمة)	تماسك الحوار متعدّد الأدوار باللغة العربيّة
HellaSwag / ARC المترجمة (المنطق العامّ، الاستنباط)	الاستجابة لتعليمات تُلقى بنبرة سعوديّة أو مصريّة أو شاميّة

خلاصة عمليّة: درجة ArabicMMLU بـ ٧٥٪ مقابل ٧٠٪ لا تخبرك أيّ نموذج سيخدم تطبيقك على نحو أفضل. تحتاج إلى مجموعة تقييم خاصّة بالتطبيق مبنيّة من بيانات تشبه حركة الإنتاج لديك. هذا هو بناء مجموعة التقييم — وهو عمل تأشير مُنسَّق.

أين يندرج عمل التأشير لدى Annota8

من تجربتنا في خدمة مختبرات نماذج الأساس في الشرق الأوسط وشمال إفريقيا، أربع فئات من عمل التأشير تُحرِّك إبرة تقييم الإنتاج بشكل ملموس:

الضبط الدقيق المُشرَف (SFT) باللغة العربيّة الأصليّة. أزواج تعليمة-استجابة مكتوبة باللغة العربيّة من الصفر على يد لغويّين مدرَّبين — وليست ترجمة جماعيّة من مصادر مفتوحة. للسعوديّة، يكتب السعوديّون. لمصر، يكتب المصريّون. الفصحى يكتبها لغويّو فصحى مدرَّبون. انظر SFT.
أزواج تفضيل RLHF بمعايرة ثقافيّة. أزواج التفضيل التي يصنّفها مؤشّرون يفهمون السياق الثقافي العربي — مهذّب مقابل وقح، مناسب دينيًّا مقابل غير مناسب، مصاغ باحترافيّة مقابل عامّي. هذا ما يُحوّل نموذجًا مُدرَّبًا بـ RLHF نحو استجابات مناسبة محلّيًّا. انظر RLHF.
بناء مجموعة تقييم مُصنَّفة باللهجة. مجموعات تقييم تحمل أهداف تغطية صريحة عبر تعريف اللهجة — كم نسبة الفصحى، كم نسبة الخليجيّة، كم المصريّة، كم الشاميّة، كم المغاربيّة. مجموعات التقييم التي تجمع كلّ اللهجات معًا تُخفي نقاط ضعف النموذج. انظر بناء مجموعة التقييم.
عمل red-team عدائي للـ jailbreak باللغة العربيّة. العربيّة عُرضة لأنماط jailbreak مختلفة عن الإنجليزيّة — تحوّل لغوي، نقل حرفي، طلبات بصياغة دينيّة، طلبات بصياغة قبليّة. تأشير red-team للـ jailbreak يبني مجموعة عدائيّة لاختبار صلابة المحاذاة بالعربيّة. هذه فجوة بحثيّة موثّقة عبر النماذج الثلاثة جميعًا.

كلّها تحتاجها كلّ نموذج وطني بدرجات متفاوتة.

كيف تختار بينها لتطبيقك

إن كنت تبني داخل المملكة العربيّة السعوديّة لجهة حكوميّة أو لشركة سعوديّة عليها متطلّبات إقامة بيانات داخل المملكة: ابدأ بـ ALLaM عبر واجهات HUMAIN Chat أو ALLaM-2-7B على Azure AI Foundry.

إن كنت تبني في مصر لحالة استخدام عامّة بالفصحى + الإنجليزيّة: أوزان Karnak بترخيص Apache 2.0 على Hugging Face نقطة انطلاق مفتوحة. لأعباء العاميّة المصريّة (مراكز الاتّصال، تحليلات وسائل التواصل، روبوتات الدردشة باللهجة)، اجمع Karnak مع BelMasry، أو استخدم Jais/Falcon كقاعدة مع طبقات SFT مصريّة منسَّقة.

إن كنت تبني تطبيقًا للمحتوى التعليمي، أو خدمات معرفة إسلاميّة، أو فهم نصوص قانونيّة/شرعيّة: ملف معايير Fanar 2.0 المنشورة وأطروحة البيانات المُنسَّقة تجعله مرشّحًا قويًّا.

إن كنت تبني تطبيقًا عربيًّا عامًّا متعدّد اللهجات وتريد قاعدة بترخيص متساهل: Falcon Arabic مع طبقة SFT خاصّة بالمجال مسار موثوق.

إن كنت تبني تطبيق مؤسّسة في الإمارات + الخليج وتريد مرجعًا عربيًّا تأسيسيًّا مفتوحًا: يظلّ Jais نموذجًا يُذكر كثيرًا.

في كلّ الحالات: ضع طبقة التأشير الخاصّة بك فوق ذلك من أجل مجال تطبيقك. النموذج الأساس مهمّ، لكنّ البيانات المُنسَّقة الخاصّة بتطبيقك أهمّ.

المراجع

Middle East AI News, “HUMAIN Chat goes live powered by ALLaM 34B LLM” (2025) — يدعم انتقال ملف ALLaM إلى HUMAIN، وتشغيل ALLaM 34B لـ HUMAIN Chat، وميزات البحث في الوقت الفعلي والإدخال الصوتي متعدّد اللهجات.

ITIDA, “Egypt Launches Karnak: National AI Language Model at Ai Everything MEA 2026” (Feb 11, 2026) — يدعم تاريخ إطلاق Karnak، والراعي AIC، وقائمة التطبيقات المرافقة (SIA، BelMasry، AcQua، Torgoman، Loghat).

Middle East AI News coverage referencing BelMasry as AIC’s NLP engines for Egyptian colloquial Arabic (Feb 2026) — يدعم كون BelMasry منتجًا مستقلًّا من AIC للعاميّة المصريّة، مميَّزًا عن Karnak.

QCRI, “Fanar-2-27B-Instruct” model card on Hugging Face (Dec 2025) — يدعم نموذج Fanar 2.0 الأساس (Gemma-3-27B)، حجم ٢٧ مليار معامل، ~١٦٦ مليار رمز للتدريب المتواصل، ٧٥٬٠٠٠ ساعة H100، درجات ArabicMMLU ٧٤٫٦٧٪ و MMLU ٧٨٫٨٩٪ و Belebele ٨٦٫٨١٪ و GSM8K ٩٣٫٧٠٪، ترخيص Apache 2.0، وتغطية الفصحى + الخليجيّة/الشاميّة/المصريّة، و SFT بـ ٤ ملايين / DPO بـ ٢٨٠ ألفًا.

Bari et al., “ALLaM: Large Language Models for Arabic and English”, arXiv:2407.15390 (July 2024) — يدعم معمارية ALLaM (فكّ ترميز ذاتي الانحدار فقط مع توسيع مفردات للعربيّة، تدريب مسبق ثنائي اللغة)، والنتائج الأحدث على MMLU العربي و ACVA و Arabic Exams.

Applied Innovation Center, “Karnak” model card on Hugging Face (2026) — يدعم نموذج Karnak الأساس (Qwen3-30B-A3B-Instruct-2507)، عدد المعاملات ~٤٠ مليارًا بعد التعميق، المُجزّئ المُحسَّن للعربيّة، نافذة السياق الآمنة ٢٠٬٠٠٠ رمز، ترخيص Apache 2.0، خطّ التدريب متعدّد المراحل.

Middle East AI News, “Qatar announces Fanar 2.0 Arabic AI model” (Dec 9, 2025) — يدعم تاريخ الإعلان عن Fanar 2.0 ومكانه في World Summit AI Doha.

Microsoft, “Introducing SDAIA and Their Latest Arabic LLM on Azure AI Model Catalog” — يدعم توفّر ALLaM-2-7B-instruct على Microsoft Azure AI Foundry.

Microsoft Azure AI Foundry, “ALLaM-2-7b-instruct” model catalog page — يدعم وصفة التدريب المسبق لـ ALLaM-2-7B (٤ تريليون رمز إنجليزي + ١٫٢ تريليون رمز مزيج عربي/إنجليزي) وادّعاء المجموعة العربيّة بـ ٥٠٠ مليار رمز.

Middle East AI News, “Qatar’s national AI platform’s powerful upgrade explained” — يدعم تأطير “أقلّ بنحو ٨ أضعاف من Fanar 1.0” لـ Fanar 2.0 وفروقات المعايير (ArabicMMLU +٧٫٣، Belebele +٣٫٥، MMLU +٧٫٦، Belebele باللهجات).

Inception (G42), “G42 Sets New Benchmark for Arabic Large Language Models with the Release of JAIS 30B” (Nov 9, 2023) — يدعم تاريخ إصدار Jais 30B وتركيبة رموز التدريب (١٢٦ مليار عربي + ٢٥١ مليار إنجليزي + ٥٠ مليار كود).

TII, “Falcon 3” announcement and Falcon Arabic page — يدعم تاريخ إصدار Falcon 3 (١٧ ديسمبر ٢٠٢٤)، و١٤ تريليون رمز تدريب، وبناء Falcon Arabic على Falcon 3-7B ببيانات فصحى + لهجات، وشروط TII Falcon License.

ناقش تأشير نماذج الأساس → جلسة ٣٠ دقيقة اقرأ صفحة حلول نماذج الأساس

القيود وإخلاء المسؤوليّة

قيود هذا التحليل. يَعكِس هذا المقال قراءة Annota8 للأدلّة المتاحة علنًا حتّى تاريخ آخر تعديل له. مواقع المورّدين، الأطر التنظيميّة، أرقام المقاييس ونطاق البرامج يمكن أن تتغيّر دون إشعار. حيث تُذكر نطاقات عدديّة، تلك الأرقام قابلة للتحقّق من المصدر المرتبط في قسم المراجع داخل المقال — لم تُعِد Annota8 إجراء المقاييس بنفسها ما لم يُذكر ذلك صراحةً في المقال.

الموقف القانوني والخصوصيّة. Annota8 شركة عمليّات بيانات ذكاء اصطناعي في مرحلة مبكّرة في إطلاق ناعم. لا نَملِك حاليًّا شهادة SOC 2، أو ISO 27001، أو شهادة PDPL، أو أيّ شهادة أمن أو خصوصيّة من طرف ثالث. نُصمِّم وَفقًا لمبادئ PDPL ونَقدِر على توقيع DPA مَبنيّة على نموذج SCC الأوروبي. الموقف التوافقي المحدّد لارتباطك متاح عند الطلب من [email protected].

لا شيء في هذا المقال يُمثِّل استشارة قانونيّة أو ضريبيّة أو استثماريّة. الاستشهادات التنظيميّة يجب التحقّق منها مع مستشار قانوني في ولايتك القضائيّة. أسماء المورّدين المذكورة في هذا المقال مرجَّعة كسياق مشهد صناعي فحسب — Annota8 لا تَدَّعِي ادّعاءً تنافسيًّا للمنتج، ولا علاقة عملاء، ولا أيّ ارتباط آخر مع أيّ من المنصّات المذكورة، ما لم يُذكر ذلك صراحةً.

تواصَل مع الفريق:[email protected] · annota8.ai