٢٣ مايو ٢٠٢٦ نماذج LLM عربية مفتوحة المصدر مقابل مسجّلة

نماذج اللغة العربية مفتوحة المصدر مقابل المسجّلة في 2026: إطار قرار عملي

TL;DR

بحلول منتصف 2026 صار سوق LLM العربي رفّين حقيقيّين: نماذج إقليميّة مفتوحة الأوزان — ALLaM v2 (SDAIA)، Karnak (AIC)، Jais (G42 + Cerebras)، Fanar (QCRI)، وعائلة Falcon Arabic (TII) — ونماذج API مغلقة من الجبهة الأولى — Claude، GPT، Gemini. لا رفّ يفوز كلّيًا. ستّة أبعاد قرار تهمّ فعلًا: كلفة لكلّ نداء API مقابل كلفة استضافة مُوزَّعة، الكُمون من نقاط نهاية MENA، السيادة تحت تصنيف NDMO وتعرّض CLOUD Act، عمق التخصيص (موجّه فقط في المغلق مقابل ضبط دقيق كامل في المفتوح)، تغطية اللهجة (المفتوح غالبًا أقوى على المحادثة السعوديّة والمصريّة، المغلق أقوى على الفصحى MSA والطويلة الرسمية)، وامتثال مسار التدقيق. مصفوفة عبء-عمل × أولويّة-قيد تُحدّد عائلة موصى بها بوضوح. المعماريّات الهجينة (RAG على تضمينات مفتوحة + استدلال على المغلق للجودة، أو ذاتي-الاستضافة المفتوح للبيانات السياديّة + المغلق لغير السياديّة) هي حيث يستقرّ معظم النشر الجدّي في MENA. إفصاح صريح: Annota8 تعمل مع الجانبَين — التأشير على أيّ جانب يخدم الجانبَين.

مشهد 2026 — ما الذي تختار بينه فعلًا

سوق LLM العربي في 2026 لم يعد ثنائيًا “GPT أو لا شيء.” صار رفًّا مأهولًا بنصفَين متمايزَين.

نماذج إقليميّة مفتوحة الأوزان — تحمّل الأوزان، تستضيف الاستدلال، يمكنك الضبط الدقيق.

ALLaM v2 — SDAIA، السعوديّة. أوزان مفتوحة عبر بوّابة SDAIA الوطنيّة وقنوات شريكة. الأقوى على الفصحى MSA + خليجي سعودي. النموذج المرجعي للقطاع العام السعودي بحكم الواقع.
Karnak — مركز الذكاء الاصطناعي التطبيقي (AIC)، مصر. رخصة تجاريّة مفتوحة الأوزان متوقّعة عند الإطلاق الكامل. أعمق نموذج عربي مُدرَّب علنيًّا على اللهجة المصريّة. تغطية قاهرية + صعيدية + سكندريّة.
Jais — G42 + Cerebras (الإمارات). أوزان مفتوحة، ناضج إنتاجيًّا منذ 2023. الأكثر نشرًا مؤسسيًّا بين النماذج العربيّة المفتوحة حتى اليوم. فصحى + ميل خليجي.
Fanar — QCRI (قطر). أوزان مفتوحة جزئيًّا + API بوّابة. أطروحة تدريب “جودة قبل كمّ”، قويّ على تقييم المحاذاة الإسلاميّة.
عائلة Falcon Arabic — TII (الإمارات). أوزان مفتوحة. أحجام متعدّدة، تخصّصات عربيّة متعدّدة عبر عائلة Falcon.

نماذج API مغلقة من الجبهة الأولى — تستدعي الـ API، لا يمكنك فحص الأوزان، ولا يمكنك الضبط الدقيق (عائلتا Claude و Gemini) أو يمكنك الضبط الدقيق فقط عبر خطّ المُورِّد (عائلة GPT، بتحكّم محدود).

Claude — Anthropic. قوّة سياق طويل، فهم قويّ للفصحى MSA والمصريّة عبر مجموعة ويب كبيرة. لا ضبط دقيق؛ رفضات مُدرَّبة على السلامة.
GPT — OpenAI. أوسع بصمة تكامل مؤسسي. ضبط دقيق متاح عبر API لكن على بنية OpenAI لا بنيتك.
Gemini — Google. قوّة متعدّدة الوسائط، قويّ على الفصحى، تكامل أدوات عميق على Google Cloud.

هذا هو الرفّ. السؤال ليس أبدًا “أيّها الأفضل.” السؤال هو “أيّها الأفضل لهذا العبء، تحت هذه القيود، بهذه الميزانيّة.”

ستّة أبعاد قرار

1. الكلفة — لكلّ نداء API مقابل استضافة مُوزَّعة

سعر API المغلق رقم نظيف لكلّ مليون رمز. سعر الوزن المفتوح فاتورة استضافة (مثيلات GPU، فريق تشغيل، زمن تحميل النموذج، طاقة خاملة). دون نحو 200 مليون رمز شهريًّا الـ API المغلق دائمًا تقريبًا أرخص في الكلفة الإجماليّة؛ فوق نحو مليار رمز شهريًّا يبدأ المسار المفتوح ذاتي-الاستضافة بالفوز، حسب أيّ منطقة سياديّة تشغّل فيها. بين العتبتَين أنت في منطقة المفاوضات — والمُورِّد المغلق يعرف ذلك.

2. الكُمون — المسافة لنقاط نهاية MENA

نماذج API المغلقة من الجبهة الأولى تُوَجَّه عبر مناطق أمريكا أو أوروبا اليوم. من خلفيّة في الرياض أو القاهرة، توقّع 150-400ms كُمون ذهاب وإياب قبل أن تُرسِل الموجّه أصلًا. الأوزان المفتوحة المستضافة داخل المنطقة (سحابة الذكاء الاصطناعي الوطنيّة السعوديّة، G42 Core42، شركاء إقليميّون) تخفض ذلك إلى 20-60ms. للصوت التفاعلي، الترجمة الفوريّة، IVR خدمة العملاء — هذا الفارق يحسّه المستخدم.

3. السيادة — تصنيف NDMO + تعرّض CLOUD Act

إذا كانت بياناتك مُصنَّفة فوق المستوى 2 لدى NDMO في KSA، أو خاضعة لضوابط المادّة 29 من نظام حماية البيانات الشخصيّة في السعوديّة أو ما يكافئها في الإمارات وقطر وعُمان ومصر — نماذج API المغلقة المُقَدَّمة من مناطق أمريكا أو أوروبا تُستَبعَد عادةً بحكم اشتراط إقامة البيانات قبل أن نناقش القدرة. الأوزان المفتوحة المستضافة داخل البلد هي المسار. تعرّض CLOUD Act يضاعف هذا: حتى البيانات الموجودة فيزيائيًّا في منطقة غير أمريكيّة لكن يُعالجها مُورِّد مقرّه الولايات المتّحدة قد تخضع لأمر قانوني أمريكي.

4. عمق التخصيص — موجّه فقط مقابل ضبط دقيق كامل

النماذج المغلقة تعطيك موجّهًا ورسالة نظام صغيرة. بعض المورّدين يعرضون “ضبطًا دقيقًا” لكنّه LoRA رفيع على خطّهم، لا تملكه، ولا يمكنك نشره خارج منصّتهم. الأوزان المفتوحة تتيح SFT كاملًا، RLHF كاملًا، استرجاع RAG كامل على مجموعتك الخاصّة — وأنت تملك الأوزان الناتجة. إذا كانت قيمتك تأتي من بيانات عربيّة ملكيّة لم يرها أيّ نموذج علني، المسار المفتوح فقط هو الذي يتيح استثمارها كاملًا.

5. تغطية اللهجة — قوى المفتوح والمغلق

النماذج العربيّة المفتوحة أقوى اليوم على لهجة محادثة سعوديّة (ALLaM) ولهجة محادثة مصريّة (Karnak)، لأنّها دُرِّبت بمجموعات مُصَنَّفة باللهجة عن قصد. نماذج الجبهة الأولى المغلقة غالبًا أقوى على الفصحى MSA — خصوصًا الكتابة الرسميّة الطويلة — وعلى المصريّة (لأنّ المصريّة هي الأكثر تمثيلًا على الويب العام الذي دُرِّبت عليه النماذج المغلقة). للهجات الخليج خارج السعوديّة (الإماراتي، القطري، العُماني، البحريني، الكويتي) الجانبان أضعف ممّا يوحي التسويق، والفارق يحدّده أساسًا إن كان فريقك أنجز عمل تقييم على مجموعات holdout لهجيّة.

6. الامتثال + مسار التدقيق

مزوّدو API المغلقون يسجّلون كلّ نداء عندهم. لمحادثة تدقيق داخلي قد يكون ذلك ميزة (المُورِّد يحتفظ بالسجلّ الثابت) أو مسؤولية (المُورِّد يحتفظ بالسجلّ الثابت). ذاتي-الاستضافة المفتوح يتيح لك التحكّم الكامل بمسار التدقيق — تختار ما يُسَجَّل، ومدّة الاحتفاظ، ومن يصل إليه، وهل يمكن تصديره لمراجعة الجهة المنظِّمة. لأعباء مُصَنَّفة NDMO أو بيانات ماليّة ذات صلة بـ ZATCA الأخير عادةً مطلوب.

مصفوفة القرار — عبء-عمل × أولويّة-قيد

عبء العمل	القيد الرئيس	العائلة الموصى بها
مساعد عربي حكومي / قطاع عام	السيادة + مسار التدقيق	ALLaM v2 أو Falcon Arabic، مستضاف داخل المملكة
خدمة عملاء / IVR لهجة مصريّة	جودة اللهجة + الكُمون	Karnak (مضبوط دقيقًا) أو Jais مستضاف في القاهرة
صياغة وثائق طويلة بالفصحى MSA للمؤسّسة	سقف الجودة	Claude أو GPT (API مغلق)
مساعد داخلي للشركة على بيانات سريّة	السيادة + التخصيص	ذاتي-الاستضافة مفتوح (ALLaM، Karnak، Jais، Falcon) + RAG
دردشة استهلاكيّة علنيّة بهامش منخفض	الكلفة عند الحجم	ذاتي-الاستضافة مفتوح حالما يتجاوز الحجم نحو مليار رمز شهريًّا
OCR عربي متعدّد الوسائط + استدلال	سقف القدرة	Gemini أو Claude (مغلق) إلى أن يلحق المفتوح متعدّد الوسائط
ماليّ / إكلينيكي مُنَظَّم	تدقيق + سيادة + لهجة	ذاتي-الاستضافة مفتوح، مضبوط دقيقًا على مجموعة منظَّمة
نموذج أوّلي + بحث وتطوير داخلي	السرعة للسوق	API مغلق (Claude / GPT / Gemini)، مع الهجرة لاحقًا

هذا ليس ترتيبًا لأيّ نموذج “أفضل.” هو خريطة قيد-أوّلًا. الشركة نفسها التي تشغّل بوّابة خدمة مواطنين ومختبر بحث داخلي يجب أن تستخدم عائلتَين مختلفتَين — ومعظم نشر MENA الناضج يفعل ذلك.

متى تخلط — معماريّات هجينة

النمط الإنتاجي الأشيع في 2026 ليس مفتوحًا صرفًا ولا مغلقًا صرفًا. إنّه مختلط.

النمط 1 — تضمينات مفتوحة + استدلال مغلق. ضمّن مجموعتك العربيّة بنموذج تضمين عربي مفتوح الأوزان (مشتقّ من ALLaM أو مشتقّ من Karnak)، خزّن في قاعدة متّجهات سياديّة، استرجِع السياق ذا الصلة، ثمّ أرسل الموجّه المُجَمَّع فقط إلى API مغلق للتوليد العالي الجودة. البيانات السياديّة لا تغادر المنطقة بصيغتها الخام أبدًا؛ ينكشف فقط السياق المُسْتَرجَع (الذي تتحكّم به).

النمط 2 — مغلق لغير-السيادي، مفتوح للسيادي. وَجِّه كلّ طلب عبر طبقة تصنيف أوّلًا: NDMO مستوى 2 فأعلى؟ → ذاتي-الاستضافة مفتوح داخل المنطقة. NDMO مستوى 1 أو غير مُصَنَّف؟ → API مغلق للجودة. منطق المُوَجِّه 50 سطر كود؛ مكسب الامتثال هائل.

النمط 3 — قاعدة مفتوحة + صقل مغلق. ولّد مسوّدة بنموذج عربي مفتوح (سريع، داخل المنطقة، رخيص) وصقّل أعلى 5-10% من الحالات التي تحتاج جودة أعلى بنموذج مغلق. يخفض إنفاق API المغلق 80-90% مع الحفاظ على الجودة في الحالات التي تهمّ.

كلّ نمط يتطلّب عمل تقييم حقيقي — لا أحد منها ينجو من نشر “ابعثها وأمل.” هنا يدخل التأشير المُنسَّق، ومجموعات holdout مُصَنَّفة باللهجة، وبيانات red-team.

إفصاح صريح — أين تندرج Annota8

Annota8 تعمل تأشيرًا لكلا نصفَي هذا الرفّ. النماذج العربيّة مفتوحة الأوزان تحتاج أزواج SFT عربيّة أصليّة، بيانات تفضيل RLHF، مجموعات مُصَنَّفة باللهجة، ومجموعات خصم red-team لتكون إنتاجيّة-الدرجة. عملاء API المغلق الذين يبنون فوق نماذج الجبهة الأولى يحتاجون تنسيق مجموعة RAG، وبناء مجموعات تقييم، ومعايرة جودة مُصَنَّفة باللهجة. كلا الجانبَين يحتاجان المُدخل نفسه — بشر يتكلّمون اللهجة فعلًا، يفهمون المجال، يستطيعون التأشير بجودة إنتاجيّة. ليس لدينا حصان في سباق مفتوح-ضدّ-مغلق. لدينا حصان في سباق اجعل-الذكاء-الاصطناعي-العربي-يعمل-فعلًا.

ما تفعله هذا الربع

إذا كنت تبدأ مشروع LLM عربي جديد في 2026:

صنّف بياناتك أوّلًا. مستوى NDMO، انطباق نظام حماية البيانات الشخصيّة، تعرّض CLOUD Act. الأجوبة تستبعد نصف الرفّ قبل مقارنة القدرة.
ابنِ مجموعة تقييمك قبل اختيار النموذج. مُصَنَّفة باللهجة، خاصّة بمجالك، مأخوذة من مستخدميك الفعليّين. بدون ذلك لا تستطيع أن تعرف أيّ عائلة تفوز عندك — أنت تقرأ تسويق غيرك.
النموذج الأوّلي على أرخص مسار. API مغلق لأوّل أسبوعَين تقريبًا دائمًا. تحقّق من حالة الاستخدام. ثمّ أعِد المعماريّة لمجموعة القيود طويلة المدى.
خطّط للهجين مبكرًا. حتى لو بدأت مغلقًا صرفًا أو مفتوحًا صرفًا، اترك خطّاف المُوَجِّه في كودك من اليوم الأوّل. ستحتاجه.

مراجع ذات صلة

الحلول: مختبرات نماذج الأساس
بيانات تدريب ALLaM
بيانات تدريب Karnak
بيانات تدريب Jais
بيانات تدريب Fanar
بيانات تدريب Falcon
مقارنة ALLaM + Karnak + Fanar
تشخيص الفشل التجاري لـ LLM العربي
خرافات الإقامة داخل المملكة مقابل الإقامة السياديّة
حسبة رموز تسعير API العربي
المنصّة: قوّة العمل
المنصّة: تنسيق البيانات
قاموس: التضمين
قاموس: التوليد المُعَزَّز بالاسترجاع RAG
قاموس: السحابة السياديّة
قاموس: نافذة السياق
قاموس: SFT
قاموس: RLHF
الشخصيّة: قائد بيانات تدريب مختبر نماذج أساس MENA

تحدّث معنا عن مكدّس LLM العربي عندك ← مكالمة 30 دقيقة اقرأ صفحة حلول نماذج الأساس

القيود وإخلاء المسؤوليّة

قيود هذا التحليل. يَعكِس هذا المقال قراءة Annota8 للأدلّة المتاحة علنًا حتّى تاريخ آخر تعديل له. مواقع المورّدين، الأطر التنظيميّة، أرقام المقاييس ونطاق البرامج يمكن أن تتغيّر دون إشعار. حيث تُذكر نطاقات عدديّة، تلك الأرقام قابلة للتحقّق من المصدر المرتبط في قسم المراجع داخل المقال — لم تُعِد Annota8 إجراء المقاييس بنفسها ما لم يُذكر ذلك صراحةً في المقال.

الموقف القانوني والخصوصيّة. Annota8 شركة عمليّات بيانات ذكاء اصطناعي في مرحلة مبكّرة في إطلاق ناعم. لا نَملِك حاليًّا شهادة SOC 2، أو ISO 27001، أو شهادة PDPL، أو أيّ شهادة أمن أو خصوصيّة من طرف ثالث. نُصمِّم وَفقًا لمبادئ PDPL ونَقدِر على توقيع DPA مَبنيّة على نموذج SCC الأوروبي. الموقف التوافقي المحدّد لارتباطك متاح عند الطلب من [email protected].

لا شيء في هذا المقال يُمثِّل استشارة قانونيّة أو ضريبيّة أو استثماريّة. الاستشهادات التنظيميّة يجب التحقّق منها مع مستشار قانوني في ولايتك القضائيّة. أسماء المورّدين المذكورة في هذا المقال مرجَّعة كسياق مشهد صناعي فحسب — Annota8 لا تَدَّعِي ادّعاءً تنافسيًّا للمنتج، ولا علاقة عملاء، ولا أيّ ارتباط آخر مع أيّ من المنصّات المذكورة، ما لم يُذكر ذلك صراحةً.

تواصَل مع الفريق:[email protected] · annota8.ai