نماذج اللغة العربية مفتوحة المصدر مقابل المسجّلة في 2026: إطار قرار عملي
مشهد 2026 — ما الذي تختار بينه فعلًا
سوق LLM العربي في 2026 لم يعد ثنائيًا “GPT أو لا شيء.” صار رفًّا مأهولًا بنصفَين متمايزَين.
نماذج إقليميّة مفتوحة الأوزان — تحمّل الأوزان، تستضيف الاستدلال، يمكنك الضبط الدقيق.
- ALLaM v2 — SDAIA، السعوديّة. أوزان مفتوحة عبر بوّابة SDAIA الوطنيّة وقنوات شريكة. الأقوى على الفصحى MSA + خليجي سعودي. النموذج المرجعي للقطاع العام السعودي بحكم الواقع.
- Karnak — مركز الذكاء الاصطناعي التطبيقي (AIC)، مصر. رخصة تجاريّة مفتوحة الأوزان متوقّعة عند الإطلاق الكامل. أعمق نموذج عربي مُدرَّب علنيًّا على اللهجة المصريّة. تغطية قاهرية + صعيدية + سكندريّة.
- Jais — G42 + Cerebras (الإمارات). أوزان مفتوحة، ناضج إنتاجيًّا منذ 2023. الأكثر نشرًا مؤسسيًّا بين النماذج العربيّة المفتوحة حتى اليوم. فصحى + ميل خليجي.
- Fanar — QCRI (قطر). أوزان مفتوحة جزئيًّا + API بوّابة. أطروحة تدريب “جودة قبل كمّ”، قويّ على تقييم المحاذاة الإسلاميّة.
- عائلة Falcon Arabic — TII (الإمارات). أوزان مفتوحة. أحجام متعدّدة، تخصّصات عربيّة متعدّدة عبر عائلة Falcon.
نماذج API مغلقة من الجبهة الأولى — تستدعي الـ API، لا يمكنك فحص الأوزان، ولا يمكنك الضبط الدقيق (عائلتا Claude و Gemini) أو يمكنك الضبط الدقيق فقط عبر خطّ المُورِّد (عائلة GPT، بتحكّم محدود).
- Claude — Anthropic. قوّة سياق طويل، فهم قويّ للفصحى MSA والمصريّة عبر مجموعة ويب كبيرة. لا ضبط دقيق؛ رفضات مُدرَّبة على السلامة.
- GPT — OpenAI. أوسع بصمة تكامل مؤسسي. ضبط دقيق متاح عبر API لكن على بنية OpenAI لا بنيتك.
- Gemini — Google. قوّة متعدّدة الوسائط، قويّ على الفصحى، تكامل أدوات عميق على Google Cloud.
هذا هو الرفّ. السؤال ليس أبدًا “أيّها الأفضل.” السؤال هو “أيّها الأفضل لهذا العبء، تحت هذه القيود، بهذه الميزانيّة.”
ستّة أبعاد قرار
1. الكلفة — لكلّ نداء API مقابل استضافة مُوزَّعة
سعر API المغلق رقم نظيف لكلّ مليون رمز. سعر الوزن المفتوح فاتورة استضافة (مثيلات GPU، فريق تشغيل، زمن تحميل النموذج، طاقة خاملة). دون نحو 200 مليون رمز شهريًّا الـ API المغلق دائمًا تقريبًا أرخص في الكلفة الإجماليّة؛ فوق نحو مليار رمز شهريًّا يبدأ المسار المفتوح ذاتي-الاستضافة بالفوز، حسب أيّ منطقة سياديّة تشغّل فيها. بين العتبتَين أنت في منطقة المفاوضات — والمُورِّد المغلق يعرف ذلك.
2. الكُمون — المسافة لنقاط نهاية MENA
نماذج API المغلقة من الجبهة الأولى تُوَجَّه عبر مناطق أمريكا أو أوروبا اليوم. من خلفيّة في الرياض أو القاهرة، توقّع 150-400ms كُمون ذهاب وإياب قبل أن تُرسِل الموجّه أصلًا. الأوزان المفتوحة المستضافة داخل المنطقة (سحابة الذكاء الاصطناعي الوطنيّة السعوديّة، G42 Core42، شركاء إقليميّون) تخفض ذلك إلى 20-60ms. للصوت التفاعلي، الترجمة الفوريّة، IVR خدمة العملاء — هذا الفارق يحسّه المستخدم.
3. السيادة — تصنيف NDMO + تعرّض CLOUD Act
إذا كانت بياناتك مُصنَّفة فوق المستوى 2 لدى NDMO في KSA، أو خاضعة لضوابط المادّة 29 من نظام حماية البيانات الشخصيّة في السعوديّة أو ما يكافئها في الإمارات وقطر وعُمان ومصر — نماذج API المغلقة المُقَدَّمة من مناطق أمريكا أو أوروبا تُستَبعَد عادةً بحكم اشتراط إقامة البيانات قبل أن نناقش القدرة. الأوزان المفتوحة المستضافة داخل البلد هي المسار. تعرّض CLOUD Act يضاعف هذا: حتى البيانات الموجودة فيزيائيًّا في منطقة غير أمريكيّة لكن يُعالجها مُورِّد مقرّه الولايات المتّحدة قد تخضع لأمر قانوني أمريكي.
4. عمق التخصيص — موجّه فقط مقابل ضبط دقيق كامل
النماذج المغلقة تعطيك موجّهًا ورسالة نظام صغيرة. بعض المورّدين يعرضون “ضبطًا دقيقًا” لكنّه LoRA رفيع على خطّهم، لا تملكه، ولا يمكنك نشره خارج منصّتهم. الأوزان المفتوحة تتيح SFT كاملًا، RLHF كاملًا، استرجاع RAG كامل على مجموعتك الخاصّة — وأنت تملك الأوزان الناتجة. إذا كانت قيمتك تأتي من بيانات عربيّة ملكيّة لم يرها أيّ نموذج علني، المسار المفتوح فقط هو الذي يتيح استثمارها كاملًا.
5. تغطية اللهجة — قوى المفتوح والمغلق
النماذج العربيّة المفتوحة أقوى اليوم على لهجة محادثة سعوديّة (ALLaM) ولهجة محادثة مصريّة (Karnak)، لأنّها دُرِّبت بمجموعات مُصَنَّفة باللهجة عن قصد. نماذج الجبهة الأولى المغلقة غالبًا أقوى على الفصحى MSA — خصوصًا الكتابة الرسميّة الطويلة — وعلى المصريّة (لأنّ المصريّة هي الأكثر تمثيلًا على الويب العام الذي دُرِّبت عليه النماذج المغلقة). للهجات الخليج خارج السعوديّة (الإماراتي، القطري، العُماني، البحريني، الكويتي) الجانبان أضعف ممّا يوحي التسويق، والفارق يحدّده أساسًا إن كان فريقك أنجز عمل تقييم على مجموعات holdout لهجيّة.
6. الامتثال + مسار التدقيق
مزوّدو API المغلقون يسجّلون كلّ نداء عندهم. لمحادثة تدقيق داخلي قد يكون ذلك ميزة (المُورِّد يحتفظ بالسجلّ الثابت) أو مسؤولية (المُورِّد يحتفظ بالسجلّ الثابت). ذاتي-الاستضافة المفتوح يتيح لك التحكّم الكامل بمسار التدقيق — تختار ما يُسَجَّل، ومدّة الاحتفاظ، ومن يصل إليه، وهل يمكن تصديره لمراجعة الجهة المنظِّمة. لأعباء مُصَنَّفة NDMO أو بيانات ماليّة ذات صلة بـ ZATCA الأخير عادةً مطلوب.
مصفوفة القرار — عبء-عمل × أولويّة-قيد
| عبء العمل | القيد الرئيس | العائلة الموصى بها |
|---|---|---|
| مساعد عربي حكومي / قطاع عام | السيادة + مسار التدقيق | ALLaM v2 أو Falcon Arabic، مستضاف داخل المملكة |
| خدمة عملاء / IVR لهجة مصريّة | جودة اللهجة + الكُمون | Karnak (مضبوط دقيقًا) أو Jais مستضاف في القاهرة |
| صياغة وثائق طويلة بالفصحى MSA للمؤسّسة | سقف الجودة | Claude أو GPT (API مغلق) |
| مساعد داخلي للشركة على بيانات سريّة | السيادة + التخصيص | ذاتي-الاستضافة مفتوح (ALLaM، Karnak، Jais، Falcon) + RAG |
| دردشة استهلاكيّة علنيّة بهامش منخفض | الكلفة عند الحجم | ذاتي-الاستضافة مفتوح حالما يتجاوز الحجم نحو مليار رمز شهريًّا |
| OCR عربي متعدّد الوسائط + استدلال | سقف القدرة | Gemini أو Claude (مغلق) إلى أن يلحق المفتوح متعدّد الوسائط |
| ماليّ / إكلينيكي مُنَظَّم | تدقيق + سيادة + لهجة | ذاتي-الاستضافة مفتوح، مضبوط دقيقًا على مجموعة منظَّمة |
| نموذج أوّلي + بحث وتطوير داخلي | السرعة للسوق | API مغلق (Claude / GPT / Gemini)، مع الهجرة لاحقًا |
هذا ليس ترتيبًا لأيّ نموذج “أفضل.” هو خريطة قيد-أوّلًا. الشركة نفسها التي تشغّل بوّابة خدمة مواطنين ومختبر بحث داخلي يجب أن تستخدم عائلتَين مختلفتَين — ومعظم نشر MENA الناضج يفعل ذلك.
متى تخلط — معماريّات هجينة
النمط الإنتاجي الأشيع في 2026 ليس مفتوحًا صرفًا ولا مغلقًا صرفًا. إنّه مختلط.
النمط 1 — تضمينات مفتوحة + استدلال مغلق. ضمّن مجموعتك العربيّة بنموذج تضمين عربي مفتوح الأوزان (مشتقّ من ALLaM أو مشتقّ من Karnak)، خزّن في قاعدة متّجهات سياديّة، استرجِع السياق ذا الصلة، ثمّ أرسل الموجّه المُجَمَّع فقط إلى API مغلق للتوليد العالي الجودة. البيانات السياديّة لا تغادر المنطقة بصيغتها الخام أبدًا؛ ينكشف فقط السياق المُسْتَرجَع (الذي تتحكّم به).
النمط 2 — مغلق لغير-السيادي، مفتوح للسيادي. وَجِّه كلّ طلب عبر طبقة تصنيف أوّلًا: NDMO مستوى 2 فأعلى؟ → ذاتي-الاستضافة مفتوح داخل المنطقة. NDMO مستوى 1 أو غير مُصَنَّف؟ → API مغلق للجودة. منطق المُوَجِّه 50 سطر كود؛ مكسب الامتثال هائل.
النمط 3 — قاعدة مفتوحة + صقل مغلق. ولّد مسوّدة بنموذج عربي مفتوح (سريع، داخل المنطقة، رخيص) وصقّل أعلى 5-10% من الحالات التي تحتاج جودة أعلى بنموذج مغلق. يخفض إنفاق API المغلق 80-90% مع الحفاظ على الجودة في الحالات التي تهمّ.
كلّ نمط يتطلّب عمل تقييم حقيقي — لا أحد منها ينجو من نشر “ابعثها وأمل.” هنا يدخل التأشير المُنسَّق، ومجموعات holdout مُصَنَّفة باللهجة، وبيانات red-team.
إفصاح صريح — أين تندرج Annota8
Annota8 تعمل تأشيرًا لكلا نصفَي هذا الرفّ. النماذج العربيّة مفتوحة الأوزان تحتاج أزواج SFT عربيّة أصليّة، بيانات تفضيل RLHF، مجموعات مُصَنَّفة باللهجة، ومجموعات خصم red-team لتكون إنتاجيّة-الدرجة. عملاء API المغلق الذين يبنون فوق نماذج الجبهة الأولى يحتاجون تنسيق مجموعة RAG، وبناء مجموعات تقييم، ومعايرة جودة مُصَنَّفة باللهجة. كلا الجانبَين يحتاجان المُدخل نفسه — بشر يتكلّمون اللهجة فعلًا، يفهمون المجال، يستطيعون التأشير بجودة إنتاجيّة. ليس لدينا حصان في سباق مفتوح-ضدّ-مغلق. لدينا حصان في سباق اجعل-الذكاء-الاصطناعي-العربي-يعمل-فعلًا.
ما تفعله هذا الربع
إذا كنت تبدأ مشروع LLM عربي جديد في 2026:
- صنّف بياناتك أوّلًا. مستوى NDMO، انطباق نظام حماية البيانات الشخصيّة، تعرّض CLOUD Act. الأجوبة تستبعد نصف الرفّ قبل مقارنة القدرة.
- ابنِ مجموعة تقييمك قبل اختيار النموذج. مُصَنَّفة باللهجة، خاصّة بمجالك، مأخوذة من مستخدميك الفعليّين. بدون ذلك لا تستطيع أن تعرف أيّ عائلة تفوز عندك — أنت تقرأ تسويق غيرك.
- النموذج الأوّلي على أرخص مسار. API مغلق لأوّل أسبوعَين تقريبًا دائمًا. تحقّق من حالة الاستخدام. ثمّ أعِد المعماريّة لمجموعة القيود طويلة المدى.
- خطّط للهجين مبكرًا. حتى لو بدأت مغلقًا صرفًا أو مفتوحًا صرفًا، اترك خطّاف المُوَجِّه في كودك من اليوم الأوّل. ستحتاجه.
مراجع ذات صلة
- الحلول: مختبرات نماذج الأساس
- بيانات تدريب ALLaM
- بيانات تدريب Karnak
- بيانات تدريب Jais
- بيانات تدريب Fanar
- بيانات تدريب Falcon
- مقارنة ALLaM + Karnak + Fanar
- تشخيص الفشل التجاري لـ LLM العربي
- خرافات الإقامة داخل المملكة مقابل الإقامة السياديّة
- حسبة رموز تسعير API العربي
- المنصّة: قوّة العمل
- المنصّة: تنسيق البيانات
- قاموس: التضمين
- قاموس: التوليد المُعَزَّز بالاسترجاع RAG
- قاموس: السحابة السياديّة
- قاموس: نافذة السياق
- قاموس: SFT
- قاموس: RLHF
- الشخصيّة: قائد بيانات تدريب مختبر نماذج أساس MENA