تضمينات اللغة العربية مفتوحة الوزن في 2026 — المتاح ومقايضات الإنتاج
لماذا هذا أصعب في العربية مما هو في الإنجليزية
في الإنجليزية، اختيار نموذج تضمين في 2026 قرار من ثلاثين دقيقة. تنظر إلى لوحة MTEB، تختار أعلى ثلاثة، تجرّبهم على مجموعة الاسترجاع لديك، وتشحن الأفضل. في العربية، يُنتج التدفّق نفسه نماذج تبدو رائعة على المقاييس وتتصرّف بسوء في الإنتاج.
ثلاثة أسباب:
- معظم مجموعات التقييم العربية العامة مقاييس مترجمة على غرار MMLU. تستخدم اللغة العربية الفصحى (MSA)، نصًّا نظيفًا، بلا تشكيل، بلا تبديل لغوي، بلا لهجة. حركة إنتاجك لهجيّة، ممزوجة لغويًّا، غير مُشكَّلة في الغالب، أحيانًا مكتوبة بحروف لاتينية (“عربيزي”). الفائز على المقياس كثيرًا ما يكون الخاسر في الإنتاج.
- منظومة التضمين العربية ثنائية النمط. هناك نماذج عائلة BERT متخصّصة في العربية، مدرَّبة على مدوّنات عربية (AraBERT و CAMeLBERT و MARBERT و ARBERTv2)، وهناك مُضمِّنات متعددة اللغات تغطّي العربية كواحدة من أكثر من 100 لغة (multilingual-e5 و BGE-M3 و Cohere embed-multilingual v3). المتخصّصون في العربية يفوزون في التصنيف ومهام اللهجة؛ النماذج متعددة اللغات تفوز في الاسترجاع عند أطوال السياق الحديثة.
- السيادة قيد حقيقي في الخليج. “ناد API الخاصة بـ OpenAI” ليس خيار نشر لنظام RAG حكومي سعودي. الاستضافة الذاتية المفتوحة الوزن داخل المملكة شرط صلب لشريحة متنامية من المشترين — راجع في المملكة مقابل خرافات الإقامة السيادية للبيانات.
الإطار أدناه يمشي عبر ما هو متاح فعليًّا وما يصلح له كل نموذج.
عائلة BERT المتخصّصة في العربية (أوزان مفتوحة، 512 رمزًا، قوية في التصنيف)
هذه نماذج المحوّل المشفِّرة الأربعة الكنسية المدرَّبة على العربية. كلٌّ منها مخرج بحثي من مختبر مرتبط بمنطقة شمال أفريقيا والشرق الأوسط، ولا يزال مستخدَمًا على نطاق واسع في أوراق NLP العربية.
- AraBERT (أنطون وآخرون، الجامعة الأمريكية في بيروت + مَرَكَة، 2020). أول نموذج BERT مدرَّب مسبقًا على العربية وموثوق. مُدرَّب على مدوّنة منسّقة من الأخبار العربية وويكيبيديا العربية. متغيّرات متعدّدة (v0.1 و v0.2 و large و twitter). خط أساس قوي لتصنيف الفصحى، التعرّف على الكيانات المسمّاة، تحليل المشاعر.
- CAMeLBERT (إينوي وآخرون، جامعة نيويورك أبوظبي، 2021). إصدار مختبر CAMeL؛ نُشِر بمتغيّرات مدركة للهجة (MSA، DA لهجي، CA كلاسيكي، خليط). مفيد بشكل خاص إن كنت تهتم بالعربية الكلاسيكية أو بالتحكم الصريح في السجل.
- MARBERT (عبد المجيد وآخرون، جامعة كولومبيا البريطانية UBC، 2021). مُدرَّب على مدوّنة عربية ضخمة من Twitter، مع شقيق ARBERT المُدرَّب على الفصحى. قوي في تعرّف اللهجة وعربية وسائل التواصل.
- ARBERTv2 (UBC + KU Leuven، 2023). خَلَف لـ ARBERT بمدوّنة أكبر، معالجة مُجَزِّئ حديثة، ومعالجة صرف محسَّنة.
كل الأربعة مفتوح الوزن، كلها تقريبًا بحجم BERT-base أو BERT-large في عدّ الوسائط، كلها تتسقّف عند 512 رمزًا من السياق. هذه النقطة الأخيرة هي عائق الإنتاج. نظام RAG في 2026 يقطّع عادةً عند 1K–2K رمزًا؛ مشفِّر بسقف 512 يجبرك على إفراط التقطيع وفقد تماسك مستوى الوثيقة.
متى يفوز المتخصّصون العرب في الإنتاج: التصنيف، تعرّف اللهجة، تحليل المشاعر، كشف القصد، التعرف على الكيانات، وأي مكان يكون فيه المدخل قصيرًا طبيعيًّا والمهمّة مُشرَفًا عليها. كما يبقَون الأساس الصحيح لضبط دقيق لتضمين مخصّص لمجال عربي متخصص (قانوني، طبي، شرعي) حين تتوفّر لديك الأزواج المُؤشَّرة.
مُضمِّنات متعددة اللغات مفتوحة الوزن تغطّي العربية جيدًا
هنا يعيش إنتاج RAG العربي الحديث فعليًّا. هذه مشفِّرات جمل/فقرات متعددة اللغات لأغراض عامّة، كلها مفتوحة الوزن، كلها قابلة للاستضافة الذاتية، كلها بنوافذ سياق أكبر من 512 ماديًّا.
- multilingual-e5 (مايكروسوفت، وانغ وآخرون، 2024). ثلاثة أحجام (small و base و large). سياق 8K في النسخة large. استرجاع عربي قوي افتراضيًّا. مُدرَّب بتدريب مسبق تباينيّ مُشرَف عليه بشكل ضعيف ثم ضبط دقيق مُشرَف. الافتراضي “الممل الذي يعمل” في 2026.
- BGE-M3 (BAAI، 2024). متعدد اللغات، متعدد الوظائف (يدعم الاسترجاع الكثيف والمتباعد ومتعدد المتجهات في نموذج واحد)، سياق 8K. الأفضل في فئته للاسترجاع عبر مجموعات MTEB متعددة اللغات التي تشمل العربية. أثقل قليلًا في التشغيل من multilingual-e5 لأن إخراج تعدد الوظائف يضيف تكلفة استدلال.
- JinaAI v3 multilingual embedding (Jina AI، 2024). تغطية متعددة لغات قوية، سياق 8K، تضمينات مشروطة بالمهمّة (تخبره إن كنت تُضمِّن استعلامًا أم وثيقة). ترخيص ودود للإنتاج.
- Nomic embed (النسخة متعددة اللغات). مفتوح الوزن، سياق 8K، تغطية متعددة لغات عامّة جيدة. ضبط أقل تخصيصًا للعربية من e5 أو BGE-M3 لكنه بديل موثوق.
متى تفوز المُضمِّنات متعددة اللغات: في أي مكان تحتاج فيه سياق 8K، وأي مكان تحتاج فيه نموذجًا واحدًا يخدم العربية + الإنجليزية + الفرنسية (التبديل اللغوي المغاربي والخليجي)، وأي مكان تشترط فيه السيادة الاستضافة الذاتية على بنية تحتية داخل المملكة.
تضمينات عربية مغلَقة المصدر عبر API
هذه واجهات الـ API التجارية الموثوقة في 2026 التي تتعامل مع العربية بما يكفي للإنتاج.
- OpenAI text-embedding-3-large / text-embedding-3-small. عربية قوية افتراضيًّا، دعم تقليل الأبعاد (Matryoshka)، سياق 8K. أوزان مغلقة، استدلال داخل الولايات المتحدة، بلا خيار ضبط دقيق للتضمين. سريع للنمذجة الأولى لكنه بلا قصّة سيادة.
- Cohere embed-multilingual v3. أفضل تغطية متعددة لغات تجارية في فئته، سياق 512 (السقف الوحيد الذي يجب مراقبته)، قوي على العربية. خيار API الذي “تعمل العربية فيه ببساطة”.
- Voyage AI multilingual-2. وافد جديد متعدد لغات بدرجات استرجاع عربية قوية على التقييمات الداخلية. سياق 32K في بعض المتغيّرات. بديل موثوق لـ Cohere.
- Anthropic. لا توجد واجهة تضمين عامّة حتى 2026. إن كنت تبني على Claude، فأنت تقرنه بمضمِّن طرف ثالث.
متى تفوز واجهات API المغلقة: حين لا تكون السيادة قيدًا، وحين لا تحتاج إلى ضبط المضمِّن دقيقًا، وحين لا يريد فريقك تشغيل استدلال على GPU، وحين تقبل أن المضمِّن أصبح تبعية مقفلة على المورّد.
أبعاد القرار التي تهمّ فعلًا
ستة أبعاد، بترتيب ما يثبّت الاختيار عادةً:
1. السيادة
إن وجب أن يعمل النشر على بنية تحتية داخل المملكة (حكومة السعودية، صحة سعودية، مستأجر سحابة سيادية لبنك منظَّم)، فواجهات API المغلقة مستبعدة. أنت تختار من multilingual-e5 و BGE-M3 و JinaAI v3 و Nomic embed و AraBERT و CAMeLBERT و MARBERT و ARBERTv2. راجع قراءة عملية لمشتريات HUMAIN 2026 لرؤية واقع هذا المشتري.
2. طول السياق
إن كانت قِطَعُك أكبر من 512 رمزًا (وهو ما ينبغي أن تكون عليه في RAG الحديث بتقطيع دلالي)، فإن نماذج BERT العربية المتخصّصة محرجة. الافتراضي مُضمِّن متعدد لغات بسياق 8K. Cohere embed-multilingual v3 يتسقّف أيضًا عند 512، وهو الشيء الوحيد الذي يجب مراقبته في تلك الـ API.
3. الجودة لكل عبء عمل
المقاييس ذات الصلة بالعربية في 2026:
- Arabic STS-B (تشابه نصوص دلالي بالعربية).
- mr-tydi-ar (استرجاع متعدد اللغات، الفرع العربي).
- AraSciQ retrieval (إجابة أسئلة علمية عربية، حيث يوجد).
- مجموعة تقييم داخلية — تلك التي تبنيها بنفسك على نصّ عربي واقعي إنتاجيًّا. هذه التي تهمّ.
نرى أن multilingual-e5-large و BGE-M3 يتبادلان الفوز عبر هذه المقاييس. الفوارق عادةً داخل ضجيج المقياس. الفوارق على مجموعة تقييم عربية داخلية مبنيّة جيدًا ليست كذلك.
4. زمن الاستجابة + التكلفة
تضمينات مفتوحة الوزن مستضافة ذاتيًّا تكلّف نحو 20–60 USD لكل مليون استعلام على استدلال GPU شائع (بحسب حجم الدُّفعة وحجم النموذج وتكلفة البنية التحتية). واجهات API المغلقة تكلّف 100–200 USD لكل مليون لـ embedding-3-large أو embed-multilingual v3 بالأسعار المُعلَنة. تحت مليون استعلام شهريًّا، الـ API أرخص بعد تكلفة العمليات. عند أحجام أعلى، الاستضافة الذاتية تفوز بفارق حاسم.
5. التخصيص
المُضمِّنات مفتوحة الوزن يمكن ضبطها دقيقًا على مجالك (عربية قانونية، عربية طبية، أزواج استرجاع مُقسَّمة لهجيًّا). واجهات API المغلقة لا — أو فقط عبر API محوِّلات محدودة لا تصل إلى طبقة التضمين. إن كان مجالك مختلفًا ماديًّا عن العربية العامة (تمويل متوافق مع الشريعة، نظام العمل السعودي، طب خليجي)، الضبط الدقيق هو الرافعة التي تُغلق الفجوة.
6. تحمّل التبديل اللغوي
لحركة إنتاج عربية-فرنسية مغاربية أو عربية-إنجليزية خليجية، التبديل اللغوي دائم. نماذج BERT العربية المتخصّصة تتدهور بشدة على المدخل الممزوج لغويًّا. المُضمِّنات متعددة اللغات (multilingual-e5 و BGE-M3 و JinaAI v3) تتعامل معه فطريًّا لأنها دُرِّبت على بيانات ويب متعددة اللغات تشمل نصًّا ممزوجًا لغويًّا.
اختيارات 2026 حسب عبء العمل
هذا هو جواب المشغّل — ما نوصي به فعلًا في مكالمات تحديد نطاق التأشير، بحسب عبء العمل.
| عبء العمل | توصية 2026 | لماذا |
|---|---|---|
| RAG سيادي داخل المملكة عالي الحجم | multilingual-e5-large أو BGE-M3، مستضاف ذاتيًّا | أوزان مفتوحة، سياق 8K، استدلال داخل المنطقة، قابل للضبط الدقيق |
| بداية سريعة، غير سيادية، عدد عمليات منخفض | Cohere embed-multilingual v3 | عربية قوية، نداء API واحد، بلا بنية تحتية |
| حسّاس للتشكيل (ديني، تراثي، قرآني، مُشكَّل) | AraBERT أو MARBERT مضبوط دقيقًا على Tashkeela | المُضمِّنات متعددة اللغات تتعامل مع غير المُشكَّل؛ المتخصّصون المضبوطون على Tashkeela يتعاملون مع التشكيل |
| ممزوج عربي-إنجليزي-فرنسي (مغاربي، خليجي) | multilingual-e5 أو BGE-M3 | بيانات تدريب متعددة اللغات تعرض النموذج للتبديل اللغوي فطريًّا |
| تصنيف عربي، تعرّف لهجة، NER، قصد | MARBERT و ARBERTv2 و CAMeLBERT-DA | المتخصّصون العرب في BERT لا يزالون يفوزون في المهام المُشرَفة قصيرة المدخل |
| نمذجة أولى مغلقة عبر API على Claude أو GPT | OpenAI text-embedding-3-large أو Voyage AI multilingual-2 | كلاهما يتعامل مع العربية، كلاهما سريع للنمذجة الأولى |
| مُضمِّن مجال قابل للضبط الدقيق (قانوني، طبي، شرعي) | AraBERT أو multilingual-e5 كأساس | كلاهما مفتوح الوزن، وكلاهما له وصفات ضبط دقيق بأزواج مُؤشَّرة |
لماذا الاختيار بالمقياس وحده يخطئ واقع الإنتاج
أكثر خطأ شائع نراه: مختبر FM أو فريق مؤسّسي يختار نموذج تضمين بقراءة لوحة الفرع العربي من MTEB، ينشره، ويشحن نظام RAG عربي يسترجع بشكل سيّئ على استعلامات العملاء الحقيقية.
المشكلة ليست في اللوحة. المشكلة أن اللوحة مبنيّة على:
- مقاييس مترجمة (MMLU مترجم إلى العربية، أزواج STS أصلها إنجليزي مترجمة إلى الفصحى). العربية الإنتاجية ليست نصًّا مترجمًا؛ هي لهجة مكتوبة فطريًّا ونصّ اجتماعي ممزوج لغويًّا.
- عربية فصحى نظيفة. العربية الإنتاجية لهجة، وضجيج وسائل تواصل، وإملاء مختلط (بهمزة وبدونها، بتشكيل وبدونه)، وتبديل لغوي.
- تشابه دلالي بمستوى الجملة الواحدة. الاسترجاع الإنتاجي فقرات متعددة الجمل مقابل استعلامات بلغة طبيعية.
الإصلاح هو أن تبني مجموعة تقييمك الخاصة. نغطّي شكل ذلك في القسم التالي. للنمط الأوسع، راجع قياس أداء LLM العربي وتشخيص الفشل التجاري لـ LLM العربي.
أيّ عمل تأشير يدعم تقييم التضمين
هنا يتقاطع اختيار التضمين مع عمل التأشير الذي نقوم به في Annota8. لتشغيل تقييم موثوق لمضمِّن عربي — ولضبطه دقيقًا حين يشير التقييم إلى ذلك — تحتاج ثلاث مصنوعات مُؤشَّرة:
- أزواج صلة استعلام-وثيقة مُقسَّمة لهجيًّا. استعلامات إنتاجية حقيقية، باللهجة التي يتحدّث بها مستخدموك، مقرونة بالوثائق التي ينبغي وما لا ينبغي استرجاعها. مُقسَّمة بين الفصحى والمصرية والخليجية والشامية والمغاربية كحدّ أدنى. بدون التقسيم اللهجي لا تستطيع التمييز إن كان المضمِّن يفشل في الاسترجاع أم في تغطية اللهجة.
- حقيقة مرجعية للتشابه الدلالي. أزواج جمل عربية الأصل مُسجَّلة على مقياس تشابه متّصل، من قِبَل لغويين عرب يتحدّثون فعلًا لهجة النصّ المصدر. هذا ما يعاير تقييم STS مع واقع إنتاجك.
- أزواج تباين. “هاتان الفقرتان تبدوان متشابهتين لكنهما تعنيان أشياء مختلفة”؛ “هاتان الفقرتان تبدوان مختلفتين لكنهما تعنيان الشيء نفسه”. أزواج التباين هي كيف تجد إخفاقات التضمين التي يخفيها تسجيل تشابه الجملة الواحدة.
الثلاثة جميعها أعمال نحدّد نطاقها روتينيًّا لمختبرات FM والفرق المؤسّسية التي تبني RAG عربيًّا. اختيار البنية يخصّك؛ تصميم التأشير يتبع منه.
للصورة الأعمق لتراكم التأشير لنماذج الأساس العربية، راجع بيانات تدريب نماذج الأساس في الشرق الأوسط وشمال أفريقيا وشخصية قائد بيانات تدريب مختبر FM في الشرق الأوسط وشمال أفريقيا.
كيف تقرّر لتطبيقك — قائمة فحص
امشِ عبر هذه بالترتيب. أول قيد صلب يثبّت الاختيار عادةً.
- قيد سيادة؟ → مفتوح الوزن فقط (multilingual-e5 و BGE-M3 و JinaAI v3 و AraBERT و CAMeLBERT و MARBERT و ARBERTv2).
- قِطَع أكبر من 512 رمزًا؟ → مُضمِّن متعدد لغات بسياق 8K (multilingual-e5 و BGE-M3 و JinaAI v3 و Nomic embed و Voyage AI multilingual-2).
- طموح ضبط دقيق؟ → مفتوح الوزن (أيٌّ ممّا سبق)، وكثيرًا ما يكون multilingual-e5 أو AraBERT كأساس.
- حركة إنتاج ممزوجة لغويًّا؟ → متعدد اللغات فوق المتخصّص العربي.
- مخرَجات حسّاسة للتشكيل؟ → AraBERT أو MARBERT مضبوط دقيقًا على Tashkeela.
- نمذجة أولى سريعة غير سيادية؟ → Cohere embed-multilingual v3 أولًا؛ OpenAI text-embedding-3-large ثانيًا.
إن لم يربط أيٌّ من هذه القيود، فالافتراضي multilingual-e5-large مستضاف ذاتيًّا. هو الجواب الممل لعام 2026 الذي ينجو في معظم نشريات الإنتاج.