كل المقالات

تضمينات اللغة العربية مفتوحة الوزن في 2026 — المتاح ومقايضات الإنتاج

لماذا هذا أصعب في العربية مما هو في الإنجليزية

في الإنجليزية، اختيار نموذج تضمين في 2026 قرار من ثلاثين دقيقة. تنظر إلى لوحة MTEB، تختار أعلى ثلاثة، تجرّبهم على مجموعة الاسترجاع لديك، وتشحن الأفضل. في العربية، يُنتج التدفّق نفسه نماذج تبدو رائعة على المقاييس وتتصرّف بسوء في الإنتاج.

ثلاثة أسباب:

  1. معظم مجموعات التقييم العربية العامة مقاييس مترجمة على غرار MMLU. تستخدم اللغة العربية الفصحى (MSA)، نصًّا نظيفًا، بلا تشكيل، بلا تبديل لغوي، بلا لهجة. حركة إنتاجك لهجيّة، ممزوجة لغويًّا، غير مُشكَّلة في الغالب، أحيانًا مكتوبة بحروف لاتينية (“عربيزي”). الفائز على المقياس كثيرًا ما يكون الخاسر في الإنتاج.
  2. منظومة التضمين العربية ثنائية النمط. هناك نماذج عائلة BERT متخصّصة في العربية، مدرَّبة على مدوّنات عربية (AraBERT و CAMeLBERT و MARBERT و ARBERTv2)، وهناك مُضمِّنات متعددة اللغات تغطّي العربية كواحدة من أكثر من 100 لغة (multilingual-e5 و BGE-M3 و Cohere embed-multilingual v3). المتخصّصون في العربية يفوزون في التصنيف ومهام اللهجة؛ النماذج متعددة اللغات تفوز في الاسترجاع عند أطوال السياق الحديثة.
  3. السيادة قيد حقيقي في الخليج. “ناد API الخاصة بـ OpenAI” ليس خيار نشر لنظام RAG حكومي سعودي. الاستضافة الذاتية المفتوحة الوزن داخل المملكة شرط صلب لشريحة متنامية من المشترين — راجع في المملكة مقابل خرافات الإقامة السيادية للبيانات.

الإطار أدناه يمشي عبر ما هو متاح فعليًّا وما يصلح له كل نموذج.

عائلة BERT المتخصّصة في العربية (أوزان مفتوحة، 512 رمزًا، قوية في التصنيف)

هذه نماذج المحوّل المشفِّرة الأربعة الكنسية المدرَّبة على العربية. كلٌّ منها مخرج بحثي من مختبر مرتبط بمنطقة شمال أفريقيا والشرق الأوسط، ولا يزال مستخدَمًا على نطاق واسع في أوراق NLP العربية.

كل الأربعة مفتوح الوزن، كلها تقريبًا بحجم BERT-base أو BERT-large في عدّ الوسائط، كلها تتسقّف عند 512 رمزًا من السياق. هذه النقطة الأخيرة هي عائق الإنتاج. نظام RAG في 2026 يقطّع عادةً عند 1K–2K رمزًا؛ مشفِّر بسقف 512 يجبرك على إفراط التقطيع وفقد تماسك مستوى الوثيقة.

متى يفوز المتخصّصون العرب في الإنتاج: التصنيف، تعرّف اللهجة، تحليل المشاعر، كشف القصد، التعرف على الكيانات، وأي مكان يكون فيه المدخل قصيرًا طبيعيًّا والمهمّة مُشرَفًا عليها. كما يبقَون الأساس الصحيح لضبط دقيق لتضمين مخصّص لمجال عربي متخصص (قانوني، طبي، شرعي) حين تتوفّر لديك الأزواج المُؤشَّرة.

مُضمِّنات متعددة اللغات مفتوحة الوزن تغطّي العربية جيدًا

هنا يعيش إنتاج RAG العربي الحديث فعليًّا. هذه مشفِّرات جمل/فقرات متعددة اللغات لأغراض عامّة، كلها مفتوحة الوزن، كلها قابلة للاستضافة الذاتية، كلها بنوافذ سياق أكبر من 512 ماديًّا.

متى تفوز المُضمِّنات متعددة اللغات: في أي مكان تحتاج فيه سياق 8K، وأي مكان تحتاج فيه نموذجًا واحدًا يخدم العربية + الإنجليزية + الفرنسية (التبديل اللغوي المغاربي والخليجي)، وأي مكان تشترط فيه السيادة الاستضافة الذاتية على بنية تحتية داخل المملكة.

تضمينات عربية مغلَقة المصدر عبر API

هذه واجهات الـ API التجارية الموثوقة في 2026 التي تتعامل مع العربية بما يكفي للإنتاج.

متى تفوز واجهات API المغلقة: حين لا تكون السيادة قيدًا، وحين لا تحتاج إلى ضبط المضمِّن دقيقًا، وحين لا يريد فريقك تشغيل استدلال على GPU، وحين تقبل أن المضمِّن أصبح تبعية مقفلة على المورّد.

أبعاد القرار التي تهمّ فعلًا

ستة أبعاد، بترتيب ما يثبّت الاختيار عادةً:

1. السيادة

إن وجب أن يعمل النشر على بنية تحتية داخل المملكة (حكومة السعودية، صحة سعودية، مستأجر سحابة سيادية لبنك منظَّم)، فواجهات API المغلقة مستبعدة. أنت تختار من multilingual-e5 و BGE-M3 و JinaAI v3 و Nomic embed و AraBERT و CAMeLBERT و MARBERT و ARBERTv2. راجع قراءة عملية لمشتريات HUMAIN 2026 لرؤية واقع هذا المشتري.

2. طول السياق

إن كانت قِطَعُك أكبر من 512 رمزًا (وهو ما ينبغي أن تكون عليه في RAG الحديث بتقطيع دلالي)، فإن نماذج BERT العربية المتخصّصة محرجة. الافتراضي مُضمِّن متعدد لغات بسياق 8K. Cohere embed-multilingual v3 يتسقّف أيضًا عند 512، وهو الشيء الوحيد الذي يجب مراقبته في تلك الـ API.

3. الجودة لكل عبء عمل

المقاييس ذات الصلة بالعربية في 2026:

نرى أن multilingual-e5-large و BGE-M3 يتبادلان الفوز عبر هذه المقاييس. الفوارق عادةً داخل ضجيج المقياس. الفوارق على مجموعة تقييم عربية داخلية مبنيّة جيدًا ليست كذلك.

4. زمن الاستجابة + التكلفة

تضمينات مفتوحة الوزن مستضافة ذاتيًّا تكلّف نحو 20–60 USD لكل مليون استعلام على استدلال GPU شائع (بحسب حجم الدُّفعة وحجم النموذج وتكلفة البنية التحتية). واجهات API المغلقة تكلّف 100–200 USD لكل مليون لـ embedding-3-large أو embed-multilingual v3 بالأسعار المُعلَنة. تحت مليون استعلام شهريًّا، الـ API أرخص بعد تكلفة العمليات. عند أحجام أعلى، الاستضافة الذاتية تفوز بفارق حاسم.

5. التخصيص

المُضمِّنات مفتوحة الوزن يمكن ضبطها دقيقًا على مجالك (عربية قانونية، عربية طبية، أزواج استرجاع مُقسَّمة لهجيًّا). واجهات API المغلقة لا — أو فقط عبر API محوِّلات محدودة لا تصل إلى طبقة التضمين. إن كان مجالك مختلفًا ماديًّا عن العربية العامة (تمويل متوافق مع الشريعة، نظام العمل السعودي، طب خليجي)، الضبط الدقيق هو الرافعة التي تُغلق الفجوة.

6. تحمّل التبديل اللغوي

لحركة إنتاج عربية-فرنسية مغاربية أو عربية-إنجليزية خليجية، التبديل اللغوي دائم. نماذج BERT العربية المتخصّصة تتدهور بشدة على المدخل الممزوج لغويًّا. المُضمِّنات متعددة اللغات (multilingual-e5 و BGE-M3 و JinaAI v3) تتعامل معه فطريًّا لأنها دُرِّبت على بيانات ويب متعددة اللغات تشمل نصًّا ممزوجًا لغويًّا.

اختيارات 2026 حسب عبء العمل

هذا هو جواب المشغّل — ما نوصي به فعلًا في مكالمات تحديد نطاق التأشير، بحسب عبء العمل.

عبء العملتوصية 2026لماذا
RAG سيادي داخل المملكة عالي الحجمmultilingual-e5-large أو BGE-M3، مستضاف ذاتيًّاأوزان مفتوحة، سياق 8K، استدلال داخل المنطقة، قابل للضبط الدقيق
بداية سريعة، غير سيادية، عدد عمليات منخفضCohere embed-multilingual v3عربية قوية، نداء API واحد، بلا بنية تحتية
حسّاس للتشكيل (ديني، تراثي، قرآني، مُشكَّل)AraBERT أو MARBERT مضبوط دقيقًا على Tashkeelaالمُضمِّنات متعددة اللغات تتعامل مع غير المُشكَّل؛ المتخصّصون المضبوطون على Tashkeela يتعاملون مع التشكيل
ممزوج عربي-إنجليزي-فرنسي (مغاربي، خليجي)multilingual-e5 أو BGE-M3بيانات تدريب متعددة اللغات تعرض النموذج للتبديل اللغوي فطريًّا
تصنيف عربي، تعرّف لهجة، NER، قصدMARBERT و ARBERTv2 و CAMeLBERT-DAالمتخصّصون العرب في BERT لا يزالون يفوزون في المهام المُشرَفة قصيرة المدخل
نمذجة أولى مغلقة عبر API على Claude أو GPTOpenAI text-embedding-3-large أو Voyage AI multilingual-2كلاهما يتعامل مع العربية، كلاهما سريع للنمذجة الأولى
مُضمِّن مجال قابل للضبط الدقيق (قانوني، طبي، شرعي)AraBERT أو multilingual-e5 كأساسكلاهما مفتوح الوزن، وكلاهما له وصفات ضبط دقيق بأزواج مُؤشَّرة

لماذا الاختيار بالمقياس وحده يخطئ واقع الإنتاج

أكثر خطأ شائع نراه: مختبر FM أو فريق مؤسّسي يختار نموذج تضمين بقراءة لوحة الفرع العربي من MTEB، ينشره، ويشحن نظام RAG عربي يسترجع بشكل سيّئ على استعلامات العملاء الحقيقية.

المشكلة ليست في اللوحة. المشكلة أن اللوحة مبنيّة على:

الإصلاح هو أن تبني مجموعة تقييمك الخاصة. نغطّي شكل ذلك في القسم التالي. للنمط الأوسع، راجع قياس أداء LLM العربي وتشخيص الفشل التجاري لـ LLM العربي.

أيّ عمل تأشير يدعم تقييم التضمين

هنا يتقاطع اختيار التضمين مع عمل التأشير الذي نقوم به في Annota8. لتشغيل تقييم موثوق لمضمِّن عربي — ولضبطه دقيقًا حين يشير التقييم إلى ذلك — تحتاج ثلاث مصنوعات مُؤشَّرة:

الثلاثة جميعها أعمال نحدّد نطاقها روتينيًّا لمختبرات FM والفرق المؤسّسية التي تبني RAG عربيًّا. اختيار البنية يخصّك؛ تصميم التأشير يتبع منه.

للصورة الأعمق لتراكم التأشير لنماذج الأساس العربية، راجع بيانات تدريب نماذج الأساس في الشرق الأوسط وشمال أفريقيا وشخصية قائد بيانات تدريب مختبر FM في الشرق الأوسط وشمال أفريقيا.

كيف تقرّر لتطبيقك — قائمة فحص

امشِ عبر هذه بالترتيب. أول قيد صلب يثبّت الاختيار عادةً.

  1. قيد سيادة؟ → مفتوح الوزن فقط (multilingual-e5 و BGE-M3 و JinaAI v3 و AraBERT و CAMeLBERT و MARBERT و ARBERTv2).
  2. قِطَع أكبر من 512 رمزًا؟ → مُضمِّن متعدد لغات بسياق 8K (multilingual-e5 و BGE-M3 و JinaAI v3 و Nomic embed و Voyage AI multilingual-2).
  3. طموح ضبط دقيق؟ → مفتوح الوزن (أيٌّ ممّا سبق)، وكثيرًا ما يكون multilingual-e5 أو AraBERT كأساس.
  4. حركة إنتاج ممزوجة لغويًّا؟ → متعدد اللغات فوق المتخصّص العربي.
  5. مخرَجات حسّاسة للتشكيل؟ → AraBERT أو MARBERT مضبوط دقيقًا على Tashkeela.
  6. نمذجة أولى سريعة غير سيادية؟ → Cohere embed-multilingual v3 أولًا؛ OpenAI text-embedding-3-large ثانيًا.

إن لم يربط أيٌّ من هذه القيود، فالافتراضي multilingual-e5-large مستضاف ذاتيًّا. هو الجواب الممل لعام 2026 الذي ينجو في معظم نشريات الإنتاج.

حدّد نطاق مشروع تقييم وضبط دقيق لتضمينات عربية → مكالمة 30 دقيقة اقرأ صفحة حلول نماذج الأساس