٢٢ مايو ٢٠٢٦ فشل نماذج اللغة العربية في الإنتاج

لماذا تفشل نماذج اللغة العربية في الاستخدام التجاري — تشخيص

TL;DR

في 2026 لدينا أكثر من اثني عشر LLM “عربي قوي” — ALLaM وJais وFanar وFalcon Arabic وKarnak وغيرها — وكلٌّ منها يُسَجِّل أرقامًا محترمة على ArabicMMLU وMERA. ومع ذلك فالفجوة بين الدرجة على اللوحة والأداء في إنتاج بنك في الرياض أو شركة اتّصالات في القاهرة لا تزال واسعة. التشخيص ليس “النماذج ضعيفة” — التشخيص أنّ سلسلة القيمة من بيانات التدريب إلى الـ tokenizer إلى الـ SFT إلى الـ eval كلّها مُحَسَّنَة لعربية كتاب لا تظهر في محادثة عميل حقيقي. هذه قراءة تفصيلية لسبعة أسباب جذرية، من منظور بانٍ يشتري ويُقَيِّم نماذج لعملاء MENA.

مقدّمة: لماذا تستحقّ المسألة تشخيصًا، لا شكوى

كمؤسّس Annota8 ومُشترٍ سابق لخدمات بيانات تدريبية في أدوار قبل التأسيس — استخدمنا V7 وKognic وScale AI كعملاء قبل أن نبني خدمتنا — رأيت النمط نفسه يتكرّر مع كلّ موجة نماذج جديدة: مختبر يُعْلِن نموذجًا عربيًا يتفوّق على GPT-4 على ArabicMMLU بنقطتين، فريق منتج في بنك خليجي يضعه خلف بوت خدمة عملاء، وبعد ثلاثة أسابيع تأتي تذاكر الدعم: الردود فصحى مُتَكَلَّفَة، البوت لا يفهم “ودّي أحوّل لحسابي الثاني”، وكلّ مرّة يُذْكَر اسم منتج بالإنجليزية يُهَلْوَس النموذج رقمًا أو مرجعًا.

هذه ليست قصّة فشل واحدة — هذه فجوة هيكلية في كيفية بناء وتقييم LLM العربي في 2024-2026. أدناه السبع جذور التي أراها مرارًا، مع توصية عملية بعد كلٍّ منها.

السبب الأوّل: بيانات التدريب فصحى، الإنتاج لهجة

أغلب النصوص العربية المتوفّرة بكميّات صناعية للتدريب — ويكيبيديا، Common Crawl المُنَظَّف، الكتب الكلاسيكية، الأخبار — مكتوبة بالعربية الفصحى الحديثة (MSA). محادثات العميل، رسائل WhatsApp التي يُلْصِقها في chatbot، تعليقات السوشال ميديا، حتّى نسخ مكالمات مراكز الاتّصال — كلّها لهجة.

النسبة العملية التي قِسْتها على عيّنات عميل في 2025-2026:

النوع	الحصّة في بيانات تدريب نموذج عربي نموذجي	الحصّة في حجم إنتاج عميل MENA نموذجي
MSA	80-95%	10-20%
خليجي	1-5%	25-40%
مصري	2-6%	20-35%
شامي	1-4%	10-20%
مغاربي	<1%	5-15%

النموذج المُدَرَّب على هذا الخليط يتصرّف كطالب لغة عربية تخرّج بامتياز من جامعة دولية ثم وُضِع في خدمة عملاء في الكويت. اللغة في رأسه ليست اللغة في الشارع.

توصية: اطلب من أيّ مُزَوِّد نموذج كشف توزيع البيانات حسب عائلة اللهجة. إن لم يستطع الكشف، توقّع 15-25 نقطة تراجع في الإنتاج مقارنة بالدرجة المُعْلَنَة.

السبب الثاني: مجموعات التقييم مُتَرجَمَة من MMLU إنجليزي، لا مَبْنِيَّة عربيًا أصلًا

ArabicMMLU في صيغته الأصلية هي ترجمة مباشرة من MMLU الإنجليزي. هذا يخلق ثلاث مشكلات:

آثار الترجمة: السؤال عن نظام الانتخابات الأمريكي بالعربية لا يقيس فهم نظام انتخابي — يقيس قدرة على فكّ ترجمة عكسية.
انحياز ثقافي: مواضيع متعلّقة بالقانون الأمريكي، الرياضات الأمريكية، الأطعمة الأمريكية — ليست مناسبة لقياس كفاءة في عربية المنطقة.
تسرّب محتمل: الويب العربي يحتوي ترجمات لأسئلة MMLU. النموذج المُدَرَّب على كَشْط واسع قد يكون رأى الأسئلة بالضبط.

MERA وArabicMMLU-Pro حاولا التصحيح ببناء أسئلة عربية أصلية، لكنّ الاعتماد التجاري على الدرجة الإجمالية الأصلية لا يزال مستمرًّا في عروض المختبرات.

توصية: ابنِ مجموعة eval خاصّة بحالتك — 200-500 سؤال أصلي بالعربية من سياق صناعتك، مُؤَشَّر من لغوي بدكتوراه. هذه أصدق إشارة من أيّ لوحة عامّة.

السبب الثالث: بيانات SFT جودة منخفضة — استجابات “مُخْتَارَة” مُتَرجَمَة آليًا

سلسلة الـ SFT (Supervised Fine-Tuning) النموذجية تبدأ بمجموعة instructions إنجليزية (Alpaca، ShareGPT، Anthropic HH-RLHF، إلخ) ثمّ تُتَرجَم آليًا للعربية بـ NLLB أو nuestro-GPT أو ما شابه. النتائج المُتَرجَمَة تُسْتَخْدَم كاستجابات “chosen” في الـ SFT أو الـ DPO.

ما يحدث في الإنتاج:

النموذج يتعلّم أسلوب ترجمة آلية، لا أسلوب كاتب عربي
علامات الترقيم، استخدام التنوين، طول الجملة — كلّها إنجليزية مُغَلَّفَة عربيًا
المصطلحات التقنيّة مُتَرجَمَة حرفيًا حيث المستخدم يتوقّع المصطلح الإنجليزي (“بطاقة الرسوميّات” بدل GPU)

عميل بنكي يطلب من البوت “كم رصيدي” يحصل على ردّ بأسلوب ترجمة Google من 2018. هذا يدمّر الثقة قبل أن يدمّر الدقّة.

توصية: اطلب من أيّ نموذج عيّنات SFT خاصّة بالاستخدام التجاري لتُؤَشِّر جودة الـ chosen بشريًا. عيّنات 300-500 كافية للحكم.

السبب الرابع: الحساسية الدينية والثقافية فجوة لم تُسَدّ

النموذج المُدَرَّب على ويب مفتوح يحوي:

آراء حادّة في الأديان والمذاهب
نُكَتًا تستهين بفئات دينية أو إقليمية
معلومات خاطئة عن المعاملات المالية الإسلامية (التكافل، المرابحة، الإجارة)
ترجمات قرآنية أو حديثية غير مُحَقَّقَة

في الإنتاج العربي، تكلفة خطأ واحد من هذه النوعية أعلى بكثير من خطأ معلوماتي عادي — قد تعني خبرًا في منصّة محلّية، تذكرة دعم تصل وزارة، أو وقف منتج. ومع ذلك أكثر من نصف النماذج العربية في 2026 لم تنشر تقريرًا صريحًا عن red-teaming دينيّ-ثقافيّ.

توصية: أيّ نشر مُوَجَّه لمستخدم نهائي في GCC أو شمال إفريقيا يحتاج طبقة محاذاة ثقافية صريحة — RLHF مع labelers مَحَلِّيِّين، أو على الأقل filter قبل الإخراج. الـ SFT العامّ غير كافٍ.

السبب الخامس: التشكيل (tashkeel) في TTS وفجوة الـ pronunciation

أغلب نماذج TTS العربية تعتمد على نصّ مُشَكَّل (مع الفتحة والضمّة والكسرة) لتوليد نطق صحيح. النص الذي يخرج من LLM عربي تجاري في 99% من الحالات بدون تشكيل. النتيجة في pipeline موحَّد LLM→TTS:

المستخدم: كم سعر السهم اليوم؟
LLM (نصّ بدون تشكيل): سعر السهم سَجَّلَ ارتفاعًا ملحوظًا اليوم.
TTS بدون تشكيل: "saʕr al-sahm sajjal irtifaaʕan malhuuthan al-yawm"
TTS مع نصّ مُشَكَّل: نطق دقيق مع جودة طبيعية

الفجوة ليست في كيفية تَدْريب الـ TTS — الفجوة في أنّ الـ LLM لا يُخْرِج نصًّا قابلًا للنطق. مَن يبني تجربة صوتيّة عربية يحتاج إمّا نموذج TTS لا يعتمد على التشكيل (نادر وغير دقيق)، أو طبقة tashkeel بين LLM وTTS، أو fine-tuning للـ LLM ليُخْرِج نصًّا مُشَكَّلًا للأسماء وحالات الإلتباس.

توصية: إن كان الـ use case صوتيًّا، عامِل الـ tashkeel كمكوّن في الـ pipeline لا كخطأ نحويّ.

السبب السادس: التحوّل اللغوي (code-switching) لا يُختبَر

محادثة حقيقية في الخليج أو مصر تبدو هكذا:

"يا أخ ودّي أعمل reset لـ password بتاع الـ account
لأنّي نسيته من فترة، تقدر تساعدني؟"

ثلاث لغات في جملة واحدة: عربية، إنجليزية تقنية، عربية مكتوبة بنطق محلّي. مجموعات eval القياسية تختبر عربية أحادية اللغة. نتيجة:

النموذج يفهم “reset password” كعبارتين منفصلتين
يُنْتِج ردًّا فصيحًا “لإعادة ضبط كلمة المرور…” يبدو رسميًّا بينما العميل كتب بشكل ودّي
إن كان النشر تابع لـ intent classifier، الـ classifier يفشل لأنّه دُرِّبَ على intents عربية نظيفة

توصية: اِبْنِ مجموعة eval مُحَوَّلَة لغويًّا — 200 عيّنة على الأقل تعكس نسبة التحوّل في حجم إنتاجك الفعليّ. قِسْ accuracy على هذه المجموعة منفصلة عن الـ MSA-only.

السبب السابع: عدم كفاءة الـ tokenizer على مورفولوجيا العربية

العربية لغة اشتقاقيّة-إلصاقيّة عالية: كلمة واحدة قد تحمل جذرًا + سابقة + لاحقة + ضمير + علامة جمع. الـ tokenizer النموذجي المُدَرَّب على ويب متعدّد اللغات يُجَزِّئ “وسيكتبونها” إلى 6-8 tokens، بينما “and they will write it” بالإنجليزية يأخذ 5-6 tokens.

الأثر العملي ثلاثيّ:

تكلفة inference أعلى بـ 1.4-2x لنفس المحتوى مقارنة بإنجليزية
context window فعلي أصغر — 32K token context = ~16K كلمة إنجليزية مقابل ~8-10K كلمة عربية
جودة embedding أضعف للوحدة الدلالية الواحدة

ALLaM وJais وFanar حاولوا تخفيف هذا بـ tokenizer عربي-مُتَكَيِّف، لكن النشر فوق GPT-4 أو Claude API بدون طبقة preprocessing يدفع المُسْتَخْدِم تكلفة الـ overhead.

توصية: عند مقارنة نماذج، احْسِب التكلفة لكلّ ألف كلمة عربية لا لكلّ ألف token. الفرق قد يقلب القرار الاقتصادي.

ملخّص التشخيص

السبب	أين يظهر	الإصلاح
فصحى vs لهجة	محادثات عميل	بيانات تدريب موزونة باللهجة
eval مُتَرجَم	لوحات معيار	eval عربي أصلي مخصّص
SFT مُتَرجَم آليًا	أسلوب الردّ	chosen بشريّ من كاتب عربي
فجوة ثقافية	حوادث منشورة	RLHF محاذاة + filter
فجوة tashkeel	TTS pipeline	tashkeel layer أو fine-tune
code-switching	intent + ردود	eval set مُحَوَّل لغويًّا
كفاءة tokenizer	تكلفة + context	tokenizer مُتَكَيِّف عربيًّا

كيف نُسَاعِد في Annota8

نحن لا نبني نماذج أساس — نُنْتِج البيانات التي تُحَسِّن أداءها التجاري. طبقة QA لدينا تقوم على لغويّين بدرجة دكتوراه في القاهرة يُؤَشِّرون SFT/DPO عربيًّا أصليًّا، يبنون eval مُحَوَّل لغويًّا، ويُدِيرون red-teaming ديني-ثقافيّ. هذا الفرق بين نموذج يتصدّر لوحة وبين نموذج يَنْشُر في بنك سعوديّ بدون تذكرة دعم في الأسبوع الأوّل.

ناقش تشخيص نموذجك العربي → جلسة 30 دقيقة اقرأ منهجية تقييم NLP عربي

القيود وإخلاء المسؤوليّة

قيود هذا التحليل. يَعكِس هذا المقال قراءة Annota8 للأدلّة المتاحة علنًا حتّى تاريخ آخر تعديل له. مواقع المورّدين، الأطر التنظيميّة، أرقام المقاييس ونطاق البرامج يمكن أن تتغيّر دون إشعار. حيث تُذكر نطاقات عدديّة، تلك الأرقام قابلة للتحقّق من المصدر المرتبط في قسم المراجع داخل المقال — لم تُعِد Annota8 إجراء المقاييس بنفسها ما لم يُذكر ذلك صراحةً في المقال.

الموقف القانوني والخصوصيّة. Annota8 شركة عمليّات بيانات ذكاء اصطناعي في مرحلة مبكّرة في إطلاق ناعم. لا نَملِك حاليًّا شهادة SOC 2، أو ISO 27001، أو شهادة PDPL، أو أيّ شهادة أمن أو خصوصيّة من طرف ثالث. نُصمِّم وَفقًا لمبادئ PDPL ونَقدِر على توقيع DPA مَبنيّة على نموذج SCC الأوروبي. الموقف التوافقي المحدّد لارتباطك متاح عند الطلب من [email protected].

لا شيء في هذا المقال يُمثِّل استشارة قانونيّة أو ضريبيّة أو استثماريّة. الاستشهادات التنظيميّة يجب التحقّق منها مع مستشار قانوني في ولايتك القضائيّة. أسماء المورّدين المذكورة في هذا المقال مرجَّعة كسياق مشهد صناعي فحسب — Annota8 لا تَدَّعِي ادّعاءً تنافسيًّا للمنتج، ولا علاقة عملاء، ولا أيّ ارتباط آخر مع أيّ من المنصّات المذكورة، ما لم يُذكر ذلك صراحةً.

تواصَل مع الفريق:[email protected] · annota8.ai