كل المقالات

لماذا تفشل نماذج اللغة العربية في الاستخدام التجاري — تشخيص

مقدّمة: لماذا تستحقّ المسألة تشخيصًا، لا شكوى

كمؤسّس Annota8 ومُشترٍ سابق لخدمات بيانات تدريبية في أدوار قبل التأسيس — استخدمنا V7 وKognic وScale AI كعملاء قبل أن نبني خدمتنا — رأيت النمط نفسه يتكرّر مع كلّ موجة نماذج جديدة: مختبر يُعْلِن نموذجًا عربيًا يتفوّق على GPT-4 على ArabicMMLU بنقطتين، فريق منتج في بنك خليجي يضعه خلف بوت خدمة عملاء، وبعد ثلاثة أسابيع تأتي تذاكر الدعم: الردود فصحى مُتَكَلَّفَة، البوت لا يفهم “ودّي أحوّل لحسابي الثاني”، وكلّ مرّة يُذْكَر اسم منتج بالإنجليزية يُهَلْوَس النموذج رقمًا أو مرجعًا.

هذه ليست قصّة فشل واحدة — هذه فجوة هيكلية في كيفية بناء وتقييم LLM العربي في 2024-2026. أدناه السبع جذور التي أراها مرارًا، مع توصية عملية بعد كلٍّ منها.

السبب الأوّل: بيانات التدريب فصحى، الإنتاج لهجة

أغلب النصوص العربية المتوفّرة بكميّات صناعية للتدريب — ويكيبيديا، Common Crawl المُنَظَّف، الكتب الكلاسيكية، الأخبار — مكتوبة بالعربية الفصحى الحديثة (MSA). محادثات العميل، رسائل WhatsApp التي يُلْصِقها في chatbot، تعليقات السوشال ميديا، حتّى نسخ مكالمات مراكز الاتّصال — كلّها لهجة.

النسبة العملية التي قِسْتها على عيّنات عميل في 2025-2026:

النوعالحصّة في بيانات تدريب نموذج عربي نموذجيالحصّة في حجم إنتاج عميل MENA نموذجي
MSA80-95%10-20%
خليجي1-5%25-40%
مصري2-6%20-35%
شامي1-4%10-20%
مغاربي<1%5-15%

النموذج المُدَرَّب على هذا الخليط يتصرّف كطالب لغة عربية تخرّج بامتياز من جامعة دولية ثم وُضِع في خدمة عملاء في الكويت. اللغة في رأسه ليست اللغة في الشارع.

توصية: اطلب من أيّ مُزَوِّد نموذج كشف توزيع البيانات حسب عائلة اللهجة. إن لم يستطع الكشف، توقّع 15-25 نقطة تراجع في الإنتاج مقارنة بالدرجة المُعْلَنَة.

السبب الثاني: مجموعات التقييم مُتَرجَمَة من MMLU إنجليزي، لا مَبْنِيَّة عربيًا أصلًا

ArabicMMLU في صيغته الأصلية هي ترجمة مباشرة من MMLU الإنجليزي. هذا يخلق ثلاث مشكلات:

  1. آثار الترجمة: السؤال عن نظام الانتخابات الأمريكي بالعربية لا يقيس فهم نظام انتخابي — يقيس قدرة على فكّ ترجمة عكسية.
  2. انحياز ثقافي: مواضيع متعلّقة بالقانون الأمريكي، الرياضات الأمريكية، الأطعمة الأمريكية — ليست مناسبة لقياس كفاءة في عربية المنطقة.
  3. تسرّب محتمل: الويب العربي يحتوي ترجمات لأسئلة MMLU. النموذج المُدَرَّب على كَشْط واسع قد يكون رأى الأسئلة بالضبط.

MERA وArabicMMLU-Pro حاولا التصحيح ببناء أسئلة عربية أصلية، لكنّ الاعتماد التجاري على الدرجة الإجمالية الأصلية لا يزال مستمرًّا في عروض المختبرات.

توصية: ابنِ مجموعة eval خاصّة بحالتك — 200-500 سؤال أصلي بالعربية من سياق صناعتك، مُؤَشَّر من لغوي بدكتوراه. هذه أصدق إشارة من أيّ لوحة عامّة.

السبب الثالث: بيانات SFT جودة منخفضة — استجابات “مُخْتَارَة” مُتَرجَمَة آليًا

سلسلة الـ SFT (Supervised Fine-Tuning) النموذجية تبدأ بمجموعة instructions إنجليزية (Alpaca، ShareGPT، Anthropic HH-RLHF، إلخ) ثمّ تُتَرجَم آليًا للعربية بـ NLLB أو nuestro-GPT أو ما شابه. النتائج المُتَرجَمَة تُسْتَخْدَم كاستجابات “chosen” في الـ SFT أو الـ DPO.

ما يحدث في الإنتاج:

عميل بنكي يطلب من البوت “كم رصيدي” يحصل على ردّ بأسلوب ترجمة Google من 2018. هذا يدمّر الثقة قبل أن يدمّر الدقّة.

توصية: اطلب من أيّ نموذج عيّنات SFT خاصّة بالاستخدام التجاري لتُؤَشِّر جودة الـ chosen بشريًا. عيّنات 300-500 كافية للحكم.

السبب الرابع: الحساسية الدينية والثقافية فجوة لم تُسَدّ

النموذج المُدَرَّب على ويب مفتوح يحوي:

في الإنتاج العربي، تكلفة خطأ واحد من هذه النوعية أعلى بكثير من خطأ معلوماتي عادي — قد تعني خبرًا في منصّة محلّية، تذكرة دعم تصل وزارة، أو وقف منتج. ومع ذلك أكثر من نصف النماذج العربية في 2026 لم تنشر تقريرًا صريحًا عن red-teaming دينيّ-ثقافيّ.

توصية: أيّ نشر مُوَجَّه لمستخدم نهائي في GCC أو شمال إفريقيا يحتاج طبقة محاذاة ثقافية صريحة — RLHF مع labelers مَحَلِّيِّين، أو على الأقل filter قبل الإخراج. الـ SFT العامّ غير كافٍ.

السبب الخامس: التشكيل (tashkeel) في TTS وفجوة الـ pronunciation

أغلب نماذج TTS العربية تعتمد على نصّ مُشَكَّل (مع الفتحة والضمّة والكسرة) لتوليد نطق صحيح. النص الذي يخرج من LLM عربي تجاري في 99% من الحالات بدون تشكيل. النتيجة في pipeline موحَّد LLM→TTS:

المستخدم: كم سعر السهم اليوم؟
LLM (نصّ بدون تشكيل): سعر السهم سَجَّلَ ارتفاعًا ملحوظًا اليوم.
TTS بدون تشكيل: "saʕr al-sahm sajjal irtifaaʕan malhuuthan al-yawm"
TTS مع نصّ مُشَكَّل: نطق دقيق مع جودة طبيعية

الفجوة ليست في كيفية تَدْريب الـ TTS — الفجوة في أنّ الـ LLM لا يُخْرِج نصًّا قابلًا للنطق. مَن يبني تجربة صوتيّة عربية يحتاج إمّا نموذج TTS لا يعتمد على التشكيل (نادر وغير دقيق)، أو طبقة tashkeel بين LLM وTTS، أو fine-tuning للـ LLM ليُخْرِج نصًّا مُشَكَّلًا للأسماء وحالات الإلتباس.

توصية: إن كان الـ use case صوتيًّا، عامِل الـ tashkeel كمكوّن في الـ pipeline لا كخطأ نحويّ.

السبب السادس: التحوّل اللغوي (code-switching) لا يُختبَر

محادثة حقيقية في الخليج أو مصر تبدو هكذا:

"يا أخ ودّي أعمل reset لـ password بتاع الـ account
لأنّي نسيته من فترة، تقدر تساعدني؟"

ثلاث لغات في جملة واحدة: عربية، إنجليزية تقنية، عربية مكتوبة بنطق محلّي. مجموعات eval القياسية تختبر عربية أحادية اللغة. نتيجة:

توصية: اِبْنِ مجموعة eval مُحَوَّلَة لغويًّا — 200 عيّنة على الأقل تعكس نسبة التحوّل في حجم إنتاجك الفعليّ. قِسْ accuracy على هذه المجموعة منفصلة عن الـ MSA-only.

السبب السابع: عدم كفاءة الـ tokenizer على مورفولوجيا العربية

العربية لغة اشتقاقيّة-إلصاقيّة عالية: كلمة واحدة قد تحمل جذرًا + سابقة + لاحقة + ضمير + علامة جمع. الـ tokenizer النموذجي المُدَرَّب على ويب متعدّد اللغات يُجَزِّئ “وسيكتبونها” إلى 6-8 tokens، بينما “and they will write it” بالإنجليزية يأخذ 5-6 tokens.

الأثر العملي ثلاثيّ:

  1. تكلفة inference أعلى بـ 1.4-2x لنفس المحتوى مقارنة بإنجليزية
  2. context window فعلي أصغر — 32K token context = ~16K كلمة إنجليزية مقابل ~8-10K كلمة عربية
  3. جودة embedding أضعف للوحدة الدلالية الواحدة

ALLaM وJais وFanar حاولوا تخفيف هذا بـ tokenizer عربي-مُتَكَيِّف، لكن النشر فوق GPT-4 أو Claude API بدون طبقة preprocessing يدفع المُسْتَخْدِم تكلفة الـ overhead.

توصية: عند مقارنة نماذج، احْسِب التكلفة لكلّ ألف كلمة عربية لا لكلّ ألف token. الفرق قد يقلب القرار الاقتصادي.

ملخّص التشخيص

السببأين يظهرالإصلاح
فصحى vs لهجةمحادثات عميلبيانات تدريب موزونة باللهجة
eval مُتَرجَملوحات معيارeval عربي أصلي مخصّص
SFT مُتَرجَم آليًاأسلوب الردّchosen بشريّ من كاتب عربي
فجوة ثقافيةحوادث منشورةRLHF محاذاة + filter
فجوة tashkeelTTS pipelinetashkeel layer أو fine-tune
code-switchingintent + ردودeval set مُحَوَّل لغويًّا
كفاءة tokenizerتكلفة + contexttokenizer مُتَكَيِّف عربيًّا

كيف نُسَاعِد في Annota8

نحن لا نبني نماذج أساس — نُنْتِج البيانات التي تُحَسِّن أداءها التجاري. طبقة QA لدينا تقوم على لغويّين بدرجة دكتوراه في القاهرة يُؤَشِّرون SFT/DPO عربيًّا أصليًّا، يبنون eval مُحَوَّل لغويًّا، ويُدِيرون red-teaming ديني-ثقافيّ. هذا الفرق بين نموذج يتصدّر لوحة وبين نموذج يَنْشُر في بنك سعوديّ بدون تذكرة دعم في الأسبوع الأوّل.

ناقش تشخيص نموذجك العربي → جلسة 30 دقيقة اقرأ منهجية تقييم NLP عربي