لهجة مقابل لهجة: لماذا تتعطّل خرائط مشاعر تويتر العربي عند تجاوز الفصحى
المشكلة بصياغة دقيقة
النموذج النموذجي لتحليل المشاعر العربي يُسَوَّقُ بدرجة F1 = 0.84 أو 0.87 على مجموعة اختبار قياسيّة. هذه الأرقام صحيحة — لكنّها مُقَيَّمَة على نصوص فصحى من مراجعات أفلام أو تعليقات صحفيّة. حين نُقَيِّمُ نفس النموذج على عيّنة عشوائيّة من تويتر باللهجات الإقليميّة، تنخفض درجة F1 إلى ما بين 0.41 و 0.58 — أيّ ما يقارب التخمين العشوائي في فئات معيّنة.
التفسير ليس “النموذج ضعيف”. التفسير هو أنّ ما يُسَمَّى “اللغة العربيّة” في بيانات التدريب لا يتطابق مع ما يُسَمَّى “اللغة العربيّة” في الاستخدام الفعلي على وسائل التواصل. هذا هو التَنَوُّع اللُّغَوي — تعايش متغيّر فصيح “عالٍ” مع متغيّرات لهجيّة “منخفضة”، حيث المتغيّر العالي يُكتَبُ والمنخفض يُتَكَلَّمُ. وسائل التواصل كسرت هذه القاعدة: اللهجة الآن تُكتَبُ بنفس تواتر الفصحى أو أكثر.
أنماط الفشل النموذجيّة — أمثلة محدّدة
سأَعرضُ ست حالات فشل متكرّرة، لكلٍّ منها التغريدة (مُعَدَّلَة لإزالة أيّ معرّفات)، ما يتوقّعه النموذج، ما هو الصواب فعليًّا، ولماذا يفشل النموذج.
الحالة 1: السخرية المصريّة كإيجاب
التغريدة: "تمام، بالظبط اللي كنت محتاجه، إنترنت بيقطع كل خمس دقايق. شكرًا يا [اسم المزوّد]."
النموذج: إيجابي (0.81)
الصواب: سلبي (سخريّة مقنّعة، فئة ABSA = الموثوقيّة)
السبب: "تمام، بالظبط، شكرًا" مفردات تحمل وزنًا إيجابيًّا في MSA؛ النموذج لم يتعلّم أنّ
التتابع "تمام + شكوى + شكرًا" في السياق المصري = سخرية صريحة.
السخرية في اللهجة المصريّة ليست استثناءً نادرًا؛ هي وسيلة التعبير الافتراضيّة عن الشكوى. النماذج المُدَرَّبَة على نصوص إخباريّة لا ترى هذا النمط أبدًا.
الحالة 2: التحفّظ الخليجي كحياد
التغريدة: "الخدمة ما شاء الله، الله يبارك."
النموذج: حيادي (0.62)
الصواب: إيجابي قوي (فئة ABSA = الخدمة الكلّيّة)
السبب: التعبير الديني في اللهجة الخليجيّة يحمل وزنًا
إيجابيًّا أعمق من مكافئه في MSA. النموذج يقرأ "ما شاء الله" كحشو ديني محايد.
العكس صحيح أيضًا: المدح المباشر “ممتاز جدًّا” في الخليج يحمل في الغالب وزنًا أخفّ ممّا يحمله في مصر أو الشام، لأنّ ثقافة المدح المتحفِّظ تجعل العبارات المعتدلة هي الحدّ الأعلى المعتاد.
الحالة 3: خَلْط الرموز المغاربي يكسر المُجَزِّئ
التغريدة: "service de la livraison c'est nul والمنتج خايب."
النموذج: خطأ تحليل / ثقة منخفضة (0.34)
الصواب: سلبي قوي (فئة ABSA = التوصيل + جودة المنتج)
السبب: خَلْط الرموز في اللهجة المغاربيّة
بين الفرنسيّة والعربيّة يقسم الجملة عبر مُجَزِّئَين مختلفَين. النموذج العربي
يتجاهل الجزء الفرنسي، والنموذج الفرنسي يتجاهل الجزء العربي، فيختفي السياق.
هذا ليس استثناءً في تونس والجزائر والمغرب — هذا هو النموذج السائد للحديث على تويتر. أيّ نظام تحليل مشاعر يستهدف الجمهور المغاربي ولا يتعامل مع خَلْط الرموز عربي-فرنسي بشكل أصيل يفشل في ≥40% من العيّنة.
الحالة 4: الطرافة الشاميّة كارتباك
التغريدة: "والله شي بيجنّن، يعني عم بحكي عن العرض هاد من زمان."
النموذج: حيادي (0.55) أو سلبي (0.43)
الصواب: إيجابي (فئة ABSA = العرض الترويجي)
السبب: "بيجنّن" في اللهجة الشاميّة تعبير إيجابي
(يعادل "رائع جدًّا" أو "مذهل")، لكنّه في MSA يُقرَأُ سلبًا (جنون = مشكلة).
الطرافة الشاميّة تعتمد على مفردات لها تحوّلات دلاليّة كاملة عن جذورها الفصيحة. النموذج الذي لا يرى أمثلة شاميّة كافية يطبّق القراءة الفصيحة الحرفيّة.
الحالة 5: التشكيلات الإملائيّة للهجة الخليجيّة
التغريدة: "ابغى ارجع لها بس صراحه ما يستاهلون."
النموذج: إيجابي (0.69) — يلتقط "ابغى ارجع"
الصواب: سلبي (فئة ABSA = نيّة الإعادة)
السبب: "ما يستاهلون" في الخليج تنفي القيمة الكلّيّة؛ التهجئة بدون همزة على
النون والكتابة غير المُنَقَّطَة تربك النموذج عن إيجاد التَنفِيَة.
تهجئة تويتر الخليجيّة تستخدم تكرار حروف، حذف همزات، إدخال أرقام بدلًا من حروف عربيّة (٢ بدل ع، ٣ بدل ع/أ، ٧ بدل ح). هذه ليست أخطاء — هي تقاليد كتابة قائمة. النموذج المُدَرَّبُ على نصوص مدقّقة لا يراها.
الحالة 6: الإيموجي كقَلْب للقطبيّة
التغريدة: "الموقع تحفة 🙃"
النموذج: إيجابي (0.88)
الصواب: سلبي (الإيموجي 🙃 يقلب القطبيّة في معظم اللهجات)
السبب: نماذج كثيرة تعالج الإيموجي كزخرف وتزيله أثناء التنظيف.
"تحفة 🙃" في السياق المصري والشامي = سخرية. بدون الإيموجي، لا توجد إشارة.
لماذا التصنيف الثنائي إيجابي/سلبي إطار خاطئ أصلًا
حتى لو حللنا كلّ هذه الأنماط، التصنيف الثنائي على مستوى التغريدة الكاملة يخفي القيمة التجاريّة الحقيقيّة. تغريدة واحدة قد تذكر ثلاث جوانب من المنتج بقطبيّات مختلفة:
التغريدة: "التطبيق جميل والتصميم نضيف، بس الدفع بياخد عمر والدعم الفنّي مش بيردّ."
ABSA الصحيح:
- واجهة المستخدم → إيجابي
- التصميم → إيجابي
- تجربة الدفع → سلبي
- دعم العملاء → سلبي
المشاعر العامّة: مختلطة (لا تنفع تجاريًّا)
التصنيف على مستوى التغريدة يُنتِجُ “مختلط” أو “حيادي”، ويفقد المعلومة الوحيدة المفيدة للفريق التجاري: أيّ جانب يحتاج إصلاحًا. لهذا فإنّ ABSA (تحليل المشاعر القائم على الجوانب) هو الإطار المناسب لاستخدامات MENA التجاريّة، لا التصنيف الثنائي.
كيف يبدو مجموعة تقييم مُسَلْسَلَة باللهجات
المشكلة أنّ معظم مجموعات الاختبار العربيّة تُبَلِّغُ درجة F1 واحدة كلّيّة. هذا يخفي انهيارات لهجيّة محدّدة. التقييم الصحيح يحتاج جدول F1-لكل-لهجة:
| اللهجة | حجم العيّنة | F1 إيجابي | F1 سلبي | F1 حيادي | F1 ماكرو |
|---|---|---|---|---|---|
| MSA (فصحى) | 2,000 | 0.87 | 0.84 | 0.79 | 0.83 |
| مصريّة | 2,000 | 0.61 | 0.48 | 0.55 | 0.55 |
| سعوديّة | 1,500 | 0.66 | 0.57 | 0.62 | 0.62 |
| إماراتيّة | 800 | 0.64 | 0.55 | 0.60 | 0.60 |
| قطريّة | 600 | 0.65 | 0.56 | 0.61 | 0.61 |
| كويتيّة | 700 | 0.63 | 0.54 | 0.59 | 0.59 |
| بحرينيّة | 400 | 0.62 | 0.53 | 0.58 | 0.58 |
| لبنانيّة | 1,200 | 0.59 | 0.50 | 0.55 | 0.55 |
| سوريّة | 800 | 0.57 | 0.48 | 0.52 | 0.52 |
| فلسطينيّة | 700 | 0.58 | 0.49 | 0.54 | 0.54 |
| أردنيّة | 700 | 0.60 | 0.51 | 0.56 | 0.56 |
| مغربيّة | 1,000 | 0.42 | 0.38 | 0.45 | 0.42 |
| جزائريّة | 800 | 0.44 | 0.40 | 0.47 | 0.44 |
| تونسيّة | 700 | 0.45 | 0.41 | 0.48 | 0.45 |
| ليبيّة | 400 | 0.50 | 0.43 | 0.51 | 0.48 |
| ماكرو كلّي | 15,300 | 0.59 | 0.51 | 0.56 | 0.56 |
(الأرقام أعلاه تمثيليّة لما نراه في عمليّات تقييم متعدّدة عبر نماذج مختلفة؛ ليست من نموذج بعينه.)
النمط واضح: انهيار حادّ خارج MSA، انهيار أعمق في المغاربي بسبب خَلْط الرموز، انهيار متوسّط في الشامي بسبب التحوّلات الدلاليّة. الفصحى وحدها تعطي درجة “نظيفة” — وهذا بالضبط ما يُسَوَّقُ في وثيقة المنتج للنموذج.
دور المعايرة البشريّة بمستوى لغوي PhD
التشخيص أعلاه يفترض وجود مرجع ذهبي يمكن المقارنة معه. بناء هذا المرجع الذهبي هو حيث تتدخّل الطبقة البشريّة:
- توزيع لهجي مُتَعَمَّد — اختيار التغريدات بطريقة طبقيّة تضمن تمثيلًا حقيقيًّا لكلّ لهجة بدلًا من السحب العشوائي الذي ينحاز إلى MSA + المصريّة.
- تأشير من قبل لغويّين أصليّين لكلّ لهجة — مُؤَشِّر مصري يُؤَشِّرُ التغريدات المصريّة، مُؤَشِّر شامي يُؤَشِّرُ الشاميّة. التأشير عبر لهجات لا يعرفها المُؤَشِّر يُنتِجُ ضوضاء أعلى من إشارة.
- مرجعيّة لغوي PhD للحالات المختلَف عليها — التغريدات التي يختلف فيها مُؤَشِّران من نفس اللهجة تذهب إلى مراجع PhD. هذه الطبقة هي ما يُمَيِّزُ مجموعة تقييم قابلة للنشر عن مجموعة “حسنة النيّة”.
- توثيق دفتر القرارات — السخرية المصريّة تُؤَشَّرُ كذا، التعبير الديني الخليجي يُؤَشَّرُ كذا. الدفتر يُوَحِّدُ القرار عبر مئات المُؤَشِّرين على آلاف التغريدات.
في القاهرة، يتوفّر لغويّون PhD بتكلفة تخدم اقتصاديّات النشر التجاري — وهذا أحد أسباب أنّ بناء طبقة المعايرة المركزيّة من مصر منطقي تشغيليًّا، مع شبكة مُؤَشِّرين موزّعين عبر الدول العربيّة للتغطية اللهجيّة.
ما هو المعيار التجاري الصحيح
لمشتري الذكاء الاصطناعي في القطاع التجاري بـ MENA، الشروط الدنيا لمجموعة تقييم قابلة للاعتماد:
- لا تقلّ عن 10 لهجات إقليميّة منفصلة (MSA + 9 لهجات على الأقلّ)
- لا يقلّ حجم العيّنة عن 500 تغريدة لكلّ لهجة لإعطاء F1 موثوق
- إطار ABSA لا التصنيف الثنائي على مستوى التغريدة
- تأشير من ناطقين أصليّين لا من نموذج تلقائي
- تقرير F1 لكلّ لهجة + F1 ماكرو + تباين بين المُؤَشِّرين (Cohen’s kappa أو Krippendorff’s alpha)
- تغطية لخَلْط الرموز عربي-فرنسي (مغاربي) وعربي-إنجليزي (خليجي شبابي)
النموذج الذي يفشل في تقديم أيّ من هذه الشروط لا يصلح لاتّخاذ قرارات تجاريّة على مستوى علامة تجاريّة.
القراءة الختاميّة
تحليل مشاعر العربي ليس مشكلة “نموذج أكبر”. هي مشكلة “بيانات تقييم أصدق”. النماذج التي تتقدّم في الأسواق العربيّة خلال السنتين القادمتين لن تكون بالضرورة الأكبر؛ ستكون التي تقاس على مجموعات تقييم مُسَلْسَلَة باللهجات وتفصح عن أرقامها بصدق. كلّ ما عدا ذلك هو F1 إعلاني على MSA يتحطّم عند أوّل تغريدة مصريّة ساخرة.