اللهجة الحجازية مقابل النجدية في معالجة اللغة العربية: العمق السعودي الداخلي الذي يفوته معظم المزوّدين
ما الذي يحتويه فعلًا “العربية السعودية”
المملكة العربية السعودية تساوي في مساحتها أوروبا الغربية. معاملة العربية فيها كمتغيّر واحد تُكافئ معاملة “الرومانسية الأوروبية” كلغة واحدة. التجمّعات الإقليمية الرئيسية الأربعة التي يتعيّن على أيّ خطّ NLP تجاري يخدم المملكة أن يُعامِلها منفصلةً:
| التجمّع | المدن الرئيسية | قاعدة المتحدّثين التقريبية | عائلات اللهجات الفرعية بداخله |
|---|---|---|---|
| الحجازية | جدّة، مكّة، المدينة، الطائف، ينبع | ~ 8-10 مليون | الحجازية الحضرية، الحجازية القديمة (مكّة/المدينة)، الحجازية البدوية |
| النجدية | الرياض، القصيم، حائل، سدير | ~ 12-14 مليون | الوسطى (حضرية الرياض)، النجدية الشمالية (حائل)، القصيمية، النجدية البدوية |
| الشرقاوية | الدمّام، الخبر، الهفوف، الجبيل | ~ 5 مليون | الشرقاوية الحضرية (قريبة من البحرينية/الكويتية الخليجية)، الهفوفية، اللهجات الشيعية المحلّية |
| الجنوبية | أبها، خميس مشيط، جازان، نجران | ~ 4-5 مليون | العسيرية المحض، التهامية، الجازانية، النجرانية (تتدرّج نحو اليمنية) |
أرقام المتحدّثين تقديرات تشغيلية وتتداخل بشدّة — كثير من المتحدّثين يتنقّلون بين المتغيّرات حسب المُخاطَب.
الصوتيّات: حيث تكون حدود اللهجة أعلى صوتًا
التباين الأكثر استشهادًا — تحقيق حرف ق — هو أسهل مدخل.
- النجدية: ق → /g/ في كلّ المواضع تقريبًا. “قلت” تُنطَق gilt (قلت → قِلت / كِلت في الكلام اليومي).
- الحجازية الحضرية: ق → /q/ محفوظة كوقفة لهاتيّة في الكلام الرسمي/المتعلّم، وغالبًا → /ʔ/ (وقفة حلقية) في كلام شباب جدّة الحضري. Qult / ‘ult.
- الحجازية القديمة (مكّة/المدينة): ق → /g/ في بعض المفردات (لا سيّما المفردات ذات الأصل القبلي)، و → /q/ في غيرها. مختلطة.
- الشرقاوية: ق → /g/ في المتغيّرات السنّية، مع تكرار → /j/ (جيم) في بيئة الحركات الأمامية — garib “قريب” تصبح jarib عند بعض المتحدّثين. الهفوفية تضيف اشتراطات إضافية.
- العسيرية/التهامية: ق → /g/، مع احتفاظ كبير بأنماط التفخيم المفقودة في المتغيّرات الشمالية.
حرف ج هو المُعطي الثاني:
- النجدية: ج → /dʒ/ (مُحتكّ، “j” الإنجليزية).
- الحجازية: ج → /dʒ/ في معظم البيئات، لكنّ شباب جدّة الحضري يميلون نحو /ʒ/ (j الفرنسية) بتأثير الإعلام المصري/الشامي.
- الشرقاوية: ج → /j/ (شبه-حركة، “y” الإنجليزية) في بيئات مشروطة — سمة مشتركة مع المتغيّرات الكويتية والبحرينية.
حرف ك يضيف طبقة ثالثة لا تكاد تُعالَج:
- النجدية: ك → /tʃ/ (“ch”) قبل حركة أمامية. “بيتك” baytich (للمؤنّث المُخاطَب) و baytik (للمذكّر) — تحقيق ch إلزامي في الكلام العامّي وغائب في الفصحى.
- الحجازية: ك → /k/ محفوظة. Baytik فقط، و baytich لا تَرِد أصالةً.
من منظور نظام ASR، هذه ليست تباينات لكنة طفيفة. هي فونيمات مختلفة على مستوى النموذج الصوتي. نموذج لم يتعلّم سوى /g/ لـ ق سيُخطئ منهجيًا في تعرّف qalb “قلب” الحجازية (بـ /q/) كـ kalb “كلب” (بـ /k/) — وهذه هي العطلة العرضية التي رأيتها تُنتج إحراج قاعة عرض أكثر من أيّ خطأ منفرد آخر.
المعجم: نفس المعنى، كلمة مختلفة
جدول مرجعي مختصر يسمح للمشتري بأن يُقدِّر بصريًا حجم الانزياح السطحي بين المتغيّرات الرئيسية.
| المفهوم | الفصحى MSA | النجدية | الحجازية الحضرية | الشرقاوية | العسيرية |
|---|---|---|---|---|---|
| ”الآن” | الآن | الحين | دلحين / دحين — وبشكل متزايد دلوقت المُستعارة من المصرية لدى المعرَّضين للإعلام | الحين | الحين / ذحين |
| ”أريد” | أريد | أبغى / أبي | أبغى / أبا | أبا / أبي | أبا |
| ”جيّد” | جيّد | زين | كويّس — مُستعارة مصرية صارت سائدة | زين | زين |
| ”كيف حالك” | كيف الحال | كيفك / شلونك | كيف حالك / إزّيّك (مُستعارة مصرية) | شلونك | كيف حالك |
| ”ولد” | ولد | ولد | واد / صبي | ولد | عيّل |
| ”نقود” | مال | فلوس / دراهم | فلوس / مصاري (مصرية) | فلوس | فلوس |
| ”سيّارة” | سيّارة | سيّارة / موتر | عربيّة (مصرية) / سيّارة | سيّارة | سيّارة |
| ”لا” | لا | لا / مَ | لأ / مش (مصرية) | لا / ما | لا |
نمطان يبرزان فورًا. أوّلًا، عمود الحجازية الحضرية يحمل ثِقَل مُعجم مُستعار مصري — نتيجة قرن من الإشباع الإعلامي المصري إضافةً إلى دور الحجاز التاريخي كممرّ حجّ كوزموبوليتاني. ثانيًا، النجدية والشرقاوية تتشاركان كثيرًا من نواتهما المعجمية مع بعضهما (ومع متغيّرات الخليج الأوسع في الكويت والبحرين وقطر)، بينما تجلس الحجازية كاستثناء جزئي.
مُصنِّف مشاعر مُدَرَّب على بيانات تويتر ثقيلة-النجدية ومطلوب منه أن يُسمّي مراجعات منتجات حجازية سيقرأ المفردات المُستعارة المصرية كخارج-التوزيع، يُسقط الثقة، ويتراجع إلى المحايد افتراضيًا. نرى هذا في تشغيلات التقييم مرارًا وتكرارًا.
الصرف: حيث ينكسر النموذج بصمت
عدم تطابق الصوتيّات يُنتج على الأقلّ نُسَخًا خاطئة ظاهريًا. عدم تطابق الصرف يُنتج نُسَخًا تبدو صحيحة لكنّها تعني الخطأ.
نظام النفي هو أنظف مثال.
- النجدية: ما + فعل. ما أدري. ما أبغى.
- الحجازية الحضرية: ما + فعل في كثير من البيئات، لكن أيضًا الأداة الدائرية المُستعارة من المصرية ما-…-ش. ما أدريش — والأهمّ، مش وحدها كنافية رابطة. مش كويّس.
- الشرقاوية: ما + فعل تسيطر؛ مو + صفة (“ليس [صفة]”) شائعة.
- العسيرية: ما + فعل؛ بقايا أدوات لم المُتحفّظة من المتغيّرات الأقدم.
نموذج مشاعر مُدَرَّب على النجدية فقط لن يكون قد تعلّم أنّ الحجازية مش كويّس هي البِنية القياسية للقطبية السلبية، وسيقرأ كويّس وحدها، فيُؤشِّر المراجعة كإيجابية.
أنظمة الضمائر تختلف أيضًا. لاحقة المُخاطَب المؤنّث:
- النجدية: -ich / -ik / -ish تبعًا للبيئة الصوتية.
- الحجازية: -ik (دون تحوّل).
- الشرقاوية: -ich / -ish (غالبًا متبوّكة).
خطّ بيومتري صوتي يفترض صرفًا ضميريًا موحّدًا سيُقسّم المُورْفِيم الذيلي بشكل خاطئ ويُضعف ملامح نمذجة المتحدّث بدقّة لطيفة تظهر كارتفاع في معدّل القبول الكاذب على المرور العابر للأقاليم.
ماذا يفعل هذا للذكاء الاصطناعي التجاري
معدّل خطأ الكلمة لـ ASR
خطوط كلام إنتاجية أساسية نُقيّمها لعملاء النموذج الأساس + الاتصالات (Whisper-large-v3، أكوام كلام مُشتقّة من ALLaM، APIs ASR العربية الرئيسية في السحابة) تُظهر عادةً، على مجموعات اختبار قراءة-مُحَفَّزَة + محادثة عفوية:
| المتغيّر | نطاق WER النموذجي على الخطوط الإنتاجية الأساسية |
|---|---|
| النجدية (حضرية الرياض) | 12-18% |
| الحجازية (حضرية جدّة) | 18-25% |
| الشرقاوية (حضرية الدمّام/الخبر) | 14-20% |
| العسيرية / الجنوبية | 22-32% |
| اللهجات القبلية البدوية (أيّ منطقة) | 30%+ |
أفضلية النجدية ليست لأنّ النجدية “أبسط” — بل لأنّ المتحدّثين النجديّين يهيمنون على تسجيلات الحكومة السعودية، وتسجيلات الحكومة السعودية تهيمن على المجموعات العامة المتاحة، والخطوط الأساسية الرئيسية دُرّبَت على ما هو متوفّر. الحجازية تجلس 6-7 نقاط أسوأ لأنّها ممثّلة تمثيلًا ناقصًا مقارنةً بحصّتها البالغة 25% من السكّان. العسيرية تجلس 10-14 نقطة أسوأ لأنّها ممثّلة تمثيلًا ناقصًا مقارنةً بـ أيّ شيء.
تصنيف المشاعر والنيّة
مزوّد يشحن مُصنِّف نيّة “عربي سعودي” واحد — مُدَرَّب في الغالب على بيانات نجدية لأنّ هذا حيث تعيش البيانات العامة — سيتدهور بصمت على مرور حجازي وشرقاوي. نمط التدهور يتكرّر:
- المراجعات الحجازية بمفردات مُستعارة مصرية تنزاح نحو “المحايد” لأنّ النموذج يعامل الرموز المصرية كخارج-التوزيع.
- الصياغة الدينية لمجتمع الشيعة في الشرقاوية يُخطَأ تصنيفها كخارج الموضوع.
- المفردات القبلية العسيرية تُحفّز ثقةً منخفضة مدفوعة بـ OOV وتُلقي إلى طابور التراجع البشري بمعدّل 3-4× من مرور النجدية — مما يجعل تكلفة تشغيل النظام إقليميًّا غير متساوية، وهذه مشكلة مالية بقدر ما هي مشكلة دقّة.
لتحليل المشاعر القائم على الجانب تحديدًا — راجع تحليلنا الطبقي للهجات — التقطيع السعودي الداخلي يهمّ بقدر ما يهمّ التقطيع عبر اللهجات (سعودي مقابل مصري مقابل شامي) الذي تتحدّث عنه الصناعة بالفعل.
مخاطر الاحتيال البيومتري الصوتي
هذا هو الأشدّ تشغيليًا. التسجيل البيومتري الصوتي يحدث عادةً مرّة واحدة، عند فتح الحساب. التحقّق اللاحق يحدث عشرات المرّات على مدى عمر الحساب.
إذا سجّل العميل في سجلّ حجازي (مُتّصلًا من بيته في جدّة يوم الجمعة) وتحقّق في سجلّ مُنزاح نجديًا (مُتّصلًا من رحلة عمل في الرياض، مُغيّرًا سجلّه نحو المُخاطَب)، يقرأ نظام التحقّق من المتحدّث ضعيف التدريب التباين داخل المتحدّث كتباين عابر للمتحدّثين ويرفض.
العكس أسوأ. نموذج لم يتعلّم سوى embeddings متحدّث نجدية أساسية يمكن أن يُخطئ في تسجيل مُنتحلين حجازيّين كشرعيّين، لأنّ النموذج يعامل الأنماط الصوتية غير المألوفة كضوضاء غير ذات صلة بالهويّة. رأينا هذا يُنتج أحداث قبول كاذب موثّقة في عمليات نشر تجارية — وهو نوع العطل الذي لا يَرِد في صحيفة مواصفات المزوّد.
التخفيف هو بيانات تسجيل طبقية باللهجة وملامح نمذجة متحدّث واعية باللهجة. التخفيف لا يَرِد في أيّ API سحابي جاهز اليوم.
ما الذي تفعله Annota8 حيال ذلك
قائمة قصيرة عمليّة لما يفعله خطّنا بشكل مختلف على العمل السعودي تحديدًا — ليست خطاب مبيعات، بل الشكل التشغيلي.
-
تقسيم قوى عاملة الرياض + جدّة. المُؤشِّرون في شبكتنا السعودية مُوَسَّمون بمدينة الإقامة + إجادة المتغيّر. الصوت النجدي يُوَجَّه إلى مُؤشِّرين فصيحين بالنجدية، الصوت الحجازي يُوَجَّه إلى شبكة جدّة، ونحفظ تعدادًا صريحًا في كليهما بدلًا من معاملته كحوض واحد. (راجع ملاحظاتنا على تقسيم قوى عاملة الرياض + القاهرة لمقايضات التكلفة والسيادة.)
-
مجموعات تقييم طبقية باللهجة، لا اختبار سعودي مُحْتَجَز واحد. كلّ مجموعة تقييم عميل سعودية نبنيها تحوي خلايا F1/WER لكلّ متغيّر ورقمًا كلّيًا. الرقم الكلّي وحده هو ما يُورّط المشترين.
-
طبقة لغوي دكتوراه قاهرية بتخصّص في اللهجات السعودية الفرعية. طبقة التحكيم وسجلّ القرار تجلس في فريقنا القاهري، حيث لغويّو العربية بدكتوراه متاحون اقتصاديًا — بمن فيهم متخصّصون مُدَرَّبون على متغيّرات سعودية محدّدة. راجع النموذج الاقتصادي للغوي القاهري بدكتوراه لسبب توفّر ذلك هيكليًا لنا في مصر.
-
وسوم تحوّل لغوي صريحة. كلّ نسخة تحمل وسوم رمز-بمستوى لهويّة المتغيّر — حجازية-مع-مُستعار-مصري مقابل حجازية-مع-مُستعار-فصحى مقابل حجازية صرفة. النماذج اللاحقة يمكنها التوجيه على هذا. معالجة التحوّل اللغوي على مستوى الرمز هي وحدة العمل.
-
خرائط تغطية لهجات فرعية صادقة تُشارَك مع العميل. حيث تغطيتنا رقيقة (لهجات قبلية بدوية، كلام انتقال نجراني نحو اليمنية) نقول ذلك على ورقة المواصفات. شراء ادّعاء “سعودي كامل” من مزوّد لم ينشر خريطة تغطية هو شراء هواء.
الحدّ الصادق
حتى مع ما سبق، Annota8 لا تملك بعد تغطية كاملة للهجات القبلية البدوية الفرعية. اللهجات البدوية لنجد والحجاز والقبائل الجنوبية — حرب وعتيبة وشمر ومطير وقحطان وغيرها — تحمل كلّ منها ملامح صوتية ومعجمية متمايزة عن المتغيّرات الحضرية التي هاجر أبناؤها إليها. بناء ASR + مشاعر بدرجة إنتاج لهذه يتطلّب شبكات مُؤشِّرين بدرجة عمل ميداني ما زلنا نتوسّع فيها. اليوم نُؤشِّر الكلام البدوي-الأصل بهذا الوسم في التسليم ونرفض صراحةً ادّعاء دقّة إنتاج عليه.
نذكر هذا عمدًا. المزوّد الذي يقول “نُغطّي كلّ شيء” إمّا كاذب أو غير مُدرِك. قول ما لا نفعله بعد بصوت عالٍ هو نفس الصدق التشغيلي الذي يُعيدنا إلى تقييم الربع القادم.
ماذا يعني هذا لمشتري ذكاء اصطناعي
إذا كنت قائد ذكاء اصطناعي في مشغّل اتصالات أو مركز اتصال في MENA تُشغّل مرور عملاء سعوديّين — الطلبات العملية على أيّ مزوّد كلام أو نموذج أساس قبل التوقيع:
- أرني WER لكلّ متغيّر على احتجاز يقسم على الأقلّ نجدية / حجازية / شرقاوية / عسيرية.
- أرني تركيبة شبكة المُؤشِّرين بالمتغيّر — لا فقط بالدولة.
- أرني مصفوفة ارتباك تحديد اللهجة بين التجمّعات السعودية الأربعة. عدد المزوّدين القادرين على إنتاج هذا قليل.
- أخبرني بما لا تُغطّي. المزوّدون القادرون على تسمية فجوتهم عادةً تكون فجوتهم أصغر.
النموذج الذي يفوز بعمليات النشر التجارية السعودية على مدى السنتين القادمتين لن يكون الأكبر. سيكون النموذج المُقَاس على هذا التقطيع الداخلي — والمستعدّ لنشر جدول لكلّ متغيّر دون نجمات.