كل المقالات

اللهجة الحجازية مقابل النجدية في معالجة اللغة العربية: العمق السعودي الداخلي الذي يفوته معظم المزوّدين

ما الذي يحتويه فعلًا “العربية السعودية”

المملكة العربية السعودية تساوي في مساحتها أوروبا الغربية. معاملة العربية فيها كمتغيّر واحد تُكافئ معاملة “الرومانسية الأوروبية” كلغة واحدة. التجمّعات الإقليمية الرئيسية الأربعة التي يتعيّن على أيّ خطّ NLP تجاري يخدم المملكة أن يُعامِلها منفصلةً:

التجمّعالمدن الرئيسيةقاعدة المتحدّثين التقريبيةعائلات اللهجات الفرعية بداخله
الحجازيةجدّة، مكّة، المدينة، الطائف، ينبع~ 8-10 مليونالحجازية الحضرية، الحجازية القديمة (مكّة/المدينة)، الحجازية البدوية
النجديةالرياض، القصيم، حائل، سدير~ 12-14 مليونالوسطى (حضرية الرياض)، النجدية الشمالية (حائل)، القصيمية، النجدية البدوية
الشرقاويةالدمّام، الخبر، الهفوف، الجبيل~ 5 مليونالشرقاوية الحضرية (قريبة من البحرينية/الكويتية الخليجية)، الهفوفية، اللهجات الشيعية المحلّية
الجنوبيةأبها، خميس مشيط، جازان، نجران~ 4-5 مليونالعسيرية المحض، التهامية، الجازانية، النجرانية (تتدرّج نحو اليمنية)

أرقام المتحدّثين تقديرات تشغيلية وتتداخل بشدّة — كثير من المتحدّثين يتنقّلون بين المتغيّرات حسب المُخاطَب.

الصوتيّات: حيث تكون حدود اللهجة أعلى صوتًا

التباين الأكثر استشهادًا — تحقيق حرف ق — هو أسهل مدخل.

حرف ج هو المُعطي الثاني:

حرف ك يضيف طبقة ثالثة لا تكاد تُعالَج:

من منظور نظام ASR، هذه ليست تباينات لكنة طفيفة. هي فونيمات مختلفة على مستوى النموذج الصوتي. نموذج لم يتعلّم سوى /g/ لـ ق سيُخطئ منهجيًا في تعرّف qalb “قلب” الحجازية (بـ /q/) كـ kalb “كلب” (بـ /k/) — وهذه هي العطلة العرضية التي رأيتها تُنتج إحراج قاعة عرض أكثر من أيّ خطأ منفرد آخر.

المعجم: نفس المعنى، كلمة مختلفة

جدول مرجعي مختصر يسمح للمشتري بأن يُقدِّر بصريًا حجم الانزياح السطحي بين المتغيّرات الرئيسية.

المفهومالفصحى MSAالنجديةالحجازية الحضريةالشرقاويةالعسيرية
”الآن”الآنالحيندلحين / دحين — وبشكل متزايد دلوقت المُستعارة من المصرية لدى المعرَّضين للإعلامالحينالحين / ذحين
”أريد”أريدأبغى / أبيأبغى / أباأبا / أبيأبا
”جيّد”جيّدزينكويّس — مُستعارة مصرية صارت سائدةزينزين
”كيف حالك”كيف الحالكيفك / شلونككيف حالك / إزّيّك (مُستعارة مصرية)شلونككيف حالك
”ولد”ولدولدواد / صبيولدعيّل
”نقود”مالفلوس / دراهمفلوس / مصاري (مصرية)فلوسفلوس
”سيّارة”سيّارةسيّارة / موترعربيّة (مصرية) / سيّارةسيّارةسيّارة
”لا”لالا / مَلأ / مش (مصرية)لا / مالا

نمطان يبرزان فورًا. أوّلًا، عمود الحجازية الحضرية يحمل ثِقَل مُعجم مُستعار مصري — نتيجة قرن من الإشباع الإعلامي المصري إضافةً إلى دور الحجاز التاريخي كممرّ حجّ كوزموبوليتاني. ثانيًا، النجدية والشرقاوية تتشاركان كثيرًا من نواتهما المعجمية مع بعضهما (ومع متغيّرات الخليج الأوسع في الكويت والبحرين وقطر)، بينما تجلس الحجازية كاستثناء جزئي.

مُصنِّف مشاعر مُدَرَّب على بيانات تويتر ثقيلة-النجدية ومطلوب منه أن يُسمّي مراجعات منتجات حجازية سيقرأ المفردات المُستعارة المصرية كخارج-التوزيع، يُسقط الثقة، ويتراجع إلى المحايد افتراضيًا. نرى هذا في تشغيلات التقييم مرارًا وتكرارًا.

الصرف: حيث ينكسر النموذج بصمت

عدم تطابق الصوتيّات يُنتج على الأقلّ نُسَخًا خاطئة ظاهريًا. عدم تطابق الصرف يُنتج نُسَخًا تبدو صحيحة لكنّها تعني الخطأ.

نظام النفي هو أنظف مثال.

نموذج مشاعر مُدَرَّب على النجدية فقط لن يكون قد تعلّم أنّ الحجازية مش كويّس هي البِنية القياسية للقطبية السلبية، وسيقرأ كويّس وحدها، فيُؤشِّر المراجعة كإيجابية.

أنظمة الضمائر تختلف أيضًا. لاحقة المُخاطَب المؤنّث:

خطّ بيومتري صوتي يفترض صرفًا ضميريًا موحّدًا سيُقسّم المُورْفِيم الذيلي بشكل خاطئ ويُضعف ملامح نمذجة المتحدّث بدقّة لطيفة تظهر كارتفاع في معدّل القبول الكاذب على المرور العابر للأقاليم.

ماذا يفعل هذا للذكاء الاصطناعي التجاري

معدّل خطأ الكلمة لـ ASR

خطوط كلام إنتاجية أساسية نُقيّمها لعملاء النموذج الأساس + الاتصالات (Whisper-large-v3، أكوام كلام مُشتقّة من ALLaM، APIs ASR العربية الرئيسية في السحابة) تُظهر عادةً، على مجموعات اختبار قراءة-مُحَفَّزَة + محادثة عفوية:

المتغيّرنطاق WER النموذجي على الخطوط الإنتاجية الأساسية
النجدية (حضرية الرياض)12-18%
الحجازية (حضرية جدّة)18-25%
الشرقاوية (حضرية الدمّام/الخبر)14-20%
العسيرية / الجنوبية22-32%
اللهجات القبلية البدوية (أيّ منطقة)30%+

أفضلية النجدية ليست لأنّ النجدية “أبسط” — بل لأنّ المتحدّثين النجديّين يهيمنون على تسجيلات الحكومة السعودية، وتسجيلات الحكومة السعودية تهيمن على المجموعات العامة المتاحة، والخطوط الأساسية الرئيسية دُرّبَت على ما هو متوفّر. الحجازية تجلس 6-7 نقاط أسوأ لأنّها ممثّلة تمثيلًا ناقصًا مقارنةً بحصّتها البالغة 25% من السكّان. العسيرية تجلس 10-14 نقطة أسوأ لأنّها ممثّلة تمثيلًا ناقصًا مقارنةً بـ أيّ شيء.

تصنيف المشاعر والنيّة

مزوّد يشحن مُصنِّف نيّة “عربي سعودي” واحد — مُدَرَّب في الغالب على بيانات نجدية لأنّ هذا حيث تعيش البيانات العامة — سيتدهور بصمت على مرور حجازي وشرقاوي. نمط التدهور يتكرّر:

لتحليل المشاعر القائم على الجانب تحديدًا — راجع تحليلنا الطبقي للهجات — التقطيع السعودي الداخلي يهمّ بقدر ما يهمّ التقطيع عبر اللهجات (سعودي مقابل مصري مقابل شامي) الذي تتحدّث عنه الصناعة بالفعل.

مخاطر الاحتيال البيومتري الصوتي

هذا هو الأشدّ تشغيليًا. التسجيل البيومتري الصوتي يحدث عادةً مرّة واحدة، عند فتح الحساب. التحقّق اللاحق يحدث عشرات المرّات على مدى عمر الحساب.

إذا سجّل العميل في سجلّ حجازي (مُتّصلًا من بيته في جدّة يوم الجمعة) وتحقّق في سجلّ مُنزاح نجديًا (مُتّصلًا من رحلة عمل في الرياض، مُغيّرًا سجلّه نحو المُخاطَب)، يقرأ نظام التحقّق من المتحدّث ضعيف التدريب التباين داخل المتحدّث كتباين عابر للمتحدّثين ويرفض.

العكس أسوأ. نموذج لم يتعلّم سوى embeddings متحدّث نجدية أساسية يمكن أن يُخطئ في تسجيل مُنتحلين حجازيّين كشرعيّين، لأنّ النموذج يعامل الأنماط الصوتية غير المألوفة كضوضاء غير ذات صلة بالهويّة. رأينا هذا يُنتج أحداث قبول كاذب موثّقة في عمليات نشر تجارية — وهو نوع العطل الذي لا يَرِد في صحيفة مواصفات المزوّد.

التخفيف هو بيانات تسجيل طبقية باللهجة وملامح نمذجة متحدّث واعية باللهجة. التخفيف لا يَرِد في أيّ API سحابي جاهز اليوم.

ما الذي تفعله Annota8 حيال ذلك

قائمة قصيرة عمليّة لما يفعله خطّنا بشكل مختلف على العمل السعودي تحديدًا — ليست خطاب مبيعات، بل الشكل التشغيلي.

  1. تقسيم قوى عاملة الرياض + جدّة. المُؤشِّرون في شبكتنا السعودية مُوَسَّمون بمدينة الإقامة + إجادة المتغيّر. الصوت النجدي يُوَجَّه إلى مُؤشِّرين فصيحين بالنجدية، الصوت الحجازي يُوَجَّه إلى شبكة جدّة، ونحفظ تعدادًا صريحًا في كليهما بدلًا من معاملته كحوض واحد. (راجع ملاحظاتنا على تقسيم قوى عاملة الرياض + القاهرة لمقايضات التكلفة والسيادة.)

  2. مجموعات تقييم طبقية باللهجة، لا اختبار سعودي مُحْتَجَز واحد. كلّ مجموعة تقييم عميل سعودية نبنيها تحوي خلايا F1/WER لكلّ متغيّر ورقمًا كلّيًا. الرقم الكلّي وحده هو ما يُورّط المشترين.

  3. طبقة لغوي دكتوراه قاهرية بتخصّص في اللهجات السعودية الفرعية. طبقة التحكيم وسجلّ القرار تجلس في فريقنا القاهري، حيث لغويّو العربية بدكتوراه متاحون اقتصاديًا — بمن فيهم متخصّصون مُدَرَّبون على متغيّرات سعودية محدّدة. راجع النموذج الاقتصادي للغوي القاهري بدكتوراه لسبب توفّر ذلك هيكليًا لنا في مصر.

  4. وسوم تحوّل لغوي صريحة. كلّ نسخة تحمل وسوم رمز-بمستوى لهويّة المتغيّر — حجازية-مع-مُستعار-مصري مقابل حجازية-مع-مُستعار-فصحى مقابل حجازية صرفة. النماذج اللاحقة يمكنها التوجيه على هذا. معالجة التحوّل اللغوي على مستوى الرمز هي وحدة العمل.

  5. خرائط تغطية لهجات فرعية صادقة تُشارَك مع العميل. حيث تغطيتنا رقيقة (لهجات قبلية بدوية، كلام انتقال نجراني نحو اليمنية) نقول ذلك على ورقة المواصفات. شراء ادّعاء “سعودي كامل” من مزوّد لم ينشر خريطة تغطية هو شراء هواء.

الحدّ الصادق

حتى مع ما سبق، Annota8 لا تملك بعد تغطية كاملة للهجات القبلية البدوية الفرعية. اللهجات البدوية لنجد والحجاز والقبائل الجنوبية — حرب وعتيبة وشمر ومطير وقحطان وغيرها — تحمل كلّ منها ملامح صوتية ومعجمية متمايزة عن المتغيّرات الحضرية التي هاجر أبناؤها إليها. بناء ASR + مشاعر بدرجة إنتاج لهذه يتطلّب شبكات مُؤشِّرين بدرجة عمل ميداني ما زلنا نتوسّع فيها. اليوم نُؤشِّر الكلام البدوي-الأصل بهذا الوسم في التسليم ونرفض صراحةً ادّعاء دقّة إنتاج عليه.

نذكر هذا عمدًا. المزوّد الذي يقول “نُغطّي كلّ شيء” إمّا كاذب أو غير مُدرِك. قول ما لا نفعله بعد بصوت عالٍ هو نفس الصدق التشغيلي الذي يُعيدنا إلى تقييم الربع القادم.

ماذا يعني هذا لمشتري ذكاء اصطناعي

إذا كنت قائد ذكاء اصطناعي في مشغّل اتصالات أو مركز اتصال في MENA تُشغّل مرور عملاء سعوديّين — الطلبات العملية على أيّ مزوّد كلام أو نموذج أساس قبل التوقيع:

النموذج الذي يفوز بعمليات النشر التجارية السعودية على مدى السنتين القادمتين لن يكون الأكبر. سيكون النموذج المُقَاس على هذا التقطيع الداخلي — والمستعدّ لنشر جدول لكلّ متغيّر دون نجمات.

شغّل قياس WER سعودي لكلّ متغيّر ضدّ مزوّدك الحالي → جلسة 30 دقيقة اطّلع على كيف يتعامل سير عمل النموذج الأساس مع هذا