كل المقالات

ما يجعل تأشير NLP العربي مختلفًا عن الإنجليزي

ملخّص قصير لقادة الذكاء الاصطناعي

إذا تحدّث بائع التأشير عن العربية بـ “ar-SA” أو “دعم موضع ar-EG”، فعلى الأرجح لا يفهم العربية. خطوط أنابيب التأشير العربية الحقيقية تميّز:

  1. الفصحى مقابل اللهجة على مستوى الرمز
  2. عائلة اللهجة على مستوى النطاق (خليجي، شامي، مصري، مغاربي — إضافة إلى لهجات فرعية)
  3. وضع النصّ (عربي أصلي، نقل حرفي لاتيني، تحوّل لغوي مختلط)
  4. حالة التشكيل (مع / بدون تشكيل — تؤثّر على التوكنيزيشن)
  5. التجزئة الصرفية (تحليلات ال + الأساس + اللاحقة)

إذا لم تظهر هذه التمييزات في إرشادات التأشير، فبيانات تدريبك ستضلّل النموذج.

1. الازدواجية اللغوية — الفصحى واللهجة تتعايشان

المتحدّثون بالعربية يعملون في سجلّين معًا. الفصحى هي السجل الكتابي + الإذاعي الرسمي. اللهجة هي اللغة العامّية المنطوقة — خليجية في KSA / UAE، شامية في لبنان / الأردن / سوريا / فلسطين، مصرية في مصر + السودان، مغاربية في المغرب / الجزائر / تونس / ليبيا.

نفس المتحدّث في نفس الرسالة يمكن أن يحوّل السجل في منتصف الجملة:

“أكدت وزارة الصحة أن… بس فعلاً، الناس مش حاسة بفرق” (فاتحة فصحى — ادّعاء رسمي لوزارة الصحة. خاتمة لهجة مصرية)

نموذج مُدَرَّب على الفصحى فقط سيُسيء فهم النصف الثاني. نموذج مُدَرَّب على اللهجة فقط سيُسيء فهم النصف الأوّل. خطّ أنابيب التأشير يجب أن يضع علامة على انتقالات السجل صراحةً.

تضمين تشغيلي: إرشادات التأشير يجب أن تحدّد ما إذا كانت التسميات بوعي السجل. للمشاعر، السجل يشير غالبًا إلى النبرة (الفصحى = صوت مؤسّسي؛ اللهجة = صوت شخصي).

2. أربع عائلات لهجات — غير متبادلة الفهم

معاملة “العربية” كلغة واحدة مثل معاملة “الرومانسية” كلغة واحدة. العائلات الأربع الكبرى تتشارك جذورًا لكنّها تختلف بشكل ملموس:

العائلةالمتحدّثونمثال “أريد هذا”
خليجي~50مأبا هذا / أبي هذا
شامي~60مبدي هاد
مصري~110معايز ده
مغاربي~100مبغيت هاد

متحدّث سعودي غالبًا لا يستطيع متابعة الدارجة المغربية السريعة. مصري لا يستخدم بشكل طبيعي مفردات الخليجي. نماذج مُدَرَّبَة على عائلة لهجة واحدة تعمّم بشكل ضعيف على الأخريات.

تضمين تشغيلي: تأشير اللهجة يجب أن يُوسَم على الأقلّ على مستوى العائلة، غالبًا على مستوى اللهجة الفرعية (قاهري مقابل صعيدي، نجدي مقابل حجازي). مجموعات تقييم عبر اللهجات هي الطريقة الوحيدة للتحقّق من التعميم.

3. RTL يكسر الأدوات الافتراضية الإنجليزية

النصّ من اليمين إلى اليسار يغيّر كل شيء في طبقة الواجهة:

منصّات التأشير المصمَّمَة للإنجليزية (فئة Labelbox، فئة Scale AI) تتعامل مع RTL كعلم، ليس كمركز تصميم.

تضمين تشغيلي: إذا لم تكن أداة التأشير RTL-أصلية، توقّع 5-15% انجراف تأشير صامت على البيانات العربية. افحص التصدير الخام بايت-ببايت، ليس عبر الواجهة المعروضة.

4. التشكيل — الحركات تتصادم مع التوكنيزيشن

النصّ العربي يظهر في شكلين:

الحركات تحمل معلومات صوتية + نحوية. نفس هيكل الحروف الساكنة (KTB → ك ت ب) ينتج كلمات متعدّدة حسب الحركات.

تضمين تشغيلي: خطوط أنابيب التوكنيزيشن يجب أن تتعامل مع المدخلات بتشكيل + بدون تشكيل. أدوات التأشير يجب أن تحفظ الحركات حيث توجد + لا تجرّدها بصمت.

5. التحوّل اللغوي مع النصّ اللاتيني

في سياقات الأعمال + التقنية MENA، التحوّل اللغوي هو وضع التواصل الافتراضي:

إرشادات التأشير يجب أن تحدّد كيفية التعامل مع الرموز اللاتينية — هل تُحفَظ ككيانات إنجليزية، تُنقَل حرفيًا، تُلَمَّز بشكل منفصل؟

6. التعقيد الصرفي

العربية مُعرَبَة بشكل كبير. فعل جذر واحد يمكن أن ينتج 50+ شكلًا سطحيًا. من جذر كتب:

تضمين تشغيلي: إرشاد التأشير يجب أن يحدّد ما إذا كانت التسميات تنطبق على أشكال سطحية أو lemmas مُطَبَّعَة. عدم الاتّساق هنا يُتلِف بصمت جودة بيانات التدريب.

كيف يبدو التأشير العربي الجيّد

تشغيليًا، خطّ أنابيب تأشير عربي جدّي يشمل:

  1. واجهة تأشير RTL أصلية
  2. وسم السجل (الفصحى مقابل اللهجة على الأقلّ)
  3. وسم عائلة اللهجة
  4. توكنيزيشن التحوّل اللغوي مع تحديد لغة لكل رمز
  5. حفظ التشكيل أو سياسة تطبيع صريحة
  6. التجزئة الصرفية حيث تنطبق التسميات على مستوى lemma
  7. ضمان جودة لغوي بدكتوراه على عيّنة للمعايرة
  8. مجموعات تقييم عبر اللهجات مُصَنَّفَة

إذا كان بائعك الحالي يقدّم أقلّ من 5 من هذه، فبيانات تدريبك العربية تسرّب الجودة.

ما يقوم به Annota8

Annota8 بُنِيَت حول هذه الوقائع. صفحة تأشير النصوص تفصّل كومة قدرات NLP العربي الكاملة. قيادة ضمان جودة لغوي بدكتوراه قاهرية، تغطية أربع عائلات لهجات، منصّة RTL أصلية، توكنيزيشن بوعي التشكيل، تحديد لغة على مستوى الرمز للتحوّل اللغوي، أدوات تجزئة صرفية.

ناقش حملك العربي → جلسة 30 دقيقة اقرأ نظرة تأشير النصوص