ما يجعل تأشير NLP العربي مختلفًا عن الإنجليزي
ملخّص قصير لقادة الذكاء الاصطناعي
إذا تحدّث بائع التأشير عن العربية بـ “ar-SA” أو “دعم موضع ar-EG”، فعلى الأرجح لا يفهم العربية. خطوط أنابيب التأشير العربية الحقيقية تميّز:
- الفصحى مقابل اللهجة على مستوى الرمز
- عائلة اللهجة على مستوى النطاق (خليجي، شامي، مصري، مغاربي — إضافة إلى لهجات فرعية)
- وضع النصّ (عربي أصلي، نقل حرفي لاتيني، تحوّل لغوي مختلط)
- حالة التشكيل (مع / بدون تشكيل — تؤثّر على التوكنيزيشن)
- التجزئة الصرفية (تحليلات ال + الأساس + اللاحقة)
إذا لم تظهر هذه التمييزات في إرشادات التأشير، فبيانات تدريبك ستضلّل النموذج.
1. الازدواجية اللغوية — الفصحى واللهجة تتعايشان
المتحدّثون بالعربية يعملون في سجلّين معًا. الفصحى هي السجل الكتابي + الإذاعي الرسمي. اللهجة هي اللغة العامّية المنطوقة — خليجية في KSA / UAE، شامية في لبنان / الأردن / سوريا / فلسطين، مصرية في مصر + السودان، مغاربية في المغرب / الجزائر / تونس / ليبيا.
نفس المتحدّث في نفس الرسالة يمكن أن يحوّل السجل في منتصف الجملة:
“أكدت وزارة الصحة أن… بس فعلاً، الناس مش حاسة بفرق” (فاتحة فصحى — ادّعاء رسمي لوزارة الصحة. خاتمة لهجة مصرية)
نموذج مُدَرَّب على الفصحى فقط سيُسيء فهم النصف الثاني. نموذج مُدَرَّب على اللهجة فقط سيُسيء فهم النصف الأوّل. خطّ أنابيب التأشير يجب أن يضع علامة على انتقالات السجل صراحةً.
تضمين تشغيلي: إرشادات التأشير يجب أن تحدّد ما إذا كانت التسميات بوعي السجل. للمشاعر، السجل يشير غالبًا إلى النبرة (الفصحى = صوت مؤسّسي؛ اللهجة = صوت شخصي).
2. أربع عائلات لهجات — غير متبادلة الفهم
معاملة “العربية” كلغة واحدة مثل معاملة “الرومانسية” كلغة واحدة. العائلات الأربع الكبرى تتشارك جذورًا لكنّها تختلف بشكل ملموس:
| العائلة | المتحدّثون | مثال “أريد هذا” |
|---|---|---|
| خليجي | ~50م | أبا هذا / أبي هذا |
| شامي | ~60م | بدي هاد |
| مصري | ~110م | عايز ده |
| مغاربي | ~100م | بغيت هاد |
متحدّث سعودي غالبًا لا يستطيع متابعة الدارجة المغربية السريعة. مصري لا يستخدم بشكل طبيعي مفردات الخليجي. نماذج مُدَرَّبَة على عائلة لهجة واحدة تعمّم بشكل ضعيف على الأخريات.
تضمين تشغيلي: تأشير اللهجة يجب أن يُوسَم على الأقلّ على مستوى العائلة، غالبًا على مستوى اللهجة الفرعية (قاهري مقابل صعيدي، نجدي مقابل حجازي). مجموعات تقييم عبر اللهجات هي الطريقة الوحيدة للتحقّق من التعميم.
3. RTL يكسر الأدوات الافتراضية الإنجليزية
النصّ من اليمين إلى اليسار يغيّر كل شيء في طبقة الواجهة:
- منطق اختيار النصّ مقلوب
- موضع المؤشّر يعبر حدود منطقية / بصرية
- RTL + LTR مختلط (عربي + أرقام لاتينية / أسماء علامات) يتطلّب خوارزمية ثنائية الاتّجاه
- كشف حدود الكلمة يختلف عن التوكنيزيشن بمسافات بيضاء إنجليزية
- نسخ-لصق بين RTL أصلي + أدوات افتراضية LTR غالبًا يفسد البيانات
منصّات التأشير المصمَّمَة للإنجليزية (فئة Labelbox، فئة Scale AI) تتعامل مع RTL كعلم، ليس كمركز تصميم.
تضمين تشغيلي: إذا لم تكن أداة التأشير RTL-أصلية، توقّع 5-15% انجراف تأشير صامت على البيانات العربية. افحص التصدير الخام بايت-ببايت، ليس عبر الواجهة المعروضة.
4. التشكيل — الحركات تتصادم مع التوكنيزيشن
النصّ العربي يظهر في شكلين:
- بدون تشكيل (افتراضي للويب الحديث + المحتوى التجاري): الكتاب
- بتشكيل (قرآني، كلاسيكي، تعليمي): الكِتَابُ
الحركات تحمل معلومات صوتية + نحوية. نفس هيكل الحروف الساكنة (KTB → ك ت ب) ينتج كلمات متعدّدة حسب الحركات.
تضمين تشغيلي: خطوط أنابيب التوكنيزيشن يجب أن تتعامل مع المدخلات بتشكيل + بدون تشكيل. أدوات التأشير يجب أن تحفظ الحركات حيث توجد + لا تجرّدها بصمت.
5. التحوّل اللغوي مع النصّ اللاتيني
في سياقات الأعمال + التقنية MENA، التحوّل اللغوي هو وضع التواصل الافتراضي:
- “حجزت لكم meeting بكرة الساعة 3 PM في الـ conference room”
- “iPhone 15 Pro Max بسعر 4,799 ريال”
إرشادات التأشير يجب أن تحدّد كيفية التعامل مع الرموز اللاتينية — هل تُحفَظ ككيانات إنجليزية، تُنقَل حرفيًا، تُلَمَّز بشكل منفصل؟
6. التعقيد الصرفي
العربية مُعرَبَة بشكل كبير. فعل جذر واحد يمكن أن ينتج 50+ شكلًا سطحيًا. من جذر كتب:
- كتب — هو كتب
- كتبت — هي كتبت / أنا كتبت
- يكتب — هو يكتب
- مكتوب — مكتوب
- مكتب — مكتب
- كاتب — كاتب
- مكتبة — مكتبة
- كتاب — كتاب
تضمين تشغيلي: إرشاد التأشير يجب أن يحدّد ما إذا كانت التسميات تنطبق على أشكال سطحية أو lemmas مُطَبَّعَة. عدم الاتّساق هنا يُتلِف بصمت جودة بيانات التدريب.
كيف يبدو التأشير العربي الجيّد
تشغيليًا، خطّ أنابيب تأشير عربي جدّي يشمل:
- واجهة تأشير RTL أصلية
- وسم السجل (الفصحى مقابل اللهجة على الأقلّ)
- وسم عائلة اللهجة
- توكنيزيشن التحوّل اللغوي مع تحديد لغة لكل رمز
- حفظ التشكيل أو سياسة تطبيع صريحة
- التجزئة الصرفية حيث تنطبق التسميات على مستوى lemma
- ضمان جودة لغوي بدكتوراه على عيّنة للمعايرة
- مجموعات تقييم عبر اللهجات مُصَنَّفَة
إذا كان بائعك الحالي يقدّم أقلّ من 5 من هذه، فبيانات تدريبك العربية تسرّب الجودة.
ما يقوم به Annota8
Annota8 بُنِيَت حول هذه الوقائع. صفحة تأشير النصوص تفصّل كومة قدرات NLP العربي الكاملة. قيادة ضمان جودة لغوي بدكتوراه قاهرية، تغطية أربع عائلات لهجات، منصّة RTL أصلية، توكنيزيشن بوعي التشكيل، تحديد لغة على مستوى الرمز للتحوّل اللغوي، أدوات تجزئة صرفية.