بناء ASR لهجة عربية — دروس التأشير
لماذا ASR لهجة عربية صعب هيكليًا
1. مجموعة التدريب المتاحة عامّة منحازة للفصحى
معظم الصوت العربي المتاح عامّة للتدريب فصحى — أخبار إذاعية، تلاوة قرآنية، محاضرات، خطب رسمية. اللهجة المنطوقة نادرة في المجموعات المُكَشَّطَة.
النماذج المُدَرَّبَة مسبقًا على هذه المجموعة المنحازة تتعلّم الفصحى جيّدًا + تؤدّي بشكل ضعيف على اللهجة.
2. عائلات اللهجات غير متبادلة الفهم
المتحدّثون من عائلات لهجات عربية مختلفة غالبًا يكافحون لفهم بعضهم البعض. من منظور النموذج، معاملة المصرية + الخليجية + الشامية + المغاربية كلغة واحدة مثل معاملة الإسبانية + الإيطالية + الفرنسية + الرومانية كلغة واحدة.
3. التحوّل اللغوي افتراضي
في سياقات التقنية + الأعمال MENA، التحوّل اللغوي مع رموز نصّ لاتيني إنجليزية / فرنسية هو وضع التحدّث الافتراضي، ليس حالة حدّية. ASR يجب أن يتعامل مع:
- رموز عربية
- رموز لاتينية (إنجليزية / فرنسية مدمجة)
- اختصارات (CEO، KPI، AI — تُنطَق كإنجليزية في الكلام العربي)
- أرقام
4. التباين الصوتي ضخم
مخزون اللهجة العربية الصوتي يختلف عبر العائلات:
- خليجي — يحفظ /q/ كـ /g/ في كثير من المواضع
- شامي — /q/ → /ʔ/ في السجلات الحضرية
- مصري — /q/ → /ʔ/، /ʤ/ → /g/
- مغاربي — اختزال صوتيات ثقيل، تأثير فرنسي + بربر
ما يبدو عليه تأشير ASR لهجة جيّد
مصادر بيانات مُصَنَّفَة باللهجة
لا تجمع اللهجات معًا. مصدر منفصلًا لكل عائلة + عائلة فرعية:
- خليجي: KSA (نجدي، حجازي)، UAE، الكويت، البحرين، قطر، عُمان
- شامي: لبنان، سوريا، الأردن، فلسطين
- مصري: قاهري، صعيدي، إسكندراني، سوداني (عائلة قريبة)
- مغاربي: المغرب، الجزائر، تونس، ليبيا
اتّفاقية نسخ صوتي لكل لهجة
اختر + وثّق اتّفاقية إملائية لكل لهجة. نهجان رئيسيان:
- CODA (الإملاء التقليدي للعربية اللهجية) — اتّفاقية أكاديمية مُوَحَّدَة
- إملاء لهجة أصلي — اترك المتحدّثين يكتبون بالطريقة التي يكتبون بها على وسائل التواصل الاجتماعي
تحديد لغة على مستوى الرمز للتحوّل اللغوي
للنطق المختلط عربي + لاتيني، وسم هوية لغة كل رمز. ASR يمكنه بعد ذلك توجيه الرموز اللاتينية إلى نموذج صوتي مختلف + نموذج لغة عن الرموز العربية.
ضمان جودة نسخ بلغوي بدكتوراه
للتأشير القياسي بحجم 5-10% بلغوي بدكتوراه يحرّك إبرة التقييم ماديًا. النسخ بـ crowd-source على اللهجة العربية ينتج عادةً معدّلات خطأ 5-15% تتراكم في زمن التدريب.
تجزئة مُحَاذاة زمنيًا
لـ ASR لهجة، التجزئة المُحَاذَاة زمنيًا أهمّ من ASR الإنجليزي.
معالجة دور المتحدّث + التشخيص
للبيانات متعدّدة المتحدّثين، التشخيص يجب أن يكون موثوقًا.
مراسي إرشادات التأشير
مراسي محدّدة يجب أن تظهر في إرشادات تأشير ASR للهجة:
- علامة عائلة لهجة إلزامية — لكل نطق + لكل جزء
- علامة لهجة فرعية اختيارية
- اتّفاقية إملائية — صريحة + موثّقة + مُنْفَذَة
- تحديد لغة رمز للتحوّل اللغوي
- معالجة عدم الطلاقة — سياسة صريحة
- أرقام + اختصارات
- ضوضاء خلفية + غير كلام
- تداخل + تشويش
بناء مجموعة التقييم
مجموعات تقييم مُصَنَّفَة باللهجة غير قابلة للتفاوض.
| المكوّن | % من التقييم | الغرض |
|---|---|---|
| احتجاز لكل عائلة لهجة | 5% لكل عائلة | قياس WER لكل عائلة |
| احتجاز تحوّل لغوي | 5% | متانة التحوّل اللغوي |
| احتجاز عدم طلاقة ثقيل | 5% | متانة محادثية حقيقية |
| تحكّم فصحى | 10% | مقارنة خط أساس فصحى |
| تعميم عبر اللهجات | 5% | متانة تدريب-على-A اختبار-على-B |
أين يندرج Annota8
Annota8 بُنِيَت لعمل اللهجة العربية. كومة القدرات:
- قيادة ضمان جودة لغوي بدكتوراه قاهرية
- تغطية أربع عائلات لهجات + وسم لهجة فرعية
- تحديد لغة على مستوى الرمز للتحوّل اللغوي
- دعم CODA + إملاء أصلي
- تجزئة مُحَاذَاة زمنيًا
- تحقّق تشخيص متحدّث يدوي
- بناء مجموعة تقييم مُصَنَّفَة باللهجة
انظر وسيلة تأشير الصوت لتفاصيل القدرة الكاملة.