كل المقالات

بناء ASR لهجة عربية — دروس التأشير

لماذا ASR لهجة عربية صعب هيكليًا

1. مجموعة التدريب المتاحة عامّة منحازة للفصحى

معظم الصوت العربي المتاح عامّة للتدريب فصحى — أخبار إذاعية، تلاوة قرآنية، محاضرات، خطب رسمية. اللهجة المنطوقة نادرة في المجموعات المُكَشَّطَة.

النماذج المُدَرَّبَة مسبقًا على هذه المجموعة المنحازة تتعلّم الفصحى جيّدًا + تؤدّي بشكل ضعيف على اللهجة.

2. عائلات اللهجات غير متبادلة الفهم

المتحدّثون من عائلات لهجات عربية مختلفة غالبًا يكافحون لفهم بعضهم البعض. من منظور النموذج، معاملة المصرية + الخليجية + الشامية + المغاربية كلغة واحدة مثل معاملة الإسبانية + الإيطالية + الفرنسية + الرومانية كلغة واحدة.

3. التحوّل اللغوي افتراضي

في سياقات التقنية + الأعمال MENA، التحوّل اللغوي مع رموز نصّ لاتيني إنجليزية / فرنسية هو وضع التحدّث الافتراضي، ليس حالة حدّية. ASR يجب أن يتعامل مع:

4. التباين الصوتي ضخم

مخزون اللهجة العربية الصوتي يختلف عبر العائلات:

ما يبدو عليه تأشير ASR لهجة جيّد

مصادر بيانات مُصَنَّفَة باللهجة

لا تجمع اللهجات معًا. مصدر منفصلًا لكل عائلة + عائلة فرعية:

اتّفاقية نسخ صوتي لكل لهجة

اختر + وثّق اتّفاقية إملائية لكل لهجة. نهجان رئيسيان:

تحديد لغة على مستوى الرمز للتحوّل اللغوي

للنطق المختلط عربي + لاتيني، وسم هوية لغة كل رمز. ASR يمكنه بعد ذلك توجيه الرموز اللاتينية إلى نموذج صوتي مختلف + نموذج لغة عن الرموز العربية.

ضمان جودة نسخ بلغوي بدكتوراه

للتأشير القياسي بحجم 5-10% بلغوي بدكتوراه يحرّك إبرة التقييم ماديًا. النسخ بـ crowd-source على اللهجة العربية ينتج عادةً معدّلات خطأ 5-15% تتراكم في زمن التدريب.

تجزئة مُحَاذاة زمنيًا

لـ ASR لهجة، التجزئة المُحَاذَاة زمنيًا أهمّ من ASR الإنجليزي.

معالجة دور المتحدّث + التشخيص

للبيانات متعدّدة المتحدّثين، التشخيص يجب أن يكون موثوقًا.

مراسي إرشادات التأشير

مراسي محدّدة يجب أن تظهر في إرشادات تأشير ASR للهجة:

  1. علامة عائلة لهجة إلزامية — لكل نطق + لكل جزء
  2. علامة لهجة فرعية اختيارية
  3. اتّفاقية إملائية — صريحة + موثّقة + مُنْفَذَة
  4. تحديد لغة رمز للتحوّل اللغوي
  5. معالجة عدم الطلاقة — سياسة صريحة
  6. أرقام + اختصارات
  7. ضوضاء خلفية + غير كلام
  8. تداخل + تشويش

بناء مجموعة التقييم

مجموعات تقييم مُصَنَّفَة باللهجة غير قابلة للتفاوض.

المكوّن% من التقييمالغرض
احتجاز لكل عائلة لهجة5% لكل عائلةقياس WER لكل عائلة
احتجاز تحوّل لغوي5%متانة التحوّل اللغوي
احتجاز عدم طلاقة ثقيل5%متانة محادثية حقيقية
تحكّم فصحى10%مقارنة خط أساس فصحى
تعميم عبر اللهجات5%متانة تدريب-على-A اختبار-على-B

أين يندرج Annota8

Annota8 بُنِيَت لعمل اللهجة العربية. كومة القدرات:

انظر وسيلة تأشير الصوت لتفاصيل القدرة الكاملة.

ناقش بيانات تدريب ASR عربي → جلسة 30 دقيقة اقرأ نظرة تأشير الصوت