كل المقالات

ضبط Whisper على اللهجة العربية — دروس التأشير

لماذا Whisper افتراضيًا يؤدّي ضعيفًا على اللهجة العربية

1. مجموعة التدريب المسبق فصحى-ثقيلة

Whisper دُرِّب على 680K ساعة من صوت ويب متعدّد اللغات. القسم العربي يشمل:

النتيجة: Whisper يتعامل مع الفصحى جيّدًا + اللهجة بشكل ضعيف.

2. عائلات اللهجات لم تكن متوازنة

حتى ضمن قسم اللهجة، المجموعة لا توازن خليجي مقابل شامي مقابل مصري مقابل مغاربي. المصرية (الأكثر سكانًا، ~110م متحدّث) ممثَّلَة بزيادة في YouTube؛ المغاربية ممثَّلَة بنقص.

3. التحوّل اللغوي يُعَامَل كأحادي اللغة

كشف لغة Whisper يُعَيِّن لغة واحدة لكل نطق. كلام أعمال + تقنية MENA الحقيقي يخلط العربية + الإنجليزية على مستوى الرمز.

4. التباين الصوتي غير مُعَايَر

خليجي /q/ → /g/، شامي /q/ → /ʔ/، مصري /ʤ/ → /g/ — هذه الفروق الصوتية لا تُعَالَج صراحةً.

ما يحقّقه الضبط الدقيق (أرقام WER تقريبية)

التكوينWER فصحىWER مصريWER خليجيWER شاميWER مغاربيWER تحوّل لغوي
Whisper-large-v3 zero-shot10-15%25-35%28-38%28-38%35-45%40-50%
ضبط 50 ساعة فصحى فقط5-10%25-35% (لا تغيير)28-38%28-38%35-45%40-50%
ضبط 50 ساعة مُصَنَّف باللهجة8-12%10-15%12-18%12-18%18-25%25-35%
ضبط 200 ساعة مُصَنَّف باللهجة5-8%7-12%9-14%9-14%14-20%18-25%
ضبط 200 ساعة + مجموعة فرعية تحوّل لغوي5-8%7-12%9-14%9-14%14-20%12-18%

الدروس الكبرى:

ما تبدو عليه بيانات ضبط دقيق Whisper عربية جيّدة

المكوّن 1: أزواج صوت + نسخ مُصَنَّفَة باللهجة

الحد الأدنى للتصنيف (إجمالي 50-200 ساعة):

عائلة اللهجةساعاتملاحظات
فصحى20-50إذاعي + محاضرة + رسمي
خليجي10-40نجدي + حجازي + خليجي
شامي10-40لبناني + سوري + أردني
مصري10-40قاهري + صعيدي + إسكندراني
مغاربي5-20مغربي + جزائري + تونسي
تحوّل لغوي5-20عربي-إنجليزي (وعربي-فرنسي للمغاربي)

المكوّن 2: اتّفاقية إملائية

اختر واحدة + اتّبعها:

اتّفاقيات مختلطة تربك النموذج.

المكوّن 3: تحديد لغة رمز للتحوّل اللغوي

للنطق المختلط اللغة، وسم لغة كل رمز:

"حجزت لكم MEETING بكرة في الـ CONFERENCE ROOM"
   ar     ar  en   ar    ar  ar  en          en

Whisper المُضْبَط على رموز مُوَسَّمَة بلغة يتعامل مع التحوّل اللغوي بشكل أفضل بكثير.

المكوّن 4: نسخ مُحَاذَى زمنيًا

للضبط الدقيق عالي الجودة، خاصّةً لـ ASR متدفّق، النسخ مُحَاذَى زمنيًا على مستوى الكلمة + الصوت يساعد.

المكوّن 5: سياسة معالجة عدم الطلاقة + غير كلام

اتّفاقيات صريحة لـ:

المكوّن 6: ضمان جودة نسخ لغوي بدكتوراه

على عيّنة 5-10% من المجموعة:

نسخ اللهجة العربية بـ crowd-source له معدّل خطأ 5-15% يتراكم خلال الضبط الدقيق. ضمان جودة لغوي بدكتوراه يقلّل هذا إلى <1%.

وصفة تدريب (تقريبية)

لضبط Whisper جدّي على لهجة عربية:

  1. معالجة صوت مسبقة — 16kHz أحادي، VAD-مُجَزَّأ إلى مقاطع 5-30 ثانية، تطبيع الصوت
  2. تصنيف بيانات — 60% إنتاج تدريب / 20% تحقّق / 20% اختبار، مُصَنَّف بعائلة لهجة
  3. توكنيزيشن — توكنيزر Whisper يتعامل مع العربية لكنّه دون المثالي للهجة
  4. ضبط دقيق — عادةً 1-3 حقبات على بيانات مُصَنَّفَة باللهجة، LR أقلّ (1e-5 نموذجي)
  5. تقييم — WER لكل عائلة لهجة، لكل لهجة فرعية حيث ممكن، مجموعة فرعية تحوّل لغوي
  6. تكرار — حدّد عائلة اللهجة الأسوأ أداءً، وَسِّع تلك المجموعة الفرعية، أعد التركيب

مزالق شائعة

مزلق 1: التدريب على الفصحى فقط، توقّع تحسّن اللهجة

لا يعمل. اللهجة تتطلّب بيانات مُصَنَّفَة باللهجة.

مزلق 2: crowd-source نسخ لهجة بدون ضمان جودة

ينتج ضوضاء تسمية 5-15% لا يمكن للنموذج التغلّب عليها.

مزلق 3: اتّفاقيات إملائية مختلطة

النموذج يتعلّم عدم الاتّساق، ليس هيكل اللغة.

مزلق 4: لا مجموعة فرعية تحوّل لغوي

التحوّل اللغوي افتراضي في كلام MENA التقني. نموذج بدونه سيفشل إنتاجيًا.

مزلق 5: تمثيل لهجة غير متوازن

إذا 80% من الضبط الدقيق مصري، النموذج يفرط في التكيّف مع المصري.

مزلق 6: نسيان الفصحى بعد ضبط دقيق للهجة

بدون فصحى في بيانات الضبط الدقيق، النموذج يمكن أن يفقد قدرة الفصحى.

أين Annota8 يساعد

Annota8 يبني مجموعات بيانات ضبط دقيق Whisper مُصَنَّفَة باللهجة عبر جميع المكوّنات الستّة:

ناقش ضبط Whisper الدقيق → جلسة 30 دقيقة اقرأ نظرة تأشير الصوت