ضبط Whisper على اللهجة العربية — دروس التأشير
لماذا Whisper افتراضيًا يؤدّي ضعيفًا على اللهجة العربية
1. مجموعة التدريب المسبق فصحى-ثقيلة
Whisper دُرِّب على 680K ساعة من صوت ويب متعدّد اللغات. القسم العربي يشمل:
- إذاعات إخبارية (الجزيرة، العربية) — فصحى تقريبًا بالكامل
- محاضرات + محتوى ديني — فصحى ثقيلة
- YouTube + بودكاست — لهجة مختلطة لكن غير متوازنة
النتيجة: Whisper يتعامل مع الفصحى جيّدًا + اللهجة بشكل ضعيف.
2. عائلات اللهجات لم تكن متوازنة
حتى ضمن قسم اللهجة، المجموعة لا توازن خليجي مقابل شامي مقابل مصري مقابل مغاربي. المصرية (الأكثر سكانًا، ~110م متحدّث) ممثَّلَة بزيادة في YouTube؛ المغاربية ممثَّلَة بنقص.
3. التحوّل اللغوي يُعَامَل كأحادي اللغة
كشف لغة Whisper يُعَيِّن لغة واحدة لكل نطق. كلام أعمال + تقنية MENA الحقيقي يخلط العربية + الإنجليزية على مستوى الرمز.
4. التباين الصوتي غير مُعَايَر
خليجي /q/ → /g/، شامي /q/ → /ʔ/، مصري /ʤ/ → /g/ — هذه الفروق الصوتية لا تُعَالَج صراحةً.
ما يحقّقه الضبط الدقيق (أرقام WER تقريبية)
| التكوين | WER فصحى | WER مصري | WER خليجي | WER شامي | WER مغاربي | WER تحوّل لغوي |
|---|---|---|---|---|---|---|
| Whisper-large-v3 zero-shot | 10-15% | 25-35% | 28-38% | 28-38% | 35-45% | 40-50% |
| ضبط 50 ساعة فصحى فقط | 5-10% | 25-35% (لا تغيير) | 28-38% | 28-38% | 35-45% | 40-50% |
| ضبط 50 ساعة مُصَنَّف باللهجة | 8-12% | 10-15% | 12-18% | 12-18% | 18-25% | 25-35% |
| ضبط 200 ساعة مُصَنَّف باللهجة | 5-8% | 7-12% | 9-14% | 9-14% | 14-20% | 18-25% |
| ضبط 200 ساعة + مجموعة فرعية تحوّل لغوي | 5-8% | 7-12% | 9-14% | 9-14% | 14-20% | 12-18% |
الدروس الكبرى:
- الضبط الدقيق على الفصحى فقط لا يحسّن اللهجة — البيانات المُصَنَّفَة باللهجة ضرورية
- مجموعة فرعية تحوّل لغوي (10-15%) تحسّن ماديًا WER التحوّل اللغوي
- بعد ~200 ساعة، العوائد تتناقص لكن الجودة لا تزال تتسلّق ببطء
ما تبدو عليه بيانات ضبط دقيق Whisper عربية جيّدة
المكوّن 1: أزواج صوت + نسخ مُصَنَّفَة باللهجة
الحد الأدنى للتصنيف (إجمالي 50-200 ساعة):
| عائلة اللهجة | ساعات | ملاحظات |
|---|---|---|
| فصحى | 20-50 | إذاعي + محاضرة + رسمي |
| خليجي | 10-40 | نجدي + حجازي + خليجي |
| شامي | 10-40 | لبناني + سوري + أردني |
| مصري | 10-40 | قاهري + صعيدي + إسكندراني |
| مغاربي | 5-20 | مغربي + جزائري + تونسي |
| تحوّل لغوي | 5-20 | عربي-إنجليزي (وعربي-فرنسي للمغاربي) |
المكوّن 2: اتّفاقية إملائية
اختر واحدة + اتّبعها:
- CODA — أكاديمية مُوَحَّدَة
- إملاء لهجة أصلي — اترك المتحدّثين يكتبون كما يكتبون على وسائل التواصل الاجتماعي
اتّفاقيات مختلطة تربك النموذج.
المكوّن 3: تحديد لغة رمز للتحوّل اللغوي
للنطق المختلط اللغة، وسم لغة كل رمز:
"حجزت لكم MEETING بكرة في الـ CONFERENCE ROOM"
ar ar en ar ar ar en en
Whisper المُضْبَط على رموز مُوَسَّمَة بلغة يتعامل مع التحوّل اللغوي بشكل أفضل بكثير.
المكوّن 4: نسخ مُحَاذَى زمنيًا
للضبط الدقيق عالي الجودة، خاصّةً لـ ASR متدفّق، النسخ مُحَاذَى زمنيًا على مستوى الكلمة + الصوت يساعد.
المكوّن 5: سياسة معالجة عدم الطلاقة + غير كلام
اتّفاقيات صريحة لـ:
- توقّفات مُمْتَلِئَة (إإإ، اَمم، طيب)
- بدايات خاطئة + إصلاحات
- backchannel (يلا، صح، طيب)
- ضحك، تصفيق، موسيقى خلفية
- تداخل متعدّد المتحدّثين
المكوّن 6: ضمان جودة نسخ لغوي بدكتوراه
على عيّنة 5-10% من المجموعة:
- تحقّق لهجة أصلية
- تحقّق إسناد رمز تحوّل لغوي
- فحص محاذاة زمنية
- فحص ملاءمة ثقافية / سجل
نسخ اللهجة العربية بـ crowd-source له معدّل خطأ 5-15% يتراكم خلال الضبط الدقيق. ضمان جودة لغوي بدكتوراه يقلّل هذا إلى <1%.
وصفة تدريب (تقريبية)
لضبط Whisper جدّي على لهجة عربية:
- معالجة صوت مسبقة — 16kHz أحادي، VAD-مُجَزَّأ إلى مقاطع 5-30 ثانية، تطبيع الصوت
- تصنيف بيانات — 60% إنتاج تدريب / 20% تحقّق / 20% اختبار، مُصَنَّف بعائلة لهجة
- توكنيزيشن — توكنيزر Whisper يتعامل مع العربية لكنّه دون المثالي للهجة
- ضبط دقيق — عادةً 1-3 حقبات على بيانات مُصَنَّفَة باللهجة، LR أقلّ (1e-5 نموذجي)
- تقييم — WER لكل عائلة لهجة، لكل لهجة فرعية حيث ممكن، مجموعة فرعية تحوّل لغوي
- تكرار — حدّد عائلة اللهجة الأسوأ أداءً، وَسِّع تلك المجموعة الفرعية، أعد التركيب
مزالق شائعة
مزلق 1: التدريب على الفصحى فقط، توقّع تحسّن اللهجة
لا يعمل. اللهجة تتطلّب بيانات مُصَنَّفَة باللهجة.
مزلق 2: crowd-source نسخ لهجة بدون ضمان جودة
ينتج ضوضاء تسمية 5-15% لا يمكن للنموذج التغلّب عليها.
مزلق 3: اتّفاقيات إملائية مختلطة
النموذج يتعلّم عدم الاتّساق، ليس هيكل اللغة.
مزلق 4: لا مجموعة فرعية تحوّل لغوي
التحوّل اللغوي افتراضي في كلام MENA التقني. نموذج بدونه سيفشل إنتاجيًا.
مزلق 5: تمثيل لهجة غير متوازن
إذا 80% من الضبط الدقيق مصري، النموذج يفرط في التكيّف مع المصري.
مزلق 6: نسيان الفصحى بعد ضبط دقيق للهجة
بدون فصحى في بيانات الضبط الدقيق، النموذج يمكن أن يفقد قدرة الفصحى.
أين Annota8 يساعد
Annota8 يبني مجموعات بيانات ضبط دقيق Whisper مُصَنَّفَة باللهجة عبر جميع المكوّنات الستّة:
- مصادر صوت مُصَنَّفَة باللهجة (KSA + مصري + شامي + مغاربي)
- نسخ لهجة أصلي بـ CODA أو إملاء أصلي
- تحديد لغة رمز للتحوّل اللغوي
- نسخ مُحَاذَى زمنيًا مع مستوى صوت للحالات الصعبة
- إنفاذ اتّفاقية عدم طلاقة + غير كلام
- ضمان جودة لغوي بدكتوراه قاهري على 5-10%