OCR عربي + يدوي — واقع الإنتاج
لماذا OCR عربي أصعب من إنجليزي
1. نصّ متّصل
العربي متّصل — الحروف تتّصل. لكل حرف 4 أشكال حسب الموضع (معزول، أوّلي، وسطي، نهائي). نفس الحرف يبدو مختلفًا في مواضع مختلفة.
2. حركات (تشكيل)
العربية لديها 8 علامات تشكيل. تغيّر المعنى. معظم النصّ العربي الحديث يحذف التشكيل (القارئ يملأ بالسياق).
3. ربط
العربية لديها مئات تركيبات حرف صحيحة تُعْرَض كرسوم بياني ربط واحدة. لام-ألف (لا) الأكثر شيوعًا، لكن طباعة عربية كلاسيكية تشمل آلاف الربطات الزخرفية.
4. تنوّع نمط خطّ يد
أنماط خطّ يد عربية رئيسية:
- نسخ — طباعة معيارية + خطّ يد حديث
- رقعة — خطّ يد عادي (الأكثر شيوعًا في الكتابة اليومية MENA)
- ثلث — خطّ + زخرفي
- ديواني — وثائق حكومية عثمانية
- مغربي — نمط خطّ يد شمال إفريقيا
- كوفي — هندسي، ديني + زخرفي
5. تباين خطّ
خطوط عربية حديثة تتباين بشكل هائل:
- بلا-سيريف حديثة (Cairo، Tajawal، Almarai)
- سيريف تقليدية (Amiri، Scheherazade)
- عرض + زخرفية
- خطوط خاصّة بوثائق حكومية
- طباعة قديمة (صحف + كتب مرقمنة)
OCR مُدَرَّب على Cairo + Tajawal الحديثة يفشل على وثائق حكومية مرقمنة من السبعينيات.
6. وثائق متعدّدة النصوص
وثائق MENA تخلط شائعًا:
- عربي + لاتيني (إنجليزي / فرنسي مدمج)
- عربي + أرقام عربية-هندية (٠-٩) + أرقام عربية (0-9)
- عربي + مصطلحات أجنبية مُحَوَّلَة حرفيًا
- عربي + emoji / رموز Unicode
كشف بنكي، تقرير مستشفى، نموذج حكومي، عقد تجاري، إيداع محكمة — كلّها متعدّدة النصوص.
أوضاع فشل OCR إنتاجية
الفشل 1 — روشتة يدوية غير قابلة للقراءة
روشتة طبيب باللهجة المصرية مكتوبة بخطّ رقعة يدويًا بأسماء أدوية عربية + لاتينية مختلطة. OCR عامّ يُعيد معدّل خطأ حرف 30-50%. هدف CER إنتاجي: <5%. الفجوة تتطلّب بيانات تدريب خاصّة بالمجال + نموذج بوعي نمط خطّ اليد.
الفشل 2 — وثيقة حكومية بطباعة قديمة
وثيقة حكومية KSA من الثمانينيات-التسعينيات بطباعة قديمة + أرقام عربية-هندية + أختام خاصّة بحكومة. OCR عامّ مُدَرَّب على خطوط حديثة يفشل.
الفشل 3 — بطاقة هوية بصورة مدمجة + شريحة فوقية
إقامة سعودية + بطاقة هوية إماراتية + رقم قومي مصري + بطاقة قطرية كلّها لديها صورة + شريحة + تراكب زخرفي. OCR عامّ يلتبس التراكب بالنصّ.
الفشل 4 — كشف بنكي متعدّد النصوص
كشف بنكي KSA بـ اسم عميل عربي + تاجر معاملة لاتيني + مبلغ عربي-هندي + نوع معاملة إنجليزي. OCR عامّ يعامل الوثيقة كاملة كلغة واحدة.
الفشل 5 — توضيح تشكيل في نصّ قانوني
وثيقة قانونية حكومية سعودية تشمل تشكيل للدقّة. OCR عامّ يُسْقِط التشكيل — يغيّر المعنى.
الفشل 6 — إيداع محكمة يدوي
إيداع محكمة محامٍ يدوي بنمط ديواني + خلط رقعة حديث. OCR عامّ يفشل على ديواني بالكامل.
ما تحتاجه بيانات تدريب OCR عربي جيّدة
المكوّن 1 — تغطية متعدّد النصوص + متعدّد الخطوط
المكوّن 2 — تغطية نمط خطّ يد
المكوّن 3 — تسمية متعدّدة النصوص
المكوّن 4 — حفظ تشكيل
المكوّن 5 — عيّنات خاصّة بالمجال
المكوّن 6 — تباين جودة + إضاءة
واقع نشر إنتاجي
هدف CER لكل حالة استخدام
| حالة الاستخدام | هدف CER |
|---|---|
| حقول وثيقة هوية | < 0.5% |
| استخراج كشف بنكي | < 1% |
| استخراج روشتة | < 2% |
| ملاحظة سريرية يدوية | < 5% |
| رقمنة أرشيف طباعة قديمة | < 3% |
| استخراج إيداع محكمة | < 3% |
| فحص وثيقة عامّ | < 5% |
سير عمل فعّال التكلفة
معظم OCR عربي إنتاجي يستخدم هجين:
- خط أساس OCR عربي مُدَرَّب مسبقًا (Google Cloud Vision، AWS Textract، Tesseract Arabic)
- ضبط دقيق خاصّ بالمجال على عيّنات مجال مُسَمَّاة
- تحقّق إنسان-في-الحلقة على مخرجات منخفضة الثقة
- حلقة تعلّم نشط — فشل الإنتاج يُغَذِّي التدريب
تخطّي الخطوات 2 + 3 يُنتج CER 20-40% على وثائق MENA إنتاجية.
كيف يصادر Annota8 بيانات تدريب OCR عربي
لتدريب OCR عربي لبنوك + رعاية صحّية + قانونية + حكومية MENA:
- مصادر عيّنة متعدّدة النصوص + متعدّدة الخطوط (حديث + قديم + حكومي + زخرفي)
- تغطية نمط خطّ يد (نسخ + رقعة + ديواني + مغربي + يدوي شخصي حديث)
- تسمية متعدّدة النصوص بتحديد لغة + نصّ لكل رمز
- تأشير حافظ للتشكيل حيث مطلوب
- عيّنة خاصّة بمجال (بنوك، رعاية صحّية، قانوني، حكومي، تعليم)
- تباين جودة + إضاءة مُدْرَج عمدًا
- ضمان جودة لغوي بدكتوراه قاهري على حالات حدّية للتوضيح