كل المقالات

OCR عربي + يدوي — واقع الإنتاج

لماذا OCR عربي أصعب من إنجليزي

1. نصّ متّصل

العربي متّصل — الحروف تتّصل. لكل حرف 4 أشكال حسب الموضع (معزول، أوّلي، وسطي، نهائي). نفس الحرف يبدو مختلفًا في مواضع مختلفة.

2. حركات (تشكيل)

العربية لديها 8 علامات تشكيل. تغيّر المعنى. معظم النصّ العربي الحديث يحذف التشكيل (القارئ يملأ بالسياق).

3. ربط

العربية لديها مئات تركيبات حرف صحيحة تُعْرَض كرسوم بياني ربط واحدة. لام-ألف (لا) الأكثر شيوعًا، لكن طباعة عربية كلاسيكية تشمل آلاف الربطات الزخرفية.

4. تنوّع نمط خطّ يد

أنماط خطّ يد عربية رئيسية:

5. تباين خطّ

خطوط عربية حديثة تتباين بشكل هائل:

OCR مُدَرَّب على Cairo + Tajawal الحديثة يفشل على وثائق حكومية مرقمنة من السبعينيات.

6. وثائق متعدّدة النصوص

وثائق MENA تخلط شائعًا:

كشف بنكي، تقرير مستشفى، نموذج حكومي، عقد تجاري، إيداع محكمة — كلّها متعدّدة النصوص.

أوضاع فشل OCR إنتاجية

الفشل 1 — روشتة يدوية غير قابلة للقراءة

روشتة طبيب باللهجة المصرية مكتوبة بخطّ رقعة يدويًا بأسماء أدوية عربية + لاتينية مختلطة. OCR عامّ يُعيد معدّل خطأ حرف 30-50%. هدف CER إنتاجي: <5%. الفجوة تتطلّب بيانات تدريب خاصّة بالمجال + نموذج بوعي نمط خطّ اليد.

الفشل 2 — وثيقة حكومية بطباعة قديمة

وثيقة حكومية KSA من الثمانينيات-التسعينيات بطباعة قديمة + أرقام عربية-هندية + أختام خاصّة بحكومة. OCR عامّ مُدَرَّب على خطوط حديثة يفشل.

الفشل 3 — بطاقة هوية بصورة مدمجة + شريحة فوقية

إقامة سعودية + بطاقة هوية إماراتية + رقم قومي مصري + بطاقة قطرية كلّها لديها صورة + شريحة + تراكب زخرفي. OCR عامّ يلتبس التراكب بالنصّ.

الفشل 4 — كشف بنكي متعدّد النصوص

كشف بنكي KSA بـ اسم عميل عربي + تاجر معاملة لاتيني + مبلغ عربي-هندي + نوع معاملة إنجليزي. OCR عامّ يعامل الوثيقة كاملة كلغة واحدة.

الفشل 5 — توضيح تشكيل في نصّ قانوني

وثيقة قانونية حكومية سعودية تشمل تشكيل للدقّة. OCR عامّ يُسْقِط التشكيل — يغيّر المعنى.

الفشل 6 — إيداع محكمة يدوي

إيداع محكمة محامٍ يدوي بنمط ديواني + خلط رقعة حديث. OCR عامّ يفشل على ديواني بالكامل.

ما تحتاجه بيانات تدريب OCR عربي جيّدة

المكوّن 1 — تغطية متعدّد النصوص + متعدّد الخطوط

المكوّن 2 — تغطية نمط خطّ يد

المكوّن 3 — تسمية متعدّدة النصوص

المكوّن 4 — حفظ تشكيل

المكوّن 5 — عيّنات خاصّة بالمجال

المكوّن 6 — تباين جودة + إضاءة

واقع نشر إنتاجي

هدف CER لكل حالة استخدام

حالة الاستخدامهدف CER
حقول وثيقة هوية< 0.5%
استخراج كشف بنكي< 1%
استخراج روشتة< 2%
ملاحظة سريرية يدوية< 5%
رقمنة أرشيف طباعة قديمة< 3%
استخراج إيداع محكمة< 3%
فحص وثيقة عامّ< 5%

سير عمل فعّال التكلفة

معظم OCR عربي إنتاجي يستخدم هجين:

  1. خط أساس OCR عربي مُدَرَّب مسبقًا (Google Cloud Vision، AWS Textract، Tesseract Arabic)
  2. ضبط دقيق خاصّ بالمجال على عيّنات مجال مُسَمَّاة
  3. تحقّق إنسان-في-الحلقة على مخرجات منخفضة الثقة
  4. حلقة تعلّم نشط — فشل الإنتاج يُغَذِّي التدريب

تخطّي الخطوات 2 + 3 يُنتج CER 20-40% على وثائق MENA إنتاجية.

كيف يصادر Annota8 بيانات تدريب OCR عربي

لتدريب OCR عربي لبنوك + رعاية صحّية + قانونية + حكومية MENA:

ناقش بيانات تدريب OCR عربي → جلسة 30 دقيقة اقرأ نظرة تأشير المستندات