كل المقالات

OCR العربي للنصوص: التحدّيات اليدوية والتاريخية والحديثة في 2026

لماذا أعود إلى هذا الموضوع

نعمل مع بنوك في الرياض والقاهرة، وشبكات رعاية صحّية في الخليج، وعدد من مختبرات النماذج الأساسية التي تريد أنظمتها متعدّدة الوسائط أن تقرأ العربية بنفس الكفاءة التي تقرأ بها الإنجليزية. كل ارتباط تقريبًا يبدأ بعميل يقول “جرّبنا OCR — لم يفلح”. وعندما نُراجع التدفّق، نجد خطوة OCR تُؤدّي تقريبًا ما تتنبّأ به الأدبيات أن تُؤدّيه — لكن توقّع العميل، المبني على تجربته مع OCR الإنجليزي، يسبق الموقع الفعلي للحزمة العربية بنحو عقد كامل.

هذه الفجوة هي موضوع المقال. ليس “OCR العربي سيّئ” — ليس كذلك على المُدخَلات الصحيحة — بل قراءة مُعَايَرَة لأيّ المُدخَلات تتعامل معها الحزمة الحديثة، وأيّها لا تتعامل، وأيّ عمل تأشير يُحرّك الإبرة.

ما الذي يجعل النصّ العربي أصعب بنيويًا

OCR اللاتيني مشكلة شبه محلولة اليوم لأن النصّ اللاتيني مُريح لرؤية الحاسوب: أشكال حرف متمايزة يفصل بينها بياض، اتّجاه قراءة ثابت من اليسار إلى اليمين، تباين سياقي ضئيل، وعقود من المُدوّنات الرقمية الواسعة. العربية لا تُقدّم أيًّا من هذه التسهيلات تقريبًا.

النصّ المتّصل. الحروف تتّصل داخل الكلمة. لا يوجد بياض بين الحروف — على النموذج أن يتعلّم التقطيع لا أن يفترضه شرطًا مسبقًا. حتى أنظمة التقطيع المبنيّة على القواعد في العقد الأوّل من الألفيّة الثانية أنفقت معظم تعقيدها هنا.

الأشكال السياقية للحرف. لكلّ حرف عربي حتى أربعة أشكال: معزول، أوّلي، وسطي، نهائي. الحرف “ه” يظهر بشكل “ه” أو “ه‍” أو “‍ه‍” أو “‍ه” بحسب الموضع. ثمانية وعشرون حرفًا أساسيًا مضروبة في أربعة أشكال تعني أن مفردات OCR على مستوى الرسم البياني (glyph) أكبر بكثير من مثيلتها اللاتينية قبل عدّ أيّ شيء آخر.

الربطات. لام-ألف (لا) هي المثال القانوني وهي إلزامية في معظم الصفّ الطباعي. الطباعة الكلاسيكية والصفّ القرآني يشملان مئات الربطات الزخرفية — شبكة النسخ-الثلث على وجه الخصوص. الخطوط الرقمية الحديثة تُبسِّط، لكن الطباعة التاريخية والخطّ اليدوي لا يُبسِّطان.

التشكيل. ثماني علامات — فتحة، كسرة، ضمّة، سكون، شدّة، تنوين فتح، تنوين كسر، تنوين ضمّ — تجلس فوق أو تحت الهيكل الصامت للحرف. العربية الحديثة تُسقط التشكيل عادة ويملأ القارئ بالسياق. النصوص الدينية والقانونية والكلاسيكية والتعليمية تحفظه. أنظمة OCR المُدرَّبة على مُدوّنات بلا تشكيل تُعامله ضوضاء؛ المُدرَّبة على حفظه تُنتج مخرجات ملتبسة على المدخلات بلا تشكيل. كلا الوضعَين مفيد — لا أحدهما صحيح كونيًا.

التطويل (الكشيدة). حرف التمديد الأفقي (ـ) يُمدّد الحروف لأسباب تنسيقية أو جمالية. هو نقطة كود يونيكود حقيقية (U+0640) ويكسر المُطابقة المبنيّة على الرموز: الكلمة نفسها قد تظهر “كتاب” أو “كــتــاب” وتكون نفس الكلمة دلاليًا. معظم تدفّقات OCR تحتاج خطوة تطبيع صريحة إمّا تُسقط التطويل أو تحفظه باتّساق.

اتّجاه يمين-يسار ومعالجة bidi. العربية تُقرأ من اليمين إلى اليسار. الرموز اللاتينية المُضَمَّنَة، والأرقام، وأسماء العلامات التجارية الإنجليزية تعكس الاتّجاه داخل السطر. خوارزمية يونيكود ثنائية الاتّجاه تتعامل مع جانب العرض، لكن أنظمة OCR عليها استرداد الترتيب المنطقي من شبكة بكسلات يكون فيها الترتيب البصري مُختلطًا. وضع فشل إنتاجي شائع: مرجع معاملة مثل REF-2026-001 وسط سرد عربي يخرج معكوسًا، أو بِفَواصل خطّ خاطئة، أو ملتصقًا بالرمز العربي المُجاور.

تنوّعات الإملاء اللهجية. الكلمة نفسها قد تُكتب بطرق مشروعة عدّة بحسب عُرف الكاتب: ا أ إ آ للألف، ي ى لياء آخر الكلمة، ة ه للتاء المربوطة مقابل الهاء. الكتّاب المصريون يستبدلون ى بـ ي كثيرًا؛ كتّاب الخليج يحفظون التمييز عادة؛ كتّاب المغرب الكبير يُدخلون تنوّعات إضافية. يستطيع OCR إمّا حفظ خيار الكاتب (وهو ما يُزعج NLP اللاحقة) أو التطبيع (وهو ما يُفقد إشارة). الإجابة الصحيحة تعتمد على المهمّة اللاحقة.

فئات حالات الاستخدام وأين تقع الأنظمة الحالية

بدل أن أُورِد رقم دقّة واحدًا — بلا معنى من دون سياق الوثيقة — سأُقَسِّم بحسب فئة الوثيقة.

عربي مطبوع حديث، مسح نظيف. قابل للتطبيق. Tesseract Arabic، Google Cloud Vision، AWS Textract، Mistral OCR، GPT-4o Vision كلّها تقع بين 90 و95 بالمئة دقّة حرف تقريبًا على النصّ العربي الحديث النظيف بخطوط Sans-Serif المعيارية (Cairo، Tajawal، Almarai) عند 300 DPI أو أعلى. هذا هو المدى المنشور في موادّ تسويق المُورِّدين وهو صحيح تقريبًا — لهذه الشريحة. أوضاع الفشل في معظمها تشكيل، ورموز إنجليزية مُضَمَّنَة، وجداول.

عربي مطبوع حديث، مسح من العالم الحقيقي. اخصم عشر إلى خمس عشرة نقطة. صور الهاتف، الوثائق المائلة، التباين المنخفض، الأختام، التوقيعات، آثار الطيّ، والنُسَخ المُصَوَّرَة القديمة تدفع المحرّكات نفسها إلى مدى 75–85 بالمئة. أهداف CER الإنتاجية لتدفّقات KYC المصرفية والحكومية تقع عادة دون 1 بالمئة على حقول الهويّة، ما يعني أن المحرّك العامّ غير كافٍ، وأن طبقات قواعد ما-بعد-OCR أو الضبط الدقيق الخاصّ بالمجال مطلوبان.

عربي يدوي حديث. صعب. بدون ضبط دقيق خاصّ بالمجال، تقع أفضل الأنظمة العامّة بين 60 و75 بالمئة دقّة حرف على خطّ الرقعة (أكثر الخطوط اليومية شيوعًا في المنطقة العربية). روشتات الأطباء صعبة على نحو خاصّ — خطّ صغير، اختصارات كثيفة، خلط أسماء أدوية عربية ولاتينية، وتنوّع شخصي حسب الكاتب. OCR يدوي عربي بمستوى الإنتاج يتطلّب دائمًا تقريبًا ضبطًا دقيقًا خاصًّا بالمجال وبأسلوب-الكاتب على عيّنات مُسَمّاة.

المخطوطات التاريخية. صعبة جدًّا، والصعوبة ليست منتظمة عبر المُدوّنة التاريخية — تنقسم بحسب تقليد الخطّ.

كلّ خطّ من هذه يطلب مُدوّنة تدريب خاصّة به، ومفردات أشكال حرف خاصّة به، وغالبًا استراتيجية تقطيع خاصّة به. معاملة “العربي التاريخي” فئة واحدة هي أسرع طريقة لجعل مشروع رقمنة مخطوطات يفشل في تحقيق هدفه.

الوثائق متعدّدة اللغات. شائعة في المنطقة العربية، هشّة في الممارسة. الوثائق المغربية والتونسية الرسمية تخلط العربية والفرنسية. الوثائق العثمانية القديمة وأوائل القرن العشرين تخلط العربية بالتركية أو الفارسية أو اليونانية. الوثائق التجارية الخليجية الحديثة تخلط العربية والإنجليزية. معالجة bidi، وتعرّف اللغة لكلّ رمز، وفئة الخطّ لكل رمز كلّها يجب أن تكون صحيحة كي يعمل الاستخراج اللاحق. معظم محرّكات OCR العامّة تُعامل الوثيقة كاملة لغة واحدة.

أيّ عمل تأشير يدعم OCR عربيًا أفضل فعلًا

حين يسأل العملاء أيّ نوع بيانات مُسَمّاة يفتح طبقة الدقّة التالية، الجواب نادرًا “المزيد من نفس الشيء”. بل أدقّ تحبيبًا.

هذا تأشير لكلّ صورة أكثر مما يطلبه OCR الإنجليزي عادة، وهذا جزء من سبب أن بيانات تدريب OCR العربي تُكلِّف أكثر لكلّ صفحة. وهو أيضًا سبب توقّف المحرّكات الجاهزة عند الحدّ الذي تتوقّف عنده.

مجموعات بيانات مفيدة

لمُمارِسي OCR العربي، المُدوّنات العامّة التي يستحقّ معرفتها:

كلّ منها ضروري لكن غير كافٍ لتدفّق إنتاج. تُوصِل النموذج إلى “خطّ أساس الأدبيات”. أداء الإنتاج يتطلّب عيّنات خاصّة بالعميل فوق ذلك.

توصيات عملية للمشترين

إذا كنت تُحدّد نطاق مشروع OCR عربي — داخليًا أو مع مُورِّد — الأسئلة التي تهمّ:

  1. ما خليط فئة الوثائق؟ مطبوع حديث، مسح من العالم الحقيقي، يدوي حديث، مخطوط تاريخي، متعدّد اللغات. كلٌّ نموذج مختلف.
  2. ما هدف CER الإنتاجي لكلّ حقل؟ حقول الهويّة دون 0.5 بالمئة، استخراج كشف بنكي دون 1 بالمئة، روشتة دون 2 بالمئة، إيداع محكمة دون 3 بالمئة. لا تقبل أرقام دقّة إجمالية.
  3. هل التشكيل محفوظ أم مُسقَط؟ اختر عَمدًا — كلاهما صالح، لا أحدهما مجّاني.
  4. كيف تُعالَج bidi؟ اطلب مثالًا عمليًا برموز إنجليزية وأرقام مُضَمَّنَة.
  5. أيّ طبقة تأشير تُمَوّل؟ على مستوى البكسل مقابل الكلمة مقابل الحرف مقابل الواعي بالربطات كلّها بتكلفة مختلفة وتفتح سقفًا مختلفًا.
  6. مَن هو لغوي ضمان الجودة؟ المتحدّثون الأصليون بتدريب رسمي في اللسانيات العربية يلتقطون حالات حدّية تَسهو عنها حلقات ML الصرفة — خاصّة حول التشكيل، والإملاء اللهجي، والخطوط التاريخية.

ما هو قادم

ثلاثة اتّجاهات أتوقّع أن تُشَكِّل الأشهر الثمانية عشر القادمة. أوّلًا، النماذج الأساسية متعدّدة الوسائط — GPT-4o Vision، خطّ Mistral OCR، والمُرَشّحات مفتوحة الأوزان — تُغلق الفجوة على العربي المطبوع الحديث أسرع من مُورِّدي OCR المتخصّصين. ثانيًا، زاوية المخطوطات التاريخية تُسحَب إلى الأمام بتمويل العلوم الإنسانية الرقمية (خاصّة في الخليج)، ما يعني دخول مزيد من عيّنات النسخ والمغربي والديواني المُسَمّاة إلى الفضاء العامّ. ثالثًا، مشكلة تطبيع الإملاء اللهجي تُعامَل أخيرًا بوصفها مرحلة منفصلة في التدفّق لا مدمجة في نموذج OCR نفسه، وأرى ذلك صحيحًا.

جانب المشتري لم يلحق بعد جانب المُورِّد. معظم المُشتريات ما زالت تطلب رقم دقّة واحدًا وسعرًا لكلّ صفحة واحدًا. السوق الفعلي أكثر تقسيمًا من ذلك بكثير، والعمل أكثف تأشيرًا بكثير مما تُلَمِّح به عروض المُورِّدين. سنواصل الكتابة عن الشرائح.

كيف نُساعد في Annota8

نحن عملية تأشير بيانات، لسنا مُورِّد OCR. الجزء الذي نملكه من التدفّق هو بيانات التدريب والتقييم المُسَمّاة التي تجعل نظام OCR عربي مُنشَر يقع عند هدف CER لدى العميل. طبقة ضمان الجودة لدينا مبنيّة على لغويين عرب بدكتوراه في القاهرة يتعاملون مع التشكيل، والإملاء اللهجي، وتعرّف الخطّ التاريخي، وحالات bidi الحدّية بشكل أصلي. للمطبوع الحديث واليدوي الحديث نُصادِر عادة عيّنات مُطابِقَة للمجال ونُنتج تأشيرًا متعدّد الطبقات (سطر، كلمة، حرف، ربطة، تشكيل، فئة خطّ، تعرّف لغة). لعمل المخطوطات التاريخية نشترك مع متخصّصين أكاديميين في تقليد الخطّ المعنيّ.

إذا كنت تُحدّد نطاق مشروع OCR عربي — مصرفي، صحّي، قانوني، حكومي، أو رقمنة مخطوطات — فهذه محادثة 30 دقيقة نُقدّر إجراءها.

ناقش مشروع OCR العربي الخاصّ بك ← جلسة 30 دقيقة اقرأ مسرد OCR العربي