٢٣ مايو ٢٠٢٦ OCR عربي تاريخي يدوي

OCR العربي للنصوص: التحدّيات اليدوية والتاريخية والحديثة في 2026

TL;DR

OCR العربي في 2026 ما زال متأخّرًا عن OCR اللاتيني بفارق ملموس. على النصّ المطبوع الحديث النظيف تُحقّق الأنظمة الرائدة — Tesseract Arabic، Google Cloud Vision، AWS Textract، Mistral OCR، GPT-4o Vision — دقّة حرف تتراوح بين 90 و95 بالمئة، وهو رقم يبدو ممتازًا حتى تكتشف أن “المطبوع الحديث” يصف نحو خُمس الوثائق التي تريد مؤسّسة في المنطقة العربية رقمنتها فعلًا. الخطّ اليدوي الحديث يهبط إلى 60–75 بالمئة بدون ضبط دقيق خاص بالمجال. أمّا المخطوطات التاريخية — نسخ، مغربي، كوفي، ديواني، ثلث، رقعة — فيتصرّف كلّ خطّ منها كأنّه لغة منفصلة، ويحتاج كلٌّ مجموعة تدريب مستقلّة. الأسباب البنيوية هي: الاتّصال (cursive)، الأشكال السياقية الأربعة للحرف، الربطات، التشكيل، التطويل (كشيدة)، معالجة الاتّجاهين (bidi) مع الرموز اللاتينية المُضَمَّنَة، وتنوّعات الإملاء اللهجية التي تحوّل الكلمة الواحدة إلى ثلاث أو أربع تهجئات. هذه قراءة مُمارِس في ما يعمل، وما لا يعمل، وما هو قادم.

لماذا أعود إلى هذا الموضوع

نعمل مع بنوك في الرياض والقاهرة، وشبكات رعاية صحّية في الخليج، وعدد من مختبرات النماذج الأساسية التي تريد أنظمتها متعدّدة الوسائط أن تقرأ العربية بنفس الكفاءة التي تقرأ بها الإنجليزية. كل ارتباط تقريبًا يبدأ بعميل يقول “جرّبنا OCR — لم يفلح”. وعندما نُراجع التدفّق، نجد خطوة OCR تُؤدّي تقريبًا ما تتنبّأ به الأدبيات أن تُؤدّيه — لكن توقّع العميل، المبني على تجربته مع OCR الإنجليزي، يسبق الموقع الفعلي للحزمة العربية بنحو عقد كامل.

هذه الفجوة هي موضوع المقال. ليس “OCR العربي سيّئ” — ليس كذلك على المُدخَلات الصحيحة — بل قراءة مُعَايَرَة لأيّ المُدخَلات تتعامل معها الحزمة الحديثة، وأيّها لا تتعامل، وأيّ عمل تأشير يُحرّك الإبرة.

ما الذي يجعل النصّ العربي أصعب بنيويًا

OCR اللاتيني مشكلة شبه محلولة اليوم لأن النصّ اللاتيني مُريح لرؤية الحاسوب: أشكال حرف متمايزة يفصل بينها بياض، اتّجاه قراءة ثابت من اليسار إلى اليمين، تباين سياقي ضئيل، وعقود من المُدوّنات الرقمية الواسعة. العربية لا تُقدّم أيًّا من هذه التسهيلات تقريبًا.

النصّ المتّصل. الحروف تتّصل داخل الكلمة. لا يوجد بياض بين الحروف — على النموذج أن يتعلّم التقطيع لا أن يفترضه شرطًا مسبقًا. حتى أنظمة التقطيع المبنيّة على القواعد في العقد الأوّل من الألفيّة الثانية أنفقت معظم تعقيدها هنا.

الأشكال السياقية للحرف. لكلّ حرف عربي حتى أربعة أشكال: معزول، أوّلي، وسطي، نهائي. الحرف “ه” يظهر بشكل “ه” أو “ه‍” أو “‍ه‍” أو “‍ه” بحسب الموضع. ثمانية وعشرون حرفًا أساسيًا مضروبة في أربعة أشكال تعني أن مفردات OCR على مستوى الرسم البياني (glyph) أكبر بكثير من مثيلتها اللاتينية قبل عدّ أيّ شيء آخر.

الربطات. لام-ألف (لا) هي المثال القانوني وهي إلزامية في معظم الصفّ الطباعي. الطباعة الكلاسيكية والصفّ القرآني يشملان مئات الربطات الزخرفية — شبكة النسخ-الثلث على وجه الخصوص. الخطوط الرقمية الحديثة تُبسِّط، لكن الطباعة التاريخية والخطّ اليدوي لا يُبسِّطان.

التشكيل. ثماني علامات — فتحة، كسرة، ضمّة، سكون، شدّة، تنوين فتح، تنوين كسر، تنوين ضمّ — تجلس فوق أو تحت الهيكل الصامت للحرف. العربية الحديثة تُسقط التشكيل عادة ويملأ القارئ بالسياق. النصوص الدينية والقانونية والكلاسيكية والتعليمية تحفظه. أنظمة OCR المُدرَّبة على مُدوّنات بلا تشكيل تُعامله ضوضاء؛ المُدرَّبة على حفظه تُنتج مخرجات ملتبسة على المدخلات بلا تشكيل. كلا الوضعَين مفيد — لا أحدهما صحيح كونيًا.

التطويل (الكشيدة). حرف التمديد الأفقي (ـ) يُمدّد الحروف لأسباب تنسيقية أو جمالية. هو نقطة كود يونيكود حقيقية (U+0640) ويكسر المُطابقة المبنيّة على الرموز: الكلمة نفسها قد تظهر “كتاب” أو “كــتــاب” وتكون نفس الكلمة دلاليًا. معظم تدفّقات OCR تحتاج خطوة تطبيع صريحة إمّا تُسقط التطويل أو تحفظه باتّساق.

اتّجاه يمين-يسار ومعالجة bidi. العربية تُقرأ من اليمين إلى اليسار. الرموز اللاتينية المُضَمَّنَة، والأرقام، وأسماء العلامات التجارية الإنجليزية تعكس الاتّجاه داخل السطر. خوارزمية يونيكود ثنائية الاتّجاه تتعامل مع جانب العرض، لكن أنظمة OCR عليها استرداد الترتيب المنطقي من شبكة بكسلات يكون فيها الترتيب البصري مُختلطًا. وضع فشل إنتاجي شائع: مرجع معاملة مثل REF-2026-001 وسط سرد عربي يخرج معكوسًا، أو بِفَواصل خطّ خاطئة، أو ملتصقًا بالرمز العربي المُجاور.

تنوّعات الإملاء اللهجية. الكلمة نفسها قد تُكتب بطرق مشروعة عدّة بحسب عُرف الكاتب: ا أ إ آ للألف، ي ى لياء آخر الكلمة، ة ه للتاء المربوطة مقابل الهاء. الكتّاب المصريون يستبدلون ى بـ ي كثيرًا؛ كتّاب الخليج يحفظون التمييز عادة؛ كتّاب المغرب الكبير يُدخلون تنوّعات إضافية. يستطيع OCR إمّا حفظ خيار الكاتب (وهو ما يُزعج NLP اللاحقة) أو التطبيع (وهو ما يُفقد إشارة). الإجابة الصحيحة تعتمد على المهمّة اللاحقة.

فئات حالات الاستخدام وأين تقع الأنظمة الحالية

بدل أن أُورِد رقم دقّة واحدًا — بلا معنى من دون سياق الوثيقة — سأُقَسِّم بحسب فئة الوثيقة.

عربي مطبوع حديث، مسح نظيف. قابل للتطبيق. Tesseract Arabic، Google Cloud Vision، AWS Textract، Mistral OCR، GPT-4o Vision كلّها تقع بين 90 و95 بالمئة دقّة حرف تقريبًا على النصّ العربي الحديث النظيف بخطوط Sans-Serif المعيارية (Cairo، Tajawal، Almarai) عند 300 DPI أو أعلى. هذا هو المدى المنشور في موادّ تسويق المُورِّدين وهو صحيح تقريبًا — لهذه الشريحة. أوضاع الفشل في معظمها تشكيل، ورموز إنجليزية مُضَمَّنَة، وجداول.

عربي مطبوع حديث، مسح من العالم الحقيقي. اخصم عشر إلى خمس عشرة نقطة. صور الهاتف، الوثائق المائلة، التباين المنخفض، الأختام، التوقيعات، آثار الطيّ، والنُسَخ المُصَوَّرَة القديمة تدفع المحرّكات نفسها إلى مدى 75–85 بالمئة. أهداف CER الإنتاجية لتدفّقات KYC المصرفية والحكومية تقع عادة دون 1 بالمئة على حقول الهويّة، ما يعني أن المحرّك العامّ غير كافٍ، وأن طبقات قواعد ما-بعد-OCR أو الضبط الدقيق الخاصّ بالمجال مطلوبان.

عربي يدوي حديث. صعب. بدون ضبط دقيق خاصّ بالمجال، تقع أفضل الأنظمة العامّة بين 60 و75 بالمئة دقّة حرف على خطّ الرقعة (أكثر الخطوط اليومية شيوعًا في المنطقة العربية). روشتات الأطباء صعبة على نحو خاصّ — خطّ صغير، اختصارات كثيفة، خلط أسماء أدوية عربية ولاتينية، وتنوّع شخصي حسب الكاتب. OCR يدوي عربي بمستوى الإنتاج يتطلّب دائمًا تقريبًا ضبطًا دقيقًا خاصًّا بالمجال وبأسلوب-الكاتب على عيّنات مُسَمّاة.

المخطوطات التاريخية. صعبة جدًّا، والصعوبة ليست منتظمة عبر المُدوّنة التاريخية — تنقسم بحسب تقليد الخطّ.

نسخ هو الخطّ المخطوطي المعياري لمعظم الأدب العربي الكلاسيكي، وهو الهدف التاريخي الأسهل لأنه الأقرب شبهًا بالمطبوع الحديث.
مغربي هو تقليد شمال إفريقيا والأندلس، وأشكال حروفه ومواضع تشكيله تختلف بما يكفي عن النسخ المشرقي ليفشل نموذج مُدرَّب على النسخ تمامًا.
كوفي هو الخطّ الهندسي المبكّر المستخدم في النقوش المعمارية والمصاحف القرآنية المبكّرة — جميل بصريًا ومختلف بنيويًا اختلافًا كبيرًا عن الخطّ الحديث.
ديواني هو الخطّ المتّصل الذي تطوّر لوثائق البلاط العثماني — كثيف، مزخرف، نادرًا ما تُغطّيه بيانات تدريب عامّة.
ثلث هو خطّ كاليجرافي كبير يُستخدم في النقوش المعمارية والسياقات الزخرفية.
رقعة هو الخطّ اليومي المُبسَّط الذي يَجسر بين التاريخي والحديث. الخطّ اليدوي الحديث هو الأقرب إلى الرقعة.

كلّ خطّ من هذه يطلب مُدوّنة تدريب خاصّة به، ومفردات أشكال حرف خاصّة به، وغالبًا استراتيجية تقطيع خاصّة به. معاملة “العربي التاريخي” فئة واحدة هي أسرع طريقة لجعل مشروع رقمنة مخطوطات يفشل في تحقيق هدفه.

الوثائق متعدّدة اللغات. شائعة في المنطقة العربية، هشّة في الممارسة. الوثائق المغربية والتونسية الرسمية تخلط العربية والفرنسية. الوثائق العثمانية القديمة وأوائل القرن العشرين تخلط العربية بالتركية أو الفارسية أو اليونانية. الوثائق التجارية الخليجية الحديثة تخلط العربية والإنجليزية. معالجة bidi، وتعرّف اللغة لكلّ رمز، وفئة الخطّ لكل رمز كلّها يجب أن تكون صحيحة كي يعمل الاستخراج اللاحق. معظم محرّكات OCR العامّة تُعامل الوثيقة كاملة لغة واحدة.

أيّ عمل تأشير يدعم OCR عربيًا أفضل فعلًا

حين يسأل العملاء أيّ نوع بيانات مُسَمّاة يفتح طبقة الدقّة التالية، الجواب نادرًا “المزيد من نفس الشيء”. بل أدقّ تحبيبًا.

صناديق حد على مستوى السطر لتدريب التقطيع.
صناديق حدّ على مستوى الكلمة لنماذج تقطيع الكلمة، مع معالجة صريحة للتطويل والرموز اللاتينية المُضَمَّنَة.
صناديق حدّ على مستوى الحرف للمحرّكات التي تستفيد من إشراف على مستوى الرسم البياني (نماذج OCR المبنيّة على المُحوِّلات خاصّة).
تسميات الربطات — تأشير صريح لبداية الربطة ونهايتها مع حفظ تسلسل الحروف الكامنة.
حقيقة-أرض للتشكيل — نَسْخ مُشَكَّل لصور مصدر مُشَكَّلَة، حتى يمكن تدريب نموذج على إمّا الحفظ أو الإسقاط حسب الطلب.
تصنيف نمط الخطّ — تأشير ما إذا كانت الفقرة نسخ أو رقعة أو ديواني أو مغربي أو كوفي أو ثلث، حتى يستطيع نموذج لاحق التوجيه إلى المتخصّص الصحيح.
تعرّف لغة وخطّ لكلّ رمز — كل رمز موسوم عربي أو لاتيني أو رقمي أو غيره، حتى يكون لإعادة بناء bidi وتوجيه اللغة حقيقة-أرض.
نَسْخ حرفي مع متغيّرات تطبيع — الصورة نفسها تُنسَخ في صيغة وفيّة للكاتب، وصيغة مُطَبَّعَة، وصيغة بلا تشكيل. كلّ مهمّة لاحقة تختار المتغيّر الذي تحتاج.

هذا تأشير لكلّ صورة أكثر مما يطلبه OCR الإنجليزي عادة، وهذا جزء من سبب أن بيانات تدريب OCR العربي تُكلِّف أكثر لكلّ صفحة. وهو أيضًا سبب توقّف المحرّكات الجاهزة عند الحدّ الذي تتوقّف عنده.

مجموعات بيانات مفيدة

لمُمارِسي OCR العربي، المُدوّنات العامّة التي يستحقّ معرفتها:

KHATT — قاعدة بيانات نصوص عربية يدوية مُستخدمة على نطاق واسع كمعيار تعرّف خطّ اليد.
IFN/ENIT — أسماء مدن تونسية مكتوبة يدويًا؛ صغيرة لكنّها مُسَمّاة جيّدًا.
MADCAT — مُدوّنة وثائق عربية يدوية مُمَوَّلَة من DARPA، أكبر من KHATT بكثير لكن أصعب وصولًا.
AHTID/MW — قاعدة بيانات صور نصوص عربية يدوية مع تركيز على تنوّع متعدّد الكتّاب.
OpenITI — مُدوّنة كبيرة من النصوص الإسلامية في صيغة رقمية، مفيدة لمواد التدريب التاريخية ونمذجة اللغة لا لـ OCR على الصور مباشرة.

كلّ منها ضروري لكن غير كافٍ لتدفّق إنتاج. تُوصِل النموذج إلى “خطّ أساس الأدبيات”. أداء الإنتاج يتطلّب عيّنات خاصّة بالعميل فوق ذلك.

توصيات عملية للمشترين

إذا كنت تُحدّد نطاق مشروع OCR عربي — داخليًا أو مع مُورِّد — الأسئلة التي تهمّ:

ما خليط فئة الوثائق؟ مطبوع حديث، مسح من العالم الحقيقي، يدوي حديث، مخطوط تاريخي، متعدّد اللغات. كلٌّ نموذج مختلف.
ما هدف CER الإنتاجي لكلّ حقل؟ حقول الهويّة دون 0.5 بالمئة، استخراج كشف بنكي دون 1 بالمئة، روشتة دون 2 بالمئة، إيداع محكمة دون 3 بالمئة. لا تقبل أرقام دقّة إجمالية.
هل التشكيل محفوظ أم مُسقَط؟ اختر عَمدًا — كلاهما صالح، لا أحدهما مجّاني.
كيف تُعالَج bidi؟ اطلب مثالًا عمليًا برموز إنجليزية وأرقام مُضَمَّنَة.
أيّ طبقة تأشير تُمَوّل؟ على مستوى البكسل مقابل الكلمة مقابل الحرف مقابل الواعي بالربطات كلّها بتكلفة مختلفة وتفتح سقفًا مختلفًا.
مَن هو لغوي ضمان الجودة؟ المتحدّثون الأصليون بتدريب رسمي في اللسانيات العربية يلتقطون حالات حدّية تَسهو عنها حلقات ML الصرفة — خاصّة حول التشكيل، والإملاء اللهجي، والخطوط التاريخية.

ما هو قادم

ثلاثة اتّجاهات أتوقّع أن تُشَكِّل الأشهر الثمانية عشر القادمة. أوّلًا، النماذج الأساسية متعدّدة الوسائط — GPT-4o Vision، خطّ Mistral OCR، والمُرَشّحات مفتوحة الأوزان — تُغلق الفجوة على العربي المطبوع الحديث أسرع من مُورِّدي OCR المتخصّصين. ثانيًا، زاوية المخطوطات التاريخية تُسحَب إلى الأمام بتمويل العلوم الإنسانية الرقمية (خاصّة في الخليج)، ما يعني دخول مزيد من عيّنات النسخ والمغربي والديواني المُسَمّاة إلى الفضاء العامّ. ثالثًا، مشكلة تطبيع الإملاء اللهجي تُعامَل أخيرًا بوصفها مرحلة منفصلة في التدفّق لا مدمجة في نموذج OCR نفسه، وأرى ذلك صحيحًا.

جانب المشتري لم يلحق بعد جانب المُورِّد. معظم المُشتريات ما زالت تطلب رقم دقّة واحدًا وسعرًا لكلّ صفحة واحدًا. السوق الفعلي أكثر تقسيمًا من ذلك بكثير، والعمل أكثف تأشيرًا بكثير مما تُلَمِّح به عروض المُورِّدين. سنواصل الكتابة عن الشرائح.

كيف نُساعد في Annota8

نحن عملية تأشير بيانات، لسنا مُورِّد OCR. الجزء الذي نملكه من التدفّق هو بيانات التدريب والتقييم المُسَمّاة التي تجعل نظام OCR عربي مُنشَر يقع عند هدف CER لدى العميل. طبقة ضمان الجودة لدينا مبنيّة على لغويين عرب بدكتوراه في القاهرة يتعاملون مع التشكيل، والإملاء اللهجي، وتعرّف الخطّ التاريخي، وحالات bidi الحدّية بشكل أصلي. للمطبوع الحديث واليدوي الحديث نُصادِر عادة عيّنات مُطابِقَة للمجال ونُنتج تأشيرًا متعدّد الطبقات (سطر، كلمة، حرف، ربطة، تشكيل، فئة خطّ، تعرّف لغة). لعمل المخطوطات التاريخية نشترك مع متخصّصين أكاديميين في تقليد الخطّ المعنيّ.

إذا كنت تُحدّد نطاق مشروع OCR عربي — مصرفي، صحّي، قانوني، حكومي، أو رقمنة مخطوطات — فهذه محادثة 30 دقيقة نُقدّر إجراءها.

ناقش مشروع OCR العربي الخاصّ بك ← جلسة 30 دقيقة اقرأ مسرد OCR العربي

القيود وإخلاء المسؤوليّة

قيود هذا التحليل. يَعكِس هذا المقال قراءة Annota8 للأدلّة المتاحة علنًا حتّى تاريخ آخر تعديل له. مواقع المورّدين، الأطر التنظيميّة، أرقام المقاييس ونطاق البرامج يمكن أن تتغيّر دون إشعار. حيث تُذكر نطاقات عدديّة، تلك الأرقام قابلة للتحقّق من المصدر المرتبط في قسم المراجع داخل المقال — لم تُعِد Annota8 إجراء المقاييس بنفسها ما لم يُذكر ذلك صراحةً في المقال.

الموقف القانوني والخصوصيّة. Annota8 شركة عمليّات بيانات ذكاء اصطناعي في مرحلة مبكّرة في إطلاق ناعم. لا نَملِك حاليًّا شهادة SOC 2، أو ISO 27001، أو شهادة PDPL، أو أيّ شهادة أمن أو خصوصيّة من طرف ثالث. نُصمِّم وَفقًا لمبادئ PDPL ونَقدِر على توقيع DPA مَبنيّة على نموذج SCC الأوروبي. الموقف التوافقي المحدّد لارتباطك متاح عند الطلب من [email protected].

لا شيء في هذا المقال يُمثِّل استشارة قانونيّة أو ضريبيّة أو استثماريّة. الاستشهادات التنظيميّة يجب التحقّق منها مع مستشار قانوني في ولايتك القضائيّة. أسماء المورّدين المذكورة في هذا المقال مرجَّعة كسياق مشهد صناعي فحسب — Annota8 لا تَدَّعِي ادّعاءً تنافسيًّا للمنتج، ولا علاقة عملاء، ولا أيّ ارتباط آخر مع أيّ من المنصّات المذكورة، ما لم يُذكر ذلك صراحةً.

تواصَل مع الفريق:[email protected] · annota8.ai