أزمة اتّفاق المعلّقين في تقييم الذكاء الاصطناعي العربي — لماذا يتعطّل كابا التقليدي
مراجعة سريعة — ولماذا يعمل κ في الغالب
ثلاث إحصاءات تهيمن على تقارير IAA:
- Cohen’s κ — الاتّفاق بين مُؤَشِّرَين فقط على تسميات تصنيفيّة، مُصَحَّحًا للصدفة.
- Fleiss’ κ — تعميم على N من المُؤَشِّرين، حيث يجوز لأيّ N منهم تأشير أيّ عنصر.
- Krippendorff’s α — يتعامل مع البيانات المفقودة، والمقاييس الترتيبيّة/الفترّيّة/النسبيّة، وأيّ عدد من المُؤَشِّرين. الأعمّ بين الثلاثة.
الثلاثة تشترك في افتراض بنيوي: الاختلاف ضوضاء حول حقيقة وحيدة. تصحيح الصدفة يطرح ما يُنتِجُهُ التأشير العشوائي، تاركًا ما نأمل أن يكون الإشارة الحقيقيّة: المعدّل الذي عنده يتقارب المُؤَشِّرون نحو الجواب الصحيح.
هذا يعمل بدقّة حين تكون المهمّة نظيفة — تحديد حدّ ورم على صورة CT، تصنيف معاملة “سلعة استهلاكيّة” مقابل “معدّات صناعيّة”، مطابقة اسم بقائمة عقوبات OFAC. الفئات واضحة، خطّ الصدفة قابل للتوقّع، والمُؤَشِّرون المعقولون يتقاربون.
يعمل أيضًا حين تكون المهمّة عالية التعدّد لكن بتعريفات مستقرّة — صناديق التحديد للسيّارات، خطوط المسارات، المشاة. نعتمد Cohen’s κ كفحص افتراضي على معظم طوابيرنا. هو الأداة الصحيحة حين تصحّ افتراضاتها.
أين يتعطّل κ على العربيّة — أربعة أنماط تشخيصيّة
النمط 1 — تحديد اللهجة (تَدَرُّج، لا تصنيف)
اطلب من ثلاثة مُؤَشِّرين مصريّين تصنيف تسجيل: قاهري، إسكندراني، صعيدي. الحدّ الصوتي بين القاهري والإسكندراني ليس جدارًا؛ هو تَدَرُّج يتحرّك مع عمر المتكلّم، ومستواه التعليمي، وسنوات إقامته في كلّ مدينة، ودرجة رسميّة التسجيل. متكلّم في الثامنة والثلاثين نشأ في الإسكندريّة وعاش 14 عامًا في القاهرة يجلس على الحدّ بنفسه.
ما يراه Cohen’s κ: ثلاثة مُؤَشِّرين “يختلفون”. ما يحدث فعلًا: ثلاثة مُؤَشِّرين يُبَلِّغُون عن نقاط مختلفة من توزيع متّصل، والسؤال “هل هذا قاهري أم إسكندراني” لا يملك جوابًا تصنيفيًّا أصلًا. راحة المُؤَشِّر مع كلّ لهجة تُعَقِّدُ الأمر — مُؤَشِّر قاهري قد يسمع بقايا سمات إسكندرانيّة لا يلتقطها مُؤَشِّر صعيدي.
النتيجة: κ حول 0.42، يقرأها الدليل التقليدي “المُؤَشِّرون غير موثوقين، أعد التدريب أو الاستبدال”. المُؤَشِّرون على حقّ. المقياس خاطئ.
النمط 2 — تحليل المشاعر بسياق ثقافي
أَجرَينا تقييم مشاعر على 1,200 تغريدة بين مُؤَشِّرين مصريّين، نجديّين من السعوديّة، وشاميّين. نفس التغريدات، نفس الإرشادات. κ بين المصريّين والشاميّين: 0.71 — معقول. κ بين المصريّين والنجديّين: 0.49 — مقلق وفق القراءة التقليديّة.
التحليل يُظهِرُ النمط: المُؤَشِّرون المصريّون يقرؤون السخرية بقوّة (سجلّ الشكوى الافتراضي، كما في مقالة المشاعر اللهجيّة). المُؤَشِّرون النجديّون يقرؤون نفس السخرية تَحَفُّظًا مُهَذَّبًا ويُؤَشِّرُونها حياديّة. الشاميّون يقرؤون طُرفة حيث يقرأ المصريّون إحباطًا. الاختلاف منهجي بالديموغرافيا، لا عشوائي. κ كلّي وحيد يُمَتِّعُ هذه الإزاحات المنهجيّة ويُنتِجُ رقمًا بلا معنى.
النمط 3 — صحّة التلاوة القرآنيّة (التجويد)
التجويد — قواعد التلاوة الصحيحة للقرآن — محكوم بمدارس متعدّدة معتمدة (القراءات) ذات اختلافات مَبدَئيّة مُقَنَّنَة في المدّ، والإدغام، وحروف الإخراج. مُؤَشِّر من تراث حفص ومُؤَشِّر من تراث ورش سيختلفان في مقاطع تلاوة محدّدة وكلاهما على حقّ في مدرسته.
κ القياسي يعامل هذا ضوضاءً. ليست ضوضاء. هي اختلاف مَبدَئي بتصنيف واضح. فرض المقياس رغم ذلك يدفع التشغيل إلى العلاج الخاطئ — حكّم، أعد تدريبًا، استبدل — بينما العلاج الصحيح هو تسجيل المدرسة التي يتبعها كلّ مُؤَشِّر، والإبلاغ عن الاتّفاق داخل المدرسة الواحدة وبين المدارس على حدة.
النمط 4 — تصنيف الحساسيّة الدينيّة
تجمّع متعدّد الطوائف — مُؤَشِّرون سُنّة، شيعة، أقباط، موارنة — يُصَنِّفُ هل المحتوى “حسّاس دينيًّا” أم “مناسب” سيُنتِجُ κ بين 0.30 و 0.50 على العناصر المُتَنازَع عليها. مُؤَشِّر سُنّي وآخر شيعي قد يختلفان مَبدَئيًّا حول الإشارة إلى شخصيّة تاريخيّة بعينها بلقب تشريفي معيّن: محايد أم مشحون. مُؤَشِّر قبطي وآخر ماروني قد يختلفان حول ما إذا كان تصوير قدّيس يتجاوز خطًّا.
هذه ليست أخطاء تأشير. هي مواقف لاهوتيّة. المقياس، حين يُطلَبُ منه تلخيصها، يُبَلِّغُ “جودة منخفضة”. العمل سليم؛ العدسة خاطئة.
الأعراض التي تتبع
حين يكون المقياس خاطئًا والفريق يثق به:
- عناوين κ منخفضة زائفة. لوحات العميل تُظهِرُ 0.45 على أعمال اللهجة أو المشاعر؛ العميل يقرأ “جودة التأشير سيّئة” ويطلب خطّة تصحيح. الخطّة لا تُصلِحُ المشكلة لأنّ المشكلة ليست جودة تأشير.
- إشارات انحراف خاطئة. κ تنتقل من 0.51 إلى 0.43 أسبوع لأسبوع — الفريق يرفع علم انحراف، يفتح تحقيقًا، يسحب لغويًّا أقدم من عمل نشط. السبب الحقيقي تَحَوُّل ديموغرافي في تركيبة المُؤَشِّرين النشطين، لا مشكلة جودة.
- تحكيم مفرط مكلف. العناصر تحت عتبة κ تُوَجَّهُ إلى مراجعة كبار. على مهامّ الاختلاف المَبدَئي، هذا يعني توجيه أغلب العناصر، وإهدار ميزانيّة التحكيم على نزاعات بلا حلّ.
- هجرة المُؤَشِّرين. مُؤَشِّرون يُخبَرُون أنّهم “تحت العتبة” على مهامّ هم فيها على حقّ مُثبَت يستقيلون. اللغويّون المصريّون المهرة والمُؤَشِّرون المُدَرَّبُون على التجويد نادرون؛ خسارتهم لمقياس خاطئ خطأ غير مُجبَر.
حُزمة المقاييس الأفضل
لا نتخلّى عن κ. نُطَبِّقُ طبقات.
κ المُفَكَّك للاختلاف
فَكِّكِ الاختلاف الكلّي إلى منهجي (المُؤَشِّر أ يميل إيجابًا، المُؤَشِّر ب يميل حيادًا، كلّ مرّة) وعشوائي (ضوضاء مستقلّة حول تسمية حقيقيّة). κ القياسي يخلطهما؛ κ المُفَكَّك يُظهِرُ المُكَوِّن المنهجي كإشارة مستقلّة — تنبيه إلى أنّ المهمّة قد تحتاج سَلْسَلَة أو توضيح إرشادات بدلًا من إعادة تدريب.
κ المُسَلْسَل ديموغرافيًّا
احسب κ داخل كلّ شريحة ديموغرافيّة على حدة، ثم أَبلِغ بلوحة: مُؤَشِّرو القاهرة فيما بينهم، مُؤَشِّرو الرياض السعوديّة فيما بينهم، الشاميّون فيما بينهم. κ داخل-الشريحة عند 0.78 مع κ عبر-الشرائح عند 0.49 تشخيص نظيف — المُؤَشِّرون داخل سياقهم الثقافي موثوقون؛ الاختلاف عبر السياقات الثقافيّة، وهو مَبدَئي.
ثقة على مستوى العنصر مع تحكيم انتقائي
بدلًا من عتبة κ شاملة على الدفعة كلّها، صَنِّفْ اختلاف المُؤَشِّرين لكلّ عنصر ووَجِّه إلى التحكيم العناصر المُتَنازَع عليها فقط. على دفعة 10,000 عنصر بـ κ = 0.55، تُظهِرُ القراءة العنصريّة عادة 30% بالاتّفاق التامّ، 50% باتّفاق جزئي، 20% باختلاف معتبر. الـ 20% هو حيث يجب أن يذهب وقت كبار المراجعين — لا الـ 100% التي توحي بها قاعدة العتبة.
نماذج Bayesian للمُؤَشِّرين — Dawid-Skene، MACE
حين تسيطر الاختلافات المَبدَئيّة على المهمّة، الإطار الصحيح هو تقدير موثوقيّة كلّ مُؤَشِّر وانحيازه كمتغيّرات كامنة، واستنتاج تسمية التوافق سَوِيًّا. نموذج Dawid-Skene وMACE (تقدير كفاءة المُؤَشِّرين المتعدّدين) هما المرجعان القياسيّان. يُظهِرَان مصفوفة ارتباك لكلّ مُؤَشِّر، توزيعًا لاحقًا لكلّ عنصر، ودرجة موثوقيّة لكلّ مُؤَشِّر لا تَطوي الاختلاف المَبدَئي على “جودة منخفضة”.
هذه النماذج رخيصة التشغيل في 2026 — دقائق على نسخة واحدة لدفعات أقلّ من مليون عنصر. سبب عدم كونها افتراضًا ليس الحساب؛ بل أنّها أصعب شرحًا على لوحة عميل من رقم κ واحد.
التسميات اللّيِّنَة
للفئات الضبابيّة بطبيعتها — اللهجة على تَدَرُّج، شدّة المشاعر، الحساسيّة الدينيّة بحسب الجمهور — توقّف عن فرض تسميات تصنيفيّة صلبة. اجمع توزيعات احتماليّة لكلّ فئة (المُؤَشِّر يقول “70% قاهري، 25% إسكندراني، 5% صعيدي”) وقَيِّمِ النماذج على التوزيع، لا على وضعٍ واحد. التسميات اللّيِّنَة تحمل اللايقين الذي تحتويه المهمّة فعلًا؛ التسميات الصلبة ترميه ثم تشكو من انخفاض κ.
كيف تُوَجِّهُ Annota8 بينها
افتراضنا بحسب فئة المهمّة:
- صناديق التحديد، مطابقات العقوبات، تصنيف الفواتير، التعرّف على الكيانات في الأخبار، ثقة OCR: Cohen’s κ أو Fleiss’ κ افتراضًا. عتبات الجودة تعمل. اللوحات الكلّيّة صادقة.
- تحديد اللهجة، المشاعر بسياق ثقافي: κ مُسَلْسَل ديموغرافيًّا. داخل-الشريحة + عبر-الشرائح يُبَلَّغُ بهما على حدة. العميل يرى الاثنين.
- صحّة التجويد، الحساسيّة الدينيّة، التأشير المَبدَئي: نموذج Bayesian للمُؤَشِّرين (Dawid-Skene أو MACE بحسب بنية التسمية). موثوقيّة كلّ مُؤَشِّر مُبَيَّنَة. تسميات ليّنة مجموعة في الأعلى.
- أيّ مهمّة تُظهِرُ اختلافًا ديموغرافيًّا منهجيًّا: κ مُفَكَّك كتشخيص، مع ارتقاء إلى تقرير مُسَلْسَل أو Bayesian إن سيطر المُكَوِّن المنهجي.
لوحة العميل تَكشِفُ IAA لكلّ فئة ولكلّ شريحة، لا الكلّي فقط. لوحة مقاييس النجاح تحمل اللوحة؛ والمراجعة الفصليّة تستعرضها صراحةً.
هذا يُعَقِّدُ تقارير العميل — هذه هي التكلفة الصادقة. عنوان κ واحد أسهل في عرض المشتريات. لوحة من إحصاءات مُسَلْسَلَة تحتاج شرحًا من 90 ثانية. ندفع هذه التكلفة حين تستحقّها المهمّة. على المهام غير الغامضة نُبقي الرقم البسيط، لأنّ الرقم البسيط صحيح.
ما لن نفعله
لن نُبَلِّغَ بـ κ كلّي وحيد على مهمّة نعلم أنّ اختلافها مَبدَئي. لن نحكّم اختلافًا مَبدَئيًّا إلى توافق مزيّف لِنُحَسِّنَ مظهر المقياس. لن نُحَسِّنَ اختيار المُؤَشِّرين على مقياس يُعاقِبُ مواقف لاهوتيّة أو لهجيّة صحيحة. ولن نسمح لقالب المشتريات عند العميل بأن يُلغي المقياس الصحيح للمهمّة — سنشرح اللوحة ونُسَلِّمُ الأرقام الصحيحة.
حُزمة IAA مهمّة لأنّ كلّ ما يأتي بعدها يستند إليها. درجة موثوقيّة العامل، مجموعة المعايرة، الدفعة الذهبيّة، تدفّق حلّ النزاعات — كلّها ترث ما يُسَمِّيه مقياس IAA “جودة”. إن كان المقياس خاطئًا على المهام العربيّة، كلّ ضابط لاحق خاطئ معه.
القراءة الختاميّة
اتّفاق المعلّقين على مهامّ الذكاء الاصطناعي العربيّة ليس مشكلة “أَحكِم الإرشادات”. هي مشكلة اختيار مقياس. الفرق التي تُجيد التقييم العربي خلال السنتين القادمتين لن تكون الأعلى κ على اللوحات؛ ستكون الأكثر صدقًا في استعمال κ حيث يصلح، والسَلْسَلَة حيث تَهُمّ السَلْسَلَة، والانتقال إلى نماذج Bayesian للمُؤَشِّرين حيث يكون الاختلاف مَبدَئيًّا. ما عدا ذلك مَسرَح — رقم واحد يُجامِلُ المشتريات ويكذب على العمل.