كل المقالات

محاذاة نماذج الأساس للسكّان الناطقين بالعربية: الفروق الدقيقة

مقدّمة: ما الذي يَفْشَل عندما “نُتَرْجِم Constitutional AI إلى العربية”

كمؤسّس Annota8 في القاهرة، أرى الفكرة تُطْرَح كلّ أسبوع تقريبًا في اجتماعات مع فِرَق منتج خليجيّة ومصريّة: «لنأخذ دستور Anthropic الأخلاقي ونُتَرْجِمه، ولنطلب من النموذج اتّباعه عند الاستجابة للعربية». الفكرة تبدو معقولة لمن لم يبنِ بيانات محاذاة من قبل. هي ليست معقولة.

السبب البسيط: الدستور الأخلاقي لِنَموذج غربي يُجَسِّد قِيَمًا متجذّرة في سياق تنظيمي ومجتمعي محدّد — حرّيّة التعبير على النمط الأمريكي الأوّل، تَعْرِيف الجَنْدَر بمصطلحات معاصرة من البحث الأكاديمي الغربي، حدود حقوق الملكيّة الفكريّة بمعايير DMCA، إرشادات حول الانتحار مبنيّة على ممارسات APA الإكلينيكيّة. كلّ بند فيه قِيمَة، وكلّ بند فيه افتراضات جذريّة عن مَن المُسْتَخْدِم، أين يعيش، تحت أيّ قانون يَخْضَع.

طبقة المحاذاة العربيّة الجادّة تَبْدَأ من سؤال مختلف: أيّ بشر يخدمهم النموذج، تحت أيّ ولاية قضائيّة، ضمن أيّ بِنْيَة قِيَم مجتمعيّة؟ الإجابة ليست واحدة — وهذا هو جوهر المشكلة.

المحور الأوّل: الحساسيّة الدينيّة ليست خانة واحدة

أغلب فِرَق RLHF العربيّة التي رأيتها تَتَعَامَل مع “الإسلام” كَكَتْلَة واحدة. هذا خطأ تقني قبل أن يكون خطأ ثقافيًّا.

السكّان الناطقون بالعربية يَشْمَلون على الأقلّ:

نموذج يَرْفُض «الإفتاء في حكم استثمار في أسهم البنوك التقليديّة» لأنّ بيانات RLHF لَقَّنَته الموقف الحنبلي السعودي، ثم يَخْدِم مُسْتَخْدِمًا شافعيًّا من القاهرة، أو شيعيًّا من البصرة، أو قبطيًّا من الإسكندريّة — هذا النموذج يَفْرِض على ثلاثة أرباع السكّان موقفًا ليس موقفهم.

تأشير المحاذاة الجادّ يَتَطَلَّب على الأقلّ أربع طبقات: (1) تَصْنِيف السؤال إلى ديني/مذهبي/فِقْهي، (2) كَشْف لُمُوحٍ مذهبيّ من المُسْتَخْدِم، (3) إنتاج إجابة تَعْرِض الخلاف بدل أن تَحْسِم فيه، (4) رَفْض تَوْلِيد فتوى مُلْزِمَة وإحالة لأهل العلم. كلّ طبقة تَتَطَلَّب مُؤَشِّر لغوي بمعرفة فِقْهيّة، لا متعهّد ترجمة بساعة 12 USD.

المحور الثاني: السجلّ اللغوي — فصحى أدبيّة، MSA، عاميّة

«العربيّة» ليست لغة واحدة في عقل المُسْتَخْدِم. هي قَوْس مستمرّ.

عند الطرف الأعلى: الفصحى الأدبيّة، لغة المتنبّي والجاحظ، التي يَسْتَخْدِمها أدباء وشعراء وأئمّة في الخُطَب. عند المنتصف: MSA — اللغة المعياريّة الحديثة، لغة الصحف ونشرات الأخبار والمقالات الأكاديميّة. عند الأسفل: عاميّة كلّ دولة بتنويعاتها الداخليّة (شامي بيروتي، شامي حلبي، خليجي قطيفي، خليجي نجدي، مصري قاهري، مصري صعيدي، مغربي فاسي، مغربي مرّاكشي).

نموذج محاذاة جيّد يَفْهَم أنّ المُسْتَخْدِم الذي يكتب «أبغى أعرف الفرق بين الفائدة المركّبة والبسيطة» يَتَوَقَّع جوابًا في سجلّ خليجي قريب من MSA، لا قصيدة في الفصحى الأدبيّة، ولا ترجمة حرفيّة لجواب ChatGPT الإنجليزي. والمُسْتَخْدِم نفسه إذا كتب «اشرح لي قصيدة المعلّقة لامرئ القيس» يَتَوَقَّع سجلًّا مختلفًا تمامًا — الفصحى الأدبيّة مع جذور كلاسيكيّة.

أغلب نماذج RLHF العربيّة المُتَرْجَمَة آليًّا تَنْتِج نَبْرَة واحدة: نَبْرَة الجواب الفصيح المُبَسَّط، التي تُشْبِه ترجمة وثيقة قانونيّة من الإنجليزيّة. وهذه النَبْرَة تَنْفِر المُسْتَخْدِم العامّي وتُحْرِج المُسْتَخْدِم الأدبي. الحلّ ليس نموذجًا أصغر — الحلّ تأشير محاذاة على عيّنات مُتَدَرِّجَة بثلاثة سجلّات، وتدريب النموذج على اكتشاف السجلّ من السؤال.

المحور الثالث: التسامح مع التحوّل اللغوي (code-switching)

في كلّ سوق MENA من بيروت إلى الرياض إلى القاهرة، المُسْتَخْدِم يكتب: «حابب أعمل subscription على الخطّة السنوي بس عاوز أعرف لو فيه refund policy لو cancelled في الشهر الأوّل». ستّ كلمات إنجليزيّة في جملة عربيّة — هذا ليس استثناء، هذا هو الأصل في التواصل المهني والتقني في المنطقة.

نموذج محاذاة جيّد يَتَقَبَّل التحوّل اللغوي ويُجِيب فيه عند الاقتضاء. نموذج RLHF مُتَرْجَم سيّئًا يَعْتَبِر هذا «خطأ في الاستخدام» ويُعِيد كتابة السؤال إلى فصحى نقيّة قبل الإجابة — وهذا يَكْسِر تجربة المُسْتَخْدِم.

تأشير المحاذاة هنا بسيط نَظَريًّا، صعب عمليًّا: نُؤَشِّر آلاف العيّنات بنبرة طبيعيّة، حيث يُبَيِّن المُؤَشِّر متى التحوّل اللغوي مَقْبُول (مصطلح تقني)، متى مُسْتَحْسَن (sales أو HR)، ومتى يُفَضَّل الاستبدال (سياق رسمي حكومي). هذا عمل لغوي بدرجة دكتوراه، لا قائمة قواعد مُسْتَنْسَخَة من Anthropic.

المحور الرابع: الحساسيّة السياسيّة لكلّ ولاية قضائيّة

هذا هو المحور الذي يَكْسِر النشر التجاري أكثر من غيره.

السعوديّة تَخْضَع لنظام مكافحة جرائم المعلوماتيّة لعام 2007 وقواعد الهيئة السعوديّة للبيانات والذكاء الاصطناعي (SDAIA). محتوى يَمَسّ القيادة، أو يُثِير الفتنة، أو يَتَنَاوَل قضايا حدود إقليميّة بطريقة لا تَتَّفِق مع الموقف الرسمي — يَخْلُق مسؤوليّة قانونيّة على المُشَغِّل.

مصر تَخْضَع لقانون مكافحة جرائم تقنية المعلومات رقم 175 لعام 2018. القضايا الحسّاسة تختلف: الجيش، 30 يونيو 2013، الانتماءات الإقليميّة.

الإمارات تَخْضَع لمرسوم بقانون اتحادي رقم 34 لعام 2021. حسّاسيّات تختلف مرّة أخرى.

قَطَر، الكويت، البحرين، عُمان، الأردن، العراق، لبنان — كلٌّ بإطار قانوني وحدود نقاش مختلفة.

نموذج محاذاة واحد بحدود سياسيّة موحَّدَة سيَفْشَل في كلّ سوق. الحلّ ليس رفض كلّ شيء سياسي — هذا يَجْعَل النموذج بلا فائدة لصحفي أو محلّل سياسي. الحلّ تأشير محاذاة مُقَسَّم جغرافيًّا، مع طبقة تَوْجِيه (routing) عند النشر تَنْتَقِي السياسة المناسبة بناءً على ولاية قضائيّة العميل.

المحور الخامس: تَنَوُّع معايير الجَنْدَر وسِجِلّ الحِشْمَة

هذا محور يَتَجَنَّبه أغلب البائعين الغربيّين لأنّ الإجابة فيه تَتَطَلَّب موقفًا، والموقف يَخْلِق خصومًا.

الواقع: معايير الجَنْدَر تَخْتَلِف بشكل ملموس بين كازابلانكا وعَمّان والرياض والقاهرة. التَّعَامُل بنفس النبرة في كلّ مكان يَنْتُج نموذجًا يَفْشَل في نصف الأسواق.

سِجِلّ الحِشْمَة (modesty register) في الردود يَتَطَلَّب تأشيرًا دقيقًا: متى نَسْتَخْدِم «الفاضلة/الفاضل» وَمَتَى نَكْتَفِي بالاسم؟ كيف نُسْأَل عن المرأة المُتَزَوِّجَة في سياق سعودي مُحَافِظ مقابل سياق لبناني مُنْفَتِح؟ كيف نَتَعَامَل مع طلب مُسْتَخْدِم في الرياض لِنُصْح علاقة مقابل طلب مُماثِل من بيروت؟

الإجابة ليست «رَفْض» ولا «إجابة موحّدة» — الإجابة محاذاة ذكيّة على سياق المُسْتَخْدِم، وهذا يَتَطَلَّب تأشير محاذاة بفِرَق متنوّعة جغرافيًّا، لا فريق واحد في موقع واحد.

المحور السادس: حدود استخدام LLM في بيئات AAOIFI

هذا محور تقني تجاري بحت: أيّ نموذج يُنْشَر في مؤسّسة ماليّة إسلاميّة (بنك، تكافل، صكوك، تَمْوِيل مُتَوَافِق مع الشريعة) يَخْضَع — بشكل غير مُبَاشِر — لمعايير AAOIFI (هيئة المحاسبة والمراجعة للمؤسّسات الماليّة الإسلاميّة). معايير AAOIFI لا تَحْكُم النموذج، بل تَحْكُم المُنْتَج الذي يَسْتَخْدِمه — والفرق يَهُمّ كثيرًا.

نموذج يَنْشُر في بنك تَمْوِيل إسلامي يَجِب أن:

هذا يَتَطَلَّب مُؤَشِّر محاذاة بخلفيّة شرعيّة مُحَدَّثَة على آخر إصدارات AAOIFI، لا مُهَنْدِس ML قَرَأ ملخّصًا. أعمَلْت مع بَنْك خليجي العام الماضي وكان السؤال الأوّل في عقد الـ SFT: «هل لديكم مُؤَشِّر بشهادة شرعيّة؟» السؤال الثاني: «هل لديكم محامي شرعي يُرَاجِع عيّنة عشوائيّة قبل التَّسْلِيم؟» إن لم يكن لديك إجابة، الصفقة تُغْلَق على بائع آخر — أو لا تُغْلَق أصلًا.

لماذا «ترجمة Anthropic إلى العربية» لا تَكْفِي — خلاصة فنّيّة

لو دَمَجْت المحاور الستّة أعلاه، يَتَّضِح أنّ المحاذاة العربيّة الجادّة تَحْتَاج:

  1. بيانات RLHF مُؤَلَّفَة أصلًا بالعربيّة، لا مُتَرْجَمَة. السؤال يُكْتَب بطبيعة في القاهرة، الإجابتان المُفَضَّلَة والمَرْفُوضَة تُكْتَبان من مُؤَشِّرين عرب، الحُكْم بين الاثنين يَجْرِي بِأَدَب لُغَوي.
  2. مُؤَشِّرون بدرجة دكتوراه في اللغويّات العربيّة للسجلّ والنبرة والتحوّل اللغوي. ليس متعهّد ترجمة. ليس طالب جامعة بمعرفة لغة سطحيّة.
  3. مُسْتَشَارون شرعيّون لكلّ مذهب من المذاهب الرئيسيّة، بشهادات معتمدة.
  4. محامون بولاية قضائيّة للقواعد السياسيّة لكلّ سوق نَنْشُر فيه.
  5. فِرَق متنوّعة جغرافيًّا لمحاذاة سِجِلّ الحِشْمَة ومعايير الجَنْدَر.
  6. مُرَاجَعَة AAOIFI عند أيّ نَشْر ماليّ إسلامي.

هذا المُكَدَّس ليس «nice to have» — هذا هو الحدّ الأدنى لِنَشْر تجاري جادّ في المنطقة. كلّ مختبر يَخْتَصِر فيه يَنْتُج نَموذجًا «مُتَحَدِّث للعربيّة» لا «مُحَاذًى للسكّان الناطقين بالعربيّة» — والفرق يَظْهَر في الأسبوع الأوّل من النَشْر.

كيف نُسَاعِد في Annota8

نحن لا نبني نماذج أساس. نُنْتِج طبقة المحاذاة التي تَحْتَاجها لِتَنْشُر في الخليج ومصر والشام. لدينا مُؤَشِّرون بدرجة دكتوراه في اللغويّات العربيّة في القاهرة، شراكات مع مُسْتَشَارين شرعيّين بأربعة مذاهب، وفريق محاماة بولايات قضائيّة في الرياض والقاهرة وأبو ظبي. نَبْنِي بيانات RLHF أصليّة، مَجَمُوعَات تَفْضِيلات، عيّنات red-teaming بطبقات مذهبيّة وسياسيّة وجَنْدَريّة.

ناقش طبقة محاذاة نموذجك العربي → جلسة 30 دقيقة اطّلع على مخطّط مختبر FM سيادي في KSA