معالجة لغة الأمازيغية والبربر في المغرب العربي: اللغة الثالثة الناقصة التغطية
عائلة لغات، لا لسانًا واحدًا
الأمازيغيّة ليست لغة واحدة. هي فَرْع من العائلة الأفروآسيويّة، مُوازٍ للفَرْع الساميّ (الذي تَنْتَمِي إليه العربيّة)، بتنوّع داخلي يُشَبَّه بتنوّع اللغات الرومانسيّة (الإيطاليّة والإسبانيّة والفرنسيّة والروماني وغيرها). والتعامل معها كَكَتْلَة واحدة هو الخطأ الأوّل الذي تَقَع فيه أغلب فِرَق NLP.
التنويعات التي تَهُمّ تجاريًّا في 2026:
- تشلحيت (تَشَلْحِيت، Shilha) — جنوب المغرب، وادي سوس، الأطلس الصغير. حوالي 4-5 ملايين متحدّث. أكبر تنويعة بربريّة في المغرب. لها تراث أدبي عريق مكتوب بالخطّ العربي يَعُود قرونًا.
- الأمازيغيّة المركزيّة (أمازيغيّة الأطلس المتوسّط) — وسط المغرب، خنيفرة، بني ملال. حوالي 3 ملايين متحدّث. التنويعة الأقرب إلى ما اعتَمَدَه IRCAM أساسًا لجهد المعيرة.
- ترفيت (Tarifit، الريفيّة) — شمال المغرب، جبال الريف، الناظور، الحسيمة. حوالي 1.5 مليون متحدّث. متميّزة صوتيًّا بشكل يَكْسِر النماذج المُدَرَّبَة على الأمازيغيّة المركزيّة أو التشلحيت فقط.
- القبائليّة (Taqbaylit) — شمال الجزائر، تيزي وزو، بجاية، البويرة. حوالي 5-7 ملايين متحدّث. أكثر تنويعة بربريّة تطوّرًا رقميًّا، جزئيًّا بفضل الجالية القبائليّة القويّة في فرنسا.
- الشاوية (Tachawit) — جبال الأوراس شرق الجزائر. حوالي مليونين. موارد رقميّة أقلّ بكثير من القبائليّة.
- المزابيّة والورقليّة — جنوب الجزائر، مدن الواحات. سكّان صغار العدد لكن مدروسون لغويًّا جيّدًا.
- الطارقيّة (Tamasheq، Tamajaq، Tamahaq) — منطقة الساحل، جنوب الجزائر، جنوب ليبيا، مالي، النيجر، بوركينا فاسو. حوالي 1-2 مليون متحدّث. لها تراث خطّ قديم غَذَّى خطّ تيفيناغ الحديث.
- السيويّة — واحة سيوة المصريّة قرب الحدود الليبيّة. ربّما 15-30 ألف متحدّث. التنويعة البربريّة الوحيدة داخل مصر، ولا يَلْتَقِي بها أغلب اللغويّين القاهريّين.
- الأوجليّة والسوكنيّة — واحات ليبيّة. مُهَدَّدَة بالانقراض. غالبًا ما تَسْقُط من قوائم البائعين.
- الزناقيّة — جنوب موريتانيا. مُهَدَّدَة.
- النفوسيّة — جبل نفوسة في ليبيا. مئات الآلاف.
نموذج مُدَرَّب على بيانات وسائل التواصل القبائليّة — وهي بالفعل البيانات التي تَسْتَخْدِمها أغلب أبحاث NLP البربريّة الأكاديميّة — لن يَتَعَامَل مع استفسار صوتي بتشلحيت من أكادير، ولا مع استفسار بترفيت من الناظور. التنويعات في كثير من الحالات غير مَفْهُومَة بشكل متبادل. الادّعاء بعكس ذلك يُنْتِج بائعًا يَخْسَر مناقصات RTM و ENRS لِفِرَق قامت بالعمل فعلًا.
خطّ تيفيناغ — لا عربي ولا لاتيني
سؤال الخطّ هو الموضع الثاني الذي يَقَع فيه البائعون. الأمازيغيّة في 2026 تُكْتَب بثلاثة خطوط مختلفة بحسب البلد والمؤسّسة والمتحدّث:
- تيفيناغ (تيفيناغ-نِيو) — الخطّ الرسمي في المغرب منذ 2003، رَسَّمَه IRCAM واعْتُمِد في المدارس العموميّة. مُرَمَّز في يونيكود في الكتلة U+2D30–U+2D7F. يُقْرَأ من اليسار إلى اليمين. مميّز بصريًّا عن العربيّة واللاتينيّة — يَسْتَخْدِم أحرفًا مثل ⵣ، ⵍ، ⵎ، ⴰ، ⵜ.
- اللاتيني (الأبجديّة البربريّة اللاتينيّة) — المعيار الفعلي للقبائليّة في الجزائر وفي الشتات. يَسْتَخْدِم امتدادات مثل ɣ، ḍ، ṛ، ṣ، ṭ، ḥ. موقف الحكومة الجزائريّة من تيفيناغ مقابل اللاتيني أكثر غموضًا من موقف المغرب.
- الخطّ العربي — الخطّ التاريخي لأدب تشلحيت، لا يَزَال يُسْتَخْدَم في بعض النصوص الدينيّة التقليديّة جنوب المغرب، وهو الافتراضي لكثير من المتحدّثين الأكبر سنًّا الذين تَعَلَّموا الكتابة في مدارس عربيّة.
بائع يَدْعَم خطًّا واحدًا فقط سيَفْشَل في نصف السوق. خطّ معالجة أمازيغي جادّ يَتَطَلَّب: كَشْف الخطّ، تَطْبِيع الخطّ، التَّحْوِيل بين الخطوط الثلاثة، والقدرة على إنتاج المخرجات بالخطّ الذي يَتَطَلَّبه سياق النشر (تيفيناغ للقطاع العامّ المغربي، اللاتيني لإعلام الجزائر والشتات، الخطّ العربي للمحتوى الديني أو الريفي الأقدم).
هذه ليست مشكلة هندسيّة تافهة. كتلة تيفيناغ في يونيكود مُحَدَّدَة جيّدًا لكنّها لا تَزَال مَدْعُومَة بشكل متقطّع في الخطوط ومكتبات التَّقْدِيم (rendering). الامتدادات اللاتينيّة البربريّة تَتَدَاخَل مع امتدادات أنظمة نَسْخ أفريقيّة أخرى، ممّا يُسَبِّب أخطاء ترميز. الأمازيغيّة بالخطّ العربي ليس لها قواعد إملاء معياريّة موحَّدَة — تَخْتَلِف بحسب التقليد المخطوطي.
الوضع الرسمي: المغرب 2011، الجزائر 2016
هذا ليس تَمْرِينًا أكاديميًّا. الوضع القانوني للأمازيغيّة في 2026:
المغرب. المُرَاجَعَة الدستوريّة لعام 2011 (الفصل 5) جَعَلَت الأمازيغيّة لغة رسميّة للدولة إلى جانب العربيّة. القانون التنظيمي 26-16 لعام 2019 وَضَع جدول التنفيذ لِدَمْج الأمازيغيّة في التعليم والقضاء والإدارة العامّة والإعلام واللافتات. التنفيذ متفاوت — لكنّه ماضٍ. تَدْرِيس الأمازيغيّة في المدارس العموميّة إلزامي الآن في الابتدائي، ويَنْتَشِر تدريجيًّا في الإعدادي والثانوي. المواقع الحكوميّة مَطْلُوب منها توفير نسخ بالأمازيغيّة. RTM (الشركة الوطنيّة للإذاعة والتلفزة) تُشَغِّل قناة Tamazight TV (سابقًا القناة 8) كَقَنَاة 24 ساعة باللغة الأمازيغيّة.
الجزائر. المُرَاجَعَة الدستوريّة في فبراير 2016 جَعَلَت الأمازيغيّة لغة رسميّة إلى جانب العربيّة. التنفيذ أبطأ من المغرب وأكثر تنازعًا سياسيًّا، لكنّ ENRS (المؤسّسة العموميّة للتلفزيون) تَحْتَفِظ ببرمجة باللغة البربريّة، أساسًا بالقبائليّة، والأمازيغيّة تُدَرَّس في كثير من الولايات كَمَادَّة اختياريّة.
ليبيا. لا وضع رسمي دستوري. الأمازيغيّة (أساسًا التنويعات النفوسيّة والزواريّة) اسْتُخْدِمَت في بعض الإدارة المحليّة في منطقة نفوسة بعد 2011، لكنّ الاعتراف الفدرالي لم يَحْدُث.
تونس، موريتانيا، مالي، النيجر، مصر. حضور مجتمعي على مستويات متفاوتة، لا وضع دستوري (وإن كانت مالي والنيجر تَعْتَرِفان بالطارقيّة كَلُغَة وطنيّة مع دعم تنفيذي).
النتيجة التَّوْرِيدِيَّة: أيّ بائع يَتَقَدَّم لمناقصة قطاع عامّ مغربي أو جزائري على نظام ذكاء اصطناعي يَتَعَامَل مع «اللغات الوطنيّة» لكن دون خطّة للأمازيغيّة، هو يُقَدِّم عَرْضًا ناقصًا. هذه ليست ملاحظة تسويقيّة — هي ملاحظة دستوريّة.
آليّة المعيرة: IRCAM، IPAC، الجامعات
النظام المؤسّسي وراء معيرة الأمازيغيّة يَهُمّ لأنّ مُشْتَرِي القطاع العامّ يَنْظُرون إليه.
IRCAM (المعهد الملكي للثقافة الأمازيغيّة، Institut Royal de la Culture Amazighe) — أُسِّس في الرباط في 2001 بِظَهِير ملكي. الجهة المرجعيّة في المغرب لمعيرة الأمازيغيّة. أَنْتَجَ ترميز خطّ تيفيناغ-نِيو (اعْتَمَدَته يونيكود في 2004-2005)، وقواميس وقواعد مرجعيّة، والأمازيغيّة المعياريّة التي تُدَرَّس في المدارس العموميّة المغربيّة (والتي تَسْتَنِد أساسًا إلى الأمازيغيّة المركزيّة مع تأثيرات من تشلحيت وترفيت). يَنْشُر IRCAM عملًا معجميًّا وأرشيف نصوصي مستمرًّا وهو نقطة مرجعيّة لا غنى عنها لأيّ نشر مغربي جادّ.
IPAC ومؤسّسات أكاديميّة جزائريّة مشابهة، وكذلك جامعة بجاية وجامعة مولود معمري بتيزي وزو، يَعْمَلون على تطوير الأرشيف القبائلي ومعيرة الإملاء وموادّ التعليم.
جامعة محمد الخامس بالرباط وجامعة القاضي عيّاض بمراكش لديهما مجموعات بحث NLP تُنْتِج بيانات وقياسات للأمازيغيّة. وكذلك جامعة محمد الأوّل بوجدة لأعمال الترفيت.
موارد أكاديميّة وقياسات بارزة:
- BIM-Bench — قياس بربري متعدّد اللهجات، محاولة لتقييم النماذج على الأمازيغيّة عَبْر تنويعات متعدّدة.
- AMTNet — شبكة موارد ترجمة أمازيغيّة.
- أرشيفات IRCAM — الأرشيفات المرجعيّة الرسميّة، تَشْمَل نصًّا معيارًا بخطّ تيفيناغ.
- MorphTifinagh — مورد تحليل صرفي للأمازيغيّة بخطّ تيفيناغ.
- Common Voice — يَحْتَوِي على بيانات صوتيّة قبائليّة، تُسْتَخْدَم لأعمال ASR.
كلّها مفيدة، كلّها ناقصة، وأكبرها لا يَصِل إلى حجم ما تَتَعَامَل معه نماذج العربيّة التجاريّة. أكبر بيانات الأمازيغيّة تَصِل إلى ملايين منخفضة من الرموز اللغويّة. النماذج العربيّة تَتَدَرَّب على مئات المليارات. الفجوة حقيقيّة.
ما يَتَطَلَّبه نَشْر الذكاء الاصطناعي في القطاع العامّ في 2026
هنا تَنْتَقِل المحادثة من الأكاديمي إلى التجاري.
الخدمات الرقميّة الحكوميّة المغربيّة. خطّة «المغرب الرقمي 2030» والدفع الأوسع نحو الحكومة الإلكترونيّة يَفْتَرِضان خدمات للمواطنين بالعربيّة والفرنسيّة والأمازيغيّة. روبوت محادثة للصندوق الوطني للضمان الاجتماعي، نظام ردّ صوتي لِمُسْتَشْفًى جهوي، بوّابة طلبات عروض عموميّة — أيّ من هذه يَحْتَاج التعامل مع استفسارات بالأمازيغيّة إذا كان النشر وطنيًّا. البائعون الذين يَتَقَدَّمون بمكدّسات عربيّة فقط يَخْسَرون أمام بائعين يَسْتَطِيعون عَرْض خارطة طريق ذات مصداقيّة للأمازيغيّة.
الخدمات الرقميّة الحكوميّة الجزائريّة. انتشار أبطأ لكن نفس الاتّجاه. وزارة البريد والمواصلات السلكيّة واللاسلكيّة وولاية تيزي وزو بالأخصّ أَشَارَتا إلى متطلّبات دعم القبائليّة في لغة المناقصات.
الالتزامات الإذاعيّة. RTM Tamazight TV وقنوات ENRS الجهويّة بحاجة إلى ASR، وتوليد ترجمات نصّيّة، وأدوات ضبط محتوى، وأنظمة توصية تَتَعَامَل مع المحتوى الأمازيغي. أغلب بائعي الترجمة النصّيّة التجاريّة لا يَتَعَامَلون مع ذلك.
انتشار النظام التعليمي. وزارتا التعليم في المغرب والجزائر تَنْشُران أدوات تعلّم رقميّة على نطاق واسع، ومحتوى المنهج باللغة الأمازيغيّة شرط صعب. هذا يَسْحَب: OCR للموادّ بخطّ تيفيناغ، TTS لإمكانيّة الوصول، أدوات تَدْقِيق نحوي.
إعلام الشتات والبحث. الشتات القبائلي في فرنسا وبلجيكا وكندا نَشِيط رقميًّا. أيّ منصّة إعلام أو شبكة اجتماعيّة تَخْدِم شتات المغرب العربي لديها محتوى أمازيغي تَتَعَامَل معه.
المغزى: الطلب التجاري ليس افتراضيًّا. عَرْض البائعين المُؤَهَّلين هو نقطة الاختناق.
ما تَسْتَطِيع Annota8 وما لا تَسْتَطِيع — بصراحة
هذا هو الجزء الذي تَتَجَاوَزه أغلب مدوّنات البائعين. لن أَتَجَاوَزه.
ما نَسْتَطِيع تقديمه اليوم. لدينا قوّة عاملة بدرجة دكتوراه في اللغويّات في القاهرة تَعْمَل بالعربيّة، تَشْمَل متخصّصين في عربيّة المغرب العربي (الدارجة المغربيّة، الدارجة الجزائريّة، الدارجة التونسيّة، العربيّة الليبيّة). نَسْتَطِيع التعامل مع محتوى عربي-أمازيغي مُتَحَوِّل لغويًّا حيث تَحْمِل العربيّة معظم الإشارة — مثلًا نسخة خدمة عملاء مغربيّة فيها عبارات تشلحيت عَرَضيّة. نَسْتَطِيع كَشْف الخطّ وتَطْبِيعه عَبْر العربيّة واللاتينيّة وتيفيناغ. نَسْتَطِيع بناء أُطُر تقييم لمخرجات نماذج الأمازيغيّة باستخدام موادّ IRCAM المرجعيّة المنشورة كَمَعِيار.
ما لا نَسْتَطِيع تقديمه اليوم. ليس لدينا في القاهرة قوّة مُؤَشِّرين من الناطقين الأصليّين بالتشلحيت أو الترفيت أو القبائليّة بأعداد كبيرة. لمشاريع تَتَطَلَّب تأشيرًا أمازيغيًّا أوّليًّا — مثلًا بناء مجموعة تدريب ASR قبائلي، أو تأشير نُسَخ استشارات طبّيّة بتشلحيت — نَحْتَاج إمّا التعاقد من الباطن أو بناء قوّة عاملة في المغرب أو الجزائر. هذا التزام، لا حلّ سريع.
ما نَسْتَكْشِفه لِعام 2026. بَدَأنا محادثات مع شركاء تأشير في الرباط والجزائر ومع كلّيّات لغويّات في جامعة محمد الخامس وجامعة بجاية حول توسيع قوّة عاملة خاصّة بالأمازيغيّة. الاقتصاديّات مختلفة عن القاهرة — التسعير أعلى (تكاليف الساعة في الرباط حوالي 1.5-2 ضِعْف القاهرة، بِـ MAD المربوط باليورو؛ والجزائر بِـ DZD أقرب للقاهرة لكنّ عَرْض المُؤَهَّلين أضعف)، عَرْض اللغويّين المُؤَهَّلين أقلّ، وتركيز القوّة العاملة مُقَسَّم جغرافيًّا بين مناطق تَتَكَلَّم تشلحيت وترفيت والأمازيغيّة المركزيّة. هذا توسّع حقيقي، لا ادّعاء تسويقي.
ما يَجِب أن يَتَوَقَّعه المُشْتَرُون منّا في المدى القريب. صراحة حول التغطية. بيان واضح بأيّ تنويعة أمازيغيّة نَسْتَطِيع العمل عليها. بيان واضح بأيّ خطّ نَسْتَطِيع إنتاجه. إذا كان المشروع يَتَطَلَّب ناطقين أصليّين بالقبائليّة ولا نَمْلِكهم بعد، سَنَقُول ذلك بدلًا من محاولة المراوغة بمتحدّثين بلغة ثانية. كُلْفَة المراوغة في هذا السوق هي تَسْلِيم سيّء واحد لِـ RTM أو ENRS، وعندئذٍ يُغْلَق الباب لسنوات.
ما يَجِب أن تَسْأَل البائع — قائمة قصيرة
إذا كنت تَشْتَرِي نظام NLP عربي / مغرب عربي في 2026 والأمازيغيّة تَهُمّك، اسأل:
- أيّ تنويعات أمازيغيّة يَدْعَمها نظامك؟ (تشلحيت / مركزيّة / ترفيت / قبائليّة / طارقيّة / غيرها؟)
- أيّ خطوط؟ (تيفيناغ / لاتيني / عربي — الثلاثة معًا؟)
- أين تَقَع قوّتك العاملة لتأشير الأمازيغيّة؟ (القاهرة لن تكون إجابة ذات مصداقيّة للعمل الأمازيغي الأوّلي.)
- ما علاقتك بِـ IRCAM أو بالمجتمع الأكاديمي الجزائري للأمازيغيّة؟ (هل اسْتَخْدَمْت أرشيفات IRCAM؟ اسْتَشْهَدْت بها؟ راجعت مخرجاتك مقابل قواعد IRCAM النحويّة؟)
- ما فجوة الأداء بين أقوى تنويعة لديك (عادةً القبائليّة) وأضعفها؟ كَمِّمها.
- هل تَسْتَطِيع التعامل مع التحوّل اللغوي بين الأمازيغيّة والعربيّة والفرنسيّة في نفس الكلام؟ (مُسْتَخْدِمو المغرب العربي يَفْعَلون هذا باستمرار.)
- ما تغطيتك لِـ TTS؟ أغلب TTS الأمازيغي اليوم يَبْدُو كَمُتَحَدِّث بالعربيّة التونسيّة يَقْرَأ نصًّا منسوخًا حرفيًّا — هذا غير مَقْبُول لِبَثّ تلفزيوني أو لخدمات حكوميّة.
إذا لم يَسْتَطِع البائع الإجابة على هذه الأسئلة السبعة بِخُصُوصِيَّة، فهو يَعْرِض طموحات، لا قدرات.