كل المقالات

عقد كامل داخل الصناعة

أمضى فريق Annota8 المؤسِّس أكثر من عقد في إدارة عمليّات بيانات الذكاء الاصطناعي لأعمال إنتاجيّة في الرؤية الحاسوبيّة والصوت. خلال هذا العقد قَيَّمْنا، أجْرَيْنا تجارب أوّليّة، تَشارَكْنا، أو تَعامَلْنا بصور مختلفة مع أبرز منصّات التأشير وشبكات الموردين في المنظومة العالميّة — الأسماء التي يعرفها أيّ مُمارِس في الميدان: Scale AI, Labelbox, V7, SuperAnnotate, Encord, Kognic, Snorkel, iMerit, Sama, Surge AI, Appen, Toloka, CloudFactory. عبر تلك الارتباطات اشترينا أدوات، تفاوضنا على اتفاقيّات MSA، أَدرَجْنا قوى عاملة من شبكات موردين، عَايَرْنا مجموعات ذهبيّة، حاربنا تصعيدات الجودة، ووافقنا على فواتير بملايين الدولارات.

كلّ واحدة من تلك المنصّات بُنِيَت لمكان آخر. أغلبها بُنِيَت لمربّعات تأشير المركبات ذاتيّة القيادة في كاليفورنيا، أو لخطوط إنتاج الإشراف على المحتوى التي تخدم منصّات اجتماعيّة أمريكيّة، أو لإثراء فهارس التجارة الإلكترونيّة الأوروبيّة، أو للرؤية الحاسوبيّة في مصانع الصين. خرائط طريق المنتج، سلاسل توريد القوى العاملة، الإعدادات الافتراضيّة لإقامة البيانات، تغطية اللغات — كلّها تشير بعيدًا عن منطقتنا.

حين يَطرُق الباب فريق ذكاء اصطناعي من الشرق الأوسط أو شمال إفريقيا بحاجة لمعالجة لغة عربيّة، أو تأشير ASR لهجي، أو محتوى صور إقليميّ، أو قيد سيادي مرتبط بقانون حماية بيانات محلّي — الردّ المعتاد: “أرسلوا لنا عيّنات مُؤَشَّرَة وسنرى ما يمكننا فعله.” والنتيجة المعتادة: مشروع مُفصَّل يكلّف خمسة أضعاف السعر المعلَن، يَصِل في ضِعف المدّة، ويترك سؤال إقامة البيانات بلا جواب.

بعد عقد من مشاهدة هذا النمط يتكرّر، قرّر المؤسِّسون أن يَتوقَّفوا عن كونهم عملاء، ويصبحوا مُشَغِّلين.

الفجوة، في فقرة واحدة

العربيّة ليست لغةً واحدة. هي تَواصُل (continuum). الفصحى الحديثة (MSA) تجلس في الأعلى للإعلام والنصوص القانونيّة والسياق الديني. تحتها، عشرات اللهجات الإقليميّة تتبدّل من بلد إلى بلد، من مدينة إلى مدينة، من حيّ إلى حيّ. في المملكة العربيّة السعوديّة وحدها — الحجازيّة في جدّة والساحل الغربي (مع لفظ /q/ الكلاسيكي كـ /g/، حركات أنعم، وتأثير معجمي من قرون من احتكاك حُجّاج بيت الله)، النجديّة في الرياض والهضبة الوسطى (مع تحوّل /j/ إلى /y/ في عدّة سياقات معجميّة)، العربيّة الشرقيّة في الدمّام والمنطقة الشرقيّة (أقرب في خصائصها إلى البحرينيّة والقطريّة)، اللهجات الجنوبيّة في عسير وجازان (حيث تتسرّب الخصائص اليمنيّة عبر الحدود التاريخيّة). اعبُر حدودًا واحدة إلى مصر، تَجِد القاهريّة والصعيديّة تتباعدان بما يكفي لإضافة ترجمة مكتوبة في البثّ الوطني. اعبُر إلى المغرب، تَجِد الدارجة نفسها تختلف ماديًّا بين الدار البيضاء ومرّاكش وفاس وطنجة — وتُبادِل الفرنسيّة في السجلات التجاريّة. العراق، لبنان، تونس، الجزائر، السودان — نفس النمط، في كلّ مرّة.

منصّات التأشير العالميّة تتعامل مع “العربيّة” كعمود واحد في قائمة لغات منسدلة. النتيجة الواقعيّة: نماذج مُدَرَّبَة على هذه البيانات تَسمَع سائق تاكسي مصري وتُجيب بقواعد فصحى لا يتحدّث بها أحد في الحياة اليوميّة؛ تَسمَع صوتًا حجازيًّا وتُخفِق في تصنيف النيّة كلّيًّا؛ تَنسَخ مكالمة مركز خدمة عملاء مغربيّة بمعدّل خطأ كلمة (WER) أعلى من نسبة الفصحى بأربعة إلى ستّة أضعاف. والقوى العاملة المُتعاقَد معها بوصفها “متحدّثة بالعربيّة” تُكلَّف بمراجعة بيانات مُصنَّفَة لهجيًّا لا تُتقنها أصلًا. تَنهار سقف الجودة. يَتدهور النموذج. يدفع العميل مرّتَيْن.

أضِف فوق التحدّي اللغوي الواقع التشغيلي للمنطقة:

لا شيء من هذا يَشحَن من مورِّد مقرّه سان فرانسيسكو أو لندن أو برلين. وهذا ليس انتقادًا لتلك المنصّات — هم ممتازون فيما بُنُوا لأجله. هو فجوة بنيويّة: منصّة عالميّة مُحَسَّنَة لمنطقة مختلفة لا يمكن إعادة تشكيلها لتصبح عمليّة من قلب المنطقة. الإعدادات الافتراضيّة خاطئة في كلّ مستوى.

لماذا Annota8، ولماذا الآن

تَمُرّ المنطقة بمرحلة بناء جيليّة في الذكاء الاصطناعي. استراتيجيّات وطنيّة في المملكة العربيّة السعوديّة (SDAIA، الاستراتيجيّة الوطنيّة للبيانات والذكاء الاصطناعي، التحوّل الاقتصادي لرؤية 2030)، الإمارات (استراتيجيّة الذكاء الاصطناعي 2031، استثمارات G42 الإقليميّة في النماذج)، مصر (خارطة طريق المجلس الوطني للذكاء الاصطناعي)، قطر (برنامج Fanar من QCRI)، ومبادرات خليجيّة مُنَسَّقَة — كلّها دفعت الذكاء الاصطناعي العربي من فضول بحثي إلى أولويّة استراتيجيّة. مختبرات نماذج الأساس في المنطقة (Allam من SDAIA، Fanar من QCRI، Jais من G42، Falcon من TII) تحتاج بنية تأشير على نطاق إنتاجي لشحن أنظمة عربيّة قادرة في مرحلة الإنتاج.

هذه البنية لا بدّ أن تُبنَى هنا. لا يمكن استيرادها من مورِّد في منطقة أخرى، وتعديلها على الأطراف، وتسميتها سياديّة. لا بدّ أن تُصمَّم من الأساس مع الواقع اللغوي والتشغيلي والتنظيمي والثقافي للمنطقة كهموم من الدرجة الأولى — لا أفكار لاحقة.

تلك هي الفجوة التي أُسِّسَت Annota8 لسدّها.

رسالتنا

رسالة Annota8 أن تكون ممكِّنًا لمنظومة الذكاء الاصطناعي في الشرق الأوسط وشمال إفريقيا. نَبنِي العمليّة الإقليميّة للتأشير التي تُعطي كلّ فريق ذكاء اصطناعي في المنطقة والعالم الناطق بالعربيّة نفس عيار الأدوات والقوى العاملة والعمق التشغيلي الذي اعتبرته فِرَق سان فرانسيسكو أمرًا مفروغًا منه طوال العقد الماضي — لكن مُصمَّمَة لواقع هذه المنطقة، بهذه اللغة، بهذه الثقافة، مُقدَّمَة من داخل الحدود التنظيميّة التي يَعمَل فيها العميل.

عمليًّا، يعني ذلك ثلاثة التزامات:

  1. من قلب المنطقة افتراضيًّا، لا تعديلًا لاحقًا. العربيّة، الفصحى واللهجات الكبرى، من الدرجة الأولى. الإيقاع التشغيلي (الصلوات، رمضان، الجدولة الهجريّة) من الدرجة الأولى. الإعدادات الافتراضيّة لإقامة البيانات تنطبق على الأنظمة السياديّة المحلّيّة. القوى العاملة تُوظَّف وتُدرَّب وتُدفَع داخل المنطقة.
  2. أدوات في يد المنظومة. لسنا نحاول أن نكون عمليّة الذكاء الاصطناعي الوحيدة في المنطقة — نحاول أن نكون العمليّة التي يمكن لكلّ فريق آخر في المنطقة أن يَبنِي فوقها. جامعات محلّيّة، برامج نماذج الأساس السياديّة، فِرَق الذكاء الاصطناعي المصرفيّة، شركات ناشئة في الذكاء الاصطناعي الصحّي، مكاتب التحوّل الرقمي الحكوميّة، مختبرات الاتّصالات للذكاء الاصطناعي، شركات الوكلاء الصوتيّين — كلّها يجب أن تستطيع الشحن بسرعة أكبر لأنّ Annota8 موجودة.
  3. فَهْم ثقافي، لا لغوي فحسب. نموذج يَفهَم قواعد العربيّة لكنّه لا يَفهَم تدفّق حشد بكثافة حجّ، الشروط الحدّيّة على لغة ماليّة متوافقة مع AAOIFI، سجلّات الحشمة في تفاعلات المساعدين الصوتيّين، أو التنوّع الطائفي في تأشير النصوص الدينيّة — ليس نموذجًا تستطيع المنطقة الوثوق به في الإنتاج. الطبقة الثقافيّة مهمّة. نَبنِي لأجلها.

رؤيتنا

نريد لـ Annota8 أن تصبح العمود الفقري التشغيلي للذكاء الاصطناعي في الشرق الأوسط وشمال إفريقيا — ومن هناك، مساهمة المنطقة في صناعة التأشير العالميّة. الجيل القادم من نماذج الأساس سيحتاج بيانات يُؤشِّرها أناس يعيشون اللغات والثقافات التي يَفترض بالنموذج أن يَخدمها. تَملُك المنطقة العمق الديموغرافي، الثراء اللغوي، الوضوح التنظيمي، والآن النيّة الاستراتيجيّة لتكون مصدرًا رئيسيًّا لتلك البيانات. نريد لـ Annota8 أن تكون كيفيّة التقاء هذا العرض بهذا الطلب — أوّلًا للمنطقة، ثم للعالم.

إذا كان العقد الماضي لصناعة التأشير العالميّة قد بُنِيَ في كاليفورنيا، فالعقد القادم يَتَّسِع لعمليّة بُنِيَت هنا. تلك هي الشركة التي نَبنيها.

أين نحن اليوم، بصراحة

Annota8 في إطلاق ناعم. فريق صغير يَقُوده المؤسِّسون، مع ارتباطات مبكّرة عبر الأوساط الأكاديميّة والبرامج الابتكاريّة المرتبطة بالحكومة ومحافظ الإقامات (Accelerators). لا نَدَّعِي قائمة عملاء طويلة، أو موقعًا قياديًّا في السوق، أو منتجًا مكتمِلًا. نَدَّعِي أُطروحة، وفريقًا أمضى عقدًا في كسب حقّ تنفيذها، وخارطة طريق صاغها عقدٌ من رؤية النمط ذاته يتكرّر.

إذا كنتَ تَبنِي ذكاءً اصطناعيًّا للّغة العربيّة، أو ذكاءً اصطناعيًّا لمنطقة الشرق الأوسط وشمال إفريقيا، أو أيّ نظام ذكاء اصطناعي يجب أن تأتي حقيقته الأرضيّة من هذا الجزء من العالم — نريد أن نكون المحادثة التي تَخوضها مبكّرًا، قبل أن تَبدأ جداول البيانات، وحلول البديل عن المورّدين خارج المنطقة، وتصعيدات الجودة.

إلى أين نَتَّجِه من هنا