ملاحظات ميدانية · Annota8 · الذكاء الاصطناعي، مشروحًا

من علّم كأس العالم أن يرى؟

مهاجم ينطلق، سنتيمتران يحسمان القرار، ويستقر الخط في ثوانٍ. لكن ذكاء التسلل في كأس العالم لم يتخذ ذلك القرار وحده — تحت أكثر أنظمة الذكاء الاصطناعي الرياضية تقدمًا على الأرض يقبع أساسٌ من ملايين الأمثلة المُصنَّفة بشريًا. إليك من علّم الآلة أن ترى.

Annota8·١٨ يونيو ٢٠٢٦· قراءة ٨ دقائق·شاهد الفيلم (٤ دقائق)
شاهد · كيف تتعلّم الآلة أن ترى
خط تسلل في كأس العالم ٢٠٢٦، مرسوم حتى السنتيمتر ومعروض مباشرةً — النهاية المرئية لسلسلة تبدأ من التصنيف البشري.

الإجابة المختصرة

في عجلة؟ شاهد الفيلم (٤ دقائق) أعلاه، أو اطّلع على النقاط الخمس بالأسفل.

  • التسلل شبه آلي، لا آلي. الذكاء الاصطناعي يقيس الموضع ويشير إلى تسلل واضح؛ والحكم البشري هو من يتخذ كل قرار.
  • شيئان فقط مؤتمتان: تقنية خط المرمى (آلية بالكامل، منذ ٢٠١٤) وتنبيهات التسلل الواضح (جديدة لـ٢٠٢٦، تُرسل مباشرةً إلى الحكام على الأرض).
  • الكرة تحمل مستشعرًا بتردد ٥٠٠ هرتز (adidas Trionda، بُني مع Kinexon) يوقّت اللمسة في حدود مللي ثانيتين — ما تعجز عنه الكاميرات.
  • ١٦ كاميرا لكل ملعب، وأكثر من ١٥٠ مليون نقطة بيانات في المباراة تضع كل لاعب والكرة في إحداثيات الملعب الحقيقية.
  • كل ذلك يقوم على تصنيفات بشرية. البحث المفتوح وحده يضم ٩٫٣٧ مليون نقطة ملعب و٢٫٣٦ مليون موضع لاعب موضوعة يدويًا. البشر يعلّمون الآلة.

مهاجم ينطلق. مدافع يثبّت الخط. سنتيمتران يفصلان بين هدف وراية تسلل.

في كأس العالم ٢٠٢٦، يعود ذلك القرار في ثوانٍ. مرسومًا حتى السنتيمتر. مباشرةً، على شاشات الملعب.

شاهده وهو يستقر، وستلجأ إلى الإجابة البديهية: آلة هي من اتخذت القرار.

لم تفعل. ليس حقًا.

الخط الذي تراه هو نهاية سلسلة طويلة. والسلسلة لا تبدأ من مستشعر. تبدأ من بشر.

قبل أن تتمكن أي كاميرا من إيجاد لاعب، كان على إنسان أن يعلّمها كيف يبدو اللاعب. وقبل أن يرسم أي نظام خريطة لملعب، كان على إنسان أن يحدّد أين الخطوط. إطارًا بإطار. نقطةً بنقطة. باليد.

أكثر أنظمة الذكاء الاصطناعي الرياضية تقدمًا على الأرض يعمل في هذا المونديال. وتحته يقبع أساسٌ لا يكاد أحد يتحدث عنه — ملايين الأمثلة المُصنَّفة بشريًا.١

إليك إذن القصة الخفية. من علّم الذكاء الاصطناعي لكأس العالم أن يرى؟

كيف تتعلّم الآلة الملعب واللاعبين

فلنبدأ من حيث تعجز الآلة: من البشر الذين علّموها. في محرك التصنيف من Annota8، يحدّد شخصٌ المعالم الثابتة أولًا. خطوط التماس. المرمى. منطقة الجزاء. دائرة المنتصف. خط المنتصف.

تربط تلك العلامات إطارَ بثٍّ مسطحًا بالملعب الحقيقي المُقاس. تحدّد أحدث تقنيات معايرة كرة القدم ٥٧ نقطة هندسية موزّعة على ٢٦ فئة مُصنَّفة من علامات الملعب — يضعها البشر بأيديهم.٢٣

الآلة لا «ترى» ملعبًا. البشر يحدّدون الهندسة أولًا.

ثم يأتي اللاعبون. مربّع حول كل لاعب يعلّم الكشف — هذا جسد، هنا، في هذا الإطار. ثم نقاط مفصلية للوضعية: الرأس، الكتفان، الوركان، القدمان. تلك هي الأطراف التي تحسم التسلل.

رأس كتف ركبة كاحل

الأطراف التي تحسم التسلل

ما يصل إلى ٢٩ نقطة هيكلية لكل لاعب، تُقرأ عدة مرات في الثانية.٤ النموذج لا يجد كاحلًا إلا لأن شخصًا صنّف الكواحل أولًا — إطارًا بعد إطار، زاويةً بعد زاوية.

رأس
كتفان ووركان
مرفقان
ركبتان وكاحلان

زاوية واحدة لا تكفي. فيُحاط اللاعب نفسه بمربّع من كل زاوية — بثّ مرتفع، خلف المرمى، تكتيكي واسع. أحِط الجسد نفسه في كل إطار، فتتحول الصورة المسطحة إلى موضع ثلاثي الأبعاد. في ملعب ٢٠٢٦، تراقب ١٦ كاميرا بصرية في آنٍ واحد.٤

محرك التصنيف من Annota8 في عرض متعدد الكاميرات: اللاعب نفسه مُحاط بمربّع عبر زوايا البثّ المختلفة.
داخل محرك التصنيف من Annota8: الجسد نفسه مُحاط بمربّع عبر كل زاوية كاميرا — هكذا تتحول صورة مسطحة إلى موضع ثلاثي الأبعاد.

هذا توضيح، لا خط إنتاج «فيفا». لكن الدرس صالح في كل مكان. مجموعة بيانات SoccerNet المفتوحة وحدها تحمل ٩٫٣٧ مليون نقطة خطوط ملعب موضوعة يدويًا و٢٫٣٦ مليون موضع لاعب مُصنَّف.١

الكرة التي أربكت الكاميرات

الكاميرات مصمَّمة للأجساد، لا للرصاص. كرة مضروبة قد تتحرك أسرع من العين وأسرع من الإطار. تتشوّش. تنكمش إلى بضع بكسلات. تمرّ ساق فتحجبها.

تلك هي مشكلة البصريات. الرؤية الحاسوبية الإنتاجية تتعلّم من إطارات مُصنَّفة بشريًا، وتتدهور دقتها حين تكون البيانات شحيحة أو الجسم صعب الرؤية.٥ كرة في منتصف طيرانها هي أصعب إطار على الإطلاق.

فتوقّفت «فيفا» عن تكليف الكاميرات بالمهمة وحدها.

تُلعب كأس العالم ٢٠٢٦ بكرة adidas Trionda. داخل واحدة من ألواحها الأربعة يقبع مستشعر حركة بتردد ٥٠٠ هرتز — نُقل من المركز، حيث علّقته قطر ٢٠٢٢، وبُني داخل اللوح نفسه.٦ يقرأ الكرة ٥٠٠ مرة في الثانية.

بُني مع Kinexon، ويحدّد ذلك المستشعر اللحظة الدقيقة للمسة في حدود مللي ثانيتين تقريبًا٧ — دقة لا يبلغها أي معدل إطارات كاميرا.

داخل كرة المباراة: مستشعر بتردد ٥٠٠ هرتز يوقّت اللمسة في حدود مللي ثانيتين.
كرة adidas Trionda: مستشعر بتردد ٥٠٠ هرتز مدمَج في واحد من أربعة ألواح يقرأ الكرة ٥٠٠ مرة في الثانية ويوقّت اللمسة في حدود مللي ثانيتين.

عيون في الخارج. نبضٌ في الداخل. الكاميرات تراقب الملعب. الشريحة تستشعر الركلة. معًا يلتقطان ما لا يقدر أيٌّ منهما وحده — المللي ثانية التي ضُربت فيها الكرة.

هل التسلل آلي بالكامل في كأس العالم ٢٠٢٦؟ لا — الآلة تقيس، والبشر يقرّرون

إليك الجزء الصادق. لا شيء تقريبًا في هذا المونديال آلي بالكامل.

شيء واحد كذلك: تقنية خط المرمى. نحو سبع كاميرات تراقب كل مرمى. دقة بالمليمتر. ساعة الحكم تهتزّ في حدود ثانية. وهي معيار كأس العالم منذ ٢٠١٤ — ليست جديدة، وليست شريحة الكرة، وليست التسلل.٨٩

تجيب عن سؤال واحد. هل عبرت الكرة كاملةً الخط؟ نعم أو لا. لا شيء آخر.

التسلل يحصل على مُخرَج آلي ثانٍ، وهو جديد لعام ٢٠٢٦. نسخة متقدمة من تقنية التسلل شبه الآلية ترسل حالات التسلل الواضحة مباشرةً إلى الحكام المساعدين على أرض الملعب — لا إلى غرفة الـVAR فقط — لترتفع الراية أسرع.٤

لكن اقرأ الكلمة مجددًا. شبه آلية. النظام يقيس الموضع. والحكم على الأرض هو من يتخذ القرار.

آلي الآلة تجيب

  • خط المرمى: هل عبرت الكرة كاملةً؟ (آلي بالكامل، منذ ٢٠١٤)
  • تسلل موضعي واضح: تنبيه للحكم (شبه آلي، جديد لـ٢٠٢٦)

بشري البشر يقرّرون

  • الأخطاء، ركلات الجزاء، لمسة اليد
  • التأثير في اللعب، كرة فوق الخط بقليل
  • كل قرار تقديري — تسترشد به البيانات

كل ما عدا ذلك يبقى بشريًا. خطأ. ركلة جزاء. لمسة يد. كرة تستقر فوق الخط بقليل. الآلة تقيس. البشر يقرّرون.٤

وتلك ميزة، لا خلل. الخط يُرسم بالسنتيمتر لأن البشر حدّدوا كيف يبدو «الصحيح» — إطارًا بإطار، مثالًا بعد مثال. النطاق الضيّق الذي تستطيع الآلة الحكم فيه، تستطيعه لأن البشر علّموها. والنطاق الواسع الذي تعجز عنه، تتركه للبشر.

الطبقة البشرية في الأسفل

إليك الجزء الذي لا يضعه أحد على البثّ. قبل أن يتمكن أي نموذج من مشاهدة مباراة، على شخصٍ أن يعلّمه أن يرى. ليس الذكاء الاصطناعي. إنسان، إطارًا بإطار.

انظر إلى البحث المفتوح وسيظهر حجم ذلك التعليم سريعًا. مجموعة بيانات حالة اللعب من SoccerNet — أكاديمية، ليست لـ«فيفا»، وليست لنا — تحمل ٩٫٣٧ مليون نقطة خطوط ملعب موضوعة يدويًا لتعليم النموذج أين الميدان.١ والمجموعة نفسها تصنّف يدويًا ٢٫٣٦ مليون موضع لاعب، كلٌّ موسوم بالدور والفريق والرقم.١

٩٫٣٧ مليون
نقطة خطوط ملعب، موضوعة يدويًا
٢٫٣٦ مليون
موضع لاعب مُصنَّف
٥٧
نقطة معايرة هندسية
٢٦
فئة تعليم لخطوط الملعب

تلك مجموعة بيانات مفتوحة واحدة. تحت رياضة واحدة. النموذج لا يتعلّم خط تماسٍ لأنه ذكي. يتعلّمه لأن أحدهم رسم ذلك الخط مليون مرة — عبر كل زاوية وإضاءة وقميص — حتى رسخ النمط.

النموذج لا يهلوس لأن أحدهم كتب دالة سيئة. يهلوس لأن لا أحد أعطاه ما يكفي من الأمثلة الجيدة.

مليونا إطار مُصنَّف يدويًا تُغذّي نموذجًا يقرأ بعدها إطارًا جديدًا بنفسه.
الناس يعلّمونه بالأمثلة: إطارات مُصنَّفة يدويًا تصبح الحقيقة الأساسية التي يتدرّب عليها النموذج — ثم يقرأ إطارًا جديدًا بنفسه.
البشر يعلّمون الآلة.
ذكاؤك الاصطناعي ليس أفضل ممّن علّموه

أكبر مسرح في الرياضة يتعلّم بالطريقة التي يتعلّم بها كل ذكاء. من أيدٍ بشرية.

أنا أحمد رفيق فهمي، وقد أدرتُ أنا وشريكي المؤسّس عمليات تصنيف البيانات لعقدٍ كامل — وكلانا عمل سابقًا في Affectiva وSmart Eye — قبل أن نبني المنتج. ما هو متاح اليوم: محرك التصنيف من Annota8 — ١٨٠ واجهة تصنيف عبر ٧ وسائط — إضافةً إلى مساعد ذكي يجيب عن أسئلتك حول بيانات تصنيفك. تلك الطبقة من التعليم البشري هي ما نبنيه.

أسئلة شائعة

تقيس الكاميرات والكرة أين يوجد كل لاعب وأين الكرة، ثم ينبّه النظام الحكام عندما يكون لاعب في تسلل واضح. يشغّل كل ملعب ١٦ كاميرا تتبّع بصرية إضافةً إلى كرة Trionda المتصلة، ولأول مرة ترسل نسخة متقدمة حالات التسلل الواضحة مباشرةً إلى الحكام على أرض الملعب، لا إلى غرفة الـVAR فقط. النظام يقيس الموضع؛ والحكم المساعد هو من يتخذ القرار. — المصدر: فيفا

لا. إنه شبه آلي — يقيس الذكاء الاصطناعي الموضع ويشير إلى تسلل واضح، لكن حكمًا بشريًا يتخذ كل قرار. القرارات التقديرية كالتأثير في اللعب أو لمسة اليد المتعمَّدة أو الأخطاء لا تُؤتمت أبدًا. — المصدر: فيفا

الـTrionda هي كرة المباراة الرسمية لمونديال ٢٠٢٦، وتحمل مستشعر حركة بتردد ٥٠٠ هرتز يقبع داخل واحدٍ من ألواحها الأربعة بدلًا من المركز. بُني مع Kinexon، ويقرأ الكرة ٥٠٠ مرة في الثانية ويحدّد اللمسة في حدود مللي ثانيتين تقريبًا. — المصدران: adidas، Kinexon

أكثر من ١٥٠ مليون نقطة بيانات في كل مباراة — من ١٦ كاميرا في كل ملعب من الملاعب الـ١٦ (صعودًا من ١٢ في قطر ٢٠٢٢)، مدمَجةً مع تدفق الكرة البالغ ٥٠٠ قراءة في الثانية. — المصدر: فيفا

تقنية خط المرمى نظام منفصل وآلي بالكامل: نحو سبع كاميرات لكل مرمى، دقيقة بالمليمتر، تهزّ ساعة الحكم في حدود ثانية. تجيب عن سؤال واحد فقط — هل عبرت الكرة كاملةً الخط — وهي معيار منذ ٢٠١٤. ولا علاقة لها بالتسلل ولا بشريحة الكرة. — المصدران: الدوري الإنجليزي، ويكيبيديا

١٦ كاميرا تتبّع بصرية لكل ملعب، صعودًا من ١٢ في قطر ٢٠٢٢. تتعقّب عشرات النقاط الهيكلية لكل لاعب عدة مرات في الثانية — حدّدتها «فيفا» بما يصل إلى ٢٩ نقطة، ٥٠ مرة في الثانية لمنهج ٢٠٢٢. — المصدر: فيفا

يُدرَّب على فيديو مُصنَّف بشريًا — يحدّد الناس يدويًا مواضع اللاعبين والنقاط المفصلية وخطوط الملعب، إطارًا بإطار. تُظهر مجموعة SoccerNet الحجم: ٢٫٣٦ مليون موضع لاعب مُصنَّف يدويًا. البشر يعلّمون الآلة. — المصدر: SoccerNet

التصنيف هو أن يصنّف الناس اللقطات — مربّعات حول اللاعبين، ونقاط مفصلية، وكل خط ملعب — كي يتعلّم النموذج ما ينظر إليه. الرؤية الحاسوبية الإنتاجية تعلُّمٌ خاضع للإشراف يعتمد على تصنيفات بشرية عالية الجودة. عمل المعايرة في SoccerNet وحده يقوم على ٩٫٣٧ مليون نقطة موضوعة يدويًا. — المصدر: SoccerNet

لا. الذكاء الاصطناعي يقيس الموضع ويُظهر الدليل؛ والبشر يقرّرون كل خطأ وركلة جزاء ولمسة يد. المُخرَجان الآليان الوحيدان هما خط المرمى والتسلل شبه الآلي. وكل ما هو تقديري يبقى مع الحكم والـVAR. — المصدر: فيفا

المراجع

  1. SoccerNet Game State Reconstruction (CVPR 2024). arxiv.org/abs/2404.11335
  2. Enhancing Soccer Camera Calibration Through Keypoint Exploitation (ACM MMSports 2024). arxiv.org/html/2410.07401v1
  3. SoccerNet sn-calibration. github.com/SoccerNet/sn-calibration
  4. Innovation at the FIFA World Cup 2026. FIFA. inside.fifa.com
  5. Human Annotations Remain Indispensable for Developing Deep Learning Models. arxiv.org/abs/2108.00114
  6. adidas Unveils Trionda. adidas. news.adidas.com
  7. Everything you need to know about ball tracking. Kinexon. kinexon-sports.com
  8. Goal-line technology. Wikipedia. en.wikipedia.org
  9. How goal-line technology works. Premier League. premierleague.com

لنُعلّم الآلات — معًا.

كأس العالم يقوم على الدرس نفسه الذي يقوم عليه كل ذكاء اصطناعي: لا يرى ولا يسمع ولا يفهم إلا بقدر جودة من علّموه. ونحن نبني تلك الطبقة من التعليم.

احجز اجتماعًا ←