كل المقالات

البصمات الصوتية واللهجة: النقطة العمياء لكشف الاحتيال في البنوك في MENA

تذكير سريع بما تعنيه “البصمة الصوتيّة” فعلًا

نظام البصمة الصوتيّة يَقومُ بثلاثة أمور: يُسَجِّلُ العميل (يَلتَقِطُ عيّنة مرجعيّة ويَستَخرِجُ تمثيلًا متّجهيًّا)، يُصادِقُ عليه في مكالمة لاحقة (يَلتَقِطُ عيّنة جديدة، يَستَخرِجُ متّجهًا جديدًا، يَقيسُ التشابه مع المرجع)، ثم يُقَرِّرُ (فوق العتبة = نجاح، تحتها = فشل أو تصعيد).

وضعان للتسجيل والمطابقة:

أغلب نشرات بنوك MENA التي رأيتُها تَستَخدِمُ النموذج المستقلّ عن النصّ للمصادقة المتكرّرة في IVR (يتكلَّمُ العميل، يستمعُ النظام، تتحدَّثُ الدرجة باستمرار)، والنموذج المعتمد على النصّ للتصعيدات عالية المخاطر (التحويلات الكبيرة، تعديلات الملفّ).

ثلاثة أجيال من الخلفيّات هَيمَنَت على النشر التجاري في العقد الأخير:

الخلفيّةما تَفعَلُهنقطة القوّةنقطة الضعف
i-vectorمتّجه فائق GMM-UBM مُسقَط على فضاء التَنَوُّعِ الكلّي منخفض الأبعادرخيص؛ يَعمَلُ على صوت قصيرحسّاس لاختلاف القناة واللهجة
x-vectorشبكة عصبيّة بتأخير زمني تُنتِجُ تمثيلًا للمتحدّثتعميم أفضل؛ المعيار 2017-2020لا يزال يَعتَمِدُ على القناة؛ يَحتاجُ تكييفًا للمجال
ECAPA-TDNNTDNN مع انتباه قنوي مُضَخَّم وانتشار وتجميعالأحدث على أغلب المعايير العامّةأثقل حسابيًّا؛ لا يزال مُدَرَّبًا على بيانات إنجليزيّة في الغالب

موزّعو البصمات الصوتيّة في سوق الخليج ومصر — Nuance، Pindrop، Daon، ID R&D، NICE، وعدد من المُكامِلين الإقليميّين — كلّهم اليوم على x-vector أو ECAPA-TDNN. ليست الخلفيّة هي عنق الزجاجة. عنق الزجاجة هو بيانات التدريب والتقييم.

نمط الفشل #1: إيجابيّات زائفة من تَحَوُّل اللهجة

الحالة التي تَفتَتِحُ بها المواصفة — نجديّ عند التسجيل، حجازيّ عند المكالمة — حالة سمعتُها من قادة مراكز اتّصال في ثلاثة بنوك خليجيّة مختلفة خلال الاثني عشر شهرًا الماضية. وَيَجدُرُ أن نَكونَ دقيقين في وصف ما يَحدُثُ فعلًا.

حين يُسَجِّلُ العميل صوتَهُ وهو يَنطِقُ اللهجة النجديّة (لهجة وسط السعوديّة في الرياض والقصيم)، يَلتَقِطُ التمثيل المتّجهي خصائص جهاز نطقه مع طبقة من الأنماط الصوتيّة الخاصّة باللهجة: قَلبُ الكاف إلى /تس/ أمام الحركات الأماميّة، الإمالة في الألف الطويلة، خطّ التنغيم المميَّز في نهاية الجمل الخبريّة.

حين يَتَّصِلُ نفس العميل لاحقًا من داخل بيت العائلة ويُسَلِّمُهُ قريب يَنطِقُ الحجازيّة الهاتفَ (كنّة من جدّة مثلًا)، أو حين يُعَدِّلُ العميل نفسه سجلَّه اللهجي لأنّه في جمع عائلي، يَقَعُ التمثيل المتّجهي للعيّنة الجديدة في منطقة مختلفة معنويًّا من فضاء المتحدّث. بعض هذه المسافة هو المتحدّث (شخص مختلف). وبعضها هو السجلّ اللهجي (نفس الشخص، أسلوب كلام مختلف). المحرّك المُدَرَّبُ على هدف “التحقّق من المتحدّث” دون فصل هذَين الأمرَين يَتَعامَلُ مع الاثنَين كأنّهما “ليس المتحدّث المُسَجَّل” ويَرفُض.

الإيجابيّات الزائفة في تنبيهات الاحتيال ليست بلا تكلفة. كلّ تنبيه زائف هو عميل مُصَدَّق فعليًّا يَجدُ نفسَهُ — من منظوره — محجوبًا عن حسابه. وتظهر التكلفة في ثلاثة مواضع:

  1. صافي رضا العميل (NPS) — العميل الأكثر ولاءً هو الأكثر تَوَتُّرًا من أن يُقالَ له إنّ صوتَهُ “ليس صوتَه”.
  2. تكلفة مركز الاتّصال — كلّ إيجابيّة زائفة تَتَدَفَّقُ إلى موظّف بشري يُجري مصادقة معتمدة على المعرفة (KBA) تَستَغرِقُ من 3 إلى 7 دقائق.
  3. حركة الفروع — الإيجابيّات الزائفة المتكرّرة تَدفَعُ العميل إلى دخول الفرع، وهو القناة الأغلى تكلفة في تشغيل أيّ بنك خليجي.

النمط نفسه يَظهَرُ عبر MENA في أزواج لهجيّة مختلفة: عميل قاهري سُجِّلَ صوتُهُ ويَتَّصِلُ وهو يَنطِقُ الصعيدي في البيت؛ عميل إماراتي سُجِّلَ بالخليجيّة ويَتَّصِلُ وهو يُكَيِّفُ لهجته مع زوجة شاميّة؛ عميل كويتي سُجِّلَ في سجلّ رسمي وخطابه اليومي أكثر استرخاءً بكثير.

نمط الفشل #2: خَلْطُ الرموز عند التسجيل

النقطة العمياء الثانية هي التسجيل ثنائيّ اللغة. عميل بنك من الطبقة المهنيّة في السعوديّة أو الإمارات أو مصر سَيُنتِجُ عادةً جملةً مثل: “I need to confirm the tahweel on the hisab al-jaari” — تَنَقُّل بين الإنجليزيّة والعربيّة داخل نطق واحد.

إذا كانت عيّنة تسجيل العميل في الغالب إنجليزيّة (“I’d like to enrol for voice authentication on my private banking account”) ثم اتّصل لاحقًا في الغالب بالعربيّة (“أنا عايز أعمل تحويل”)، فإنّ مسافة التمثيل المتّجهي أكبر من عتبة التمييز بين المتحدّثين رغم أنّه نفس الصوت الفيزيائي. والعكس يَفشَلُ بدوره: تسجيل عربي ثقيل، ومكالمة مصادقة إنجليزيّة ثقيلة.

الحلّ ليس “منع خَلْط الرموز” — بل بروتوكول تسجيل يَلتَقِطُ العميل في سجلّه المختلَط الطبيعي، ومجموعة تقييم تَحتَوي صراحةً عيّنات مخلوطة الرموز. بدون هذَين، يَعمَلُ المحرّك في المختبر ويَفشَلُ على أكثر العملاء أهميّةً (الأثرياء، المهنيّون، متعدّدو اللغات).

نمط الفشل #3: احتيال استنساخ الصوت (المشكلة الأصعب)

جانب السلبيّات المفقودة من السجلّ ساءَ بصورة دراماتيكيّة خلال 24 شهرًا. في مطلع 2024، كان استنساخ الصوت العربي لا يزال رديئًا: الأصوات المُستَنسَخَة تَحمِلُ أعراضًا طيفيّة قابلة للكشف، والتنغيم يَبدو غير طبيعي، واللهجة لا يُعتَمَدُ عليها.

بحلول منتصف 2026، الصورة مختلفة:

سلسلة الاحتيال التي تَجمَعُ هذا مع هندسة اجتماعيّة تشغيليّة تَبدو كالآتي:

  1. المُهاجِم يَحصُدُ صوت الهدف من مصدر عامّ (فيديو زواج أو فعاليّة عمل عادةً).
  2. المُهاجِم يُجري تبديل SIM لرقم الهدف عبر موظّف اتّصالات فاسد أو مُهَنْدَس اجتماعيًّا.
  3. المُهاجِم يَتَّصِلُ بالبنك من الـ SIM المُبَدَّلة، يُقَدِّمُ الصوت المُستَنسَخ، يَطلُبُ تحويلًا عالي القيمة أو إضافة مستفيد.
  4. نظام البصمة الصوتيّة يَجتازُ الصوت المُستَنسَخ؛ رمز SMS-OTP يَصِلُ إلى الـ SIM المُبَدَّلة التي يَتَحَكَّمُ بها المُهاجِم؛ التحويل يُعتَمَدُ.

كلّ حلقة في هذه السلسلة مُدافَع عنها في البنوك الخليجيّة الناضجة بشكل منفصل. السلسلة المُجَمَّعَة أَنتَجَت خسائر معتبرة — الحالات التي رأيتُها مُشارًا إليها في أحاديث الصناعة تتراوح من 50,000 USD إلى ما يَزيدُ على 2,000,000 USD لكلّ حادثة، في حسابات مُقَوَّمَة بـ SAR وAED وEGP.

كيف يَبدو الكشف الحيوي الواعي باللهجة فعلًا

الدفاع ليس تقنيّةً واحدة. إنّه طبقات:

الطبقة 1 — كشف حيوي واعٍ باللهجة

فحص الحيويّة يَتَحَقَّقُ من أنّ الصوت على الخطّ بشر حقيقي لا تسجيل ولا عيّنة مُرَكَّبَة. الكشف الكلاسيكي يَستَخدِمُ التحدّي والاستجابة (يَطلُبُ النظام من المتّصِل نُطقَ عبارة جديدة لم يَستَطِع المُهاجِم تسجيلَها مسبقًا). الكشف الحيوي الواعي باللهجة يَتَوَسَّعُ بـ:

الطبقة 2 — بصمات سلوكيّة فوق الصوت

الإشارة الصوتيّة قناة واحدة. البصمات السلوكيّة تُضيفُ:

صوت مُستَنسَخ قد يَكونُ شبه مثالي في عيّنة 30 ثانية ويَفشَلُ في تنغيم طبيعي مُستَدام عبر محادثة من خمس دقائق فيها أسئلة غير متوقّعة.

الطبقة 3 — اندماج إشارات متعدّد الوسائط

بصمة صوتيّة + بصمة جهاز (IMEI، عمر الـ SIM، حداثة تبديل SIM المُبَلَّغ عنها من المُشَغِّل) + نمط سلوكي + إشارة شذوذ معاملات. لا إشارة واحدة كافية؛ الاندماج هو ما يَلتَقِطُ نمط الهجوم المُرَكَّب من SIM swap + استنساخ الصوت.

الطبقة 4 — اختبار مستمرّ بفريق أحمر

بصمة صوتيّة بدون فريق أحمر داخلي يُجري عيّنات خصوميّة عليها كلّ ربع سنة هي نظام يَتَقادَمُ بسرعة. جبهة الاستنساخ تَتَحَرَّكُ ربعيًّا؛ الدفاع يَجبُ أن يُختَبَرَ بنفس الوتيرة على الأقلّ.

أين تَقَعُ أعمال التعليق

Annota8 لا تَبني محرّكات البصمات الصوتيّة. لا نُنافِسُ Pindrop ولا Daon ولا ID R&D. ما نَفعَلُه هو توفير بيانات التدريب والتقييم التي تَجعَلُ محرّكاتهم تَصمُدُ في ظروف MENA:

اقتصاديّات هذا العمل — تشغيل شبكة من اللغويّين العرب بمستوى PhD في القاهرة يُنَسِّقُون مُعَلِّقين عبر مناطق اللهجات — هي ما يَجعَلُ من الممكن لبنك إقليمي أن يَطلُبَ مجموعة تقييم لهجيّة صادقة دون أن يَشتَريَ مشروعًا بحثيًّا.

ما الذي يَتَوَقَّعُهُ SAMA وCBUAE وCBE

الموقف الرقابي في أكبر ثلاث أسواق مصرفيّة في MENA يَشتَدُّ حول القنوات الصوتيّة والبيومتريّة.

SAMA — البنك المركزي السعودي — يُصدِرُ إرشادات إطار مكافحة الاحتيال التي تُشيرُ بشكل متزايد إلى مرونة القنوات البيومتريّة. البصمات الصوتيّة جائزة لمصادقة العميل، لكنّ توقّعات SAMA المنشورة بشأن المرونة التشغيليّة وإبلاغ الاحتيال تُلقي على البنك عبء إثبات أنّ هذه القناة لا تَخلُقُ تَعَرُّضًا منهجيًّا. بنك يَنشُرُ بصمة صوتيّة ولا يُمكِنُهُ إثبات تقييم مُسَلْسَل باللهجة هو، في فحص SAMA، بنك مُعَرَّض.

CBUAE — البنك المركزي الإماراتي — يَنتَهِجُ خطابًا عامًّا متّسقًا بشأن مخاطر القنوات البعيدة ومعايير مصادقة العملاء. نشرات البصمات الصوتيّة في بنوك الإمارات تَعمَلُ في مواجهة اهتمام رقابي متزايد بالاحتيال المُمَكَّن بالتزييف العميق، والبنوك الخاضعة لإشراف CBUAE يُتَوَقَّعُ منها أن تُبَرهِنَ على الضوابط المُتَطَبَّقَة فوق البصمة.

CBE — البنك المركزي المصري — يُصدِرُ إرشادات إشراف بنكي تَسيرُ في الاتّجاه نفسه. السوق المصريّة لها تَعَرُّض فريد هنا بسبب حجم العمّال المهاجرين MENA الذين يَتَّصِلون بحسابات مصريّة من خارج البلاد، يَخلِطون اللهجات والرموز، على بنية تحتيّة تتفاوت دراماتيكيًّا حسب المُشَغِّل.

لن أَدَّعي تقديم نصيحة رقابيّة في تدوينة — على البنوك أن تَعمَلَ مع مستشاريها للامتثال على توقّعات الفحص المحدّدة. لكنّ اتّجاه الحركة واضح: المنظّمون لم يَعودوا مُعجَبين بـ”نَشَرنا بصمة صوتيّة”. إنّهم يَسأَلون: ما معدّل الإيجابيّات الزائفة حسب اللهجة؟ ما وضع مقاومة التزييف العميق؟ كيف هي القناة طبقيًّا؟

ما كنتُ سأَدفَعُ نحوه لو كنتُ في الداخل

لو كنتُ أُديرُ استراتيجيّة الاحتيال في بنك خليجي اليوم، ثلاثة أشياء سأَدفَعُ نحوها:

  1. مجموعة تقييم مُسَلْسَلَة باللهجة تُبنى قبل أيّ اختيار للموزّع. ليست معيارًا يُوَفِّرُهُ الموزّع — معيارك أنت، على توزيع لهجة عملائك. ثلاثة من الموزّعين الكبار سيَفشَلون في هذا الاختبار بهدوء؛ الناجون يَستَحِقّون دورة المشتريات.
  2. برنامج فريق أحمر يَختَبِرُ البصمة ربعيًّا ضدّ الجبهة الراهنة لاستنساخ الصوت العربي. السنوي بطيء جدًّا. الجبهة تَتَحَرَّك.
  3. بنية معماريّة طبقيّة متعدّدة الوسائط من اليوم الأوّل. أيّ شخص يُسَوِّقُ لك بصمة صوتيّة كضابط مستقلّ يَبيعُكَ شيئًا لن يَنجو من أوّل اختبار خصومي جادّ.

ملاحظة صادقة بشأن ما تَفعَلُهُ Annota8 وما لا تَفعَلُه

نحن لا نَبني محرّكات البصمات الصوتيّة. لا نُنافِسُ Nuance ولا Pindrop ولا Daon ولا ID R&D. لا نَبيعُ مُنتَجات كشف احتيال.

ما نَفعَلُه: بيانات تدريب وتقييم، بحجم ذي صلة بمصرفيّة MENA، مع العمق اللغوي الذي يَنتُجُ عن تشغيل عمليّة لغويّة بقيادة PhD في القاهرة وشبكة مُعَلِّقين بتغطيّة لهجيّة عبر MENA. إذا كنتَ بنكًا يَختارُ موزّعًا، أو موزّعًا يَدخُلُ MENA، أو منظّمًا يَضَعُ التوقّعات، فطبقة البيانات تحت البصمة هي حيث تَحدُثُ الهندسة الحقيقيّة. يَسعَدُنا أن نَكونَ شريكَكَ في هذه الطبقة.

حدّثني عن مجموعة تقييم بصمة صوتيّة مُسَلْسَلَة باللهجة → جلسة 30 دقيقة اقرأ نظرة عامّة على حلول البنوك في MENA