٢٦ مايو ٢٠٢٦ تسعير تأشير البيانات

كيف يُسعَّر التأشير في 2026: دليل شفّاف للمشتري

TL;DR

معظم تسعير التأشير غامض عن قصد. هذه المقالة تُفكِّك بصدق ما يُحرِّك التكلفة في ٢٠٢٦: طبقة القوى العاملة (من مُؤَشِّر مبتدئ إلى خبير مجال مُتَخَصِّص)، حِمل ضمان الجودة (٥-١٥٪ مراجعة + ١-٥٪ معايرة على يد لغوي بدرجة دكتوراه + حقن وحدات معيار-ذهبي)، إنتاجية أساسية لكلّ نوع مهمّة، مُضاعِفات الطريقة والصعوبة، علاوة هدف اتّفاق المُؤَشِّرِين (IAA)، علاوة السيادية والاستئجار المُخصَّص، علاوة العربية واللهجة، علاوة المحتوى مُتبدِّل-الشيفرة. لا أقتبس أسعار Annota8 المحدّدة هنا — هذه رياضيات من جانب الصناعة لتقييم أيّ عرض من أيّ مُورِّد بصدق.

لماذا التسعير غامض

أعرف هذا لأنّي اشتريت قبل أن أبيع. كنت عميلًا لـ V7 وKognic وScale AI قبل تأسيس Annota8¹، ولاحظت نمطًا متكرّرًا: يبدأ العرض بسعر نظيف لكلّ-وحدة، ثمّ يتضخّم عبر فواتير لـ”إعادة عمل”، و”مهامّ معقّدة”، و”ساعات خبراء مجال (SME)”، و”مراجعة جودة إضافية”، و”تكامل API”، و”إقامة بيانات”. الفاتورة النهائية تساوي ضِعفَيْ إلى أربعة أضعاف الاقتباس الأوّلي. ليس لأنّ المُورِّد كذب — بل لأنّ التسعير لكلّ-وحدة وحده لا يستطيع تمثيل التعقيد الحقيقي.

في ٢٠٢٦ أبني Annota8 بحوارٍ مختلف مع المشتري: هذه رياضياتي، وهذه مُحرِّكاتي، أَرِنِي حالة استخدامك وسأَرِيك تفصيل التكلفة قبل التوقيع. هذه المقالة هي ذلك التفصيل ذاته — مفتوحًا، بلا اقتباسات محدّدة، حتّى تستطيع تقييم أيّ عرض من أيّ مُورِّد بنفسك.

المُحرِّك الأوّل: طبقة القوى العاملة

التكلفة الأولى والأكبر هي الإنسان الذي يقوم بالتأشير. لا يوجد “مُؤَشِّر” واحد — هناك خمس طبقات على الأقلّ، ولكلٍّ منها سوق أجر مختلف.

الطبقة	مَن	نطاق الأجر بالساعة (USD، عالميًّا)	يُناسب
مبتدئ (Junior)	بكالوريوس، خبرة تأشير 0–2 سنة، مُعايَر على المنصّة	$4-8	bbox بسيط، تصنيف صور، وسم
كبير (Senior)	بكالوريوس + خبرة تأشير 2+ سنة، يُتقن المنصّة	$8-15	تجزئة دلالية، NER (التعرّف على الكيانات المُسمّاة) للعربية القياسية، مراجعة جودة
متخصِّص مجال	درجة جامعية + سياق مجال	$15-30	NER قانوني، NER مالي، تأشير محتوى تقني
لغوي بدرجة دكتوراه (PhD)	لغويات + تصميم أدلّة	$35-60	تصميم أدلّة، معايرة IAA، فحص مدوّنة
خبير مجال ممارس (SME)	طبيب أشعّة، طبيب أمراض، محامٍ، صيدلي	$80-250	تأشير طبّي/قانوني/مالي حسّاس، تحكيم نهائي

هذه النطاقات تعكس ملاحظة عامّة للصناعة، لا مسحًا أجريًّا منشورًا واحدًا؛ تعامل معها بوصفها تقديرًا أوّليًّا واختبرها مقابل سوق العمل المحلّي لديك. مهمّ: هذه أجور، وليست أسعارًا. سعر المُورِّد يُضيف فوقها حِمل ضمان الجودة، والإدارة، والتقنية، والهامش. المضاعف النموذجي الصحّي = ٢-٣ أضعاف الأجر لتُحدّد السعر بالساعة، ويرتفع لطبقات SME صعبة التوظيف.

سؤال يجب طرحه على أيّ مُورِّد: “ما نسبة المبتدئين إلى الكبار إلى المتخصِّصين في فريقي؟” إذا لم يستطع الإجابة بأرقام، فالفريق غير مُعرَّف، والجودة غير قابلة للتنبّؤ.

المُحرِّك الثاني: حِمل ضمان الجودة

التأشير الخام هو الجزء الرخيص. الجزء المُكلِف هو إثبات أنّه صحيح.

البنية النموذجية لضمان جودة جادّ في ٢٠٢٦:

مراجعة (5-15% من الوحدات) — مُؤَشِّر ثانٍ يراجع عيّنة من المُخرَجات. النسبة تعتمد على حسّاسية الحمل (5% للنطاق العامّ، 15% للطبّي والمالي والحكومي).
معايرة على يد لغوي PhD (1-5%) — لغوي بدرجة دكتوراه أو خبير مجال يراجع المراجعة، يُؤكِّد تطبيق المعايير الصحيحة، يُحدِّث الدليل.
حقن وحدات معيار-ذهبي (3-7%) — وحدات معيار-ذهبي مُتَّفَق عليها مسبقًا تُحقَن في خطّ الإنتاج لقياس انحراف الجودة في الزمن الحقيقي.
قائمة تصعيد — وحدات على الحوافّ تذهب إلى تحكيم خبير المجال. عادةً 1-3% من المُخرَجات.

كلّ هذا يُضيف تكلفة. حسبة سريعة: مهمّة بإنتاج 1000 وحدة + 10% مراجعة + 3% معايرة PhD + 5% معيار-ذهبي = 1180 وحدة مدفوعة فعليًّا (+18% فوق التأشير الخام). هذا قبل تكاليف التصعيد وإعادة العمل.

سؤال للمُورِّد: “صِف بنية ضمان الجودة المحدّدة لحملي. كم مراجعًا لكلّ مُؤَشِّر؟ ما معدّل المراجعة؟ كم وحدة معيار-ذهبي تُحقَن أسبوعيًّا؟ مَن يُحكِّم قوائم التصعيد؟“

المُحرِّك الثالث: إنتاجية أساسية لكلّ نوع مهمّة

هذا أكبر فخّ تسعيري: المشترون يفترضون إنتاجيات وحدة-في-الساعة عالية بشكل غير واقعي. واقع ٢٠٢٦ كما يُلاحَظ في عمل التأشير التجاري:

نوع المهمّة	الإنتاجية الأساسية (مبتدئ-كبير)	ملاحظات
تصنيف صورة (فئة واحدة)	400-800 / ساعة	الأبسط
bbox (5 فئات، صعوبة متوسّطة)	80-200 / ساعة	يعتمد على كثافة الفئات في الإطار
تجزئة دلالية (متعدّدة الفئات)	8-25 / ساعة	الأبطأ في الرؤية الحاسوبية
تجزئة مثيلات (Instance segmentation)	5-15 / ساعة	أبطأ من الدلالية للمَثَلات الكثيفة
NER عربي (نصّ قياسي)	1000-2500 رمز / ساعة	يعتمد على كثافة الكيانات
تصنيف نيّة (نطاق ضيّق)	150-300 / ساعة	يعتمد على تعقيد الأنطولوجيا
زوج تفضيل RLHF (تعلّم تعزيزي بتغذية بشرية)	8-25 زوج / ساعة	يعتمد على طول الاستجابة وعمق الرُّبريك
استجابة SFT (مُوالَفة خاضعة للإشراف، سيناريو نطاق-مفتوح)	3-8 / ساعة	يعتمد على متوسّط طول الاستجابة
نسخ صوتي + تشخيص متحدّثين (عربية فصحى MSA)	0.3-0.6x من الزمن الحقيقي	ساعة صوت = 1.7-3.3 ساعة عمل
نسخ صوتي + تشخيص متحدّثين (لهجة خليجية)	0.2-0.4x من الزمن الحقيقي	ساعة صوت = 2.5-5 ساعات عمل
نسخ صوتي + تشخيص متحدّثين (مصري مُتبدِّل-الشيفرة)	0.15-0.3x من الزمن الحقيقي	ساعة صوت = 3.3-6.7 ساعات عمل

النطاقات واسعة لأنّ الصعوبة تتفاوت، ولا يوجد معيار قياس عامّ مفرد يُغطّي كلّ هذه الأنواع؛ الأرقام تأتي من خبرة تشغيلية ويجب إعادة قياسها على بياناتك أنت. أيّ مُورِّد يقتبس “200 bbox/ساعة” لكلّ حمل دون رؤية البيانات أوّلًا — يُخمِّن. سؤال أذكى من المشتري: “أَرِنِي 50 وحدة من بياناتي الفعلية، وأعطِني تقديرًا مقيسًا للإنتاجية بعد توقيت مع مُؤَشِّرَيْن مُدرَّبَيْن.” هذا اختبار شفافية.

المُحرِّك الرابع: مُضاعِفات الطريقة والصعوبة

الإنتاجيات الأساسية أعلاه تفترض صعوبة “متوسّطة”. الواقع يضرب فيها مُضاعِفات:

العامل	المُضاعِف
كثافة كيانات/مَثَلات عالية (2x المتوسّط)	1.3-1.8x زمن
أنطولوجيا معقّدة (50+ فئة)	1.5-2.5x زمن
غموض حدود الفئات	1.4-2.0x زمن
نصّ متعدّد اللغات في وحدة واحدة	1.3-1.7x زمن
محتوى تقني عالٍ (طبّي، قانوني، مالي)	1.5-2.5x أجر مُؤَشِّر
محتوى حسّاس (اعتدال محتوى ضارّ، PHI معلومات صحّية محميّة)	1.3-1.6x أجر + دليل عافية
ترميز زمني دقيق (إطارًا بإطار)	1.8-3.0x زمن

اطلب من المُورِّد تفكيك الأرقام: “ما الإنتاجية لـX صعوبة عالية مقابل Y صعوبة متوسّطة؟” إذا كان الجواب نفسه، فالسعر لا يعكس الحمل الفعلي. ستُعيد التفاوض لاحقًا — أو ستسقط الجودة.

المُحرِّك الخامس: علاوة هدف IAA

اتّفاق-بين-المُؤَشِّرِين (IAA — Inter-Annotator Agreement) — يُقاس عادةً بمعامل كابا لكوهين (Cohen’s kappa) أو ألفا لكريبندورف (Krippendorff’s alpha) — هو هدف الجودة الحقيقي².

هدف IAA	التفسير	علاوة التكلفة فوق خطّ الأساس
kappa 0.61-0.80	اتّفاق جوهري (Landis & Koch) — صالح لمعظم نماذج الإنتاج	خطّ الأساس إلى +25%
kappa 0.81-1.00	اتّفاق شبه تامّ (Landis & Koch) — مطلوب للأحمال الطبّية والقانونية والمالية	+40-80%
kappa > 0.90	مطلوب للأبحاث المُحكَّمة وأحسّ الأحمال	+100-200%

ملاحظة: الشرائح أعلاه تستخدم مقياس تفسير Landis & Koch (1977)³ — 0.00-0.20 طفيف، 0.21-0.40 معقول، 0.41-0.60 متوسّط، 0.61-0.80 جوهري، 0.81-1.00 شبه تامّ. أنظمة NLP/CV الإنتاجية تحتاج عادةً kappa فوق الحدّ الأعلى من “الجوهري” حتّى تكون مفيدة أصلًا، لذا يبدأ عمود خطّ الأساس عند 0.61. النِّسَب المئوية للعلاوة تعكس ممارسة تشغيلية لا معيارًا واحدًا منشورًا.

العلاوة تأتي من: تأشير مكرّر (n=3 بدلًا من n=1)، حلقات معايرة أطول، تحكيم SME أكثر، تكرارات أدلّة أكثر. لا تطلب kappa > 0.8 إذا كان حملك لا يحتاجها — أنت تدفع علاوة 80% بلا داعٍ.

المُحرِّك السادس: علاوة النشر

نموذج النشر يُغيِّر الرياضيات جوهريًّا:

نموذج النشر	علاوة فوق SaaS متعدّد المستأجرين
SaaS متعدّد المستأجرين	خطّ الأساس
SaaS داخل VPC العميل	+50-150%
استئجار سيادي (مُدار من المُورِّد، حساب العميل)	+80-200%
داخل الموقع معزول هوائيًّا	+200-500% (+ تكاليف لمرّة واحدة)

العلاوة تأتي من: تكلفة بنية تحتية أعلى لكلّ مُؤَشِّر، سفر عمل، أمن مُتَخَصِّص، حِمل إدارة عقد. نظام حماية البيانات الشخصية في المملكة العربية السعودية (PDPL، المرسوم الملكي م/19، نافذ منذ 14 سبتمبر 2023، مع انتهاء مهلة السماح المدّتها سنة في 14 سبتمبر 2024) يفرض شروطًا على النقل عبر الحدود وضمانات إضافية على الفئات الحسّاسة⁴؛ بحسب الفئة وآلية النقل، الاستئجار السيادي هو غالبًا المسار العملي للامتثال. للأحمال العامّة، السيادي هَدْر.

المُحرِّك السابع: علاوة العربية واللهجة

العربية ليست “إنجليزية بأبجدية مختلفة”. هي عائلة لغات بفروق إنتاجية حقيقية.

اللغة / اللهجة	علاوة فوق الإنجليزية الأمريكية
إنجليزية أمريكية	خطّ الأساس
إنجليزية بريطانية / أسترالية	0%
فرنسية أوروبية	+10-15%
عربية فصحى (MSA — Modern Standard Arabic)	+10-20%
عربية خليجية	+25-40%
عربية مصرية	+20-35%
عربية شامية / مغاربية	+30-50%
محتوى مُتبدِّل-الشيفرة (عربي ↔ إنجليزي)	+25-45%
محتوى مُتبدِّل-النصّ (عربي بأحرف لاتينية، Arabizi)	+35-60%

أسباب العلاوة: غياب التوحيد الإملائي، فروق سياقية (تأشير “بنك” يستلزم التمييز بين مصرف وضفّة نهر)، نُدرة عمالة مُؤَهَّلَة في طبقة الكبير، فجوة أدوات (معظم منصّات التأشير صُمِّمت أوّلًا للإنجليزية، والعربية أُضيفت لاحقًا). نطاقات هذه العلاوة تعكس خبرة تشغيلية، لا مسحًا أجريًّا منشورًا واحدًا.

كيف تبني رياضيات سعر-وحدة موحّدة

لتقييم أيّ عرض، ابنِها بنفسك:

الخطوة 1: حدِّد سعر-الساعة لمزيج القوى العاملة الملائم لك. مثال: 60% كبير ($12) + 30% متخصِّص ($22) + 10% PhD ($45) = (0.6 × $12) + (0.3 × $22) + (0.1 × $45) = $7.20 + $6.60 + $4.50 = $18.30/ساعة موزون.

الخطوة 2: حدِّد إنتاجية وحدات-في-الساعة من الجداول أعلاه × المُضاعِفات. مثال: NER عربي قياسي = 1500 رمز/ساعة. مُضاعِف صعوبة 1.4x لكثافة كيانات عالية = 1071 رمز/ساعة فعليًّا.

الخطوة 3: احسب سعر-الوحدة الخام. $18.30 / 1071 = $0.0171 / رمز.

الخطوة 4: أضف حِمل ضمان الجودة. +18% (نموذجي) = $0.0202 / رمز.

الخطوة 5: أضف علاوة IAA. kappa 0.8 = +50% = $0.0302 / رمز.

الخطوة 6: أضف علاوة النشر. استئجار سيادي = +120% = $0.0665 / رمز.

الخطوة 7: أضف هامش المُورِّد. 30-50% نموذجي = $0.086 – $0.100 / رمز.

النتيجة: للحمل الموصوف، السعر المتوقّع يقع تقريبًا بين $0.085 – $0.10 / رمز. أيّ عرض أدنى جوهريًّا يحتاج إلى تفسير (مُضاعِف غير محسوب، ضمان جودة منخفض). أيّ عرض أعلى جوهريًّا يحتاج إلى تفسير (هامش، مبالغة في علاوة السيادي). الأرقام الدقيقة تعتمد بشدّة على مزيجك — تشغيل الرياضيات نفسها بمزيج مائل نحو الكبير 70/25/5 ينزل عند ~~$15.45/ساعة موزون و~~17% أقلّ في سعر-الرمز.

مزالق شائعة في عقود التأشير

المزلق 1: غموض “إعادة العمل”. العقد يُسعِّر لكلّ-وحدة، لكنّ كلّ وحدة “غير مُرضية” يُعاد عملها برسم إضافي. الحلّ: تفاوَض على معدّل إعادة-عمل مُتضمَّن في السعر (5-10% نموذجي).

المزلق 2: “ساعات SME” غير محدودة. التحكيم يُفوتَر منفصلًا بـ$150-300/ساعة. ضع سقفًا.

المزلق 3: تكامل API ورحلات تدريب. قد تُفوتَر منفصلة. اطلب شمولًا كاملًا.

المزلق 4: تكاليف إنهاء العقد. بعض المُورِّدِين يفرض رسوم تصدير بيانات أو حذف. تحقّق من العقد.

المزلق 5: معدّل مراجعة غير مكتوب. “نراجع كلّ شيء” تعني صفر التزام. اطلب نسبة محدّدة في العقد.

المزلق 6: مُوجِّه مهامّ غامض. الذي يُحدِّد أيّ مهمّة تذهب لأيّ مُؤَشِّر هو ما يُحرِّك الجودة. اطلب وصفًا لمُوجِّه المهامّ.

ما يعني هذا للمشتري

ابنِ سعر-الوحدة المتوقّع لديك قبل طلب العروض
اطلب من المُورِّد تفكيك كلّ مُحرِّك من أعلاه — لا مجرّد سعر-وحدة نهائي
شغِّل تجربة على 50-200 وحدة من بياناتك الفعلية قبل توقيع عقد سنوي
وثِّق إنتاجية وحدات-في-الساعة وIAA من التجربة
تفاوَض على معدّلات إعادة العمل، ومعدّلات المراجعة، وتكاليف التصعيد داخل العقد، لا بعد التوقيع
اطلب رؤية صريحة لمزيج القوى العاملة (مبتدئ/كبير/متخصِّص)

لم أقتبس أسعار Annota8 محدّدة في هذه المقالة. إذا أردت رقمًا لحملك، أَرِنِي البيانات والحمل ومتطلّبات النشر، وسأُعطيك تفكيك المُحرِّكات أعلاه مُطبَّقًا على حالتك تحديدًا — بنفس الشفافية. تَصَفَّح الأسعار للنطاقات العامّة.

References

V7 Labs — official site; Kognic — official site; Scale AI — official site — يؤكّد أنّ المُورِّدِين الثلاثة المذكورين في حكاية الخبرة من جانب المشتري موجودون كمزوّدي خدمات تأشير/بيانات تجاريين.

Krippendorff, K. — “Computing Krippendorff’s Alpha-Reliability” (Annenberg School / University of Pennsylvania repository); Artstein, R. & Poesio, M. — “Inter-Coder Agreement for Computational Linguistics,” Computational Linguistics (MIT Press, 2008) — يؤكّد Cohen’s kappa وKrippendorff’s alpha باعتبارهما مقياسَي اتّفاق-بين-المُؤَشِّرِين القياسيَّيْن المُستخدَمَيْن في معالجة اللغة الطبيعية واللسانيات الحاسوبية.

Landis, J.R. & Koch, G.G., “The Measurement of Observer Agreement for Categorical Data,” Biometrics, Vol. 33, No. 1 (1977), pp. 159–174; مُستنسَخ في ملحق موثوقية AHRQ / NCBI Bookshelf (Table B) — مصدر عتبات تفسير kappa (0.00–0.20 طفيف، 0.21–0.40 معقول، 0.41–0.60 متوسّط، 0.61–0.80 جوهري، 0.81–1.00 شبه تامّ).

Morgan Lewis — “Saudi Arabia Personal Data Protection Law: Transition Period Ends September 14” (Sep 2024); DLA Piper Data Protection Laws of the World — Saudi Arabia; IAPP — “Saudi PDPL’s first anniversary” — يؤكّد أنّ PDPL صدر بموجب المرسوم الملكي م/19 (16 سبتمبر 2021)، عُدِّل في 27 مارس 2023، دخل حيّز التنفيذ في 14 سبتمبر 2023، مع انتهاء فترة الانتقال/السماح مدّتها سنة في 14 سبتمبر 2024؛ تصف المصادر أيضًا إطار النقل عبر الحدود (الكفاية، البنود التعاقدية المعيارية SCCs، القواعد المُلزِمة للشركات BCRs، شهادات الاعتماد) والضمانات الإضافية على فئات البيانات الشخصية الحسّاسة.

ناقش حملك → جلسة تفكيك أسعار تَصَفَّح صفحة الأسعار

القيود وإخلاء المسؤوليّة

قيود هذا التحليل. يَعكِس هذا المقال قراءة Annota8 للأدلّة المتاحة علنًا حتّى تاريخ آخر تعديل له. مواقع المورّدين، الأطر التنظيميّة، أرقام المقاييس ونطاق البرامج يمكن أن تتغيّر دون إشعار. حيث تُذكر نطاقات عدديّة، تلك الأرقام قابلة للتحقّق من المصدر المرتبط في قسم المراجع داخل المقال — لم تُعِد Annota8 إجراء المقاييس بنفسها ما لم يُذكر ذلك صراحةً في المقال.

الموقف القانوني والخصوصيّة. Annota8 شركة عمليّات بيانات ذكاء اصطناعي في مرحلة مبكّرة في إطلاق ناعم. لا نَملِك حاليًّا شهادة SOC 2، أو ISO 27001، أو شهادة PDPL، أو أيّ شهادة أمن أو خصوصيّة من طرف ثالث. نُصمِّم وَفقًا لمبادئ PDPL ونَقدِر على توقيع DPA مَبنيّة على نموذج SCC الأوروبي. الموقف التوافقي المحدّد لارتباطك متاح عند الطلب من [email protected].

لا شيء في هذا المقال يُمثِّل استشارة قانونيّة أو ضريبيّة أو استثماريّة. الاستشهادات التنظيميّة يجب التحقّق منها مع مستشار قانوني في ولايتك القضائيّة. أسماء المورّدين المذكورة في هذا المقال مرجَّعة كسياق مشهد صناعي فحسب — Annota8 لا تَدَّعِي ادّعاءً تنافسيًّا للمنتج، ولا علاقة عملاء، ولا أيّ ارتباط آخر مع أيّ من المنصّات المذكورة، ما لم يُذكر ذلك صراحةً.

تواصَل مع الفريق:[email protected] · annota8.ai