كل المقالات

كيف يُسعَّر التأشير في 2026: دليل شفّاف للمشتري

لماذا التسعير غامض

أعرف هذا لأنّي اشتريت قبل أن أبيع. كنت عميلًا لـ V7 وKognic وScale AI قبل تأسيس Annota81، ولاحظت نمطًا متكرّرًا: يبدأ العرض بسعر نظيف لكلّ-وحدة، ثمّ يتضخّم عبر فواتير لـ”إعادة عمل”، و”مهامّ معقّدة”، و”ساعات خبراء مجال (SME)”، و”مراجعة جودة إضافية”، و”تكامل API”، و”إقامة بيانات”. الفاتورة النهائية تساوي ضِعفَيْ إلى أربعة أضعاف الاقتباس الأوّلي. ليس لأنّ المُورِّد كذب — بل لأنّ التسعير لكلّ-وحدة وحده لا يستطيع تمثيل التعقيد الحقيقي.

في ٢٠٢٦ أبني Annota8 بحوارٍ مختلف مع المشتري: هذه رياضياتي، وهذه مُحرِّكاتي، أَرِنِي حالة استخدامك وسأَرِيك تفصيل التكلفة قبل التوقيع. هذه المقالة هي ذلك التفصيل ذاته — مفتوحًا، بلا اقتباسات محدّدة، حتّى تستطيع تقييم أيّ عرض من أيّ مُورِّد بنفسك.

المُحرِّك الأوّل: طبقة القوى العاملة

التكلفة الأولى والأكبر هي الإنسان الذي يقوم بالتأشير. لا يوجد “مُؤَشِّر” واحد — هناك خمس طبقات على الأقلّ، ولكلٍّ منها سوق أجر مختلف.

الطبقةمَننطاق الأجر بالساعة (USD، عالميًّا)يُناسب
مبتدئ (Junior)بكالوريوس، خبرة تأشير 0–2 سنة، مُعايَر على المنصّة$4-8bbox بسيط، تصنيف صور، وسم
كبير (Senior)بكالوريوس + خبرة تأشير 2+ سنة، يُتقن المنصّة$8-15تجزئة دلالية، NER (التعرّف على الكيانات المُسمّاة) للعربية القياسية، مراجعة جودة
متخصِّص مجالدرجة جامعية + سياق مجال$15-30NER قانوني، NER مالي، تأشير محتوى تقني
لغوي بدرجة دكتوراه (PhD)لغويات + تصميم أدلّة$35-60تصميم أدلّة، معايرة IAA، فحص مدوّنة
خبير مجال ممارس (SME)طبيب أشعّة، طبيب أمراض، محامٍ، صيدلي$80-250تأشير طبّي/قانوني/مالي حسّاس، تحكيم نهائي

هذه النطاقات تعكس ملاحظة عامّة للصناعة، لا مسحًا أجريًّا منشورًا واحدًا؛ تعامل معها بوصفها تقديرًا أوّليًّا واختبرها مقابل سوق العمل المحلّي لديك. مهمّ: هذه أجور، وليست أسعارًا. سعر المُورِّد يُضيف فوقها حِمل ضمان الجودة، والإدارة، والتقنية، والهامش. المضاعف النموذجي الصحّي = ٢-٣ أضعاف الأجر لتُحدّد السعر بالساعة، ويرتفع لطبقات SME صعبة التوظيف.

سؤال يجب طرحه على أيّ مُورِّد: “ما نسبة المبتدئين إلى الكبار إلى المتخصِّصين في فريقي؟” إذا لم يستطع الإجابة بأرقام، فالفريق غير مُعرَّف، والجودة غير قابلة للتنبّؤ.

المُحرِّك الثاني: حِمل ضمان الجودة

التأشير الخام هو الجزء الرخيص. الجزء المُكلِف هو إثبات أنّه صحيح.

البنية النموذجية لضمان جودة جادّ في ٢٠٢٦:

كلّ هذا يُضيف تكلفة. حسبة سريعة: مهمّة بإنتاج 1000 وحدة + 10% مراجعة + 3% معايرة PhD + 5% معيار-ذهبي = 1180 وحدة مدفوعة فعليًّا (+18% فوق التأشير الخام). هذا قبل تكاليف التصعيد وإعادة العمل.

سؤال للمُورِّد: “صِف بنية ضمان الجودة المحدّدة لحملي. كم مراجعًا لكلّ مُؤَشِّر؟ ما معدّل المراجعة؟ كم وحدة معيار-ذهبي تُحقَن أسبوعيًّا؟ مَن يُحكِّم قوائم التصعيد؟“

المُحرِّك الثالث: إنتاجية أساسية لكلّ نوع مهمّة

هذا أكبر فخّ تسعيري: المشترون يفترضون إنتاجيات وحدة-في-الساعة عالية بشكل غير واقعي. واقع ٢٠٢٦ كما يُلاحَظ في عمل التأشير التجاري:

نوع المهمّةالإنتاجية الأساسية (مبتدئ-كبير)ملاحظات
تصنيف صورة (فئة واحدة)400-800 / ساعةالأبسط
bbox (5 فئات، صعوبة متوسّطة)80-200 / ساعةيعتمد على كثافة الفئات في الإطار
تجزئة دلالية (متعدّدة الفئات)8-25 / ساعةالأبطأ في الرؤية الحاسوبية
تجزئة مثيلات (Instance segmentation)5-15 / ساعةأبطأ من الدلالية للمَثَلات الكثيفة
NER عربي (نصّ قياسي)1000-2500 رمز / ساعةيعتمد على كثافة الكيانات
تصنيف نيّة (نطاق ضيّق)150-300 / ساعةيعتمد على تعقيد الأنطولوجيا
زوج تفضيل RLHF (تعلّم تعزيزي بتغذية بشرية)8-25 زوج / ساعةيعتمد على طول الاستجابة وعمق الرُّبريك
استجابة SFT (مُوالَفة خاضعة للإشراف، سيناريو نطاق-مفتوح)3-8 / ساعةيعتمد على متوسّط طول الاستجابة
نسخ صوتي + تشخيص متحدّثين (عربية فصحى MSA)0.3-0.6x من الزمن الحقيقيساعة صوت = 1.7-3.3 ساعة عمل
نسخ صوتي + تشخيص متحدّثين (لهجة خليجية)0.2-0.4x من الزمن الحقيقيساعة صوت = 2.5-5 ساعات عمل
نسخ صوتي + تشخيص متحدّثين (مصري مُتبدِّل-الشيفرة)0.15-0.3x من الزمن الحقيقيساعة صوت = 3.3-6.7 ساعات عمل

النطاقات واسعة لأنّ الصعوبة تتفاوت، ولا يوجد معيار قياس عامّ مفرد يُغطّي كلّ هذه الأنواع؛ الأرقام تأتي من خبرة تشغيلية ويجب إعادة قياسها على بياناتك أنت. أيّ مُورِّد يقتبس “200 bbox/ساعة” لكلّ حمل دون رؤية البيانات أوّلًا — يُخمِّن. سؤال أذكى من المشتري: “أَرِنِي 50 وحدة من بياناتي الفعلية، وأعطِني تقديرًا مقيسًا للإنتاجية بعد توقيت مع مُؤَشِّرَيْن مُدرَّبَيْن.” هذا اختبار شفافية.

المُحرِّك الرابع: مُضاعِفات الطريقة والصعوبة

الإنتاجيات الأساسية أعلاه تفترض صعوبة “متوسّطة”. الواقع يضرب فيها مُضاعِفات:

العاملالمُضاعِف
كثافة كيانات/مَثَلات عالية (2x المتوسّط)1.3-1.8x زمن
أنطولوجيا معقّدة (50+ فئة)1.5-2.5x زمن
غموض حدود الفئات1.4-2.0x زمن
نصّ متعدّد اللغات في وحدة واحدة1.3-1.7x زمن
محتوى تقني عالٍ (طبّي، قانوني، مالي)1.5-2.5x أجر مُؤَشِّر
محتوى حسّاس (اعتدال محتوى ضارّ، PHI معلومات صحّية محميّة)1.3-1.6x أجر + دليل عافية
ترميز زمني دقيق (إطارًا بإطار)1.8-3.0x زمن

اطلب من المُورِّد تفكيك الأرقام: “ما الإنتاجية لـX صعوبة عالية مقابل Y صعوبة متوسّطة؟” إذا كان الجواب نفسه، فالسعر لا يعكس الحمل الفعلي. ستُعيد التفاوض لاحقًا — أو ستسقط الجودة.

المُحرِّك الخامس: علاوة هدف IAA

اتّفاق-بين-المُؤَشِّرِين (IAA — Inter-Annotator Agreement) — يُقاس عادةً بمعامل كابا لكوهين (Cohen’s kappa) أو ألفا لكريبندورف (Krippendorff’s alpha) — هو هدف الجودة الحقيقي2.

هدف IAAالتفسيرعلاوة التكلفة فوق خطّ الأساس
kappa 0.61-0.80اتّفاق جوهري (Landis & Koch) — صالح لمعظم نماذج الإنتاجخطّ الأساس إلى +25%
kappa 0.81-1.00اتّفاق شبه تامّ (Landis & Koch) — مطلوب للأحمال الطبّية والقانونية والمالية+40-80%
kappa > 0.90مطلوب للأبحاث المُحكَّمة وأحسّ الأحمال+100-200%

ملاحظة: الشرائح أعلاه تستخدم مقياس تفسير Landis & Koch (1977)3 — 0.00-0.20 طفيف، 0.21-0.40 معقول، 0.41-0.60 متوسّط، 0.61-0.80 جوهري، 0.81-1.00 شبه تامّ. أنظمة NLP/CV الإنتاجية تحتاج عادةً kappa فوق الحدّ الأعلى من “الجوهري” حتّى تكون مفيدة أصلًا، لذا يبدأ عمود خطّ الأساس عند 0.61. النِّسَب المئوية للعلاوة تعكس ممارسة تشغيلية لا معيارًا واحدًا منشورًا.

العلاوة تأتي من: تأشير مكرّر (n=3 بدلًا من n=1)، حلقات معايرة أطول، تحكيم SME أكثر، تكرارات أدلّة أكثر. لا تطلب kappa > 0.8 إذا كان حملك لا يحتاجها — أنت تدفع علاوة 80% بلا داعٍ.

المُحرِّك السادس: علاوة النشر

نموذج النشر يُغيِّر الرياضيات جوهريًّا:

نموذج النشرعلاوة فوق SaaS متعدّد المستأجرين
SaaS متعدّد المستأجرينخطّ الأساس
SaaS داخل VPC العميل+50-150%
استئجار سيادي (مُدار من المُورِّد، حساب العميل)+80-200%
داخل الموقع معزول هوائيًّا+200-500% (+ تكاليف لمرّة واحدة)

العلاوة تأتي من: تكلفة بنية تحتية أعلى لكلّ مُؤَشِّر، سفر عمل، أمن مُتَخَصِّص، حِمل إدارة عقد. نظام حماية البيانات الشخصية في المملكة العربية السعودية (PDPL، المرسوم الملكي م/19، نافذ منذ 14 سبتمبر 2023، مع انتهاء مهلة السماح المدّتها سنة في 14 سبتمبر 2024) يفرض شروطًا على النقل عبر الحدود وضمانات إضافية على الفئات الحسّاسة4؛ بحسب الفئة وآلية النقل، الاستئجار السيادي هو غالبًا المسار العملي للامتثال. للأحمال العامّة، السيادي هَدْر.

المُحرِّك السابع: علاوة العربية واللهجة

العربية ليست “إنجليزية بأبجدية مختلفة”. هي عائلة لغات بفروق إنتاجية حقيقية.

اللغة / اللهجةعلاوة فوق الإنجليزية الأمريكية
إنجليزية أمريكيةخطّ الأساس
إنجليزية بريطانية / أسترالية0%
فرنسية أوروبية+10-15%
عربية فصحى (MSA — Modern Standard Arabic)+10-20%
عربية خليجية+25-40%
عربية مصرية+20-35%
عربية شامية / مغاربية+30-50%
محتوى مُتبدِّل-الشيفرة (عربي ↔ إنجليزي)+25-45%
محتوى مُتبدِّل-النصّ (عربي بأحرف لاتينية، Arabizi)+35-60%

أسباب العلاوة: غياب التوحيد الإملائي، فروق سياقية (تأشير “بنك” يستلزم التمييز بين مصرف وضفّة نهر)، نُدرة عمالة مُؤَهَّلَة في طبقة الكبير، فجوة أدوات (معظم منصّات التأشير صُمِّمت أوّلًا للإنجليزية، والعربية أُضيفت لاحقًا). نطاقات هذه العلاوة تعكس خبرة تشغيلية، لا مسحًا أجريًّا منشورًا واحدًا.

كيف تبني رياضيات سعر-وحدة موحّدة

لتقييم أيّ عرض، ابنِها بنفسك:

الخطوة 1: حدِّد سعر-الساعة لمزيج القوى العاملة الملائم لك. مثال: 60% كبير ($12) + 30% متخصِّص ($22) + 10% PhD ($45) = (0.6 × $12) + (0.3 × $22) + (0.1 × $45) = $7.20 + $6.60 + $4.50 = $18.30/ساعة موزون.

الخطوة 2: حدِّد إنتاجية وحدات-في-الساعة من الجداول أعلاه × المُضاعِفات. مثال: NER عربي قياسي = 1500 رمز/ساعة. مُضاعِف صعوبة 1.4x لكثافة كيانات عالية = 1071 رمز/ساعة فعليًّا.

الخطوة 3: احسب سعر-الوحدة الخام. $18.30 / 1071 = $0.0171 / رمز.

الخطوة 4: أضف حِمل ضمان الجودة. +18% (نموذجي) = $0.0202 / رمز.

الخطوة 5: أضف علاوة IAA. kappa 0.8 = +50% = $0.0302 / رمز.

الخطوة 6: أضف علاوة النشر. استئجار سيادي = +120% = $0.0665 / رمز.

الخطوة 7: أضف هامش المُورِّد. 30-50% نموذجي = $0.086 – $0.100 / رمز.

النتيجة: للحمل الموصوف، السعر المتوقّع يقع تقريبًا بين $0.085 – $0.10 / رمز. أيّ عرض أدنى جوهريًّا يحتاج إلى تفسير (مُضاعِف غير محسوب، ضمان جودة منخفض). أيّ عرض أعلى جوهريًّا يحتاج إلى تفسير (هامش، مبالغة في علاوة السيادي). الأرقام الدقيقة تعتمد بشدّة على مزيجك — تشغيل الرياضيات نفسها بمزيج مائل نحو الكبير 70/25/5 ينزل عند $15.45/ساعة موزون و17% أقلّ في سعر-الرمز.

مزالق شائعة في عقود التأشير

المزلق 1: غموض “إعادة العمل”. العقد يُسعِّر لكلّ-وحدة، لكنّ كلّ وحدة “غير مُرضية” يُعاد عملها برسم إضافي. الحلّ: تفاوَض على معدّل إعادة-عمل مُتضمَّن في السعر (5-10% نموذجي).

المزلق 2: “ساعات SME” غير محدودة. التحكيم يُفوتَر منفصلًا بـ$150-300/ساعة. ضع سقفًا.

المزلق 3: تكامل API ورحلات تدريب. قد تُفوتَر منفصلة. اطلب شمولًا كاملًا.

المزلق 4: تكاليف إنهاء العقد. بعض المُورِّدِين يفرض رسوم تصدير بيانات أو حذف. تحقّق من العقد.

المزلق 5: معدّل مراجعة غير مكتوب. “نراجع كلّ شيء” تعني صفر التزام. اطلب نسبة محدّدة في العقد.

المزلق 6: مُوجِّه مهامّ غامض. الذي يُحدِّد أيّ مهمّة تذهب لأيّ مُؤَشِّر هو ما يُحرِّك الجودة. اطلب وصفًا لمُوجِّه المهامّ.

ما يعني هذا للمشتري

لم أقتبس أسعار Annota8 محدّدة في هذه المقالة. إذا أردت رقمًا لحملك، أَرِنِي البيانات والحمل ومتطلّبات النشر، وسأُعطيك تفكيك المُحرِّكات أعلاه مُطبَّقًا على حالتك تحديدًا — بنفس الشفافية. تَصَفَّح الأسعار للنطاقات العامّة.

References

  1. V7 Labs — official site; Kognic — official site; Scale AI — official site — يؤكّد أنّ المُورِّدِين الثلاثة المذكورين في حكاية الخبرة من جانب المشتري موجودون كمزوّدي خدمات تأشير/بيانات تجاريين.
  1. Krippendorff, K. — “Computing Krippendorff’s Alpha-Reliability” (Annenberg School / University of Pennsylvania repository); Artstein, R. & Poesio, M. — “Inter-Coder Agreement for Computational Linguistics,” Computational Linguistics (MIT Press, 2008) — يؤكّد Cohen’s kappa وKrippendorff’s alpha باعتبارهما مقياسَي اتّفاق-بين-المُؤَشِّرِين القياسيَّيْن المُستخدَمَيْن في معالجة اللغة الطبيعية واللسانيات الحاسوبية.
  1. Landis, J.R. & Koch, G.G., “The Measurement of Observer Agreement for Categorical Data,” Biometrics, Vol. 33, No. 1 (1977), pp. 159–174; مُستنسَخ في ملحق موثوقية AHRQ / NCBI Bookshelf (Table B) — مصدر عتبات تفسير kappa (0.00–0.20 طفيف، 0.21–0.40 معقول، 0.41–0.60 متوسّط، 0.61–0.80 جوهري، 0.81–1.00 شبه تامّ).
  1. Morgan Lewis — “Saudi Arabia Personal Data Protection Law: Transition Period Ends September 14” (Sep 2024); DLA Piper Data Protection Laws of the World — Saudi Arabia; IAPP — “Saudi PDPL’s first anniversary” — يؤكّد أنّ PDPL صدر بموجب المرسوم الملكي م/19 (16 سبتمبر 2021)، عُدِّل في 27 مارس 2023، دخل حيّز التنفيذ في 14 سبتمبر 2023، مع انتهاء فترة الانتقال/السماح مدّتها سنة في 14 سبتمبر 2024؛ تصف المصادر أيضًا إطار النقل عبر الحدود (الكفاية، البنود التعاقدية المعيارية SCCs، القواعد المُلزِمة للشركات BCRs، شهادات الاعتماد) والضمانات الإضافية على فئات البيانات الشخصية الحسّاسة.
ناقش حملك → جلسة تفكيك أسعار تَصَفَّح صفحة الأسعار