كل المقالات

حساب أسعار واجهات اللغة العربية: لماذا تُكلِّف العربية أكثر لكل استدعاء في النماذج المغلقة 2026

أبسط صياغة للمشكلة

كلّ LLM مغلق في 2026 — ChatGPT (GPT-5، GPT-5.5)1، و Claude (Sonnet 4.62، Opus 4.73)، و Gemini (2.5 Pro)4 — يحاسبك بالرمز. الرمز وحدة دون-الكلمة (sub-word unit) ينتجها مُرَمِّز النموذج، وليس كلمة ولا حرفًا. للإنجليزيّة، المُرَمِّز مضبوط جيّدًا: نحو ٠٫٧٥ كلمة لكلّ رمز، أو ١٣٠ رمزًا لكلّ ١٠٠ كلمة. للعربية، يُنتج المُرَمِّز نفسه (أو قريبٌ منه) ١٫٥-٢٫٥ ضعف الرموز لنفس المعنى5. نفس الفقرة، نفس الفكرة، تُكلِّفك أكثر بالعربية.

هذه ضريبة على العربيّة في طبقة الفوترة قلَّما تُحسَب قبل الإطلاق. وحين تظهر في الفاتورة، تكون قد تحوّلت إلى تكلفة ثابتة على كلّ دور حواري، وكلّ مقطع مُستَرجَع، وكلّ تعليمة نظام، وكلّ استجابة من المساعد.

أساسيّات الترميز — BPE و SentencePiece و WordPiece

ثلاث عائلات من المُرَمِّزات (tokenizers) تهيمن على النماذج المتطوّرة المغلقة والمفتوحة:

Byte-Pair Encoding (BPE). يُستخدَم بدءًا من GPT-2 وفي معظم مُرَمِّزات OpenAI (بما فيها عائلة o200k_base المرفقة مع GPT-4o وجيل GPT-5)6. يُدَرَّب بالدمج المتكرّر لأكثر أزواج البايتات (byte pairs) شيوعًا في مجموعة التدريب، حتى يبلغ المعجم حجمًا مستهدفًا. معجم مبنيّ على مجموعة إنجليزيّة بأغلبيّة ساحقة سيرمز n-grams الإنجليزيّة الشائعة برمز واحد، ويُجَزِّئ كلّ ما عداها إلى رموز عديدة.

SentencePiece (متغيّرات Unigram + BPE). تستخدمها Google في T5 و mT5 و PaLM و Gemini7. تُدَرَّب على نصّ خامّ بدون ترميز مسبق (لا تفترض وجود مسافات — وهو مفيد للّغات الخالية من المسافات كالصينيّة، وأيضًا مفيد لاتّصال الحروف في العربيّة).

WordPiece. يُستخدَم في BERT و mBERT ومشتقّاتها. أقلّ شيوعًا في النماذج التوليديّة المتطوّرة في 2026، لكنّه ما زال موجودًا في نقاط نهاية embedding.

أمّا Claude فيستخدم مُرَمِّزًا ملكيًّا خاصًّا؛ لا تنشر Anthropic الخوارزميّة، ويصفه الاختبار الخارجيّ بأنّه مُرَمِّز من عائلة BPE8. نقطة نهاية count_tokens في Messages API هي العدّاد المعتمد لقياس ترميز Claude على نصوصك.

النقطة الاقتصاديّة: توزيع المفردات في بيانات التدريب هو ما يحدّد أيّ السلاسل ستحصل على رمز واحد، وأيّها ستُجَزَّأ إلى رموز كثيرة. والعربيّة تاريخيًّا لم تتجاوز نسبة منخفضة من خانة الآحاد في مجاميع التدريب للنماذج المغلقة الكبرى (GPT-3 ~92.65% إنجليزيّة؛ LLaMA 2 ~89.7% إنجليزيّة)9، فتُجَزَّأ سلاسلها.

مقارنة عدد رموز ملموسة

الجدول أدناه يستخدم نطاقات تمثيليّة من نقاط نهاية المُرَمِّزات العلنيّة في مايو 2026، مأخوذة من جملة قصيرة مزدوجة بالإنجليزيّة والعربيّة (٢٤ كلمة إنجليزيّة / ١٣٨ حرفًا؛ ٢١ كلمة عربيّة / ١٤٥ حرفًا). القيم الدقيقة تعتمد على مراجعة المُرَمِّز المُحدَّدَة وعلى السياق المحيط.

المُرَمِّزرموز إنجليزيّةرموز عربيّةنسبة عربي:إنجليزي
GPT-5 (عائلة o200k_base)~30~58~1.9x
Claude Sonnet 4.6~32~64~2.0x
Gemini 2.5 Pro~28~48~1.7x
GPT-3.5 الأقدم (cl100k_base)~32~80~2.5x

عبر النصوص الأطول (فقرات كاملة، مقالات) تستقرّ النسبة بين 1.5x و 2.5x5. اللهجة المحدّدة أو نوع النصّ يحرّكان النسبة.

لماذا تُرَمَّز العربيّة ثقيلة — أربعة أسباب جذريّة

١. صرف غنيّ. تبني العربيّة كلماتها بإلحاق سوابق ولواحق وضمائر متّصلة حول جذر ثلاثيّ. كلمة عربيّة واحدة مثل «وسيكتبونها» تَختزل ما تقوله الإنجليزيّة في ٥-٦ كلمات. لكنّ مُرَمِّز BPE المُدَرَّب على الإنجليزيّة لا يعرف ذلك — يرى تسلسلًا غير مألوف فيُجَزِّئه إلى ٤-٦ قطع فرعيّة5. الاقتصاد مقلوبٌ هنا: أقصر للإنسان، أطول للمُرَمِّز.

٢. التشكيل (diacritics). علامات الحركات الاختياريّة على الحروف العربيّة تحمل معنى، لكنّها تظهر بشكل متفاوت في بيانات التدريب. وحين تكون موجودة، يصير كلّ منها رمزًا مستقلًّا (أو تُجمَّع بطرق غريبة). النصوص الدينيّة، والوثائق الرسميّة، والمحتوى التعليميّ تَميل إلى استعمالها — وهذه بالضبط المجاميع التي تتضاعف فيها تكلفة الرمز.

٣. اتّصال الحروف وأشكال الحرف. تتغيّر الحروف العربيّة شكلًا بحسب موقعها (مبتدئة، وسطى، نهائيّة، أو معزولة). الكتلة الأساسيّة للعربيّة (U+0600-U+06FF) تُرَمَّز ببايتَين لكلّ حرف في UTF-8، وأشكال العرض العربيّة (Arabic Presentation Forms) تُرَمَّز بثلاثة بايتات. أمّا اللاتينيّة الإنجليزيّة فبايتٌ واحد لكلّ حرف10. مُرَمِّزات BPE الأحدث واعية بالبايتات، لكنّ وحدة الدمج الأساسيّة تبقى أطول.

٤. غياب توزين بيانات التدريب نحو العربيّة. تاريخيًّا، تدرّبت النماذج الكبرى على مزائج ثقيلة-زحف-ويب نسبتها ٨٨-٩٥٪ إنجليزيّة9. فتنتهي قواعد الدمج كثيفةً في bigrams و trigrams الإنجليزيّة، شحيحةً في العربيّة. الإصلاح هو إعادة موازنة المجموعة — وكان o200k_base من OpenAI تحسينًا جوهريًّا على cl100k_base بالنسبة للأبجديّات غير اللاتينيّة، حيث رصد أحد التحليلات انخفاضًا في عدد الرموز العربيّة على نفس السلسلة من نحو ٧٠ إلى ٢١ رمزًا6. لكنّ النسبة الإجماليّة في مواجهة الإنجليزيّة لم تُغلَق.

حساب تكلفة الإنتاج بمقياس واقعي

افترض أنّك تطلق روبوت خدمة عملاء عربيّ على GPT-5 بهذه الخصائص منتصف 2026:

التكلفة اليوميّة الإنجليزيّة:

الآن انتقل إلى العربيّة بنسبة رمز 2.0x (نموذجيّة لـ GPT-5 على عربيّ حواريّ):

نفس الروبوت، نفس عدد العملاء، نفس قيمة الأعمال. الإصدار العربي يكلّفك ~90,000 USD أكثر سنويًا من الإصدار الإنجليزي على نفس النموذج. وعلى مقياس مؤسّسة (ملايين الأدوار يوميًّا، مثلًا مساعد مركز اتّصال بنكيّ)، يبلغ الفارق سبعة أرقام سنويًّا.

التكلفة الخفيّة: استهلاك نافذة السياق

التكلفة الأخرى التي لا يحسبها أحد حتى تؤلم هي نافذة السياق (context window). النماذج المتطوّرة المغلقة في 2026 تملك نوافذ أكبر ممّا مضى — Claude Sonnet 4.6 عند 1M رمز2، و GPT-5 عند 400K1، و GPT-5.5 عند 1M11، و Gemini 2.5 Pro عند نحو 1M (مع متغيّرات 2M)4. لكنّ نافذة 1M بالإنجليزيّة هي فعليًّا نافذة ~500K بالعربيّة عند نسبة 2.0x.

وهنا يتراكم تأثير ذلك على خطوط RAG:

إذا كان تطبيقك العربيّ يعتمد على حشو السياق (لا على الاسترجاع الدقيق)، فعليك أن تحسب النافذة الفعليّة — لا الاسميّة.

لماذا يهمّ هذا أكثر ممّا يظنّ الناس

ثلاثة أسباب تستحقّ بسببها بندًا مستقلًّا في خطّة LLM العربيّ:

١. غير مرئيّ في MVP. عدم تماثل تكلفة الرمز لا يظهر في نموذج أوّليّ بـ ١٠٠ استدعاء يوميًّا. يظهر في الإنتاج عند آلاف أو ملايين الاستدعاءات يوميًّا. تُطلق الفرق النموذج الأوّليّ على GPT-5 بالعربيّة، ثم تتوسّع، ثم تكتشف أنّ فاتورتها الحوسبيّة ضعف ما حسبته.

٢. يتراكم مع اقتصاد embedding. معظم الفرق تستخدم نقطة نهاية embedding من المورّد نفسه للاسترجاع. هذه النقاط تحاسب أيضًا بالرمز، وتنطبق عليها نسبة ١٫٥-٢٫٥x. فـ embeddings تكلّفك أكثر، والاستدلال يكلّفك أكثر، وضغط نافذة السياق أعلى — كلّه من سبب واحد.

٣. سؤال مشتريات للصفقات السياديّة. حين توقّع وزارة سعوديّة أو مصريّة عقد LLM متطوّر مُسَعَّرًا بالرمز، يكون التسعير الوحدويّ قد جرى التفاوض عليه بافتراض اقتصاد رمز إنجليزيّ. أمّا الاستهلاك العربيّ الفعليّ فهو ١٫٥-٢٫٥x. وفي صمت، تنتفخ قيمة العقد الإجماليّة للمورّد. وعلى فرق المشتريات الواعية أن تُقاس على السعر الفعليّ لكلّ استدعاء عربيّ، لا على السعر الاسميّ لكلّ رمز.

تخفيفات تعمل في 2026

١. نماذج مفتوحة المصدر بمُرَمِّز واعٍ بالعربيّة. كلٌّ من ALLaM (SDAIA)12، و Karnak (ITIDA / مركز الابتكار التطبيقيّ، مصر)13، و Jais (G42 / Inception)، و Fanar (QCRI)14 يدرّبون مُرَمِّزاتهم على مجاميع عربيّة الثقل. ALLaM يطبّق توسيع المفردات (vocabulary expansion)12؛ و Fanar يطبّق ترميزًا واعيًا بالصرف (MorphBPE)14؛ و Karnak يُطلَق بمُرَمِّز عربيّ مُحَسَّن على قاعدة Qwen3-30B-A3B13. إذا كان تطبيقك مهيمَنًا عربيًّا، فهذه قاعدته الطبيعيّة. للخلفيّة عن خيارات بيانات التدريب لكلّ نموذج وموقفه في المعايير، انظر مقارنة ALLaM + Karnak + Fanar.

٢. نماذج مضبوطة محلّيًا. خذ قاعدة مفتوحة-الوزن (Llama 4، Mistral، Qwen، أو أيًّا ممّا سبق) وأكمل تدريبها على بيانات مجالك العربيّة. عندئذ يصبح اقتصاد الرمز ملكك إلى الأبد — لا فوترة بالرمز.

٣. هندسة التعليمات نحو الإيجاز. يمكن كتابة التعليمات (prompt) العربيّة موجزةً بالفصحى؛ وأمر النموذج بالردّ بإيجاز عربيّ يقلّص رموز الإخراج. رافعة صغيرة، لكنّها مجّانيّة.

٤. خطوط أنابيب هجينة. النمط الأكثر إغفالًا: استخدِم نموذج embedding عربيّ رخيص للاسترجاع، وترجم المقاطع العربيّة المُستَرجَعَة إلى الإنجليزيّة بنموذج ترجمة سريع، وشغّل الاستدلال بالإنجليزيّة على نموذج متطوّر، ثمّ أعِد ترجمة الاستجابة إلى العربيّة. التكلفة الخفيّة: الترجمة المزدوجة تُدخل فقدًا في الدقّة. وحجم التوفير يعتمد بشدّة على مزيج الحمل وتسامحك مع جودة الترجمة.

٥. التخزين المؤقّت (prompt caching) بقوّة. تدعم Anthropic التخزين المؤقّت للتعليمات بقراءاتٍ من الذاكرة المؤقّتة تُسَعَّر عند نحو ١٠٪ من سعر الإدخال القياسيّ15. للأحمال العربيّة ذات تعليمات النظام أو قواعد المعرفة المُعاد استخدامها، يردّ التخزين المؤقّت أسرع منه في الإنجليزيّة (لأنّ البادئة المُخَزَّنَة أكبر بالرموز، فيكون التوفير لكلّ استدعاء أكبر).

أفق 2026

تطوّرات متعلّقة بالمُرَمِّز ينبغي مراقبتها خلال 2026-2027:

تدريب مُرَمِّز Gemini. تعتمد منظومة Gemini من Google على SentencePiece فوق مجموعة متعدّدة اللغات7. ومن المرجّح أن تواصل المراجعات المقبلة من Gemini إعادة موازنتها نحو اللغات الناقصة التمثيل.

o200k_base من OpenAI. المُرَمِّز المُرفَق مع GPT-4o وجيل GPT-5 حسّن الضغط على العربيّة وغيرها من الأبجديّات غير اللاتينيّة مقارنةً بـ cl100k_base6. الفجوة ضاقت لكنّها لم تُغلَق.

Claude Sonnet 4.6 + Claude Opus 4.7. لا تنشر Anthropic تفاصيل المُرَمِّز8. نقطة نهاية count_tokens في Messages API هي العدّاد المعتمد لقياس ترميز Claude على نصوصك.

مشاريع مُرَمِّز عربيّة الاختصاص. جهود مفتوحة المصدر (مختبرات جامعيّة في السعوديّة والإمارات ومصر وقطر) تدرّب مُرَمِّزات عربيّة-أوّل بشكل صريح. ALLaM يطبّق توسيع المفردات12؛ و Karnak يُطلَق بمُرَمِّز مُحَسَّن للعربيّة على Qwen3-30B-A3B13؛ و Fanar يستخدم ترميزًا قائمًا على الصرف14. كلّما نضجت هذه النماذج في الإنتاج، تحوّلت الفجوة مع النماذج المغلقة المتطوّرة إلى خيار نشر، لا إلى تكلفة ثابتة.

الخلاصة

إذا كنت تشغّل العربيّة في الإنتاج:

  1. قِس النسبة لنصّك تحديدًا — دينيّ مقابل حواريّ مقابل قانونيّ مقابل لهجيّ. لا تفترض 2.0x؛ قِس.
  2. اِحسب التكلفة بمقياس، لا في MVP — فاتورتك ستكون ١٫٥-٢٫٥ ضعف توقّعك الإنجليزيّ.
  3. اِحسب نافذة السياق الفعليّة، لا الاسميّة.
  4. قارن النماذج العربيّة-الأولى مفتوحة المصدر كبديل — اقتصاد الرمز يقلب الحساب أكثر ممّا تقلبه درجات المعايير على المقياس.
  5. للصفقات السياديّة، فاوض على التكلفة الفعليّة لكلّ استدعاء عربيّ، لا على سعر الرمز الاسميّ.

هذا أحد ثلاثة أسباب بنيويّة وراء تخلّف تطبيقات LLM العربيّة عن نظيراتها الإنجليزيّة في الإنتاج. الأخريَان — المحاذاة الثقافيّة وتغطية اللهجة — تظهران في الجودة. وهذا السبب يظهر في التكلفة.

لتشخيص قريب الصلة عن أسباب الفشل التجاريّ لمنتجات LLM العربيّة رغم تجاوزها للمعايير التقنيّة، انظر تشخيص الفشل التجاريّ لـ LLM العربيّ. وللسؤال الأعمق عن المحاذاة مع السكّان الناطقين بالعربيّة، انظر محاذاة FM للسكّان العرب. ولملفّ المشتري داخل مختبر نموذج أساس الذي يملك خيارات المُرَمِّز والبيانات، انظر شخصيّة قائد بيانات تدريب مختبر FM في MENA.

المراجع

  1. OpenAI, “GPT-5 Model” — API docs — تسعير GPT-5 (1.25 USD/مليون إدخال، 10 USD/مليون إخراج) ونافذة سياق 400K رمز مع حدّ إخراج أقصى 128K.
  1. Anthropic, “Introducing Claude Sonnet 4.6” (Feb 17, 2026) — إصدار Claude Sonnet 4.6، تسعير 3/15 USD لكلّ مليون رمز، نافذة سياق 1M رمز (إصدار تجريبيّ).
  1. Anthropic, “Claude Opus 4.7” (Apr 16, 2026) — إصدار Claude Opus 4.7 بسعر 5/25 USD لكلّ مليون رمز.
  1. Google, “Models — Gemini API” — معلومات نافذة السياق والمُرَمِّز لـ Gemini 2.5 Pro.
  1. Omar Kamali, “Tokenization for Arabic LLMs”, Hugging Face Blog و Hosn, “Tokenizer Efficiency for Arabic LLMs” و “A Comprehensive Analysis of Various Tokenizers for Arabic LLMs”, MDPI Applied Sciences 14(13):5696 — نطاق نسبة الرمز عربي:إنجليزي ~1.5x-2.5x عبر عائلات المُرَمِّزات الكبرى؛ خصوبة (fertility) 2.5-4x على BPE إنجليزيّ-أوّل دون مفردات واعية بالعربيّة.
  1. N.J. Kumar, “Multilingual token compression in GPT-o family models”o200k_base خفّض أعداد رموز العربيّة والصينيّة بشكل ملموس مقارنةً بـ cl100k_base عبر توسيع تغطية تعبيرات regex لـ \p{Lo} / \p{Lm} / \p{M} ومعجم 200K رمز.
  1. Google, “SentencePiece” (GitHub) — مكتبة المُرَمِّز Unigram/BPE المستخدَمة في T5 و mT5 و PaLM و Gemini.
  1. Dev.to, “Anthropic never released their tokenizer — testing the alternatives” — Anthropic لا تنشر مُرَمِّز Claude؛ الاختبار الخارجيّ يصفه بأنّه من عائلة BPE.
  1. “Multilingual Performance of Large Language Models”, arXiv:2404.11553 — مجموعة تدريب GPT-3 ~92.65% إنجليزيّة؛ تدريب LLaMA 2 الأوّلي ~89.7% إنجليزيّ.
  1. Unicode Consortium, “The Unicode Standard” — الكتلة الأساسيّة للعربيّة U+0600-U+06FF تُرَمَّز ببايتَين في UTF-8؛ أشكال العرض العربيّة (U+FB50-U+FDFF، U+FE70-U+FEFF) تُرَمَّز بثلاثة بايتات.
  1. OpenAI, “GPT-5.5 Model” — API docs — نافذة سياق 1M رمز لـ GPT-5.5 عبر API.
  1. “ALLaM: Large Language Models for Arabic and English”, arXiv:2407.15390 — توسيع المفردات بالإضافة إلى تدريب مسبق مزدوج عربيّ/إنجليزيّ لإضافة قدرة عربيّة دون نسيان كارثيّ.
  1. ITIDA, “Egypt launches national AI Karnak LLM at AI Everything MEA 2026” و Karnak model card, Hugging Face — Karnak مبنيّ على Qwen3-30B-A3B-Instruct-2507 مع توسيع للعمق ومُرَمِّز مُحَسَّن للعربيّة.
  1. “Fanar: An Arabic-Centric Multimodal Generative AI Platform”, arXiv:2501.13944 — منصّة QCRI القَطَريّة عربيّة المركز تستخدم MorphBPE لترميز واعٍ بالصرف.
  1. Anthropic, “Prompt caching” — Claude API Docs — قراءات الذاكرة المؤقّتة بنحو ١٠٪ من سعر الإدخال القياسيّ؛ مدعومة على جميع نماذج Claude النشطة.
احصل على مقارنة تكلفة LLM عربي لحملك → جلسة 30 دقيقة اقرأ صفحة حلول نماذج الأساس