يوفر الاستدلال FP4 من NVIDIA كفاءة بمعدل 50 ضعفًا
تُحقق تقنية FP4 من NVIDIA مكاسب في كفاءة الطاقة بمعدل 25-50 ضعفاً مع الحفاظ على دقة شبه متطابقة مع التنسيقات الأعلى دقة، مما يُحدث تحولاً جذرياً في اقتصاديات نشر الذكاء الاصطناعي. يوفر تنسيق NVFPP4 الخاص ببنية Blackwell ما يصل إلى 4 أضعاف الأداء مقارنةً باستدلال FP8 من خلال القياس المتطور ثنائي المستوى ونوى التنسور من الجيل الخامس. يتبنى كبار مزوّدي الخدمات السحابية وشركات الذكاء الاصطناعي الكبرى تنسيق FP4 بسرعة لأعباء عمل الإنتاج، حيث يحقق DeepSeek-R1 أكثر من 250 رمزاً في الثانية لكل مستخدم على وحدة معالجة رسومات واحدة. يتيح هذا الإنجاز تقديم نماذج لغوية ضخمة مثل Llama 3.1 405B مع تقليل الذاكرة بمقدار 3.5 أضعاف مقارنةً بوحدة معالجة الرسوميات FP16، مما يجعل إمكانات الذكاء الاصطناعي المتقدمة متاحة على نطاق وكفاءة غير مسبوقين.
البنية التي تعمل على تشغيل الاستدلال فائق الدقة المنخفضة للغاية
يمثل NVFP4 من NVIDIA تطورًا متطورًا في التنسيقات العددية، باستخدام بنية E2M1 (بت إشارة واحد، بتتا أس، بتتا أس، بتة مانتيسا واحدة) محسّنًا بمقياس ثنائي المستوى. يطبّق المستوى الأول عوامل قياس E4M3 FP8 على كتل صغيرة ذات 16 قيمة، بينما يوفر مقياس FP32 الثاني لكل مقياس مقياس لكل مقياس تعديل النطاق العالمي. ويحقق هذا النهج خطأ تكميم أقل بنسبة 88% مقارنةً بطرق القياس الأبسط ذات القوة من اثنين مثل MXFP4.
وتنفذ وحدة معالجة الرسومات Blackwell B200 هذا من خلال 208 مليار ترانزستور في تصميم ثنائي القوالب، متصلة عبر واجهة NV-HBI بسرعة 10 تيرابايت/ثانية تتيح التشغيل الشفاف للبرامج. توفر نوى Tensor Cores من الجيل الخامس دعم NVFP4 الأصلي مع قياس مسرع للأجهزة، مما يحقق 20 بيتا فلوبس في الثانية من أداء FP4. تشتمل البنية على ذاكرة تينسور (TMEM) مخصصة قريبة من وحدات الحوسبة، مما يقلل من طاقة حركة البيانات ويتيح إنتاجية عالية مستدامة.
تصل تطبيقات المستهلكين من خلال سلسلة GeForce RTX 50، مما يوفر إمكانات FP4 لأنظمة سطح المكتب مع ما يصل إلى 4000 وحدة معالجة بالذكاء الاصطناعي. تعمل وحدات معالجة الرسومات هذه على تمكين توليد صور FLUX المحلية مع تسريع 3.9 أضعاف مقارنةً بوحدات معالجة الرسومات FP8، مما يدل على قابلية FP4 للتطبيق خارج نطاق نشر مراكز البيانات. يدفع نظام Blackwell Ultra (B300/GB300) القادم الحدود إلى أبعد من ذلك مع ذاكرة HBM3E بسعة 288 جيجابايت وتحسين الأداء بمقدار 1.5 ضعف، مما يضع 1.1 ExaFLOPS لكل نظام GB300 NVL72.
مقاييس الأداء تعيد تشكيل اقتصاديات الاستدلال.
تكشف بيانات المقارنة المعيارية عن التأثير التحويلي لـ FP4 على أداء الاستدلال في الذكاء الاصطناعي. يحقق DeepSeek-R1 671B تحسنًا في الإنتاجية بأكثر من 3 أضعاف على B200 FP4 مقارنةً بـ H200 FP8، حيث توفر أنظمة DGX B200 الفردية أكثر من 30,000 رمز في الثانية. والأهم من ذلك، لا يزال تدهور الدقة ضئيلاً للغاية - تنخفض درجة MMLU في DeepSeek-R1 بنسبة 0.1% فقط (من 90.8% إلى 90.7%) عند التحويل الكمي من FP8 إلى FP4.
تتيح هذه التقنية تحقيق مكاسب هائلة في كفاءة الذاكرة. يتطلب Llama 3.1 405B 140 جيجابايت في وضع FP32 ولكن 17.5 جيجابايت فقط في وضع FP4، وهو ما يمثل انخفاضًا بمقدار 8 أضعاف يسمح بتقديم نماذج ضخمة على تكوينات أصغر لوحدة معالجة الرسومات. يُظهر توليد صور FLUX مزايا مماثلة مع انخفاض استخدام ذاكرة FP16 بسعة 51.4 جيجابايت إلى 9.9 جيجابايت في وضع FP4 منخفض ذاكرة الوصول العشوائي مع الحفاظ على مقاييس الجودة المرئية.
أثبتت نتائج MLPerf v5.0 صحة جدوى الإنتاج، حيث تضاعف متوسط أداء Llama 2 70B على أساس سنوي وتحسنت أفضل النتائج 3.3 أضعاف. كما أثبتت المكاسب في كفاءة الطاقة أنها مثيرة للإعجاب بنفس القدر، حيث انخفضت مكاسب كفاءة الطاقة من 10 جول لكل رمز إلى 0.4 جول على B200 و0.2 جول على B300، وهو ما يمثل تحسنًا يصل إلى 50 ضعفًا. تُترجَم هذه المقاييس مباشرةً إلى وفورات في التكاليف التشغيلية، حيث ستشهد الصناعة انخفاضًا بنسبة 90% تقريبًا في تكاليف استدلال وحدة معالجة الرسومات حتى 2024-2025.
شركات التكنولوجيا الكبرى تنشر FP4 على نطاق واسع.
يقود مقدمو الخدمات السحابية اعتماد FP4 مع عمليات نشر الإنتاج عبر المنصات الرئيسية. تقدم مختبرات Lambda Labs مجموعات NVIDIA HGX B200 الممكّنة بتقنية FP4 كمجموعات 1-Click Clusters، بينما تحقق CoreWeave 800 رمز في الثانية على طرازات Llama 3.1 405B باستخدام وحدات معالجة الرسومات GB200. تمتد هذه التقنية إلى ما هو أبعد من النظام الإيكولوجي لـ NVIDIA - حيث تقوم Meta وOpenAI وMicrosoft بنشر AMD Instinct MI300X للاستدلال الإنتاجي مع اعتماد MI350 المخطط له الذي يتميز بدعم FP4 الأصلي.
تُظهر تطبيقات العالم الحقيقي تعدد استخدامات FP4 في مختلف المجالات. تستكشف شركات الخدمات المالية، بما في ذلك بنك JPMorgan Chase، تقنية FP4 لتقييم المخاطر وتحليل البيانات البديلة، بينما تستفيد مؤسسات الرعاية الصحية من هذه التقنية لتطبيقات الذكاء الاصطناعي المتطورة محققةً زيادة في سرعة الاستدلال بنسبة 30% مع تقليل الذاكرة بنسبة 50%. تتيح عمليات النشر في مجال التصنيع إمكانية اتخاذ القرارات في الوقت الفعلي على الأجهزة المحدودة حاسوبيًا، مما يوسع نطاق وصول الذكاء الاصطناعي إلى بيئات لم يكن من الممكن الوصول إليها سابقًا.
ينضج النظام البيئي للبرمجيات بسرعة لدعم التبني. ويوفر برنامج TensorRT Model Optimizer TensorRT تدفقات عمل شاملة لتكميم FP4، بينما تضيف أطر مثل vLLLM دعمًا مبكرًا لـ NVFFP4. يستضيف Hugging Face مستودعات متزايدة من نقاط فحص نموذج FP4 المضبوطة مسبقًا FP4، بما في ذلك DeepSeek-R1 وLlama 3.1 ومتغيرات FLUX، مما يسرع من الجداول الزمنية للنشر للمؤسسات.
يتيح تحويل البنية التحتية دقة فائقة منخفضة للغاية.
يتطلب نشر FP4 على نطاق واسع تغييرات جوهرية في البنية التحتية، لا سيما في أنظمة الطاقة والتبريد. يتطلب نظام NVIDIA GB200 NVL72 من NVIDIA 120 كيلو وات لكل رف يحتوي على 72 وحدة معالجة رسومات، وهو ما يتجاوز قدرات أكثر من 95% من مراكز البيانات الحالية. على الرغم من ارتفاع طاقة الحامل، فإن الكفاءة على مستوى النظام تتحسن بشكل كبير - نظام NVL72 واحد يحل محل تسعة أنظمة HGX H100 بينما يستهلك طاقة أقل بنسبة 83% لحساب مكافئ.
يصبح التبريد السائل إلزاميًا في عمليات نشر Blackwell بسبب 1000 واط TDP لكل وحدة معالجة رسومات. تتيح أنظمة التبريد المباشر إلى الرقاقة مع ألواح التبريد على جميع المكونات المولدة للحرارة إمكانية التشغيل بدرجات حرارة سائل التبريد 45 درجة مئوية، مما يسمح بتشغيل أبراج التبريد بدلاً من المبردات كثيفة الاستهلاك للطاقة. يدعم حل DLC-2 من سوبر مايكرو ما يصل إلى 96 وحدة معالجة رسومات B200 لكل حامل مع قدرة تبريد تبلغ 250 كيلو وات، مما يضع معايير جديدة للبنية التحتية للذكاء الاصطناعي عالي الكثافة.
تشمل متطلبات البرمجيات برامج تشغيل CUDA المحدثة، و TensorRT-LLM مع دعم FP4 الأصلي، وأدوات التكميم المتخصصة. يتيح التكميم الكمي بعد التدريب من خلال مُحسِّن نموذج TensorRT النشر السريع، بينما يوفر التدريب المدرك للتكميم الكمي الحفاظ على الدقة المثلى. وتحقق طريقة SVDQuant دقة على مستوى QAT دون تدريب، مما يوفر مرونة نشر مقنعة للمؤسسات ذات الموارد المحدودة للحوسبة.
يحافظ التكميم المتقدم على ذكاء النموذج.
تضمن تقنيات التكميم الحديثة أن يحافظ نشر FP4 على دقة جودة الإنتاج من خلال أساليب متطورة. يتكيف المقياس ثنائي المستوى من NVIDIA تلقائيًا مع توزيعات قيمة الموتر بينما يحلل محرك المحول أكثر من 1000 عملية لتحسين عوامل المقياس ديناميكيًا. يمكّن هذا التصميم المشترك بين الأجهزة والبرامج من تمكين DeepSeek-R1 من تحقيق دقة 98.1% في FP4، متجاوزًا خط الأساس FP8 على معايير محددة.
يمثل كلٌ من SmoothQuant وAWQ (التكييف الكمي للوزن الواعي بالتنشيط) أحدث أساليب ما بعد التدريب، مما يتيح لنماذج مثل Falcon 180B أن تتناسب مع وحدات معالجة رسومية واحدة. وللحفاظ على أقصى قدر من الدقة، يحاكي التدريب المدرك للكمية عمليات FP4 أثناء الضبط الدقيق، مما يسمح للشبكات بتكييف توزيعات الوزن للنشر منخفض الدقة. تُظهر نماذج Nemotron 4 من NVIDIA تكميم FP4 بدون خسارة من خلال QAT، مما يطابق أو يتجاوز الأداء الأساسي لوحدة معالجة الرسوميات BF16.
يستمر مشهد التكميم في التطور مع تقنيات تعالج تحديات محددة. تمنع آليات المعالجة الخارجية انهيار التنشيط في الطبقات الحساسة، بينما تحافظ استراتيجيات الدقة المختلطة على دقة أعلى للعمليات الحرجة. هذه التطورات تجعل FP4 قابلة للتطبيق عبر بنيات النماذج المتنوعة من المحولات الكثيفة إلى تصاميم خليط الخبراء.
التطلّع إلى اعتماد الدقة الفائقة على نطاق واسع
يبدو مسار اعتماد FP4 مقنعًا استنادًا إلى الزخم الحالي ووضوح خارطة الطريق. يستهدف جيل روبن من إنفيديا 50 PFLOP من حوسبة FP4 الكثيفة من NVIDIA، مما يضاعف القدرات الحالية ثلاث مرات، بينما تعد سلسلة MI400 من AMD بمكاسب أداء تبلغ 10 أضعاف لنماذج مزيج الخبراء. لا يزال توفر الأجهزة هو العائق الأساسي، حيث ورد أن كامل إنتاج 2025 B200/B300 قد بيعت بالكامل لمزودي الخدمات السحابية الرئيسيين.
تؤيد ديناميكيات التكلفة بقوة استمرار الاعتماد. فقد أبلغت المؤسسات عن زيادة تصل إلى 40% من التوكنات لكل دولار باستخدام FP4 مقارنة بالحلول المنافسة، بينما تعالج مكاسب كفاءة الطاقة المخاوف المتزايدة بشأن الاستدامة. وقد أثبت تأثير الدمقرطة أهميته - حيث أصبحت القدرات التي كانت تتطلب في السابق مجموعات ضخمة من وحدات معالجة الرسومات في متناول المؤسسات الأصغر حجماً من خلال تحسينات الذاكرة وكفاءة الحوسبة.
سوف يتسارع تطور البنية التحتية مع تسارع تطور البنية التحتية حيث سيصبح التبريد السائل وتوصيل الطاقة عالي الكثافة معيارًا لعمليات نشر الذكاء الاصطناعي. ستنتشر مراكز البيانات المصممة لرفوف بقدرة 50-120 كيلوواط، مدعومة بتقنيات التبريد المحسنة وأنظمة إدارة الطاقة. سيستمر نضج البرمجيات في التقدم مع التكامل السلس لإطار العمل وخطوط أنابيب التكميم الآلي وتوسيع نطاق توافر النماذج المدربة مسبقًا، مما يقلل من العوائق التي تحول دون اعتماد FP4 في جميع الصناعات.
المراجع
مطور NVIDIA. "تقديم NVFP4 للاستدلال الفعال والدقيق منخفض الدقة." مدونة NVIDIA التقنية. تم الوصول إليها في 5 أغسطس 2025. https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/.
Wccftech. "NVIDIA تتعمق في البنية التحتية لـ Blackwell: تُستخدم NV-HBI لدمج وحدتي معالجة رسومات ذكاء اصطناعي معًا، والجيل الخامس من نوى التنسور، والجيل الخامس من NVLINK و Spectrum-X بالتفصيل." تم الوصول إليه في 5 أغسطس 2025. https://wccftech.com/nvidia-blackwell-ai-deep-dive-nv-hbi-fuse-two-ai-gpus-together-5th-gen-tensor-cores-5th-gen-nvlink-spectrum-x/.
مطور NVIDIA. "NVIDIA TensorRT NVIDIA TensorRT يفتح إمكانية توليد صور FP4 لوحدات معالجة الرسومات NVIDIA Blackwell GeForce RTX 50 Series." مدونة NVIDIA التقنية. تم الوصول إليها في 5 أغسطس 2025. https://developer.nvidia.com/blog/nvidia-tensorrt-unlocks-fp4-image-generation-for-nvidia-blackwell-geforce-rtx-50-series-gpus/.
تومز هاردوير "Nvidia تعلن عن Blackwell Ultra B300 - أسرع بـ 1.5 مرة من B200 مع 288 جيجابايت HBM3e و15 PFLOPS FP4 كثيفة." تم الوصول إليه في 5 أغسطس 2025. https://www.tomshardware.com/pc-components/gpus/nvidia-announces-blackwell-ultra-b300-1-5x-faster-than-b200-with-288gb-hbm3e-and-15-pflops-dense-fp4.
مطور NVIDIA. "تقدم NVIDIA Blackwell أداءً قياسيًا عالميًا في الاستدلال DeepSeek-R1." مدونة NVIDIA التقنية. تم الوصول إليها في 5 أغسطس 2025. https://developer.nvidia.com/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/.
لامبدا. "تسريع سير عمل الذكاء الاصطناعي الخاص بك باستخدام تقنية FP4 Quantization على Lambda." تم الوصول إليه في 5 أغسطس 2025. https://lambda.ai/blog/lambda-1cc-fp4-nvidia-hgx-b200.
HPCwire. "يعكس الإصدار 5.0 من MLPerf التحول نحو الاستدلال المنطقي في الاستدلال بالذكاء الاصطناعي." 2 أبريل 2025. https://www.hpcwire.com/2025/04/02/mlperf-v5-0-reflects-the-shift-toward-reasoning-in-ai-inference/.
بريميتيفا "كل ما تحتاج إلى معرفته عن تكلفة الاستدلال". Substack. تم الوصول إليه في 5 أغسطس 2025. https://primitiva.substack.com/p/all-you-need-to-know-about-inference.
لامبدا. "تسريع سير عمل الذكاء الاصطناعي الخاص بك باستخدام تقنية FP4 Quantization على Lambda." تم الوصول إليه في 5 أغسطس 2025. https://lambda.ai/blog/lambda-1cc-fp4-nvidia-hgx-b200.
AMD. "AMD تكشف النقاب عن رؤية AMD لمنظومة ذكاء اصطناعي مفتوحة، وتفاصيل السيليكون والبرمجيات والأنظمة الجديدة في تطوير الذكاء الاصطناعي 2025." 12 يونيو 2025. https://www.amd.com/en/newsroom/press-releases/2025-6-12-amd-unveils-vision-for-an-open-ai-ecosystem-detai.html.
المنصة التالية. "بالنسبة لشركات الخدمات المالية، فإن الاستدلال بالذكاء الاصطناعي يمثل تحديًا كبيرًا مثل التدريب". 31 يوليو 2025. https://www.nextplatform.com/2025/07/31/for-financial-services-firms-ai-inference-is-as-challenging-as-training/.
مطور NVIDIA. "تسريع أداء الاستدلال التوليدي للذكاء الاصطناعي باستخدام مُحسِّن نموذج NVIDIA TensorRT، متاح الآن للجمهور." مدونة NVIDIA التقنية. تم الوصول إليه في 5 أغسطس 2025. https://developer.nvidia.com/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/.
AMAX. "أهم 5 اعتبارات لنشر NVIDIA Blackwell." تم الوصول إليه في 5 أغسطس 2025. https://www.amax.com/top-5-considerations-for-deploying-nvidia-blackwell/.
ScienceDirect. "التبريد السائل لمراكز البيانات: ضرورة تواجه التحديات." تم الوصول إليه في 5 أغسطس 2025. https://www.sciencedirect.com/science/article/abs/pii/S1359431124007804.
سوبر مايكرو "حلول NVIDIA Blackwell Blackwell HGX B200 و GB200 NVL72." تم الوصول إليه في 5 أغسطس 2025. https://www.supermicro.com/en/accelerators/nvidia.
مطور NVIDIA. "تقديم NVFP4 للاستدلال الفعال والدقيق منخفض الدقة." مدونة NVIDIA التقنية. تم الوصول إليها في 5 أغسطس 2025. https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/.
إي إي تايمز. "إنفيديا بلاكويل من إنفيديا تقدم محرك محول من الجيل الثاني من الجيل الرابع". 18 مارس 2024. https://www.eetimes.com/nvidias-blackwell-gpu-offers-fp4-transformer-engine-sharp/.
BitcoinEthereumNews.com. "تحسين نماذج اللغات الكبيرة: تقنيات ما بعد التدريب الكمي من NVIDIA." تم الوصول إليه في 5 أغسطس 2025. https://bitcoinethereumnews.com/tech/enhancing-large-language-models-nvidias-post-training-quantization-techniques/.
شبه تحليل. "NVIDIA GTC 2025 - Built For Reasoning، فيرا روبن، وكيبر، وCPCO، وDynamo Inference، وJensen Math، و Feynman" 19 مارس 2025. https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/.
الألعاب النارية للذكاء الاصطناعي. "FireAttention V4: الكمون الرائد في الصناعة وكفاءة التكلفة مع FP4." تم الوصول إليه في 5 أغسطس 2025. https://fireworks.ai/blog/fireattention-v4-fp4-b200.