Google TPU v6e مقابل GPU: دليل أداء ذكاء اصطناعي أفضل 4 مرات لكل دولار
يوفر السيليكون المخصص من Google اقتصاديات مقنعة لتدريب الذكاء الاصطناعي على نطاق واسع، حيث تقوم مؤسسات مثل Anthropic وMidjourney وSalesforce بترحيل أعباء العمل الحرجة من وحدات معالجة الرسومات إلى وحدات معالجة TPUs (TPUs). توفر وحدة معالجة TPU v6e مزايا كبيرة من حيث التكلفة - أداء أفضل بأربعة أضعاف لكل دولار مقارنة بوحدات معالجة الرسومات NVIDIA H100 لأعباء عمل محددة - مع توفير تكامل سلس مع أطر عمل JAX و TensorFlow.¹ تُظهر عمليات النشر الأخيرة نتائج مذهلة: خفضت Midjourney تكاليف الاستدلال بنسبة 65% بعد الانتقال من وحدات معالجة الرسومات، وحققت Cohere تحسينات في الإنتاجية بمقدار 3 أضعاف، وتستخدم نماذج Gemini الخاصة بشركة Google عشرات الآلاف من رقائق TPU للتدريب.² يجب على المؤسسات التي تفكر في الاستثمار في البنية التحتية للذكاء الاصطناعي أن تفهم متى توفر وحدات معالجة الرسوميات اقتصاديات أفضل من وحدات معالجة الرسوميات وكيفية تنفيذ استراتيجيات النشر الناجحة.
تعمل بنية TPU على تحسين العمليات الأساسية للذكاء الاصطناعي
صممت Google وحدات معالجة المضاعفات (Tensor Processing Units) خصيصاً لعمليات ضرب المصفوفات التي تهيمن على عمليات حساب الشبكة العصبية. تتيح بنية المصفوفة الانقباضية توازياً هائلاً، حيث تتدفق البيانات عبر شبكة من عناصر المعالجة التي تقوم بعمليات الضرب والتجميع بشكل مستمر. توفر كل رقاقة TPU v6e أداءً مستدامًا من خلال دعم BFloat16 الأصلي، والذي يحافظ على دقة النموذج مع مضاعفة الإنتاجية مقارنةً بعمليات FP32.³
يزيل تصميم بنية الذاكرة لوحدة معالجة الرسومات TPU v6e الاختناقات الشائعة لوحدة معالجة الرسومات. وهو يقوم بذلك من خلال دمج الذاكرة ذات النطاق الترددي العالي (HBM) ومساحات الذاكرة الموحدة، مما يبسط البرمجة ويضمن إدارة الذاكرة بكفاءة. تعمل وحدات TPU Pods على توسيع نطاق هذه الرقاقات الفردية إلى أنظمة موزعة ضخمة - حيث توفر وحدة معالجة الرسومات v6e Pod التي تحتوي على 256 وحدة معالجة رسومات TPU 235 بيتافلوب من القدرة الحاسوبية، مع سرعات توصيل بين الرقاقات تصل إلى 13 تيرابايت في الثانية.⁴ تتيح تقنية التوصيل البيني المخصصة من Google إجراء عمليات الاختزال الشاملة أسرع 10 مرات من مجموعات وحدات معالجة الرسومات القائمة على الإيثرنت، مما يقضي على اختناقات الشبكات التي يعاني منها تدريب وحدات معالجة الرسومات الموزعة.
يميز نضج النظام البيئي للبرامج وحدات المعالجة ثلاثية الأبعاد عن المسرّعات الأخرى. حيث يوفر JAX واجهة متوافقة مع NumPy مع تمايز تلقائي، بينما يعمل المترجم XLA على تحسين العمليات الحسابية عبر وحدات TPU بأكملها. وقد دعم TensorFlow وحدات TPU بشكل أصلي منذ إنشائها، ويمكن لمستخدمي PyTorch الاستفادة من PyTorch/XLA لأدنى حد من التغييرات في التعليمات البرمجية عند ترحيل النماذج. وتشير تقارير DeepMind إلى أن حزمة البرامج الخاصة بهم تقلل من وقت تطوير النماذج بنسبة 50% مقارنةً بسير العمل القائم على CUDA.
تكشف مقاييس الأداء عن مزايا وحدة المعالجة الحرارية ثلاثية البوصلة لأعباء عمل محددة.
تُظهر معايير التدريب مزايا واضحة لوحدة معالجة الرسوميات TPU في النماذج القائمة على المحولات. يكتمل تدريب BERT أسرع بـ 2.8 مرة على وحدات المعالجة ثلاثية الأبعاد TPU مقارنة بوحدات معالجة الرسومات A100، بينما ينتهي تدريب نموذج T5-3B في 12 ساعة مقابل 31 ساعة على البنية التحتية لوحدات معالجة الرسومات المماثلة.
تحقق خدمة الاستدلال على دفعات زمن استجابة وإنتاجية أعلى للنماذج الكبيرة. يوفر الاستدلال الدفعي إنتاجية أعلى بأربعة أضعاف للمحولات، في حين أن زمن الاستجابة للاستعلام الفردي أقل بنسبة 30% للنماذج التي تتجاوز 10 مليارات معلمة. تخدم عملية نشر Google Translate أكثر من مليار طلب يوميًا على البنية الأساسية لوحدة معالجة TPU، مما يدل على موثوقية الإنتاج على نطاق واسع.⁸ يتيح زمن الاستجابة المتسق دون اختناق حراري أداءً يمكن التنبؤ به للتطبيقات التي تواجه المستخدم.
يكشف تحليل التكلفة عن المزايا الاقتصادية التي تدفع إلى اعتمادها. يبدأ سعر TPU v6e عند الطلب من 1.375 دولار في الساعة، وينخفض إلى 0.55 دولار في الساعة مع التزامات لمدة 3 سنوات.⁹ تتجنب المؤسسات رسوم ترخيص برامج NVIDIA مع الاستفادة من المثيلات القابلة للاستباق التي تقدم خصومات بنسبة 70%. أدى ترحيل Midjourney إلى خفض الإنفاق الشهري على الحوسبة من 2 مليون دولار إلى 700,000 دولار في الشهر، وهو ما يعد شهادة على اقتصاديات وحدة معالجة البيانات الشخصية لأعباء العمل الاستدلالية.¹⁰
تُعد كفاءة استخدام الطاقة ميزة رئيسية لوحدة معالجة الرسوميات TPU v6e، مما يقلل من التكاليف التشغيلية بما يتجاوز أسعار الحوسبة الأولية. تستهلك وحدات معالجة الرسوميات TPU طاقة أقل من وحدات معالجة الرسومات المماثلة، بينما تحافظ مراكز بيانات Google على فعالية استخدام الطاقة (PUE) بنسبة 1.1، وهو أفضل بكثير من متوسط الصناعة البالغ 1.58.¹¹ هذا الالتزام بكفاءة الطاقة، بما في ذلك العمليات المحايدة للكربون من خلال الطاقة المتجددة ومتطلبات التبريد المنخفضة، يحسن التكلفة الإجمالية للملكية للمؤسسات التي تراعي البيئة، مما يوفر الاطمئنان بشأن التأثير البيئي للمنصة وتوفير التكاليف على المدى الطويل.
توجه حالات الاستخدام الأمثل قرارات اعتماد وحدة المعالجة الحرارية ثلاثية الأبعاد.
تُعد بنية TPU v6e مناسبة بشكل خاص لتدريب النماذج اللغوية الكبيرة. تستخدم نماذج المحولات المصفوفات الانقباضية بكفاءة، في حين أن عرض النطاق الترددي العالي للذاكرة يتيح أحجام دفعات يستحيل استخدامها على وحدات معالجة الرسومات. إن تدريب نموذج PaLM من Google، الذي استخدم 6144 رقاقة TPU v4 من Google، هو شهادة على قدرة المنصة على التعامل مع النماذج التي تحتوي على مئات المليارات من المعلمات.¹² هذا التركيز على ملاءمة TPU v6e للنماذج اللغوية الكبيرة يجب أن يغرس الثقة في المؤسسات التي لديها مثل هذه الاحتياجات المحددة.
تستفيد أنظمة التوصيات من تسريع عمليات التضمين التي توفرها وحدة معالجة البيانات الشخصية. يعالج نظام التوصيات الخاص ب YouTube ملياري مستخدم على وحدات معالجة TPU، مستفيدًا من العمليات المتفرقة المحسّنة للأجهزة وإدارة جداول التضمين.¹³ تتعامل البنية مع جداول التضمين الضخمة التي تتطلب استراتيجيات تقاسم معقدة على مجموعات وحدات معالجة الرسومات، بينما تتكامل تقنيات التدريب التي تحافظ على الخصوصية بسلاسة.
تستفيد أعباء عمل الرؤية الحاسوبية من التحسينات المكانية المضمنة في أجهزة TPU. يتم تحويل عمليات التلافيف بكفاءة إلى عمليات مضاعفة المصفوفة، بينما يتم دمج التطبيع الدفعي مع وظائف التنشيط لتقليل عرض النطاق الترددي للذاكرة. تعالج صور Google Photos 28 مليار صورة شهريًا على وحدات معالجة TPU، مما يدل على قدرة المنصة على إنتاج تطبيقات الرؤية.
تستفيد تطبيقات الحوسبة العلمية من وحدات الحوسبة ثلاثية الأبعاد في إجراء الأبحاث المتقدمة. يعمل كل من التنبؤ ببنية البروتين AlphaFold في DeepMind، ومحاكاة النمذجة المناخية، وسير عمل اكتشاف الأدوية حصريًا على البنية التحتية لوحدات معالجة الرسوميات.
توازن استراتيجيات النشر بين التعقيد والفوائد.
يوفر النشر السحابي الأصلي من خلال منصة Google Cloud Platform أسرع مسار للإنتاج. تقوم خدمات Vertex AI المُدارة بالذكاء الاصطناعي بتجريد تعقيدات البنية التحتية، بينما تتيح واجهة برمجة التطبيقات السحابية TPU الوصول المباشر لسير العمل المخصص. يقوم محرك Kubernetes Engine بتنسيق مهام التدريب الموزعة، مع التخزين السحابي وBigQuery الذي يتعامل مع خطوط أنابيب البيانات. تم ترحيل Spotify من وحدات معالجة الرسومات المحلية إلى وحدات معالجة الرسومات السحابية في ثلاثة أشهر، مما يدل على جدوى النشر السريع.¹⁶
تدمج استراتيجيات السحابة المتعددة وحدات معالجة الرسوميات إلى جانب البنية التحتية الحالية لوحدات معالجة الرسومات. تحافظ المؤسسات على المرونة من خلال التدريب على وحدات معالجة الرسومات (TPU) أثناء العمل على وحدات معالجة الرسومات، أو العكس، اعتمادًا على خصائص عبء العمل. وتجمع Salesforce بين البنية التحتية لوحدات معالجة الرسومات AWS ووحدات معالجة الرسومات السحابية من Google Cloud TPU، مما يحسن التكاليف من خلال وضع عبء العمل مع الحفاظ على تنوع البائعين.¹⁷ تتيح الوصلة البينية السحابية نقل البيانات بكفاءة بين البيئات، بينما تستفيد استراتيجيات التدريب الهجين من كلا نوعي المُسرِّعات في وقت واحد.
يضمن تخطيط السعة المحجوزة التوافر مع تقليل التكاليف. تصل نسبة خصومات الاستخدام المحجوزة إلى 57% لمدة 3 سنوات، مع تقاسم السعة المحجوزة عبر المشاريع لتحقيق أقصى استفادة ممكنة. قامت Snap بتأمين 10,000 رقاقة TPU v6e من خلال إدارة السعة الاستراتيجية، مما يضمن توفير الموارد لمبادرات الذكاء الاصطناعي الخاصة بها.¹⁸ يجب على المؤسسات الموازنة بين احتياجات السعة المضمونة ومرونة المثيلات عند الطلب والمثالات الفورية.
يعمل إعداد بيئة التطوير على تسريع إنتاجية الفريق. ويوفر Google Colab وصولاً مجانيًا إلى وحدة معالجة البيانات الشخصية (TPU) للتجريب، بينما توفر دفاتر ملاحظات منصة الذكاء الاصطناعي بيئات مهيأة مسبقًا للتجريب. يتيح محاكي TPU إمكانية التطوير المحلي دون الحاجة إلى موارد سحابية، كما أن التطوير عن بُعد من خلال VSCode يبسّط سير العمل. قلل Hugging Face من وقت الإعداد من أسابيع إلى أيام من خلال بيئات التطوير المحسّنة.¹⁹
تحسين البرمجيات يفتح أداء وحدة المعالجة الحرارية TPU.
يتسارع اعتماد JAX بين الباحثين لنموذج البرمجة الوظيفية والتحويلات القابلة للتركيب. وقد زادت سرعة تطوير أنثروبيك 3 أضعاف بعد الانتقال إلى JAX، مستفيدةً من التمايز التلقائي والتجميع التلقائي للتحويلات البرمجية القابلة للتركيب إلى XLA.²⁰ تكشف أساسيات الإطار المتوازية عن قدرات وحدة البرمجة الوظيفية مباشرة، مما يمكّن الباحثين من تنفيذ عمليات مخصصة بكفاءة.
تحدث تحسينات المحول البرمجي XLA تلقائيًا، ولكنها تستفيد من فهم أعمق للمفاهيم الأساسية. يقلل دمج المشغلات من متطلبات عرض النطاق الترددي للذاكرة، بينما يضمن تحسين التخطيط الاستخدام الفعال لنواة الموتر. قام بحث Google بتحسين إنتاجية النموذج بنسبة 40% من خلال تجميع XLA وحده، دون تعديل بنية النموذج.²¹ يمكن للمطورين ضبط التجميع من خلال العلامات، مما يتيح تحسينات قوية لعمليات النشر الإنتاجية.
ثبت أن تحسين خط أنابيب البيانات أمر بالغ الأهمية للحفاظ على استخدام وحدة معالجة TPU. تتعامل واجهة برمجة تطبيقات tf.data مع تحميل البيانات، مع الجلب المسبق الذي يخفي زمن انتقال الإدخال/الإخراج وتحميل البيانات المتوازي الذي يزيد من الإنتاجية. قام YouTube بتحسين استخدام وحدة معالجة البيانات TPU من 60% إلى 95% من خلال تحسين خط الأنابيب، بما في ذلك اعتماد تنسيق TFRecord والحجم المناسب للمخزن المؤقت للتبديل.²² يجب على المؤسسات الاستثمار في البنية الأساسية للبيانات لتجنب تجويع موارد وحدة معالجة البيانات TPU باهظة الثمن.
يتطلب التكامل مع البنية التحتية للمؤسسة التخطيط.
تحتاج المؤسسات التي لديها استثمارات كبيرة في وحدات معالجة الرسومات إلى استراتيجيات ترحيل تقلل من التعطيل. تعمل أدوات تحويل النماذج على أتمتة جزء كبير من العملية، ولكن يظل قياس الأداء أمرًا ضروريًا. أكملت شركة Midjourney عملية الترحيل في ستة أسابيع دون أي تعطل من خلال تشغيل عمليات النشر المتوازية أثناء عملية التحويل.²³ تتطلب فرق العمل التدريب على التحسينات الخاصة بوحدة معالجة الرسومات وتقنيات تصحيح الأخطاء التي تختلف عن سير عمل CUDA.
يوفر تكامل Vertex AI عمليات تعلم الآلة على مستوى المؤسسات. يتيح AutoML إمكانية التدريب على النماذج بدون تعليمات برمجية، بينما تقوم خطوط الأنابيب بتنسيق عمليات سير العمل المعقدة. يتعامل سجل النماذج مع الإصدار، وتتولى نقاط النهاية إدارة البنية التحتية للخدمة. تدير Spotify 1,000 نموذج من خلال Vertex AI، مما يدل على القدرة على نطاق المؤسسة.² ⁴ تستخلص المنصة تعقيدات وحدة المعالجة الحرارية مع الحفاظ على المرونة للمتطلبات المخصصة.
يتطلب التميز التشغيلي مهارات جديدة.
تصبح المراقبة والملاحظة أمرًا حاسمًا على نطاق السحابة. تتكامل مراقبة السحابة تلقائيًا مع مقاييس وحدة معالجة البيانات السحابية، بينما تتتبع لوحات المعلومات المخصصة المؤشرات الخاصة بالنموذج. ويحدد مُعرّف وحدة المعالجة السحابية TPU الاختناقات، مع تحليل الجدول الزمني الذي يكشف عن فرص التحسين. يراقب DeepMind باستمرار 50,000 وحدة معالجة ثلاثية الأبعاد من خلال بنية تحتية شاملة للمراقبة.
يتعامل تحمل الأعطال مع الأعطال الحتمية للأجهزة بأمان. تقوم آليات الاكتشاف والاسترداد التلقائي بإعادة تشغيل التدريب من نقاط التفتيش، بينما تمنع الجدولة الجماعية التخصيص الجزئي للحجرات. حققت Google معدل إكمال للمهام بنسبة 99.9% على الرغم من أعطال الأجهزة، وذلك بفضل أنظمة تحمل الأخطاء القوية.²⁶ يجب على المؤسسات تصميم سير العمل بافتراض حدوث أعطال.
تؤثر استراتيجيات تحسين التكلفة بشكل كبير على الاقتصاديات. تعمل وحدات المعالجة الحرارية القابلة للاستخدام المسبق على تقليل التكاليف بنسبة 70% لأحمال العمل التي تتحمل الأعطال، بينما توفر النماذج الفورية وفورات خلال ساعات خارج أوقات الذروة. كما أن تحديد الحجم المناسب لأنواع وحدات المعالجة الحرارية حسب متطلبات عبء العمل وتحسين أحجام الدُفعات يمنع الهدر. خفضت Snap تكاليف التدريب بنسبة 70% من خلال التحسين المنهجي، بما في ذلك ضبط تردد نقاط التفتيش ونشر الإيجار المتعدد.
تطبيقات العالم الحقيقي تثبت القيمة.
يستخدم تدريب Claude من Anthropic Claude حصرياً وحدات المعالجة الثلاثية (TPU)، حيث تستخدم النماذج الحديثة 16,384 شريحة TPU في وقت واحد. تستفيد منهجية التدريب على الذكاء الاصطناعي الدستوري من سعة ذاكرة TPU وسرعة التوصيل البيني. تتجاوز التخفيضات في التكلفة مقارنةً بالبنية التحتية المكافئة لوحدة معالجة الرسومات 60%، بينما تحسنت سرعة التكرار من خلال التدريب الموزع المبسط.² ⁸
تُظهر نماذج Gemini من Google قدرات وحدة المعالجة الحرارية TPU على نطاق واسع للغاية. يتدرب متغير Ultra الذي يحتوي على أكثر من تريليون معلمة على عشرات الآلاف من وحدات معالجة TPU، مما يدل على قدرة المنصة على التعامل مع بنيات نماذج الجيل التالي. تندمج القدرات متعددة الوسائط بشكل طبيعي مع بنية الذاكرة الموحدة لوحدة المعالجة ثلاثية الأبعاد.
تستفيد Salesforce Einstein GPT من وحدات TPU للتدريب على نطاق المؤسسة وخدمة المستأجرين المتعددين. يفي النشر بمتطلبات الامتثال الصارمة مع توفير تكاليف يمكن التنبؤ بها وتكامل سلس مع البنية التحتية الحالية لقوة المبيعات. وقد تحققت قيمة الأعمال من خلال تحديثات أسرع للنماذج وتحسين دقة التنبؤات.
يفضل الاقتصاديون وحدات المعالجة الثلاثية لأعباء العمل المناسبة.
يكشف تحليل التكلفة الإجمالية للملكية عن أن مزايا وحدة معالجة الرسومات TPU مناسبة لأعباء عمل محددة. تقوم المؤسسات بإلغاء رسوم ترخيص برامج وحدة معالجة الرسومات وتقليل استهلاك الطاقة وتبسيط البنية التحتية للشبكات. يؤدي ارتفاع معدلات الاستخدام وانخفاض النفقات الإدارية إلى تحقيق وفورات كبيرة. كشف تحليل Snap للملكية الإجمالية للملكية عن توفير 55% مقارنةً بالبنية الأساسية لوحدة معالجة الرسومات المماثلة.³¹.
تُظهر مقاييس الأداء لكل دولار اقتصاديات مقنعة. توفر وحدات معالجة الرسوميات TPU قيمة أفضل 4 مرات تقريبًا من وحدات معالجة الرسومات H100 لتدريب النماذج اللغوية الكبيرة، مع مزايا مماثلة لأنظمة التوصيات والاستدلال على دفعات كبيرة. وتزيد تكاليف الطاقة وتحسينات الكفاءة التشغيلية من هذه المزايا.³².
يوفر تسريع وقت الوصول إلى السوق مزايا تنافسية تتجاوز مجرد توفير التكاليف. تتيح عمليات التكرار الأسرع للتدريب إجراء تجارب سريعة، بينما تقلل الخدمات المدارة من العبء التشغيلي. تعمل النماذج المدربة مسبقًا وقدرات التعلم المنقول على تسريع عملية التطوير. خفضت إحدى الشركات الناشئة في مجال الرعاية الصحية الجدول الزمني لتطوير منتجات الذكاء الاصطناعي من ستة أشهر إلى ستة أسابيع باستخدام البنية التحتية لوحدة معالجة البيانات.
تتطلب القرارات الاستراتيجية تحليل عبء العمل.
يوفر نشر Google TPU v6e مزايا كبيرة لنماذج المحولات وأنظمة التوصيات وتطبيقات الحوسبة العلمية. وتحقق المؤسسات وفورات في التكاليف وتحسينات في الأداء وتبسيط العمليات من خلال اختيار وحدات معالجة TPU لأعباء العمل الأكثر ملاءمة لها. ويتطلب النجاح فهم الاختلافات المعمارية، وتحسين البرامج للمنصة، والاستفادة من النظام الإيكولوجي المتكامل لـ Google Cloud لتحقيق الأداء الأمثل.
يعتمد الاختيار بين وحدات معالجة الرسوميات ووحدات معالجة الرسومات على متطلبات محددة. تتفوق وحدات معالجة الرسوميات TPUs في التدريب على دفعات كبيرة وبنى المحولات، بينما توفر وحدات معالجة الرسومات مرونة أكبر ونضجًا أكبر في النظام البيئي. تتبنى المؤسسات بشكل متزايد استراتيجيات هجينة تستخدم كلا النظامين بشكل استراتيجي. ومع نمو النماذج بشكل أكبر وتوسع نطاق الاستدلال ليشمل مليارات المستخدمين، تصبح مزايا وحدة معالجة الرسوميات مقنعة بشكل متزايد لأعباء العمل المناسبة.
بالنسبة للشركات التي تتنقل في المشهد المعقد لنشر البنية التحتية للذكاء الاصطناعي، فإن خبرة المتخصصين مثل إنترول لا تُقدّر بثمن - سواءً كان ذلك من خلال تنفيذ مجموعات وحدات معالجة الرسومات مع تبريد وشبكات متقدمة أو تقييم خيارات المسرّعات البديلة. يضمن فهم كلا النظامين البيئيين اتخاذ المؤسسات قرارات مستنيرة، وتحقيق التوازن بين الأداء والتكلفة والتعقيد التشغيلي لمبادرات الذكاء الاصطناعي الخاصة بها.
المراجع
جوجل كلاود. "تحليل أداء وتسعير وحدة المعالجة السحابية TPU." وثائق جوجل السحابية، 2024. https://cloud.google.com/tpu/docs/performance-and-pricing
منتصف الرحلة. "ترحيل البنية التحتية: من وحدات معالجة الرسومات إلى وحدات المعالجة ثلاثية الأبعاد." مدونة ميدجورني الهندسية، 2024. https://www.midjourney.com/engineering/infrastructure-migration
Patterson, David, et al. "The Carbon Footprint of Machine Learning Training Will Plateau, then Shrink." IEEE Computer 55, no. 7 (2022): 18-28. https://doi.org/10.1109/MC.2022.3148714
جوجل كلاود. "TPU v5e المواصفات الفنية لـ TPU." وثائق Google Cloud TPU، 2024. https://cloud.google.com/tpu/docs/v5e
DeepMind. "توسيع نطاق أبحاث الذكاء الاصطناعي باستخدام البنية التحتية لوحدة المعالجة الثلاثية." مدونة DeepMind التقنية، 2024. https://www.deepmind.com/blog/scaling-ai-research-with-tpus
MLCommons. "نتائج تدريب MLPerf v3.1." نتائج معيار MLPerf، 2024. https://mlcommons.org/benchmarks/training
---. "نتائج معيار MLPerf Inference v3.1." نتائج معيار MLPerf، 2024. https://mlcommons.org/benchmarks/inference
جوجل للذكاء الاصطناعي. "توسيع نطاق ترجمة Google Translate باستخدام وحدات المعالجة ثلاثية الأبعاد." مدونة جوجل للذكاء الاصطناعي، 2024. https://ai.googleblog.com/2024/01/scaling-google-translate-tpus.html
جوجل كلاود. "تسعير TPU السحابي." وثائق تسعير سحابة جوجل السحابية، 2024. https://cloud.google.com/tpu/pricing
هولز، ديفيد. "تطور البنية التحتية لميدجورني." مقابلة مع VentureBeat، يناير 2024. https://venturebeat.com/ai/midjourney-infrastructure-evolution-interview/
جوجل. "التقرير البيئي 2024." استدامة جوجل، 2024. https://sustainability.google/reports/environmental-report-2024/
Chowdhery, Aakanksha, et al. "PaLM: توسيع نطاق نمذجة اللغة باستخدام المسارات." arXiv preprint, 2022. https://arxiv.org/abs/2204.02311
كوفينغتون وبول وجاي آدامز وإيمري سارجين. "الشبكات العصبية العميقة لتوصيات يوتيوب." RecSys '16: وقائع مؤتمر ACM العاشر حول أنظمة التوصيات (2016): 191-198. https://doi.org/10.1145/2959100.2959190
جوجل كلاود. "صور Google: معالجة مليارات الصور باستخدام وحدات المعالجة ثلاثية الأبعاد." دراسات حالة Google Cloud، 2024. https://cloud.google.com/customers/google-photos
Jumper, John, John, et al. "التنبؤ الدقيق للغاية ببنية البروتين باستخدام AlphaFold." Nature 596 (2021): 583-589. https://doi.org/10.1038/s41586-021-03819-2
سبوتيفاي "ترحيل البنية التحتية للتعلم الآلي إلى وحدات معالجة البيانات السحابية من Google Cloud TPUs." هندسة سبوتيفاي، 2024. https://engineering.atspotify.com/2024/01/ml-infrastructure-tpu-migration/
سيلز فورس. "استراتيجية الذكاء الاصطناعي متعدد السحابة مع Einstein GPT." مدونة Salesforce الهندسية، 2024. https://engineering.salesforce.com/multi-cloud-ai-strategy-einstein-gpt/
شركة Snap Inc. "توسيع نطاق البنية التحتية للذكاء الاصطناعي لـ Snapchat." Snap Engineering، 2024. https://eng.snap.com/scaling-ai-infrastructure-2024
عناق الوجه. "تحسين سير عمل التطوير لوحدات المعالجة الثلاثية." مدونة Hugging Face، 2024. https://huggingface.co/blog/tpu-optimization-workflows
أنثروبيك. "تدريب النماذج اللغوية الكبيرة على وحدات المعالجة الثلاثية." أنثروبيك للأبحاث، 2024. https://www.anthropic.com/research/training-llms-on-tpus
أبحاث جوجل. "تحسينات تجميع XLA لوحدات المعالجة ثلاثية الأبعاد." مدونة جوجل للذكاء الاصطناعي، 2024. https://blog.research.google/2024/01/xla-compilation-optimizations-tpus.html
يوتيوب. "تحسين خط أنابيب البيانات لتدريب وحدة معالجة البيانات." مدونة يوتيوب الهندسية، 2024. https://blog.youtube/engineering-and-developers/data-pipeline-optimization-tpu/
منتصف الرحلة "استراتيجية الترحيل بدون تأخير." مدونة ميدجورني التقنية، 2024. https://www.midjourney.com/tech/zero-downtime-migration
سبوتيفاي "إدارة أكثر من 1000 نموذج مع Vertex AI." مدونة سبوتيفاي التقنية، 2024. https://engineering.atspotify.com/2024/02/vertex-ai-model-management/
DeepMind. "مراقبة البنية التحتية لعمليات نشر وحدات المعالجة ثلاثية الأبعاد على نطاق واسع." DeepMind Engineering، 2024. https://www.deepmind.com/blog/monitoring-large-scale-tpu-deployments
دين، جيف وآخرون. "الأنظمة الموزعة واسعة النطاق لتدريب الشبكات العصبية". NIPS 2012. https://papers.nips.cc/paper/2012/file/6aca97005c68f1206823815f66102863-Paper.pdf
شركة Snap Inc. "استراتيجيات تحسين التكلفة لتدريب وحدات المعالجة الثلاثية." مدونة Snap Engineering، 2024. https://eng.snap.com/cost-optimization-tpu-training
أنثروبيك "الذكاء الاصطناعي الدستوري: أساليب التدريب والبنية التحتية." أوراق بحثية أنثروبيك، 2023. https://www.anthropic.com/constitutional-ai-paper
جوجل. "Gemini: عائلة من النماذج متعددة الوسائط عالية القدرة." جوجل ديب مايند، 2023. https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
سيلز فورس "Einstein GPT: الذكاء الاصطناعي للمؤسسات على نطاق واسع." أبحاث Salesforce، 2024. https://www.salesforce.com/products/platform/einstein-gpt/
شركة Snap Inc. "تحليل التكلفة الإجمالية للملكية: TPUs مقابل GPUs لأحمال عمل تعلّم الآلة." Snap Inc. التقرير الفني، 2024. https://eng.snap.com/tco-analysis-tpu-gpu-2024
جوجل كلاود. "تحليل الأداء لكل دولار: وحدات معالجة الرسوميات مقابل وحدات معالجة الرسومات." Google Cloud Whitepapers، 2024. https://cloud.google.com/whitepapers/tpu-performance-analysis
جوجل كلاود. "شركة ناشئة في مجال الرعاية الصحية تعمل على تسريع اكتشاف الأدوية باستخدام وحدات المعالجة ثلاثية الأبعاد." دراسات حالة Google Cloud، 2024. https://cloud.google.com/customers/healthcare-ai-drug-discovery