ثورة المحولات: كيف أعاد "الانتباه هو كل ما تحتاجه" تشكيل الذكاء الاصطناعي الحديث
هل تشعر وكأنك تسمع عمليًا أزيز وحدات معالجة الرسومات في أي وقت يذكر فيه أحدهم "نماذج اللغات الكبيرة"؟ هناك سبب لهذا الطنين على المستوى الكوني: معماريات المحولات. وإذا أردنا تتبع هذه الظاهرة إلى لحظة الانفجار العظيم، فإننا نصل مباشرةً إلى ورقة بحثية أسطورية صدرت عام 2017 من مجموعة من مهندسي Google Brain وGoogle Research: الانتباه هو كل ما تحتاجه.
للوهلة الأولى، قد تبدو العبارة للوهلة الأولى وكأنها تنبيه لطيف نحو اليقظة، ولكنها كانت إيذانًا بثورة في معالجة اللغات الطبيعية (NLP) وما بعدها. لقد قلب نموذج Transformer الوضع الراهن للذكاء الاصطناعي رأسًا على عقب بضربة واحدة سريعة: لا مزيد من التقدم في الشبكات الشبكية العصبية الشبكية ذاتية التحويل (RNNs) وآليات LSTMs ونماذج التسلسل القائمة على الالتفاف. وبدلاً من ذلك، حصلنا بدلاً من ذلك على نظام قابل للتوازي وقائم على الانتباه يتدرب بشكل أسرع، ويتوسع بشكل أكبر، ويحقق نتائج أفضل.
1. الفكرة الكبيرة فليحيا الاهتمام بالذات
قبل ظهور المتحوّلات على الساحة، كان المعيار الذهبي لنقل التسلسل (مثل الترجمة اللغوية والتلخيص وما إلى ذلك) يتضمن شبكات عصبية متكررة مع آليات بوابات مصممة بعناية أو شبكات عصبية تلافيفية معقدة للتعامل مع التبعيات بعيدة المدى. هل هي فعالة؟ نعم. بطيئة؟ نعم أيضًا - خاصةً عندما تحتاج إلى تحليل مجموعات بيانات ضخمة حقًا.
في أبسط العبارات، فإن الانتباه الذاتي هو آلية يمكن من خلالها لكل رمز في التسلسل (على سبيل المثال، كلمة أو كلمة فرعية) أن "ينظر" إلى كل رمز آخر في وقت واحد، ويكتشف العلاقات السياقية دون أن يضطر إلى الزحف خطوة بخطوة عبر البيانات. يتناقض هذا النهج مع النماذج الأقدم، مثل الشبكات الشبكية العصبية العصبية القابلة للتكرار وآليات LSTMs، والتي كان عليها معالجة التسلسل بشكل متسلسل إلى حد كبير.
تتيح المحولات المزيد من التوازي من خلال تجاهل التكرار (والنفقات العامة التي تأتي معه). يمكنك إلقاء سرب من وحدات معالجة الرسومات على المشكلة، والتدريب على مجموعات بيانات ضخمة، ورؤية النتائج في أيام بدلاً من أسابيع.
الشكل 1: الشكل 1: بنية المحول الكاملة التي تُظهر وحدة التشفير (يسار) ووحدة فك التشفير (يمين) مع طبقات انتباه متعددة الرؤوس. المصدر: فاسواني وآخرون، "الانتباه هو كل ما تحتاجه" (2017). الصورة مستنسخة لأغراض تعليمية في إطار الاستخدام العادل.
ملاحظة أداء سريعة: أظهر برنامج Transformer الأصلي درجة 28.4 BLEU في مهمة الترجمة من الإنجليزية إلى الألمانية لعام 2014 في اختبار WMT 2014 - وهي قفزة قوية مقارنة بنماذج الترجمة الآلية العصبية السابقة مثل النماذج القائمة على شبكة CNN وRNN، والتي كانت تتراوح بين 25-26 BLEU في أحسن الأحوال. في هذه الأيام، تذهب المحولات المحسّنة (مثل GPT-4 وأبناء عمومتها) إلى أبعد من ذلك، حيث تتعامل مع مهام تتجاوز الترجمة.
2. تحت غطاء المحرك: الانتباه المتعدد الرؤوس والترميزات الموضعية
انتباه متعدد الرؤوس
يوجد داخل المحول الذاتي للانتباه الذاتي هذه الوحوش السحرية التي تسمى وحدات انتباه متعددة الرؤوس. فهي تسمح للشبكة بتعلم أنواع مختلفة من العلاقات بالتوازي. فكر في الأمر على أنه نشر أضواء كاشفة متعددة لإضاءة أجزاء مختلفة من بياناتك في وقت واحد. قد يتتبع أحد رؤوس الانتباه التبعيات البعيدة المدى (مثل إشارات الضمير-الاسم)، بينما يركز رأس انتباه آخر على السياق المحلي (مثل عبارة "على البساط" حول كلمة "قطة"). من خلال الجمع بين هذه الاهتمامات الفرعية المتخصصة، يمكن للمحول ترميز المعنى الدقيق بشكل أفضل.
الشكل 2: رسم توضيحي لآلية الانتباه المتدرج للحاصل النقطي يوضح كيفية تفاعل متجهات الاستعلام (Q) والمفتاح (K) والقيمة (V). المصدر: فاسواني وآخرون، "الانتباه هو كل ما تحتاجه" (2017). الصورة مستنسخة لأغراض تعليمية في إطار الاستخدام العادل.
تستخدم هذه الرؤوس الانتباه النقطي النقطي المتدرج ككتلة بناء قياسية، والتي يمكننا تلخيصها في التعليمات البرمجية على النحو التالي
شعلة الاستيراد
استيراد الرياضيات
def scaled_dot_product_product_attention(Q, K, V):
# Q، K، V هي [حجم_الدُفعة، الرؤوس، seq_len، d_k]
د_ك = Q.size(-1)
الدرجات = torch.matmul(Q, K.transpose(-2، -1)) / math.sqrt(d_k)
الأوزان = torch.softmax(الدرجات، dim=-1)
إرجاع torch.matmul(الأوزان، V)
يعمل كل رأس على إصدارات متوقعة مختلفة من الاستعلامات (Q) والمفاتيح (K) والقيم (V)، ثم يدمج النتائج. هذا التصميم القابل للتوازي هو مفتاح كفاءة المحول.
الترميزات الموضعية
لا يوجد تكرار؟ هذا يطرح السؤال: كيف يتتبع النموذج ترتيب الكلمات؟ أدخل الترميز الموضعي - وهو عبارة عن نمط جيبي أو مكتسب يضاف إلى تضمين كل رمز رمزي، مما يساعد المحول على الحفاظ على الإحساس بالتسلسل. الأمر أشبه بإعطاء كل كلمة طابعاً زمنياً فريداً.
3. عرض الأداء السريع
شبكات RNNs/LSTMs: رائعة لمهام التسلسل ولكنها بطيئة في التسلسلات الطويلة بسبب المعالجة خطوة بخطوة.
الشبكات الشبكية الشبكية ذات الشبكات المتكاملة (مثل ConvS2S): أسرع من الشبكات الشبكية الشبكية العصبية العصبية ذات الشبكة العصبية الراديوية ولكنها لا تزال غير متوازية تماماً بالنسبة للتبعيات بعيدة المدى.
المتحولون:
إنتاجية أعلى: يمكن معالجة تسلسلات كاملة بالتوازي، مما يجعل التدريب أسرع بكثير.
نتائج أفضل: حققت المحولات أحدث النتائج في مهام مثل الترجمة الآلية (28.4 BLEU على WMT14 EN-DE) مع وقت تدريب أقل.
قابل للتطوير: قم بإلقاء المزيد من وحدات معالجة الرسومات على البيانات وشاهدها تتوسع خطيًا تقريبًا (ضمن حدود الأجهزة والذاكرة).
4. اعتبارات التعقيد: O(n²) وسبب أهميتها
في حين أن المحولات تسرّع التدريب من خلال التوازي، فإن الانتباه الذاتي يحمل تعقيد O(n²) فيما يتعلق بطول التسلسل n. بعبارة أخرى، كل رمز رمزي يلفت انتباه كل رمز رمزي آخر، وهو ما قد يكون مكلفًا بالنسبة للتسلسلات الطويلة للغاية. يعمل الباحثون بنشاط على استكشاف آليات انتباه أكثر كفاءة (مثل الانتباه المتناثر أو الانتباه على أساس الكتلة) للتخفيف من هذه التكلفة.
ومع ذلك، فبالنسبة لمهام البرمجة اللغوية العصبية النموذجية حيث يكون عدد الرموز بالآلاف وليس بالملايين، غالبًا ما تفوق فوائد الحوسبة المتوازية - خاصةً إذا كان لديك الأجهزة المناسبة.
5. ما أهمية النماذج اللغوية الكبيرة (LLMs)
تتبع برامج LLMs الحديثة - مثل GPT، وBERT، وT5 - نسبها مباشرةً إلى المحول. وذلك لأن تركيز الورقة البحثية الأصلية على التوازي والانتباه الذاتي ونوافذ السياق المرنة جعلها مناسبة بشكل مثالي لمهام تتجاوز الترجمة، بما في ذلك:
توليد النصوص وتلخيصها
الإجابة على الأسئلة
إكمال الكود
روبوتات الدردشة الآلية متعددة اللغات
ونعم، يبدو أن مساعد الكتابة الجديد الذي يعمل بالذكاء الاصطناعي لديه دائماً تورية في جعبته.
باختصار، مهدت "الاهتمام هو كل ما تحتاجه" الطريق أمام هذه النماذج الكبيرة التي تستوعب مليارات الرموز وتتعامل مع أي مهمة من مهام البرمجة اللغوية العصبية تقريبًا التي تلقيها في طريقها.
6. سنحتاج إلى المزيد من الحوسبة: حيث يأتي دور عمليات نشر إنترول
ها هي المشكلة: المحولات جائعة - جائعة جداً. يمكن أن يعني تدريب نموذج لغوي كبير استنزاف موارد الحوسبة بشكل كبير. للاستفادة من كل هذا التوازي، تحتاج إلى عمليات نشر قوية لوحدات معالجة الرسومات - والتي يصل عددها أحيانًا إلى الآلاف (أو عشرات الآلاف). وهنا يأتي دور البنية التحتية للحوسبة عالية الأداء (HPC).
في Introl، رأينا عن كثب مدى ضخامة هذه الأنظمة. لقد عملنا على إنشاءات تتضمن أكثر من 100,000 وحدة معالجة رسومات في جداول زمنية ضيقة - نتحدث عن البراعة اللوجستية. تتمثل مهمتنا في نشر خوادم وحدات معالجة الرسومات ورفوفها وإعدادات الطاقة/التبريد المتقدمة حتى يعمل كل شيء بكفاءة. عندما تقوم بتدريب نموذج قائم على المحولات في نفس الوقت على آلاف العُقد، فإن أي اختناق في الأجهزة يمثل دوامة من الطاقة للوقت والمال.
مجموعات وحدات معالجة الرسومات كبيرة الحجم: لقد نفّذنا عمليات نشر تجاوزت 100 ألف وحدة معالجة رسومات، مما يعني أننا نفهم تعقيدات تكوينات الحامل والمكدس والكابلات واستراتيجيات الطاقة/التبريد للحفاظ على استقرار كل شيء.
التعبئة السريعة: هل تحتاج إلى إضافة 2,000 عقدة GPU أخرى في غضون أيام قليلة؟ يمكن لفرقنا المتخصصة أن تكون في الموقع وتعمل في غضون 72 ساعة.
الدعم المتكامل: من تحديثات البرامج الثابتة وتكوينات iDRAC إلى الصيانة المستمرة وفحوصات الأداء، نحن ندير الخدمات اللوجستية حتى يتمكن علماء البيانات لديك من التركيز على الابتكار.
7. التطلع إلى الأمام: نماذج أكبر، أحلام أكبر
"الانتباه هو كل ما تحتاجه" ليس مجرد علامة فارقة - إنه مخطط للتوسعات المستقبلية. يستكشف الباحثون بالفعل المحولات ذات السياق الأطول، وآليات الانتباه الفعالة، والتشتت المتقدم للتعامل مع مجموعات هائلة (فكر في: مكتبات كاملة، وليس فقط متجر الكتب المحلي). كن مطمئنًا، ستزداد الشهية للحوسبة المُسرّعة بوحدة معالجة الرسومات.
وهذا هو جمال عصر المتحولين. لدينا نموذج يمكنه التوسع بأناقة، شريطة أن نطابقه مع استراتيجية الأجهزة المناسبة. لذا، سواءً كنت تبني ظاهرة الذكاء الاصطناعي التوليدي التالية أو تتخطى حدود الترجمة العالمية، فإن وجود شريك بنية تحتية بارع في عمليات النشر الضخمة لوحدات معالجة الرسومات هو أكثر من مجرد أمر لطيف؛ إنه عملياً ميزتك التنافسية.
فكرة أخيرة: تحويل لعبة الذكاء الاصطناعي الخاصة بك
كانت الورقة البحثية " الانتباه هو كل ما تحتاجه " أكثر من مجرد عنوان ذكي - لقد كانت نقلة زلزالية. لقد غيرت المحولات كل شيء من الترجمة الآلية إلى توليد الأكواد وما بعدها. إذا كنت ترغب في تسخير هذه القوة على نطاق واسع، فإن المفتاح هو مطابقة البنية الرائعة مع البنية التحتية الرائعة بنفس القدر.
هل أنت مستعد للتوسع؟ اكتشف كيف يمكن ل Introl المتخصصة نشر البنية التحتية لوحدة معالجة الرسومات يمكن أن تسرّع مشروعك الكبير القادم في التحويلات - لأن الأجهزة المناسبة يمكن أن تُحدث فرقاً كبيراً في الذكاء الاصطناعي.
التصورات الواردة في هذه المقالة مأخوذة من الورقة البحثية الأصلية "الاهتمام هو كل ما تحتاجه" (فاسواني وآخرون، 2017) وتم تضمينها مع الإسناد بموجب الاستخدام العادل للأغراض التعليمية. الورقة البحثية متاحة على https://arxiv.org/abs/1706.03762 للقراء المهتمين بالبحث الكامل.