حل مشكلة الطاقة الكبيرة للذكاء الاصطناعي الكبير

8

يبدو أنه كلما كانت نماذج التعلم العميق الرائدة في الذكاء الاصطناعي ، كلما زاد حجمها. يعد نموذج GPT-3 الأكثر صخبًا لهذا الصيف لمعالجة اللغة الطبيعية ، مثالًا مثاليًا. للوصول إلى مستويات الدقة والسرعة في الكتابة مثل الإنسان ، النموذج احتاج إلى 175 مليار معلمة و 350 غيغابايت من الذاكرة و 12 مليون دولار للتدريب (فكر في التدريب على أنه مرحلة “التعلم”). ولكن ، بغض النظر عن التكلفة وحدها ، تواجه نماذج الذكاء الاصطناعي الكبيرة مثل هذه مشكلة كبيرة في الطاقة.

UMass امهيرست وجد الباحثون أن القوة الحاسوبية اللازمة لتدريب نموذج كبير للذكاء الاصطناعي يمكن أن تنتج أكثر من 600000 رطل من انبعاثات ثاني أكسيد الكربون – أي خمسة أضعاف كمية السيارة النموذجية على مدار عمرها الافتراضي! غالبًا ما تستهلك هذه النماذج مزيدًا من الطاقة للمعالجة في إعدادات الإنتاج في العالم الحقيقي (المعروفة باسم مرحلة الاستدلال). تقديرات NVIDIA أن 80-90 في المائة من التكلفة المتكبدة من تشغيل نموذج الشبكة العصبية تأتي أثناء الاستدلال ، بدلاً من التدريب.

لتحقيق المزيد من التقدم في مجال الذكاء الاصطناعي ، يشير الرأي العام إلى أنه يتعين علينا إجراء مقايضة بيئية ضخمة. لكن ليست هذه هي المسألة. يمكن تقليص الطرز الكبيرة إلى الحجم لتعمل على محطة عمل يومية أو خادم ، دون الحاجة إلى التضحية بالدقة والسرعة. لكن أولاً ، دعونا نلقي نظرة على سبب تضخم نماذج التعلم الآلي في المقام الأول.

الآن: مضاعفة قوة الحوسبة كل 3.4 شهر

منذ أكثر من عقد بقليل ، اكتشف باحثون في جامعة ستانفورد أن المعالجات المستخدمة لتشغيل الرسومات المعقدة في ألعاب الفيديو ، والتي تسمى وحدات معالجة الرسومات ، يمكن أن تكون تستخدم للتعلم العميق عارضات ازياء. أدى هذا الاكتشاف إلى سباق لإنشاء المزيد والمزيد من الأجهزة المخصصة القوية لتطبيقات التعلم العميق. في المقابل ، أصبحت النماذج التي أنشأها العلماء أكبر وأكبر. كان المنطق هو أن النماذج الأكبر ستؤدي إلى نتائج أكثر دقة. كلما زادت قوة الأجهزة ، زادت سرعة تشغيل هذه النماذج.

بحث من OpenAI يثبت أن هذا الافتراض قد تم اعتماده على نطاق واسع في هذا المجال. بين عامي 2012 و 2018 ، تضاعفت قوة الحوسبة لنماذج التعلم العميق كل 3.4 شهرًا. لذلك ، هذا يعني أنه في غضون ست سنوات ، نمت قوة الحوسبة المستخدمة في الذكاء الاصطناعي بمعدل مذهل بمقدار 300 ألف مرة. كما هو مذكور أعلاه ، هذه القوة ليست فقط لخوارزميات التدريب ، ولكن أيضًا لاستخدامها في إعدادات الإنتاج. أكثر حداثة بحث من معهد ماساتشوستس للتكنولوجيا يقترح أننا قد نصل إلى الحدود العليا لقوة الحوسبة في وقت أقرب مما نعتقد.

علاوة على ذلك ، أدت قيود الموارد إلى إبقاء استخدام خوارزميات التعلم العميق مقصورًا على أولئك الذين يستطيعون تحمل تكاليفها. عندما يمكن تطبيق التعلم العميق على كل شيء من اكتشاف الخلايا السرطانية في التصوير الطبي إلى وقف خطاب الكراهية عبر الإنترنت ، لا يمكننا تقييد الوصول. ثم مرة أخرى ، لا يمكننا تحمل العواقب البيئية للمضي قدمًا في نماذج أكبر بلا حدود وأكثر جوعًا للطاقة.

المستقبل يصبح صغيرا

لحسن الحظ ، وجد الباحثون عددًا من الطرق الجديدة لتقليص نماذج التعلم العميق وإعادة توظيف مجموعات بيانات التدريب عبر خوارزميات أكثر ذكاءً. بهذه الطريقة ، يمكن تشغيل النماذج الكبيرة في إعدادات الإنتاج بطاقة أقل ، مع الاستمرار في تحقيق النتائج المرجوة بناءً على حالة الاستخدام.

هذه التقنيات لديها القدرة على إضفاء الطابع الديمقراطي على التعلم الآلي لمزيد من المؤسسات التي ليس لديها ملايين الدولارات للاستثمار في خوارزميات التدريب ونقلها إلى الإنتاج. هذا مهم بشكل خاص لحالات استخدام “الحافة” ، حيث لا تكون أجهزة الذكاء الاصطناعي الأكبر والمتخصصة عملية ماديًا. فكر في الأجهزة الصغيرة مثل الكاميرات ولوحات عدادات السيارة والهواتف الذكية والمزيد.

يقوم الباحثون بتقليص النماذج عن طريق إزالة بعض الاتصالات غير الضرورية في الشبكات العصبية (تشذيب) ، أو بجعل بعض عملياتهم الحسابية أقل تعقيدًا في المعالجة (توضيح). يمكن تشغيل هذه النماذج الأصغر والأسرع في أي مكان بدقة وأداء مشابهين لنظيراتها الأكبر حجمًا. هذا يعني أننا لم نعد بحاجة إلى السباق نحو قمة قوة الحوسبة ، مما يتسبب في المزيد من الضرر البيئي. إن جعل النماذج الكبيرة أصغر حجمًا وأكثر كفاءة هو مستقبل التعلم العميق.

هناك مشكلة رئيسية أخرى وهي تدريب النماذج الكبيرة مرارًا وتكرارًا على مجموعات بيانات جديدة لحالات استخدام مختلفة. تقنية تسمى نقل التعلم يمكن أن تساعد في منع هذه المشكلة. يستخدم التعلم الانتقالي نماذج سابقة التدريب كنقطة انطلاق. يمكن “نقل” معرفة النموذج إلى مهمة جديدة باستخدام مجموعة بيانات محدودة ، دون الحاجة إلى إعادة تدريب النموذج الأصلي من البداية. هذه خطوة حاسمة نحو تقليص قوة الحوسبة والطاقة والمال المطلوبة لتدريب نماذج جديدة.

الخط السفلي؟ يمكن (ويجب) تقليص النماذج كلما أمكن ذلك لاستخدام طاقة حوسبة أقل. ويمكن إعادة تدوير المعرفة وإعادة استخدامها بدلاً من بدء عملية التدريب على التعلم العميق من الصفر. في النهاية ، سيكون إيجاد طرق لتقليل حجم النموذج وقوة الحوسبة ذات الصلة (دون التضحية بالأداء أو الدقة) بمثابة الفتح الكبير التالي للتعلم العميق. بهذه الطريقة ، سيتمكن أي شخص من تشغيل هذه التطبيقات في الإنتاج بتكلفة أقل ، دون الحاجة إلى إجراء مقايضة بيئية ضخمة. كل شيء ممكن عندما نفكر قليلاً في الذكاء الاصطناعي الكبير – حتى التطبيق التالي للمساعدة في وقف الآثار المدمرة لتغير المناخ.

تم النشر في ١٦ آذار (مارس) ٢٠٢١ – ١٨:٠٢ بالتوقيت العالمي المنسق