يمكن للذكاء الاصطناعي المسلح بحواس متعددة أن يكتسب ذكاءً أكثر مرونة

30

في أواخر عام 2012 ، اكتشف علماء الذكاء الاصطناعي لأول مرة كيفية جعل الشبكات العصبية “ترى”. لقد أثبتوا أن البرامج المصممة لتقليد الدماغ البشري بشكل فضفاض يمكن أن تحسن بشكل كبير أنظمة رؤية الكمبيوتر الحالية. تعلم المجال منذ ذلك الحين كيفية جعل الشبكات العصبية تقلد الطريقة التي نفكر بها ونسمع ونتحدث ونكتب.

The progress issue

كانت هذه القصة جزءًا من إصدارنا في مارس / أبريل 2021

ولكن في حين أن الذكاء الاصطناعي نما بشكل ملحوظ مثل الإنسان – حتى خارق للبشر – في إنجاز مهمة محددة ، فإنه لا يزال لا يلتقط مرونة الدماغ البشري. يمكننا تعلم المهارات في سياق واحد وتطبيقها في سياق آخر. على النقيض من ذلك ، على الرغم من أن خوارزمية AlphaGo الخاصة بلعبة DeepMind يمكنها التغلب على أفضل خبراء Go في العالم ، إلا أنها لا تستطيع توسيع هذه الإستراتيجية إلى ما هو أبعد من اللوحة. بعبارة أخرى ، تعد خوارزميات التعلم العميق بارعة في التقاط الأنماط ، لكنها لا تستطيع الفهم والتكيف مع عالم متغير.

لدى الباحثين العديد من الفرضيات حول كيفية التغلب على هذه المشكلة ، لكن واحدة على وجه الخصوص اكتسبت قوة دفع. يتعلم الأطفال عن العالم من خلال استشعاره والتحدث عنه. يبدو أن التركيبة مفتاح. عندما يبدأ الأطفال في ربط الكلمات بالمشاهد والأصوات والمعلومات الحسية الأخرى ، فإنهم قادرون على وصف المزيد والمزيد من الظواهر والديناميكيات المعقدة ، ومداعبة ما هو سببي مما يعكس الارتباط فقط ، وبناء نموذج متطور للعالم. يساعدهم هذا النموذج بعد ذلك على التنقل في بيئات غير مألوفة ووضع المعارف والخبرات الجديدة في سياقها.

من ناحية أخرى ، تم تصميم أنظمة الذكاء الاصطناعي للقيام بواحد فقط من هذه الأشياء في وقت واحد. يمكن لخوارزميات رؤية الكمبيوتر والتعرف على الصوت استشعار الأشياء ولكن لا يمكنها استخدام اللغة لوصفها. يمكن لنموذج اللغة الطبيعية أن يتلاعب بالكلمات ، لكن الكلمات منفصلة عن أي واقع حسي. إذا تم الجمع بين الحواس واللغة لإعطاء الذكاء الاصطناعي طريقة أكثر شبهاً بالبشر لجمع المعلومات الجديدة ومعالجتها ، فهل يمكنه أخيرًا تطوير شيء مثل فهم العالم؟

الأمل هو أن هؤلاء ” يجب أن تؤدي الأنظمة متعددة الوسائط ، مع إمكانية الوصول إلى “الأنماط” الحسية واللغوية للذكاء البشري ، إلى ظهور نوع أكثر قوة من الذكاء الاصطناعي يمكنه التكيف بسهولة أكبر مع المواقف أو المشكلات الجديدة. يمكن أن تساعدنا هذه الخوارزميات بعد ذلك في معالجة المشكلات الأكثر تعقيدًا ، أو تحويلها إلى روبوتات يمكنها التواصل والتعاون معنا في حياتنا اليومية.

التطورات الجديدة في خوارزميات معالجة اللغة مثل OpenAI’s GPT-3 لديها ساعد. يفهم الباحثون الآن كيفية تكرار التلاعب باللغة بشكل جيد بما يكفي لجعل دمجها مع قدرات الاستشعار أكثر فائدة. بادئ ذي بدء ، يستخدمون أول قدرة استشعار حققها المجال: رؤية الكمبيوتر. النتائج هي نماذج ثنائية بسيطة ، أو لغة بصرية AI.

في العام الماضي ، كانت هناك العديد من النتائج المثيرة في هذا المجال. في سبتمبر ، أنشأ باحثون في معهد ألين للذكاء الاصطناعي AI2 نموذجًا يمكنه إنشاء صورة من تعليق نصي ، مما يدل على قدرة الخوارزمية على ربط الكلمات بالمعلومات المرئية. في نوفمبر ، طور باحثون في جامعة نورث كارولينا ، تشابل هيل ، طريقة تدمج الصور في نماذج اللغة الحالية ، مما عزز فهم القراءة لدى النماذج.

ثم استخدمت OpenAI هذه الأفكار لتوسيع GPT-3. في بداية عام 2021 ، أصدر المختبر نموذجين للغة المرئية. يربط المرء الكائنات في الصورة بالكلمات التي تصفها في التعليق. يقوم الآخر بإنشاء صور بناءً على مجموعة من المفاهيم التي تعلمها. يمكنك حثه ، على سبيل المثال ، على إنتاج “لوحة لكابيبارا جالسة في حقل عند شروق الشمس.” على الرغم من أنه ربما لم يسبق له مثيل من قبل ، إلا أنه يمكنه مزج ومطابقة ما يعرفه من اللوحات ، والكابيبارا ، والحقول ، وشروق الشمس ليحلم بعشرات الأمثلة.

تحقيق ذكاء أكثر مرونة لن يؤدي فقط إلى فتح تطبيقات جديدة للذكاء الاصطناعي: بل سيجعلها أكثر أمانًا أيضًا.

ستجعل الأنظمة متعددة الوسائط الأكثر تعقيدًا أيضًا من المساعدين الروبوتيين الأكثر تقدمًا (فكر في خدم الروبوت ، وليس فقط Alexa). يستخدم الجيل الحالي من الروبوتات التي تعمل بالذكاء الاصطناعي البيانات المرئية بشكل أساسي للتنقل والتفاعل مع محيطهم. هذا جيد لإكمال المهام البسيطة في البيئات المقيدة ، مثل تلبية الطلبات في المستودع. لكن المعامل مثل AI2 تعمل على إضافة لغة ودمج المزيد من المدخلات الحسية ، مثل الصوت والبيانات اللمسية ، حتى تتمكن الآلات من فهم الأوامر وتنفيذ عمليات أكثر تعقيدًا ، مثل فتح الباب عندما يطرق شخص ما. ) على المدى الطويل ، يمكن أن تساعد الاختراقات متعددة الوسائط في التغلب على بعض أكبر قيود الذكاء الاصطناعي. يجادل الخبراء ، على سبيل المثال ، بأن عدم قدرته على فهم العالم هو سبب فشله بسهولة أو خداعه. (يمكن تغيير الصورة بطريقة غير محسوسة للبشر ولكنها تجعل الذكاء الاصطناعي يعرّفها على أنها شيء مختلف تمامًا.) لن يؤدي تحقيق ذكاء أكثر مرونة إلى فتح تطبيقات جديدة للذكاء الاصطناعي فحسب ، بل سيجعلها أكثر أمانًا أيضًا. لن تتعامل الخوارزميات التي تحجب السير الذاتية مع الخصائص غير ذات الصلة مثل الجنس والعرق كعلامات على القدرة. لن تفقد السيارات ذاتية القيادة اتجاهاتها في محيط غير مألوف وتتحطم في الظلام أو في الطقس الثلجي. قد تصبح الأنظمة متعددة الوسائط أول أنظمة ذكاء اصطناعي يمكننا الوثوق بها حقًا في حياتنا.