كيف علمنا ترجمة جوجل للتوقف عن التحيز الجنسي

87
ساعدتنا أدوات الترجمة عبر الإنترنت على تعلم لغات جديدة ، والتواصل عبر الحدود اللغوية ، وعرض المواقع الأجنبية بلغتنا الأم. لكن الذكاء الاصطناعي (AI) وراءهم بعيد كل البعد عن الكمال ، وغالبًا ما يكرر بدلاً من رفض التحيزات الموجودة داخل اللغة أو المجتمع.

هذه الأدوات معرضة بشكل خاص للتنميط الجنساني لأن بعض اللغات (مثل الإنجليزية) لا تميل إلى أسماء الجنس ، في حين أن البعض الآخر (مثل الألمانية) يفعل ذلك. عند الترجمة من الإنجليزية إلى الألمانية ، يجب أن تحدد أدوات الترجمة الجنس الذي تريد تعيين الكلمات الإنجليزية مثل “أنظف”. تتوافق الأدوات بشكل ساحق مع الصورة النمطية ، وتختار الكلمة المؤنث باللغة الألمانية.

التحيزات هم بشر: إنهم جزء من هويتنا. ولكن عندما تُترك التحيزات دون منازع ، يمكن أن تظهر في شكل مواقف سلبية ملموسة تجاه الآخرين. الآن ، وجد فريقنا طريقة لذلك إعادة تدريب الذكاء الاصطناعي وراء أدوات الترجمة ، باستخدام التدريب الموجه لمساعدتها على تجنب التنميط الجنساني. يمكن استخدام طريقتنا في مجالات أخرى من الذكاء الاصطناعي لمساعدة التكنولوجيا على رفض التحيزات داخل المجتمع بدلاً من تكرارها.

الخوارزميات المنحازة

مما يثير استياء صانعيها ، غالبًا ما تطور خوارزميات الذكاء الاصطناعي سمات عنصرية أو جنسية. جوجل المترجم تم اتهامه بالقوالب النمطية على أساس الجنس ، مثل ترجماته التي تفترض مسبقًا أن جميع الأطباء ذكور وأن جميع الممرضات من الإناث. وفي الوقت نفسه ، فإن مولد لغة الذكاء الاصطناعي GPT-3 – الذي كتب ملف المقال بأكمله لصحيفة الغارديان في عام 2020 – أظهر مؤخرًا أنه كان جيدًا أيضًا في الإنتاج المحتوى الضار والمعلومات الخاطئة.

هذه الإخفاقات في الذكاء الاصطناعي ليست بالضرورة خطأ منشئوها. الأكاديميين والنشطاء لفت الانتباه مؤخرا إلى التحيز القائم على الجنس في قاموس أوكسفورد الإنجليزي ، حيث تُظهر المرادفات الجنسية لكلمة “امرأة” – مثل “العاهرة” أو “الخادمة” – كيف يمكن أن يحتوي كتالوج الكلمات الذي يتم تنقيحه باستمرار وتحريره أكاديميًا على تحيزات تعزز الصور النمطية وتديم التمييز الجنسي اليومي.

يتعلم الذكاء الاصطناعي التحيز لأنه غير مبني في فراغ: فهو يتعلم كيفية التفكير والتصرف من خلال قراءة البيانات الموجودة وتحليلها وتصنيفها – مثل تلك الموجودة في قاموس أوكسفورد الإنجليزي. في حالة الترجمة بالذكاء الاصطناعي ، نعرض خوارزميتها لمليارات الكلمات من البيانات النصية ونطلب منها التعرف على الأنماط التي يكتشفها والتعلم منها. نسمي هذه العملية التعلم الالي، وعلى طول الطريق يتم تعلم أنماط التحيز وكذلك تلك الخاصة بالقواعد والنحو.

من الناحية المثالية ، لن تحتوي البيانات النصية التي نعرضها على الذكاء الاصطناعي على أي تحيز. ولكن هناك اتجاه مستمر في هذا المجال نحو بناء أنظمة أكبر يتم تدريبها عليها مجموعات البيانات المتزايدة باستمرار. نحن نتحدث مئات المليارات من الكلمات. يتم الحصول عليها من الإنترنت باستخدام أدوات تجريف النص غير التمييزية مثل Common Crawl و WebText2 ، والتي يتم سلبها عبر الويب ، وتلتهم كل كلمة تصادفها.

إن الحجم الهائل للبيانات الناتجة يجعل من المستحيل على أي إنسان أن يعرف ما بداخلها. لكننا نعلم أن بعضًا منها يأتي من منصات مثل Reddit ، والتي تصدرت عناوين الصحف لعرض معلومات مسيئة أو خاطئة أو تآمرية في مشاركات المستخدمين.

تحتوي بعض النصوص التي يشاركها المستخدمون على Reddit على لغة قد نفضل ألا تتعلمها أدوات الترجمة الخاصة بنا. جيل سي / شاترستوك

ترجمات جديدة

في ابحاثنا، أردنا البحث عن طريقة لمواجهة التحيز داخل مجموعات البيانات النصية المأخوذة من الإنترنت. استخدمت تجاربنا جزءًا تم اختياره عشوائيًا من مجموعة نصية إنجليزية-ألمانية موجودة (مجموعة نصية) احتوت في الأصل على 17.2 مليون زوج من الجمل – نصفها باللغة الإنجليزية ، ونصفها باللغة الألمانية.

كما أوضحنا ، فإن الألمانية لديها نماذج جنسانية للأسماء (يمكن أن يكون الطبيب “الطبيب“للذكور ،”الطبيبة“للإناث) حيث لا نستخدم في اللغة الإنجليزية هذه الأشكال من الأسماء (مع بعض الاستثناءات ، أنفسهم مثيرون للجدل، مثل “ممثل” و “ممثلة”).

كشف تحليلنا لهذه البيانات عن اختلالات واضحة بين الجنسين. على سبيل المثال ، وجدنا أن الشكل المذكر للمهندس باللغة الألمانية (المهندس) كان أكثر شيوعًا 75 مرة من نظيره الأنثوي (المهندسة). ستعمل أداة الترجمة المدربة على هذه البيانات حتمًا على تكرار هذا التحيز ، وترجمة كلمة “مهندس” إلى الذكر “المهندس.إذن ما الذي يمكن عمله لتجنب أو تخفيف ذلك؟

التغلب على التحيز

يبدو أن الإجابة المباشرة هي “موازنة” مجموعة المواد قبل مطالبة أجهزة الكمبيوتر بالتعلم منها. ربما ، على سبيل المثال ، قد يؤدي إضافة المزيد من المهندسات إلى المجموعة إلى منع نظام الترجمة من افتراض أن جميع المهندسين رجال.

لسوء الحظ ، هناك صعوبات في هذا النهج. يتم تدريب أدوات الترجمة لأيام على بلايين الكلمات. إعادة تدريبهم عن طريق تغيير جنس الكلمات أمر ممكن ، لكنه غير فعال ومكلف ومعقد. يعد ضبط الجنس في لغات مثل الألمانية أمرًا صعبًا بشكل خاص لأنه من أجل جعل المعنى النحوي منطقيًا ، قد تحتاج إلى تغيير عدة كلمات في الجملة لتعكس التبادل بين الجنسين.

بدلاً من إعادة التوازن بين الجنسين الشاقة ، قررنا إعادة تدريب أنظمة الترجمة الحالية بدروس مستهدفة. عندما اكتشفنا تحيزًا في الأدوات الحالية ، قررنا إعادة تدريبهم على مجموعات بيانات جديدة أصغر – تشبه إلى حد ما فترة ما بعد الظهيرة من التدريب على الحساسية تجاه النوع الاجتماعي في العمل.

يستغرق هذا النهج جزءًا بسيطًا من الوقت والموارد اللازمة لتدريب النماذج من البداية. لقد تمكنا من استخدام بضع مئات من أمثلة الترجمة المختارة – بدلاً من الملايين – لضبط سلوك الترجمة بالذكاء الاصطناعي بطرق مستهدفة. عند اختبار المهن التي تراعي نوع الجنس في الترجمة – كما فعلنا مع “المهندسين” – كانت التحسينات الدقيقة بعد التكيف أعلى بحوالي تسعة أضعاف من أسلوب إعادة التدريب “المتوازن”.

في بحثنا ، أردنا أن نبين أن معالجة التحيزات الخفية في مجموعات البيانات الضخمة لا يجب أن تعني تعديل الملايين من الأمثلة التدريبية بشكل شاق ، وهي مهمة تخاطر بالتجاهل باعتبارها مستحيلة. وبدلاً من ذلك ، يمكن استهداف التحيز الناتج عن البيانات وعدم تعلمه – وهو درس آخر باحثو الذكاء الاصطناعي يمكن أن تنطبق على عملهم.