في أبريل 2022، عندما تم إصدار Dall-E، وهو نموذج لغوي مرئي لتحويل النص إلى صورة، يُزعم أنه اجتذب أكثر من مليون مستخدم خلال الأشهر الثلاثة الأولى. تبع ذلك ChatGPT، في يناير 2023، والذي وصل على ما يبدو إلى 100 مليون مستخدم نشط شهريًا بعد شهرين فقط من إطلاقه. يمثل كلاهما لحظات بارزة في تطوير الذكاء الاصطناعي التوليدي، والذي أدى بدوره إلى انفجار المحتوى الناتج عن الذكاء الاصطناعي على الويب. الخبر السيئ هو أنه في عام 2024، يعني هذا أننا سنشهد أيضًا انفجارًا في المعلومات الملفقة وغير المنطقية، والمعلومات الخاطئة والمضللة، وتفاقم الصور النمطية السلبية الاجتماعية المشفرة في نماذج الذكاء الاصطناعي هذه.
لم تكن ثورة الذكاء الاصطناعي مدفوعة بأي اختراق نظري حديث – في الواقع، كانت معظم الأعمال التأسيسية التي تقوم عليها الشبكات العصبية الاصطناعية موجودة منذ عقود – ولكن بسبب “توافر” مجموعات البيانات الضخمة. من الناحية المثالية، يلتقط نموذج الذكاء الاصطناعي ظاهرة معينة – سواء كانت لغة بشرية أو إدراكًا أو عالمًا مرئيًا – بطريقة تمثل الظاهرة الحقيقية بأكبر قدر ممكن.
على سبيل المثال، بالنسبة لنموذج اللغة الكبير (LLM) لإنشاء نص يشبه الإنسان، من المهم أن يتم تغذية النموذج بكميات ضخمة من البيانات التي تمثل بطريقة ما اللغة البشرية والتفاعل والتواصل. والاعتقاد هو أنه كلما كانت مجموعة البيانات أكبر، كلما تمكنت من التقاط الشؤون الإنسانية بشكل أفضل، بكل جمالها المتأصل، وقبحها، وحتى قسوتها. نحن في عصر يتسم بهوس توسيع نطاق النماذج ومجموعات البيانات ووحدات معالجة الرسومات. على سبيل المثال، دخلت شهادات الماجستير الحالية، على سبيل المثال، عصر نماذج التعلم الآلي التي تحتوي على تريليون معلمة، مما يعني أنها تتطلب مجموعات بيانات ضخمة الحجم. أين يمكن أن نجده؟ على شبكة الإنترنت.
من المفترض أن تلتقط هذه البيانات المستمدة من الويب “الحقيقة الأساسية” للتواصل والتفاعل البشري، وهو وكيل يمكن من خلاله صياغة اللغة. على الرغم من أن العديد من الباحثين أظهروا الآن أن مجموعات البيانات عبر الإنترنت غالبًا ما تكون ذات نوعية رديئة، وتميل إلى تفاقم الصور النمطية السلبية، وتحتوي على محتوى مثير للمشاكل مثل الافتراءات العنصرية وخطاب الكراهية، غالبًا ما يكون موجهًا نحو المجموعات المهمشة، فإن هذا لم يمنع شركات الذكاء الاصطناعي الكبرى من استخدام مثل هذه البيانات في السباق لتوسيع نطاقها.
ومع الذكاء الاصطناعي التوليدي، فإن هذه المشكلة على وشك أن تتفاقم كثيرًا. وبدلاً من تمثيل العالم الاجتماعي من البيانات المدخلة بطريقة موضوعية، تعمل هذه النماذج على تشفير الصور النمطية الاجتماعية وتضخيمها. في الواقع، يُظهر العمل الأخير أن النماذج التوليدية تعمل على تشفير وإعادة إنتاج المواقف العنصرية والتمييزية تجاه الهويات والثقافات واللغات المهمشة تاريخيا.
من الصعب، إن لم يكن من المستحيل، حتى مع استخدام أدوات الكشف الحديثة، أن نعرف على وجه اليقين مقدار بيانات النص والصور والصوت والفيديو التي يتم إنشاؤها حاليًا وبأي سرعة. يقدر الباحثون في جامعة ستانفورد، هانز هانلي وزاكير دوروميريك، زيادة بنسبة 68% في عدد المقالات الاصطناعية المنشورة على موقع Reddit وزيادة بنسبة 131% في المقالات الإخبارية المضللة بين 1 يناير 2022 و31 مارس 2023. Boomy، شركة مولدات الموسيقى عبر الإنترنت ، تدعي أنها أنتجت 14.5 مليون أغنية (أو 14 بالمائة من الموسيقى المسجلة) حتى الآن. في عام 2021، توقعت إنفيديا أنه بحلول عام 2030، سيكون هناك بيانات تركيبية أكثر من البيانات الحقيقية في نماذج الذكاء الاصطناعي. هناك شيء واحد مؤكد: شبكة الإنترنت تتعرض لطوفان من البيانات المولدة صناعيا.
والأمر المثير للقلق هو أن هذه الكميات الهائلة من مخرجات الذكاء الاصطناعي التوليدية سيتم استخدامها بدورها كمواد تدريبية لنماذج الذكاء الاصطناعي التوليدية المستقبلية. ونتيجة لذلك، في عام 2024، سيكون جزء كبير جدًا من المواد التدريبية للنماذج التوليدية عبارة عن بيانات تركيبية منتجة من النماذج التوليدية. قريبًا، سنكون محاصرين في حلقة متكررة حيث سنقوم بتدريب نماذج الذكاء الاصطناعي باستخدام البيانات الاصطناعية التي تنتجها نماذج الذكاء الاصطناعي فقط. وسوف يكون أغلب هذا ملوثاً بالقوالب النمطية التي سوف تستمر في تضخيم عدم المساواة التاريخية والمجتمعية. ولسوء الحظ، ستكون هذه أيضًا هي البيانات التي سنستخدمها لتدريب النماذج التوليدية المطبقة على القطاعات عالية المخاطر بما في ذلك الطب والعلاج والتعليم والقانون. ولا يزال يتعين علينا أن نتعامل مع العواقب الوخيمة المترتبة على ذلك. بحلول عام 2024، فإن انفجار محتوى الذكاء الاصطناعي الذي نجده رائعًا الآن سيصبح بدلاً من ذلك مكبًا سامًا هائلاً سيعود إلينا.