لا أحد يعلم ما إذا كان الذكاء الاصطناعي سيكون نعمة أم نقمة في المستقبل البعيد. لكن في الوقت الحالي، هناك انزعاج وازدراء عالمي تقريبًا تجاه إحدى عادات برامج الدردشة والوكلاء هذه: الهلوسة، تلك الحقائق المختلقة التي تظهر في مخرجات نماذج اللغات الكبيرة مثل ChatGPT. في وسط ما يبدو وكأنه إجابة مبنية بعناية، سوف ينزل ماجستير القانون في شيء يبدو معقولًا ولكنه تلفيق كامل. يمكن لروبوت الدردشة النموذجي الخاص بك أن يجعل عضو الكونجرس السابق المشين جورج سانتوس يبدو مثل آبي لينكولن. نظرًا لأنه يبدو من المحتم أن تقوم روبوتات الدردشة يومًا ما بتوليد الغالبية العظمى من جميع النثر المكتوب على الإطلاق، فإن جميع شركات الذكاء الاصطناعي مهووسة بتقليل الهلوسة والقضاء عليها، أو على الأقل إقناع العالم بأن المشكلة في متناول اليد.
من الواضح أن قيمة LLMs سوف تصل إلى مستوى جديد عندما تقترب الهلوسة من الصفر. لكن قبل أن يحدث ذلك، أطلب منكم رفع نخب تحالفات الذكاء الاصطناعي.
تبهرني الهلوسة، على الرغم من أن علماء الذكاء الاصطناعي لديهم فكرة جيدة عن سبب حدوثها. قامت شركة ناشئة تعمل في مجال الذكاء الاصطناعي تدعى Vectara بدراسة هذه الحالات وانتشارها، حتى أنها قامت بتجميع معدلات الهلوسة لنماذج مختلفة عندما يُطلب منها تلخيص مستند. (يحقق برنامج GPT-4 الخاص بشركة OpenAI الأداء الأفضل، حيث يسبب الهلوسة في حوالي 3 بالمائة فقط من الحالات؛ أما برنامج Palm Chat الذي عفا عليه الزمن الآن من Google – وليس برنامج الدردشة الآلي Bard الخاص به! – فقد حقق معدلًا صادمًا بنسبة 27 بالمائة، على الرغم من أنه لكي نكون منصفين، لم يكن تلخيص المستندات موجودًا في غرفة قيادة Palm Chat .) يقول أمين أحمد، كبير مسؤولي التكنولوجيا في Vectara، إن LLMs تنشئ تمثيلاً مضغوطًا لجميع بيانات التدريب التي يتم تغذيتها من خلال الخلايا العصبية الاصطناعية. ويقول: “إن طبيعة الضغط هي أن التفاصيل الدقيقة يمكن أن تضيع”. وينتهي النموذج بتجهيزه بالإجابات الأكثر ترجيحًا لاستفسارات المستخدمين، لكنه لا يمتلك الحقائق الدقيقة المتاحة له. يقول: “عندما يتعلق الأمر بالتفاصيل، يبدأ في اختلاق الأشياء”.
كما قام سانتوش فيمبالا، أستاذ علوم الكمبيوتر في جامعة جورجيا للتكنولوجيا، بدراسة الهلوسة. ويقول: “إن نموذج اللغة هو مجرد نموذج احتمالي للعالم”، وليس مرآة صادقة للواقع. يوضح فيمبالا أن إجابة LLM تسعى جاهدة إلى معايرة عامة مع العالم الحقيقي – كما هو ممثل في بيانات التدريب الخاصة به – وهو “نسخة ضعيفة من الدقة”. وجد بحثه، الذي نشر مع آدم كالاي من OpenAI، أن الهلوسة لا يمكن تجنبها بالنسبة للحقائق التي لا يمكن التحقق منها باستخدام المعلومات الموجودة في بيانات تدريب النموذج.
هذا هو علم/رياضيات هلوسة الذكاء الاصطناعي، ولكنها تتميز أيضًا بالتجربة التي يمكن أن تثيرها لدى البشر. في بعض الأحيان، قد تبدو هذه التلفيقات التوليدية أكثر قبولا من الحقائق الفعلية، والتي غالبا ما تكون غريبة وغير مرضية إلى حد مدهش. كم مرة تسمع شيئًا يوصف بأنه غريب جدًا بحيث لا يجرؤ أي كاتب سيناريو على كتابته في فيلم؟ في هذه الأيام، في كل وقت! يمكن للهلوسة أن تغرينا من خلال الظهور وكأنها تضعنا في عالم أقل إزعاجًا من العالم الفعلي الذي نعيش فيه. والأكثر من ذلك، أجد أنه من المهم أن نلاحظ فقط التفاصيل التي تميل الروبوتات إلى تلفيقها. وفي محاولتهم اليائسة لملء الفراغات في السرد المرضي، فإنهم ينجذبون نحو النسخة الأكثر ترجيحًا إحصائيًا للواقع كما هو ممثل في بيانات التدريب الخاصة بهم على نطاق الإنترنت، والتي يمكن أن تكون حقيقة في حد ذاتها. أشبهها بكاتب خيالي يكتب رواية مستوحاة من أحداث حقيقية. سينحرف المؤلف الجيد عما حدث بالفعل إلى سيناريو متخيل يكشف حقيقة أعمق، ويسعى جاهداً لخلق شيء أكثر واقعية من الواقع.
عندما طلبت من ChatGPT أن يكتب لي نعيًا – اعترف بذلك، لقد جربت ذلك أيضًا – لقد نجح في تصحيح العديد من الأشياء ولكن بعض الأشياء الخاطئة. لقد منحني ذلك أحفادًا لم أنجبهم، ومنحني تاريخ ميلاد مبكرًا، وأضاف جائزة المجلة الوطنية إلى سيرتي الذاتية عن المقالات التي لم أكتبها عن أزمة الدوت كوم في أواخر التسعينيات. في تقييم LLM لحياتي، هذا شيء يجب لقد حدث ذلك بناءً على حقائق مسيرتي المهنية. أنا موافق! إنه فقط بسبب النقص في الحياة الواقعية، فشلت الجمعية الأمريكية لمحرري المجلات في منحي تمثال الفيل المعدني الذي يأتي مع هذا الشرف. بعد ما يقرب من 50 عامًا من كتابة المجلات، هذا الأمر عليهم، وليس أنا! يبدو الأمر كما لو أن ChatGPT أجرى استطلاعًا للأكوان المتعددة المحتملة ووجد أنه في معظمها حصلت على جائزة Ellie. بالتأكيد، كنت أفضل أن يدعوني الحكام البشريون هنا في زاويتي الخاصة من الكون المتعدد إلى المنصة. لكن التعرف من خلال شبكة عصبية اصطناعية أفضل من لا شيء.