تعمل القوة المتزايدة لأحدث أنظمة الذكاء الاصطناعي على توسيع طرق التقييم التقليدية إلى نقطة الانهيار، مما يشكل تحديًا للشركات والهيئات العامة حول أفضل السبل للعمل مع التكنولوجيا سريعة التطور.
يتم الكشف عن العيوب في معايير التقييم المستخدمة عادة لقياس الأداء والدقة والسلامة مع ظهور المزيد من النماذج في السوق، وفقًا للأشخاص الذين يقومون ببناء أدوات الذكاء الاصطناعي واختبارها والاستثمار فيها. وقالوا إن الأدوات التقليدية سهلة التلاعب وضيقة للغاية بالنسبة لتعقيد أحدث النماذج.
إن السباق التكنولوجي المتسارع الذي أثاره إطلاق Chatbot's ChatGPT التابع لشركة OpenAI في عام 2022 والذي تغذيه عشرات المليارات من الدولارات من أصحاب رؤوس الأموال الاستثمارية وشركات التكنولوجيا الكبرى، مثل Microsoft وGoogle وAmazon، قد طمس العديد من المقاييس القديمة لتقييم تقدم الذكاء الاصطناعي.
قال إيدان جوميز، المؤسس والرئيس التنفيذي لشركة كوهير الناشئة في مجال الذكاء الاصطناعي: “إن المعيار العام له عمر افتراضي”. “إنها مفيدة حتى يقوم الأشخاص بتحسين (نماذجهم) لها أو التلاعب بها. كان ذلك يستغرق بضع سنوات؛ الآن أصبح الأمر شهرين.”
أصدرت كل من Google وAnthropic وCohere وMistral نماذج للذكاء الاصطناعي على مدار الشهرين الماضيين في سعيهم لإزاحة OpenAI المدعومة من Microsoft من أعلى التصنيفات العامة لنماذج اللغات الكبيرة (LLMs)، والتي تدعم أنظمة مثل ChatGPT.
وقال جوميز إن أنظمة الذكاء الاصطناعي الجديدة تظهر بشكل روتيني يمكنها “التفوق بشكل كامل” على المعايير الحالية. وقال: “مع تحسن النماذج، فإن القدرات تجعل هذه التقييمات قديمة”.
لقد تحولت مشكلة كيفية تقييم ماجستير إدارة الأعمال من الأوساط الأكاديمية إلى مجالس الإدارة، حيث أصبح الذكاء الاصطناعي التوليدي يمثل الأولوية الاستثمارية القصوى لـ 70 في المائة من الرؤساء التنفيذيين، وفقا لاستطلاع أجرته شركة كيه بي إم جي لأكثر من 1300 رئيس تنفيذي عالمي.
قال شيلي ماكينلي، كبير المسؤولين القانونيين في GitHub، وهو مستودع للكود المملوك لشركة Microsoft: “لن يستخدم الناس التكنولوجيا التي لا يثقون بها”. “يتعين على الشركات أن تطرح منتجات جديرة بالثقة.”
وتكافح الحكومات أيضًا في كيفية نشر وإدارة مخاطر أحدث نماذج الذكاء الاصطناعي. في الأسبوع الماضي، وقعت الولايات المتحدة والمملكة المتحدة اتفاقاً ثنائياً تاريخياً بشأن سلامة الذكاء الاصطناعي، استناداً إلى معاهد الذكاء الاصطناعي الجديدة التي أنشأها البلدان العام الماضي “لتقليل المفاجأة. . . من التقدم السريع وغير المتوقع في الذكاء الاصطناعي”.
أصدر الرئيس الأمريكي جو بايدن أمرا تنفيذيا العام الماضي يدعو الهيئات الحكومية بما في ذلك المعهد الوطني للمعايير والتكنولوجيا إلى وضع معايير لتقييم مخاطر أدوات الذكاء الاصطناعي.
سواء كان ذلك يتعلق بتقييم السلامة، أو الأداء، أو الكفاءة، فإن المجموعات المكلفة باختبار التحمل لأنظمة الذكاء الاصطناعي تسارع لمواكبة أحدث التطورات.
“القرار الأعلى الذي تتخذه العديد من الشركات هو: هل يجب أن نستخدم شهادة LLM وأي منها يجب أن نستخدمها؟” قال ريشي بوماساني، الذي يقود فريقًا في مركز ستانفورد لأبحاث نماذج الأساس.
قام فريق بوماساني بتطوير التقييم الشامل لنماذج اللغة، والذي يختبر الاستدلال والحفظ والقابلية للتضليل، من بين معايير أخرى.
تشمل الأنظمة العامة الأخرى معيار فهم اللغة متعدد المهام الضخم، وهو عبارة عن مجموعة بيانات تم إنشاؤها في عام 2020 من قبل طلاب بيركلي لاختبار النماذج على أسئلة من 57 مجالًا موضوعيًا. وهناك تطبيق آخر هو HumanEval، الذي يحكم على القدرة على البرمجة عبر 164 مشكلة برمجية.
ومع ذلك، فإن التقييمات تكافح من أجل مواكبة تطور نماذج الذكاء الاصطناعي الحالية، والتي يمكنها تنفيذ سلسلة من المهام المتصلة على مدى أفق طويل. يصعب تقييم مثل هذه المهام المعقدة في البيئات الخاضعة للرقابة.
قال مايك فولبي، الشريك في شركة رأس المال الاستثماري إندكس فنتشرز: “أول شيء يجب إدراكه هو أنه من الصعب جدًا تقييم النماذج بشكل صحيح بنفس الطريقة التي يصعب بها جدًا تقييم البشر بشكل صحيح”. “إذا نظرت إلى شيء واحد مثل “هل يمكنك القفز عالياً أو الركض بسرعة؟” من السهل. لكن الذكاء البشري؟ إنها مهمة شبه مستحيلة.”
ومن المخاوف المتزايدة الأخرى بشأن الاختبارات العامة هو أن بيانات تدريب النماذج يمكن أن تتضمن الأسئلة الدقيقة المستخدمة في التقييمات.
«قد لا يكون ذلك غشًا متعمدًا؛ وقال بوماساني من جامعة ستانفورد: “قد يكون الأمر غير ضار”. “لكننا مازلنا نتعلم كيفية الحد من مشكلة التلوث هذه بين ما تم تدريب النماذج عليه وما تم اختباره عليه.”
وأضاف أن المعايير “متجانسة للغاية”. “نحن نقوم بتقييم مدى قوة حاملي شهادات LLM، ولكن تقييمك كشركة هو أكثر من ذلك. يتعين عليك أن تأخذ في الاعتبار التكلفة (و) ما إذا كنت تريد مصدرًا مفتوحًا (حيث يكون الكود متاحًا للعامة) أو مصدرًا مغلقًا.
تستضيف شركة Hugging Face، وهي شركة ناشئة بقيمة 4.5 مليار دولار توفر أدوات لتطوير الذكاء الاصطناعي وهي منصة مؤثرة للنماذج مفتوحة المصدر، لوحة متصدرين تسمى LMSys، والتي تصنف النماذج على أساس قدرتها على إكمال الاختبارات المخصصة التي وضعها المستخدمون الفرديون، وليس على أساس مجموعة ثابتة من الأسئلة. ونتيجة لذلك، فإنه يلتقط بشكل مباشر التفضيلات الفعلية للمستخدمين.
قال جوميز من Cohere's إن لوحة المتصدرين هذه مفيدة للمستخدمين الفرديين ولكنها ذات استخدام محدود أكثر للشركات، والتي سيكون لها متطلبات محددة لنماذج الذكاء الاصطناعي.
وبدلا من ذلك، يوصي الشركات ببناء “مجموعة اختبار داخلية، والتي تحتاج فقط إلى مئات الأمثلة، وليس الآلاف”.
وقال: “نقول دائمًا أن التقييم البشري هو الأفضل”. “إنها الطريقة الأكثر تمثيلاً للحكم على الأداء.”
وقال فولبي من شركة إندكس فنتشرز إن اختيارات الشركات الفردية للنماذج هي فن بقدر ما هي علم.
وقال: “هذه المقاييس تشبه عندما تشتري سيارة ولديها هذا القدر من القوة الحصانية وهذا القدر من عزم الدوران وتنتقل من 0 إلى 100 كيلومتر في الساعة”. “الطريقة الوحيدة التي يمكنك من خلالها أن تقرر شرائها هي أخذها في جولة بالسيارة.”