أذهلت شركة OpenAI المستخدمين عندما عرضت وضعًا صوتيًا محدثًا للإصدار الأكثر تقدمًا من ChatGPT في وقت سابق من هذا العام.
بعيدًا عن نوع الصوت الآلي الذي اعتاد الناس على ربطه بالمساعدين الرقميين مثل Alexa أو Siri، فإن وضع الصوت المتقدم في ChatGPT يبدو أشبه بالحياة بشكل ملحوظ. فهو يستجيب في الوقت الفعلي، ويمكنه التكيف مع المقاطعة، ويمكنه إصدار أصوات ضحك عندما يقوم المستخدم بإلقاء نكتة، ويمكنه الحكم على الحالة العاطفية للمتحدث بناءً على نبرة صوته. (خلال العرض التوضيحي الأولي، بدا أيضًا مشابهًا بشكل مريب لصوت سكارليت جوهانسون).
بدءًا من يوم الثلاثاء، سيبدأ طرح وضع الصوت المتقدم – والذي يعمل مع أقوى إصدار من برنامج الدردشة الآلي ChatGPT-4o – للمستخدمين المدفوعين. سيبدأ طرح وضع الصوت المتقدم لمجموعة صغيرة من المشتركين في وضع “Plus” الخاص بالتطبيق، بهدف إتاحته لجميع مستخدمي Plus في الخريف.
يحتوي ChatGPT بالفعل على وضع صوتي أقل تطورًا. ولكن طرح وضع صوتي أكثر تطورًا قد يشكل وضع الصوت المتقدم نقطة تحول رئيسية لشركة OpenAI، حيث يحول ما كان بالفعل روبوت محادثة ذكيًا إلى شيء أشبه بمساعد شخصي افتراضي يمكن للمستخدمين المشاركة في محادثات طبيعية ومنطوقة بنفس الطريقة التي يتحدثون بها مع صديق. إن سهولة المحادثة باستخدام وضع الصوت المتقدم في ChatGPT قد تشجع المستخدمين على التفاعل مع الأداة بشكل متكرر، وتشكل تحديًا لشركات المساعدة الافتراضية مثل Apple وAmazon.
ولكن طرح وضع صوتي أكثر تقدمًا لبرنامج ChatGPT يثير أيضًا أسئلة كبيرة: هل ستفهم الأداة بشكل موثوق ما يحاول المستخدمون قوله، حتى لو كانت لديهم اختلافات في الكلام؟ وهل يميل المستخدمون إلى الثقة بشكل أعمى في مساعد الذكاء الاصطناعي الذي يبدو وكأنه بشري، حتى عندما يخطئ في الأمور؟
قالت شركة OpenAI في البداية إنها كانت تخطط لبدء طرح وضع الصوت المتقدم في يونيو، لكنها قالت إنها بحاجة إلى “شهر آخر للوصول إلى الحد الأقصى للإطلاق” لاختبار سلامة الأداة وضمان إمكانية استخدامها من قبل ملايين الأشخاص مع الحفاظ على الاستجابات في الوقت الفعلي.
وقالت الشركة إنها اختبرت في الأشهر الأخيرة قدرات الصوت لنموذج الذكاء الاصطناعي مع أكثر من 100 مختبر يسعون إلى تحديد نقاط الضعف المحتملة، “الذين يتحدثون بشكل جماعي ما مجموعه 45 لغة مختلفة، ويمثلون 29 منطقة جغرافية مختلفة”، وفقًا لبيان صدر يوم الثلاثاء.
ومن بين تدابير السلامة التي اتخذتها الشركة، قالت إن وضع الصوت لن يكون قادرًا على استخدام أي أصوات تتجاوز أربعة خيارات محددة مسبقًا أنشأتها بالتعاون مع ممثلي الصوت – لتجنب انتحال الشخصية – كما سيمنع أيضًا طلبات معينة تهدف إلى إنشاء موسيقى أو صوت آخر محمي بحقوق الطبع والنشر. وتقول OpenAI إن الأداة ستتمتع أيضًا بنفس الحماية التي يتمتع بها وضع النص في ChatGPT لمنعها من إنشاء محتوى غير قانوني أو “ضار”.
كما سيختلف وضع الصوت المتقدم بشكل كبير عن العرض التوضيحي الذي عرضته OpenAI في مايو: لن يتمكن المستخدمون بعد الآن من الوصول إلى الصوت الذي يعتقد الكثيرون (بما في ذلك الممثلة نفسها) أنه يشبه صوت جوهانسون. وفي حين أكدت OpenAI أن الصوت لم يكن من المقصود أبدًا أن يبدو مثل جوهانسون وتم إنشاؤه بمساعدة ممثل مختلف، فقد أوقفت استخدام الصوت “احترامًا” بعد أن اشتكى الممثل.
يأتي إطلاق وضع الصوت المتقدم لـ ChatGPT بعد أن أعلنت OpenAI الأسبوع الماضي أنها تختبر محرك بحث يستخدم تقنية الذكاء الاصطناعي الخاصة بها، حيث تواصل الشركة تنمية محفظتها من أدوات الذكاء الاصطناعي الموجهة للمستهلكين. قد يشكل محرك بحث OpenAI في النهاية تهديدًا تنافسيًا كبيرًا لـ هيمنة جوجل في البحث عبر الإنترنت.