يقوم OpenAI بتحديث قدرات ChatGPT للسماح بـ الذكاء الاصطناعي (AI) أداة “للرؤية والاستماع والتحدث” في آخر الترقيات لبرنامج الدردشة الآلي الفيروسي.
تقوم OpenAI بطرح تحديثات ستسمح لـ ChatGPT بفهم المطالبات اللفظية والرد في محادثة ذهابًا وإيابًا مع المستخدم باستخدام صوت chatbot الجديد. سيكون برنامج chatbot أيضًا قادرًا على الاستجابة لمطالبات الصور. التغييرات تعطي قدرات ChatGPT أكثر على غرار تلك التي يدعمها سيري؛ عدسة جوجل والمساعد الصوتي؛ وأمازون اليكسا.
وقالت OpenAI في الإعلان: “يمنحك الصوت والصورة المزيد من الطرق لاستخدام ChatGPT في حياتك”. “التقط صورة لمعلم أثناء السفر وقم بإجراء محادثة مباشرة حول ما يثير الاهتمام فيه. وعندما تكون في المنزل، التقط صورًا للثلاجة ومخزن المؤن لمعرفة ما سيتم تناوله على العشاء (واطرح أسئلة متابعة للخطوة- وصفة خطوة بخطوة). بعد العشاء، ساعد طفلك في حل مسألة حسابية من خلال التقاط صورة ووضع دائرة حول مجموعة المشكلات واطلب منه مشاركة التلميحات معك.”
ما هو شاتغبت؟
يتم تشغيل القدرة الصوتية الجديدة لـ ChatGPT من خلال نموذج تحويل النص إلى كلام قادر على توليد صوت يشبه الإنسان من النص وبضع ثوانٍ من عينة الكلام.
استخدمت الشركة أيضًا ممثلين صوتيين محترفين لإنشاء أصواتها واستخدمت نظام OpenAI للتعرف على الكلام مفتوح المصدر المسمى Whisper لتحويل الكلمات المنطوقة إلى نص.
ما هو الذكاء الاصطناعي (AI)؟
ونوهت الشركة إلى أن هناك بعض المخاطر التي تشكلها التكنولوجيا الصوتية الجديدة، مثل احتمال حدوث الاحتيال أو انتحال الشخصية.
وقالت OpenAI في الإعلان: “إن تقنية الصوت الجديدة – القادرة على صياغة أصوات اصطناعية واقعية من بضع ثوانٍ فقط من الكلام الحقيقي – تفتح الأبواب أمام العديد من التطبيقات الإبداعية التي تركز على إمكانية الوصول”. “ومع ذلك، فإن هذه القدرات الجديدة تمثل أيضًا مخاطر جديدة، مثل احتمال قيام الجهات الفاعلة الخبيثة بانتحال شخصيات عامة أو ارتكاب عمليات احتيال“.
تزايد عمليات الاحتيال المتعلقة باستنساخ الصوت باستخدام الذكاء الاصطناعي، وتحذير الخبراء
وأضافت أن النماذج القائمة على الرؤية تمثل أيضًا تحديات جديدة وأن الشركة “اتخذت تدابير فنية للحد بشكل كبير من قدرة ChatGPT على التحليل والإدلاء ببيانات مباشرة عن الأشخاص نظرًا لأن ChatGPT ليس دقيقًا دائمًا ويجب أن تحترم هذه الأنظمة خصوصية الأفراد”.
ومضى OpenAI ليشير إلى أن “النماذج القائمة على الرؤية تمثل أيضًا تحديات جديدة، بدءًا من الهلوسة حول الأشخاص إلى الاعتماد على تفسير النموذج للصور في المجالات عالية المخاطر.”
وقالت الشركة إنها اختبرت النموذج مع “أعضاء الفريق الأحمر للمخاطر في مجالات مثل التطرف والكفاءة العلمية، ومجموعة متنوعة من مختبري ألفا”.
وأضافت OpenAI أنها ستضيف إمكانات الصوت والصورة لمستخدمي إصدارات Plus وEnterprise من ChatGPT في الأسبوعين المقبلين.
ساهم رويترز لهذا التقرير.