OpenAI، الاصطناعي تعمل شركة الاستخبارات التي أطلقت العنان لـ ChatGPT على العالم في نوفمبر الماضي، على جعل تطبيق chatbot أكثر سهولة في الدردشة.
تتيح ترقية تطبيقات الهاتف المحمول ChatGPT لنظامي التشغيل iOS وAndroid التي تم الإعلان عنها اليوم لأي شخص التحدث باستفساراته إلى برنامج الدردشة الآلي وسماعه وهو يستجيب بصوته المركب. يضيف الإصدار الجديد من ChatGPT أيضًا الذكاء البصري: قم بتحميل أو التقاط صورة من ChatGPT وسيستجيب التطبيق بوصف للصورة ويقدم المزيد من السياق، على غرار ميزة Lens من Google.
تُظهر إمكانات ChatGPT الجديدة أن OpenAI تتعامل مع نماذج الذكاء الاصطناعي الخاصة بها، والتي كانت قيد العمل منذ سنوات، كمنتجات ذات تحديثات منتظمة ومتكررة. يبدو التطبيق المفاجئ الذي حققته الشركة، ChatGPT، أشبه بتطبيق للمستهلك يتنافس مع Siri من Apple أو Alexa من Amazon.
إن جعل تطبيق ChatGPT أكثر جاذبية يمكن أن يساعد OpenAI في سباقها ضد شركات الذكاء الاصطناعي الأخرى، مثل Google وAnthropic وInflectionAI وMidjourney، من خلال توفير تغذية أكثر ثراءً من البيانات من المستخدمين للمساعدة في تدريب محركات الذكاء الاصطناعي القوية الخاصة بها. إن إدخال البيانات الصوتية والمرئية في نماذج التعلم الآلي وراء ChatGPT قد يساعد أيضًا في رؤية OpenAI طويلة المدى لإنشاء المزيد من الذكاء الشبيه بالإنسان.
تم إنشاء نماذج لغة OpenAI التي تعمل على تشغيل برنامج الدردشة الآلي الخاص بها، بما في ذلك أحدث إصدار، GPT-4، باستخدام كميات هائلة من النصوص التي تم جمعها من مصادر مختلفة حول الويب. يعتقد العديد من خبراء الذكاء الاصطناعي أنه مثلما يستخدم الذكاء الحيواني والبشري أنواعًا مختلفة من البيانات الحسية، فإن إنشاء ذكاء اصطناعي أكثر تقدمًا قد يتطلب تغذية الخوارزميات بالمعلومات الصوتية والمرئية بالإضافة إلى النص.
ويشاع على نطاق واسع أن نموذج الذكاء الاصطناعي الرئيسي القادم من جوجل، جيميني، سيكون “متعدد الوسائط”، مما يعني أنه سيكون قادرًا على التعامل مع أكثر من مجرد النص، وربما يسمح بإدخال الفيديو والصور والمدخلات الصوتية. يقول تريفور داريل، الأستاذ في جامعة كاليفورنيا في بيركلي والمؤسس المشارك لشركة Prompt AI، وهي شركة ناشئة تعمل على الجمع بين اللغة الطبيعية وتوليد الصور والتقنيات: “من وجهة نظر أداء النموذج، نتوقع بديهيًا أن تتفوق النماذج متعددة الوسائط على النماذج المدربة على طريقة واحدة”. تلاعب. “إذا قمنا ببناء نموذج باستخدام اللغة فقط، بغض النظر عن مدى قوتها، فإنه سيتعلم اللغة فقط.”
كما أن تقنية توليد الصوت الجديدة الخاصة بـ ChatGPT – التي طورتها الشركة داخليًا – تفتح أيضًا فرصًا جديدة للشركة لترخيص تقنيتها للآخرين. على سبيل المثال، تقول Spotify إنها تخطط الآن لاستخدام خوارزميات تركيب الكلام الخاصة بـ OpenAI لتجربة ميزة تترجم البودكاست إلى لغات إضافية، في تقليد تم إنشاؤه بواسطة الذكاء الاصطناعي لصوت مقدم البودكاست الأصلي.
يحتوي الإصدار الجديد من تطبيق ChatGPT على أيقونة سماعات الرأس في الجزء العلوي الأيمن وأيقونات الصور والكاميرا في قائمة موسعة في أسفل اليسار. تعمل هذه الميزات الصوتية والمرئية عن طريق تحويل معلومات الإدخال إلى نص، باستخدام التعرف على الصور أو الكلام، حتى يتمكن برنامج الدردشة الآلية من إنشاء استجابة. يستجيب التطبيق بعد ذلك إما عبر الصوت أو النص، اعتمادًا على الوضع الذي يستخدمه المستخدم. عندما سألت كاتبة WIRED ChatGPT الجديدة باستخدام صوتها عما إذا كان بإمكانها “سماعها”، أجاب التطبيق: “لا أستطيع سماعك،” “ولكن يمكنني قراءة رسائلك النصية والرد عليها،” لأن استعلامك الصوتي تتم معالجته بالفعل كنص. سوف يستجيب بأحد الأصوات الخمسة، المسمى بشكل مفيد Juniper أو Ember أو Sky أو Cove أو Breeze.