لها 38 في عيد ميلادها ، قامت شيلا روبليس وعائلتها برحلة إلى One House ، مخبزها المفضل في Benicia ، كاليفورنيا ، للحصول على شطيرة لحم الصدر والبراونيز. في طريق عودتها إلى المنزل ، نقرت على شاشة صغيرة تعمل باللمس على معبدها وطلبت وصفًا للعالم في الخارج. “سماء غائمة” ، جاءت الاستجابة من خلال نظارة Google Glass.
فقدت روبلز القدرة على الرؤية في عينها اليسرى عندما كانت في الثامنة والعشرين من عمرها ، وفي عينها اليمنى بعد عام. تقول إن العمى يحرمك من التفاصيل الصغيرة التي تساعد الناس على التواصل مع بعضهم البعض ، مثل إشارات الوجه وتعبيراته. والدها ، على سبيل المثال ، يروي الكثير من النكات الجافة ، لذلك لا يمكنها دائمًا التأكد من أنه جاد. “إذا كان باستطاعة الصورة أن تحكي 1000 كلمة ، تخيل فقط عدد الكلمات التي يمكن أن يخبرها تعبير ما” ، كما تقول.
لقد جربت Robles الخدمات التي تربطها بالأشخاص المبصرين للحصول على المساعدة في الماضي. ولكن في أبريل ، اشتركت في تجربة مع Ask Envision ، مساعد AI الذي يستخدم OpenAI’s GPT-4 ، وهو نموذج متعدد الوسائط يمكنه التقاط الصور والنص وإخراج استجابات المحادثة. النظام هو واحد من عدة منتجات مساعدة للأشخاص ضعاف البصر لبدء دمج نماذج اللغة ، واعدًا بمنح المستخدمين مزيدًا من التفاصيل المرئية حول العالم من حولهم – والمزيد من الاستقلالية.
تم إطلاق Envision كتطبيق للهواتف الذكية لقراءة النص في الصور في عام 2018 ، وعلى Google Glass في أوائل عام 2021. في وقت سابق من هذا العام ، بدأت الشركة في اختبار نموذج محادثة مفتوح المصدر يمكنه الإجابة على الأسئلة الأساسية. ثم قامت Envision بدمج OpenAI’s GPT-4 لوصف صورة إلى نص.
اعتمد تطبيق Be My Eyes الذي يبلغ عمره 12 عامًا ويساعد المستخدمين على التعرف على الكائنات من حولهم ، GPT-4 في مارس. بدأت شركة Microsoft – وهي مستثمر رئيسي في OpenAI – في اختبار تكامل GPT-4 لخدمة SeeingAI ، والتي تقدم وظائف مماثلة ، وفقًا لقيادة منظمة العفو الدولية المسؤولة في Microsoft ، سارة بيرد.
في التكرار السابق ، قرأ Envision نصًا في صورة من البداية إلى النهاية. يمكنه الآن تلخيص نص في صورة والإجابة على أسئلة المتابعة. هذا يعني أن Ask Envision يمكنها الآن قراءة قائمة والإجابة على أسئلة حول أشياء مثل الأسعار والقيود الغذائية وخيارات الحلوى.
يقول ريتشارد بيردسلي ، أحد المختبرين الأوائل لـ Ask Envision ، إنه يستخدم الخدمة عادةً للقيام بأشياء مثل العثور على معلومات الاتصال في فاتورة أو قراءة قوائم المكونات على علب الطعام. إن وجود خيار بدون استخدام اليدين من خلال Google Glass يعني أنه يمكنه استخدامه أثناء حمل مقود كلبه الإرشادي وعصا. يقول: “من قبل ، لم يكن بإمكانك القفز إلى جزء معين من النص”. “وجود هذا يجعل الحياة أسهل كثيرًا لأنه يمكنك الانتقال إلى ما تبحث عنه بالضبط.”
قد يكون لدمج الذكاء الاصطناعي في منتجات رؤية العين تأثير عميق على المستخدمين ، كما يقول سينا بهرام ، عالم الكمبيوتر الكفيف ورئيس شركة استشارية تقدم المشورة للمتاحف والمتنزهات وشركات التكنولوجيا مثل Google و Microsoft بشأن إمكانية الوصول والشمول.
يستخدم بهرام Be My Eyes مع GPT-4 ويقول إن نموذج اللغة الكبير يُحدث فرقًا “من حيث الحجم” عن الأجيال السابقة من التكنولوجيا بسبب قدراتها ، ولأن المنتجات يمكن استخدامها دون عناء ولا تتطلب مهارات تقنية. قبل أسبوعين ، كما يقول ، كان يسير في الشارع في مدينة نيويورك عندما توقف شريكه في العمل لإلقاء نظرة فاحصة على شيء ما. استخدم بهرام Be My Eyes مع GPT-4 ليتعلم أنها كانت مجموعة من الملصقات ، وبعضها كرتوني ، بالإضافة إلى بعض النصوص ، وبعض الكتابة على الجدران. هذا المستوى من المعلومات “شيء لم يكن موجودًا قبل عام خارج المختبر” ، على حد قوله. “لم يكن ذلك ممكنًا.”