في المقر الرئيسي لشركة جوجل في ماونتن فيو هذا الأسبوع، خرج رجل يرتدي ثوبًا بألوان قوس قزح من فنجان قهوة عملاق ليقدم عرضًا نابضًا بالحياة، وإن كان سرياليًا إلى حد ما، لأحدث إنجازات الشركة في مجال الذكاء الاصطناعي التوليدي.
في حدث I/O، ابتكر الموسيقي الإلكتروني ومستخدم YouTube، مارك ريبيليه، أداة موسيقى تعمل بالذكاء الاصطناعي يمكنها إنشاء مقطوعات موسيقية متزامنة بناءً على مطالبات مثل “فيولا” و”808 هيب هوب”. وقال للمطورين إن الذكاء الاصطناعي توصل إلى طرق “لملء العناصر المتفرقة في حلقاتي… . . إنه مثل وجود هذا الصديق الغريب الذي يقول: “جرب هذا، جرب ذلك”.”
ما كان يصفه Rebillet هو مساعد الذكاء الاصطناعي، وهو روبوت شخصي من المفترض أن يساعدك على العمل والإبداع أو التواصل بشكل أفضل والتفاعل مع العالم الرقمي نيابة عنك. لقد سرقت هذه الفئة الجديدة من المنتجات الأضواء هذا الأسبوع من بين موجة من تطورات الذكاء الاصطناعي الجديدة من Google وقسم الذكاء الاصطناعي DeepMind التابع لها، بالإضافة إلى OpenAI المدعومة من Microsoft.
وأعلنت الشركتان في الوقت نفسه عن سلسلة من أدوات الذكاء الاصطناعي المحدثة “متعددة الوسائط”، مما يعني أنها تستطيع تفسير الصوت والفيديو والصور والرموز في واجهة واحدة، وكذلك تنفيذ مهام معقدة مثل الترجمة المباشرة أو التخطيط لقضاء عطلة عائلية.
في عرض توضيحي بالفيديو، استجاب النموذج الأولي لمساعد الذكاء الاصطناعي من جوجل Astra، المدعوم من نموذج Gemini، للأوامر الصوتية بناءً على تحليل ما يراه من خلال كاميرا الهاتف أو عند استخدام زوج من النظارات الذكية.
نجح في تحديد تسلسل التعليمات البرمجية، واقترح تحسينات على مخططات الدوائر الكهربائية، وتعرف على منطقة كينغز كروس في لندن من خلال عدسة الكاميرا، وذكّر المستخدم بالمكان الذي ترك فيه نظاراته.
وفي الوقت نفسه، في إطلاق منتج OpenAI يوم الاثنين، أوضحت ميرا موراتي، كبيرة مسؤولي التكنولوجيا، وزملاؤها كيف يمكن لنموذج الذكاء الاصطناعي الجديد الخاص بهم، GPT4o، إجراء ترجمة صوتية في محادثة مباشرة، والتفاعل بالمثل مع المستخدم باستخدام نغمة مجسمة وصوت لتحليل النص. الصور والفيديو والكود. يقول موراتي لصحيفة “فاينانشيال تايمز”: “هذا مهم للغاية لأننا ننظر إلى مستقبل التفاعل بيننا وبين الآلات”.
في حين أن المساعدات الذكية المدعومة بالذكاء الاصطناعي كانت قيد التدريب منذ ما يقرب من عقد من الزمن، فإن هذه التطورات الأخيرة تسمح بتفاعلات صوتية أكثر سلاسة وسرعة، ومستويات فائقة من الفهم بفضل نماذج اللغة الكبيرة (LLMs) التي تدعم نماذج الذكاء الاصطناعي الجديدة. والآن، يجري تدافع جديد بين مجموعات التكنولوجيا لجلب ما يسمى بوكلاء الذكاء الاصطناعي إلى المستهلكين.
وقال ساندر بيتشاي، الرئيس التنفيذي لشركة جوجل، هذا الأسبوع، إن من الأفضل فهم هذه “الأنظمة الذكية”، التي تظهر التفكير والتخطيط والذاكرة، وتكون قادرة على “التفكير” في خطوات متعددة للأمام، والعمل عبر البرامج والأنظمة، كل ذلك لإنجاز شيء ما. نيابة عنك”.
بالإضافة إلى Google وOpenAI، من المتوقع أن تكون Apple لاعبًا رئيسيًا في هذا السباق. ويتوقع المطلعون على الصناعة أن هناك ترقية كبيرة لمساعد أبل الصوتي، سيري، في الأفق، حيث تطرح الشركة شرائح ذكاء اصطناعي جديدة، مصممة داخليًا وقادرة على تشغيل النماذج التوليدية على الجهاز.
وفي الوقت نفسه، أطلقت شركة Meta بالفعل مساعد الذكاء الاصطناعي على منصاتها Facebook وInstagram وWhatsApp عبر أكثر من اثنتي عشرة دولة في أبريل. تحاول الشركات الناشئة مثل Rabbit وHumane أيضًا دخول هذا المجال من خلال تصميم منتجات تعمل كمساعد مستقل للذكاء الاصطناعي.
على الرغم من أن المحللين يشيرون إلى أن الإعلانات الكبيرة هذا الأسبوع ظلت إلى حد كبير “برامج بخارية” – مفاهيم وليست منتجات حقيقية – فمن الواضح لمراقبي الصناعة أن مساعدي أو وكلاء الذكاء الاصطناعي سيكونون أساسيين في جلب أحدث تقنيات الذكاء الاصطناعي إلى الجماهير.
يقول مصطفى سليمان، الرئيس التنفيذي لشركة مايكروسوفت للذكاء الاصطناعي، والذي لم يشارك في أي من الإصدارين هذا الأسبوع: “لا شك أن هذا هو الوقت المناسب للذكاء الشخصي (الاصطناعي).” أسس سليمان سابقًا شركة Inflection، وهي شركة ناشئة تعمل على بناء مساعد الذكاء الاصطناعي الذي يركز على المستهلك والمعروف باسم Pi، والتي تركها في مارس.
“لقد قام وادي السيليكون دائمًا بتأطير التكنولوجيا باعتبارها أداة وظيفية – لإنجاز الأمور بكفاءة وسرعة. ولكن الأمر لا يصدق إلى حد ما، فهذه الأدوات أصبحت الآن في المجال الإبداعي لصانعي المنتجات. “لقد نضجت التكنولوجيا بما فيه الكفاية بحيث أصبحت نوعًا جديدًا من الطين الذي يمكننا جميعًا اختراعه باستخدام و. . . ونحن نرى أن ذلك بدأ يؤتي ثماره الآن.
منذ ما يقرب من عقد من الزمان، تتنافس مجموعات التكنولوجيا على جلب الذكاء الاصطناعي للمستهلكين من خلال المساعدين الافتراضيين مثل Siri من Apple، وCortana من Microsoft، وAlexa من Amazon، والتي تم دمجها الآن عبر مجموعة من الأجهزة.
كشفت شركة جوجل، على سبيل المثال، عن مساعد الذكاء الاصطناعي في عام 2016، حيث رسم بيتشاي صورة لعالم ما بعد الهواتف الذكية حيث يتم تضمين الذكاء في كل شيء بدءًا من مكبرات الصوت وحتى النظارات.
ولكن بعد مرور ثماني سنوات، لا يزال الهاتف الذكي هو واجهة المستهلك الأساسية للويب. تتمثل التحديات الكبرى أمام التبني الجماعي في الكمون، أو الاستجابات البطيئة من جانب عملاء الذكاء الاصطناعي، فضلاً عن الأخطاء في فهمهم وتنفيذهم للتعليمات والاحتياجات البشرية.
أدى ظهور التكنولوجيا الأساسية لروبوتات الدردشة مثل ChatGPT وGemini وClaude، المعروفة باسم المحول، في عام 2017، إلى تحسين التقنيات التي تدعم مساعدي الذكاء الاصطناعي بشكل كبير، مثل معالجة اللغة الطبيعية.
ولكن لبناء مساعدين للذكاء الاصطناعي يرغب الجمهور في استخدامه، فإن “الميزة القاتلة هي السرعة”، وفقًا لمحلل التكنولوجيا بن طومسون، الذي يكتب النشرة الإخبارية المؤثرة في الصناعة Stratechery.
“عندما تتجاوز عتبة السرعة وزمن الوصول، فهذا هو الوقت المناسب للمتعة. البهجة . . . والمرح عندما تحصل على ردود الفعل الفورية يختلف تمامًا عن الجلوس منتظرًا. . . قال في برنامج Sharp Tech هذا الأسبوع: “إنها مثل خدعة صالون”.
وقال طومسون إنه لاحظ ذلك في سياق جوجل ووضع بحث الذكاء الاصطناعي الخاص بها، والمعروف باسم تجربة البحث التوليدية، والذي يوفر إجابات على الاستفسارات التي يولدها الذكاء الاصطناعي، إلى جانب قائمة الروابط التقليدية.
وقال: “إن الأمر أصبح سريعًا ومتسقًا جدًا لدرجة أنني أستخدمه أكثر، وبصراحة أستخدم ChatGPT بشكل أقل، وليس حتى عن قصد”. “تعرف Google هذا أفضل من أي شخص آخر – فهي تعلم أن كل مللي ثانية يحدث فرقًا في مدى تفاعل الأشخاص.”
لكن الروبوت الرئيسي لـ OpenAI ليس بطيئًا. تمكنت نسخة من نموذج GPT4o من الترجمة بسلاسة بين الإيطالية والإنجليزية في المحادثة في الوقت الفعلي. عرضت العارضة أيضًا نبرة تحادثية، وإن كانت غزلية بعض الشيء، عند الدردشة مع المهندسين الذكور على المسرح. وقال طومسون إنه مع OpenAI “التحسينات الحقيقية تكمن في تجربة المستخدم ومنتج ChatGPT الفعلي”. “هذا هو ما يتطلبه الأمر للفوز في (التكنولوجيا) الاستهلاكية، إلى حد أكبر بكثير من الشركات”.
لكن شركة آبل تنتظر في الأجنحة. وكان المستثمرون حريصين على معرفة المزيد عن خطط الشركة فيما يتعلق بالذكاء الاصطناعي، حيث انخفض سعر سهمها هذا العام مقارنة بشركتي Alphabet وAmazon.
أعلنت شركة OpenAI هذا الأسبوع أنها أبرمت صفقة مع شركة Apple لإنشاء تطبيق سطح مكتب لأجهزة Mac. ويقال أيضًا أن صانع iPhone يستكشف المزيد من الشراكات المحتملة مع كل من OpenAI وGoogle Gemini، بينما يقوم بتعيين خبراء ونشر أوراق بحثية تعطي نظرة نادرة على عمله وراء الكواليس في بناء نماذج الذكاء الاصطناعي.
يقول المطلعون إن ميزة شركة أبل تكمن في قاعدة المستخدمين الحالية الضخمة، مع أكثر من 2.2 مليار جهاز نشط حول العالم، مما يضعها في وضع يمكنها من توجيه عملية كيفية دمج الأشخاص للأدوات التوليدية مثل المساعدين الافتراضيين في حياتهم اليومية.
من المرجح أن تقوم شركة Apple ببناء “تقنية Siri من المستوى التالي” بالشراكة مع OpenAI، كما يتوقع محلل Wedbush Dan Ives. وقال في مذكرة، إن المساعد القادر على تنفيذ المهام المعقدة لمستخدمي iPhone يمكن أن يتحول في النهاية إلى خدمة اشتراك مدفوعة، على غرار الطريقة التي تحقق بها الشركة حاليًا الدخل من الخدمات الأخرى مثل iCloud.
بعد العرض التوضيحي لـ OpenAI يوم الاثنين، كرر محللو Bank of America تقييمهم للشراء على أسهم Apple، قائلين إنه يؤكد على الإمكانات التي توفرها المساعدات الافتراضية وميزات الذكاء الاصطناعي لمطوري التطبيقات في النظام البيئي لمتجر التطبيقات الخاص به، والذي يدر بالفعل على Apple ما بين 6 مليارات دولار و 7 مليارات دولار من رسوم العمولة كل ربع سنة حسب تقديرات شركة Sensor Tower.
ومع ذلك، فإن ميزة جوجل تكمن في مجموعة تطبيقات المستهلك التي تقدمها، من البريد الإلكتروني إلى أدوات التقويم، حيث يمكن دمج وكلاء الذكاء الاصطناعي.
“لقد أردنا دائمًا بناء عامل عالمي يكون مفيدًا في الحياة اليومية. إن عملنا في تحويل هذه الرؤية إلى واقع يعود إلى سنوات عديدة مضت. وقال ديميس هاسابيس، الرئيس التنفيذي لشركة جوجل ديب مايند، للصحفيين هذا الأسبوع: “هذا هو السبب وراء صنعنا (روبوت الدردشة) جيميني متعدد الوسائط منذ البداية”.
“في أي لحظة، نقوم بمعالجة مجموعة من المعلومات الحسية المختلفة، ونفهمها ونتخذ القرارات. تخيل وكلاء يمكنهم رؤية وسماع ما نقوم به، وفهم السياق الذي نعيش فيه بشكل أفضل، والاستجابة بسرعة في المحادثة، مما يجعل وتيرة وجودة التفاعل تبدو أكثر طبيعية بكثير.
على الرغم من تدافع شركات الذكاء الاصطناعي لإنشاء روبوتات استهلاكية يمكنها المساعدة في المهام اليومية، فقد يستغرق الأمر بعض الوقت قبل أن تصبح حقيقة يومية.
لا يزال إنشاء المحتوى الذي ينشئه الذكاء الاصطناعي في بداياته، وهو عرضة في بعض الأحيان للأخطاء و”الهلوسة”، أو تلفيق معلومات كاذبة. قد يصبح هذا مشكلة كبيرة إذا كان المساعد يكمل المهام المتعلقة بالعمل حيث تكون الدقة، وليس الإبداع، أمرًا بالغ الأهمية.
يقول سليمان إن التوسع يمثل أيضًا تحديًا كبيرًا. “إنها سوق شديدة التنافسية. . . مسائل التوزيع والعلامة التجارية مهمة – Apple وGoogle. . . لها مزايا كبيرة بهذا المعنى.”
انتقل سليمان إلى شركة Microsoft في شهر مارس بعد أن تحولت شركته الناشئة Inflection من التركيز على المستهلك إلى نموذج المؤسسة. “لقد كان (Pi) منتجًا نشطًا للغاية ولكن الوصول إلى نطاق واسع مثل Gemini يمثل تحديًا كبيرًا.”
لكن بريت تايلور، رئيس مجلس إدارة شركة OpenAI، والرئيس التنفيذي لشركة سييرا الناشئة الجديدة العاملة في مجال الذكاء الاصطناعي، يقول إن استبدال واجهات المستهلك الحالية يوفر فرصًا لمجموعة من الشركات.
ويقول: “في التحولات التكنولوجية الكبيرة، يمكن للشركات الناشئة أن تبرز وتنجح لأنه لا يوجد بالضرورة قائد في السوق في الوقت الحالي”.
في حين أن شركات التكنولوجيا الكبرى وشركائها قد يكونون في وضع أفضل للاستفادة من اللحظة الحالية، يقول يان ليكون، كبير علماء الذكاء الاصطناعي في ميتا، إنهم سيحتاجون إلى فتح نماذجهم لتوسيع نطاق مساعدي الذكاء الاصطناعي خارج البلدان الفردية في الغرب.
“في المستقبل الجديد، سيكون كل تفاعل مع العالم الرقمي من خلال مساعد الذكاء الاصطناعي من نوع ما. سنتحدث مع مساعدي الذكاء الاصطناعي هؤلاء طوال الوقت. وقال في حدث ميتا في لندن الشهر الماضي إن نظامنا الغذائي الرقمي بالكامل سيتم بوساطة أنظمة الذكاء الاصطناعي. “لا يمكن للشركات الموجودة على الساحل الغربي للولايات المتحدة أن تفعل هذا. نحن بحاجة إلى أن يكونوا متنوعين.”
شارك في التغطية مايكل أكتون وجورج هاموند في سان فرانسيسكو