في الأسبوع الماضي، تلقى بعض الناخبين في نيو هامبشاير اتصالاً آليًا تم إنشاؤه بواسطة الذكاء الاصطناعي ينتحل شخصية الرئيس بايدن، ويطلب منهم عدم التصويت في الانتخابات التمهيدية بالولاية. ليس من الواضح من المسؤول عن المكالمة، لكن فريقين منفصلين من خبراء الصوت أخبروا WIRED أنه من المحتمل أن يتم إنشاؤها باستخدام تقنية من شركة ElevenLabs الناشئة لاستنساخ الصوت.
وتقوم شركة ElevenLabs بتسويق أدوات الذكاء الاصطناعي الخاصة بها لاستخدامات مثل الكتب الصوتية وألعاب الفيديو؛ لقد حققت مؤخرًا مكانة “يونيكورن” من خلال جمع 80 مليون دولار بتقييم 1.1 مليار دولار في جولة تمويل جديدة بقيادة شركة المشاريع أندريسن هورويتز. يمكن لأي شخص الاشتراك في الخدمة المدفوعة للشركة واستنساخ الصوت من عينة صوتية. تنص سياسة السلامة الخاصة بالشركة على أنه من الأفضل الحصول على إذن شخص ما قبل استنساخ صوته، ولكن هذا الاستنساخ بدون إذن يمكن أن يكون مقبولاً لمجموعة متنوعة من الأغراض غير التجارية، بما في ذلك “الخطاب السياسي الذي يساهم في المناقشات العامة”. لم تستجب ElevenLabs لطلبات متعددة للتعليق.
ادعت شركة Pindrop، وهي شركة أمنية تعمل على تطوير أدوات للتعرف على الصوت الاصطناعي، في منشور على مدونة يوم الخميس أن تحليلها للصوت من المكالمة يشير إلى تقنية ElevenLabs أو “نظام يستخدم مكونات مماثلة”. قام فريق بحث Pindrop بفحص الأنماط الموجودة في مقطع الصوت مقابل أكثر من 120 محركًا مختلفًا لتركيب الصوت بحثًا عن تطابق، لكنه لم يتوقع العثور على واحد لأن تحديد مصدر الصوت الناتج عن الذكاء الاصطناعي قد يكون صعبًا. وكانت النتائج واضحة بشكل مدهش، كما يقول الرئيس التنفيذي لشركة Pindrop، فيجاي بالاسوبرامانيان. ويقول: “لقد عادت بنسبة 99 بالمائة إلى ما كانت عليه شركة ElevenLabs”.
عمل فريق Pindrop على مقطع مدته 39 ثانية حصلت عليه الشركة لإحدى المكالمات الآلية التي تم إنشاؤها بواسطة الذكاء الاصطناعي. وسعت إلى التحقق من نتائجها من خلال تحليل العينات الصوتية المعروفة بأنها تم إنشاؤها باستخدام تقنية ElevenLabs وأيضًا باستخدام أداة أخرى للتوليف الصوتي للتحقق من المنهجية.
تقدم ElevenLabs كاشف الكلام الخاص بها المزود بالذكاء الاصطناعي على موقعها الإلكتروني والذي تقول إنه يمكنه معرفة ما إذا كان قد تم إنشاء مقطع صوتي باستخدام تقنية الشركة. وعندما قامت Pindrop بإجراء عينتها من المكالمة الآلية المشتبه بها من خلال هذا النظام، تبين أنها من المحتمل أن يتم إنشاؤها باستخدام أدوات ElevenLabs بنسبة 84%. حصلت WIRED بشكل مستقل على نفس النتيجة عند فحص عينة Pindrop الصوتية باستخدام كاشف ElevenLabs.
كان هاني فريد، المتخصص في الطب الشرعي الرقمي في كلية المعلومات بجامعة كاليفورنيا في بيركلي، متشككًا في البداية في الادعاءات بأن مكالمة بايدن الآلية جاءت من ElevenLabs. ويقول: “عندما تسمع الصوت من صوت مستنسخ من ElevenLabs، فهذا أمر جيد حقًا”. “إن نسخة مكالمة بايدن التي سمعتها لم تكن جيدة بشكل خاص، لكن الإيقاع كان غير تقليدي حقًا. لم تكن الجودة التي كنت أتوقعها من ElevenLabs.”
ولكن عندما طلب فريد من فريقه في بيركلي إجراء تحليل مستقل خاص بهم للعينة الصوتية التي حصل عليها بندروب، توصلوا أيضًا إلى نفس النتيجة. ويقول: “يشير نموذجنا بثقة عالية إلى أنه تم إنشاؤه بواسطة الذكاء الاصطناعي ومن المرجح أن يكون ElevenLabs”.
وهذه ليست المرة الأولى التي يشتبه فيها الباحثون في استخدام أدوات ElevenLabs للدعاية السياسية. في سبتمبر الماضي، زعمت شركة NewsGuard، وهي شركة تتعقب المعلومات الخاطئة عبر الإنترنت، أن حسابات TikTok التي تشارك نظريات المؤامرة باستخدام أصوات تم إنشاؤها بواسطة الذكاء الاصطناعي، بما في ذلك نسخة من صوت باراك أوباما، استخدمت تقنية ElevenLabs. وقالت ElevenLabs في بيان أرسل عبر البريد الإلكتروني إلى “أكثر من 99 بالمائة من المستخدمين على منصتنا يقومون بإنشاء محتوى مثير للاهتمام ومبتكر ومفيد”. اوقات نيويورك في ذلك الوقت، “لكننا ندرك أن هناك حالات من سوء الاستخدام، وكنا نعمل باستمرار على تطوير وإصدار الضمانات للحد منها.”