تخلق Deepseek's 'Aha Moment' طريقة جديدة لبناء الذكاء الاصطناعي القوي بأموال أقل

اعتمدت صينية AI Lab Deepseek تقنيات مبتكرة لتطوير نموذج منظمة العفو الدولية تم تدريبه مع تدخل بشري محدود ، مما ينتج عنه “لحظة آها” التي يمكن أن تحول تكلفة المطورين إلى بناء تطبيقات قاتلة بناءً على التكنولوجيا.

تكشف ورقة البحث التي نشرت عن أعمال “التفكير” في Deepseek عن كيفية تحقيق المجموعة ، بقيادة صندوق التحوط الملياردير Liang Wenfeng ، عن نتائج قوية عن طريق إزالة الاختناقات في تطوير الذكاء الاصطناعي.

توضح الورقة كيف اعتمدت Deepseek سلسلة من التقنيات الأكثر كفاءة لتطوير R1 ، والتي مثل نموذج O1 من Openai ، يولد إجابات دقيقة من خلال “التفكير” خطوة بخطوة حول استجاباتها لفترة أطول من معظم نماذج اللغة الكبيرة.

تأتي اختراقات Deepseek من استخدامها لـ “التعلم التعزيز” لتقليل المشاركة البشرية التي تنطوي عليها إنتاج الاستجابات للمطالبات.

قامت الشركة أيضًا ببناء نماذج أصغر مع عدد أقل من المعلمات – عدد المتغيرات المستخدمة لتدريب نظام الذكاء الاصطناعى وتشكيل ناتجها – مع إمكانيات التفكير القوية من خلال تعديل النماذج الكبيرة التي تدربها منافسون مثل Meta و Alibaba.

وقد أرسلت هذه التطورات معًا موجات صدمة في جميع أنحاء وادي السيليكون ، حيث تتفوق R1 على بعض المهام مقارنةً بالنماذج التي تم إصدارها مؤخرًا من Openai و Anthropic و Meta ، ولكن في جزء صغير من الأموال التي يجب تطويرها.

في يوم الثلاثاء ، قالت Openai إنها وجدت أدلة على أن Deepseek قد أدى إلى تعبئة تقنيتها ، وذلك باستخدام مخرجات من نماذجها لتدريب LLMs بتكلفة أقل ، وهي ممارسة شائعة مع الأكاديميين والشركات الناشئة الأقل تمويلًا جيدًا.

على الرغم من الجدل ، قال الخبراء إن ديبسيك أظهر ابتكارًا حقيقيًا. أشاد باحثو الذكاء الاصطناعى أيضًا باستعداده لنشر تقرير فني مفصل يوضح كيفية بنائه نموذج التفكير ، وهي المرة الأولى التي يقوم فيها المختبر بذلك.

وقال نيل لورانس ، أستاذ التعلم الآلي DeepMind في جامعة كامبريدج: “أعتقد أنها مجرد غيض من الجبل الجليدي من حيث نوع الابتكار الذي يمكن أن نتوقعه في هذه النماذج”. “يوضح التاريخ أن الشركات الكبرى تكافح من أجل الابتكار مع توسيع نطاقها ، وما رأيناه من العديد من هذه الشركات الكبيرة هو استبدال لحساب الاستثمار للعمل الشاق الفكري.”

تؤدي الإبهام إلى “لحظة آها”

تم تصميم نماذج اللغة الكبيرة على مرحلتين. الأول يسمى “التدريب المسبق” ، حيث يستخدم المطورون مجموعات بيانات ضخمة تساعد النماذج على التنبؤ بالكلمة التالية في الجملة. تسمى المرحلة الثانية “بعد التدريب” ، حيث يقوم المطورون بتدريس النموذج لاتباع التعليمات ، مثل حل مشاكل الرياضيات أو الترميز.

تسمى إحدى طرق الحصول على chatbots لتوليد المزيد من الاستجابات المفيدة “التعلم التعزيز من التعليقات البشرية” (RLHF) ، وهي تقنية رائدة من قبل Openai لتحسين ChatGPT.

يعمل RLHF من قبل المذيعين البشريين الذين يطلقون على استجابات نموذج الذكاء الاصطناعى للمطالبات واختيار الاستجابات الأفضل. غالبًا ما تكون هذه الخطوة شاقة ومكلفة وتستغرق وقتًا طويلاً ، وغالبًا ما تتطلب جيشًا صغيرًا من شركات البيانات البشرية.

يتمثل الابتكار الكبير لـ Deepseek في أتمتة هذه الخطوة الأخيرة ، باستخدام تقنية تسمى التعلم التعزيز (RL) ، حيث يتم مكافأة نموذج الذكاء الاصطناعي لفعل الشيء الصحيح.

طور Deepseek أولاً نموذجًا قويًا لإعداد النصوص يسمى V3. ثم استخدم RL “لمكافأة” النموذج ، مثل إعطائه إبهامًا لإنشاء الإجابة الصحيحة.

وجدت الشركة الصينية أنه من خلال القيام بهذه العملية مرات كافية ، تمكن النموذج من حل المشكلات تلقائيًا دون إشراف بشري.

تم استخدام هذه التقنية أيضًا من قبل Google DeepMind لبناء AlphaGo ، نظام الذكاء الاصطناعى الذي فاز على اللاعبين البشريين في لعبة اللوحة القديمة Go وبدأت الطفرة الحالية في تقنيات الحوسبة التعليمية العميقة قبل عقد من الزمان تقريبًا.

قالت Deepseek إنها اكتشفت أن النموذج كان لديه ما وصفته الشركة بـ “لحظة آها” عندما أعيد تقييم إجاباته وتعديل وقت المعالجة لحل الأسئلة المختلفة.

“إن” لحظة آها “بمثابة تذكير قوي بإمكانات (RL) لإطلاق مستويات جديدة من الذكاء في الأنظمة الاصطناعية ، مما يمهد الطريق لنماذج أكثر استقلالية وتكيفية في المستقبل” ، كتب المبدعون في ديبسيك في ورقة البحث الخاصة بهم.

وقال لويس تونستال ، الباحث في شركة Hugging Face ، وهي شركة أبحاث منظمة العفو الدولية: “يبدو أن الصلصة السرية لجعل هذا العمل هي مجرد نموذج قوي للغاية تم تدريبه مسبقًا ، ثم الحصول على جيد جدًا جدًا ، جيد جدًا جدًا ، جيد جدًا جدًا. البنية التحتية للقيام بعملية التعلم التعزيز هذه على نطاق واسع. “

نماذج صغيرة مصممة باستخدام تلك الكبيرة

بينما تستثمر Openai و Google مليارات الدولارات لبناء نماذج لغوية كبيرة ، قام Deepseek أيضًا ببناء نماذج أصغر يمكن تشغيلها على الهواتف أو متصفحات الويب من خلال “تقطير” إمكانات التفكير في النماذج الأكبر.

استخدم Deepseek نموذج R1 الخاص به لإنشاء مجموعة صغيرة نسبيًا من 800000 نقطة بيانات ، ثم قامت بتعديل النماذج التي صنعها منافسون مثل Qwen's Qwen و Meta's باستخدام البيانات التي تم إنشاؤها من الذكاء الاصطناعى.

وجدت Deepseek أن هذه النماذج المقطرة كانت قوية بشكل خاص في معايير التفكير ، في بعض الحالات تفوق نماذج الرائدة مثل كلود الأنثروبور. وقال تونستال: “يمكن أن يحل معظم مشاكل الرياضيات التي واجهتها في المرحلة الجامعية الأولى”.

يمكن أن يكون هذا التطور بمثابة نعمة لمطوري التطبيقات ، الذين لديهم طريقة رخيصة وفعالة لبناء المنتجات. تعليم نماذج الذكاء الاصطناعى العقل أثناء “الاستدلال”-عندما يولد النموذج إجابات-يكون أكثر كفاءة من عملية التدريب المسبق ، والتي تتطلب الكثير من قوة الحوسبة ، وفقًا لما ذكره Lennart Heim ، وهو باحث في Rand ، وهو عبارة .

وأضاف أن هذا النموذج الجديد يمكن أن يسمح للمنافسين ببناء نماذج تنافسية بقوة الحوسبة والمال. ومع ذلك ، بدون أموال للرقائق ، “لا يمكنهم نشرها على نفس الحجم” ، قال هايم.

لم يقل Deepseek المبلغ الذي أنفقه لبناء R1 ، لكنه ادعى أنه قام بتدريب نموذج V3 الخاص به ، والذي يعتمد R1 ، مقابل 5.6 مليون دولار فقط.

هذا المبلغ لا يشمل التكاليف الأخرى ، مثل الاستحواذ المحتمل لآلاف وحدات معالجة الرسومات لتدريب النموذج ، أو الرواتب ، والتجارب ، والتدريب والنشر.

وعلى الرغم من أن Deepseek كان أول من استخدم تقنياتها الخاصة ، من المتوقع أن تحذو حذو مختبرات الذكاء الاصطناعي الأخرى ، مع وجود وجه معانقة يعمل بالفعل على تكرار R1.

عملت شركات AI الأمريكية أيضًا على استخدام قدراتها على النماذج الكبيرة المنتشرة في نماذج أصغر وأكثر ذكاءً. أطلقت Google Gemma العام الماضي ، وهو نموذج أكثر خفيفة الوزن يعتمد على Gemini.

يقول توماس وولف ، المؤسس المشارك وكبير مسؤولي العلوم في Hugging Face ، مضيفًا أن تقنيات Deepseek كانت مفهومة جيدًا من قبل الآخرين في هذا المجال: “وصفة الذكاء بسيطة للغاية” ، مضيفًا أن تقنيات Deepseek كانت مفهومة جيدًا من قبل الآخرين في هذا المجال. “وهذا هو السبب في أنني أتوقع أن تتمكن الكثير من الفرق من إعادة هذا الأمر.”

شارك في تقارير إضافية من كريستينا كريدل في سان فرانسيسكو ومادووميتا مورجيا في لندن

سياسة

الرجل المتهم بمحاولة اغتيال ترامب يطلب من القاضية إيلين كانون التنحي عن قضيته

هابرمان: أصبحت لغة ترامب أكثر قتامة

بالنسبة لبايدن، فإن وفاة السنوار تضخ حالة من عدم اليقين – ولكنها أيضًا تفتح بابًا – لحل الصراع في غزة

سيتم منح المواطنين اللبنانيين الذين يعيشون في الولايات المتحدة إغاثة إنسانية مع استمرار الصراع بين إسرائيل وحزب الله

منوعات

دراسة: الأشعة على المخ قد تتنبأ بالضعف الإدراكي لمرضى الشلل الرعاش

تايمز: بايرن ميونخ يجهز عرضًا ثالثًا لضم هاري كين

بالألواح الشمسية| مشروعات الظهير الزراعي بالوادي الجديد تحقق نهضة تنموية.. شاهد

سر رشاقة ممثلي هوليوود..تفاصيل دواء تخسيس شهير لقبوه بالمعجزة

ابق على إطلاع دائم

اكتشف المزيد

تخلق Deepseek's 'Aha Moment' طريقة جديدة لبناء الذكاء الاصطناعي القوي بأموال أقل

تؤدي الإبهام إلى “لحظة آها”

نماذج صغيرة مصممة باستخدام تلك الكبيرة

اترك تعليقاً إلغاء الرد

تابع معنا اخر الاخبار لحظة بلحظة واطلع على ما يحدث في العالم من حولك

ابق على إطلاع

رائج اليوم

ما حكم من يصدق كلام العرافين؟.. عالم أزهري يحذر

استفتاء ضريبة الميراث spooks swiss super-rich

أحداث لوس أنجلوس تلقي بظلالها| توتر جديد بين البيت الأبيض وولاية كاليفورنيا.. تفاصيل كاملة

اقتصادية النواب تطالب بتعميم تجربة “القاهرة” لمكافحة المخدات بجميع المحافظات

كيف أصبحت تاكوما ، واشنطن القاتل التسلسلي الكابيتول لأمريكا

اكتشف المزيد

روابط هامة

أهم الأقسام

نرشح لك

الأنبا توماس يلتقي الأخوات الراهبات بالإيبارشية

بدأ دونالد ترامب وشون هانيتي موجة من التضليل بعد تفجير إيران

الطاقة الذرية تطالب بالكشف على اليورانيوم بالمنشآت الإيرانية