باستخدام هذا الموقع ، فإنك توافق على سياسة الخصوصية و شروط الاستخدام .
القبول

انضم الى قائمة المتابعين لتصلك جميع الاخبار مباشرة. اشترك الآن

الخليج ترند
  • الرئيسية
  • اخر الاخبار
  • دوليات
    • الولايات المتحدة
    • اوروبا
    • اسيا
    • كندا
    • افريقيا
  • اقتصاد
    • اسواق
    • شركات
    • الاستثمار
    • العملات المشفرة
  • سياسة

    سياسة

    سياسة

    الرجل المتهم بمحاولة اغتيال ترامب يطلب من القاضية إيلين كانون التنحي عن قضيته

    يطلب الرجل المتهم بالجلوس خلف سياج متصل بسلسلة على حدود ملعب الغولف التابع لدونالد ترامب في فلوريدا ومعه بندقية، بزعم…

    سياسة

    هابرمان: أصبحت لغة ترامب أكثر قتامة

    هابرمان: أصبحت لغة ترامب أكثر قتامة تقول المحللة السياسية لشبكة CNN، ماجي هابرمان، إن لغة الرئيس السابق دونالد ترامب خلال…

    سياسة

    بالنسبة لبايدن، فإن وفاة السنوار تضخ حالة من عدم اليقين – ولكنها أيضًا تفتح بابًا – لحل الصراع في غزة

    على مدار أشهر، ظل المسؤولون الأمريكيون المحبطون الذين يتطلعون إلى إنهاء الحرب في غزة يفكرون بهدوء في السيناريو الوحيد الذي…

    سياسة

    سيتم منح المواطنين اللبنانيين الذين يعيشون في الولايات المتحدة إغاثة إنسانية مع استمرار الصراع بين إسرائيل وحزب الله

    أعلنت وزارة الأمن الداخلي اليوم الخميس، أن المواطنين اللبنانيين المقيمين في الولايات المتحدة سيحصلون على شكل من أشكال الإغاثة الإنسانية،…

  • تقنية
  • رياضة
  • صحة
  • منوعات

    منوعات

    منوعات

    بمقطع فيديو قصير.. لامبورجيني تشوق جمهورها لسيارة خارقة جديدة

    نشرت لامبورجيني مقطع فيديو تشويقيًا مثيرًا على وسائل التواصل الاجتماعي اليوم ، تستعرض فيه سيارة هوراكان ستيراتو الغامضة، يحافظ صانع…

    منوعات

    حقيقة تأجيل الدراسة بسبب كورونا وحجم ما تنفقه الدولة على التطعيمات.. الصحة توضح

    حل عمرو قنديل، مساعد وزير الصحة لـ الطب الوقائي، ضيفًا عل قناة النهار، وتحدث عن المتحور الجديد لـ فيروس كورونا،…

    منوعات

    فى دقايق.. طريقة عمل كرواسان بالقرفة والقشطة

    قدم الشيف هشام ماجد عبر صفحته الرسمية على موقع التواصل الاجتماعي فيسبوك ، طريقة عمل كرواسان بالقرفة والقشطه. كرواسان بالقرفة والقشطهمقادير:10…

    منوعات

    أليسون: أتمنى أن يستمر محمد صلاح في تحطيم الأرقام القياسية مع ليفربول

    أليسون: أتمنى أن يستمر محمد صلاح في تحطيم الأرقام القياسية مع ليفربول حث حارس مرمى ليفربول، أليسون، زميله وهداف الريدز،…

  • المزيد
    • ثقافة وفنون
    • سياحة وسفر
اشترك معنا
Aa
الخليج ترند
  • اخر الاخبار
  • دوليات
  • سياسة
  • اقتصاد
  • صحة
  • تقنية
  • ثقافة وفنون
  • رياضة
  • سياحة وسفر
  • منوعات
البحث
  • الرئيسية
  • اخر الاخبار
  • دوليات
    • الولايات المتحدة
    • اوروبا
    • اسيا
    • كندا
    • افريقيا
  • اقتصاد
    • اسواق
    • شركات
    • الاستثمار
    • العملات المشفرة
  • سياسة
  • تقنية
  • رياضة
  • صحة
  • منوعات
  • المزيد
    • ثقافة وفنون
    • سياحة وسفر
banner
ابق على إطلاع دائم
اخر مستجدات العالم لحظة بلحظة من جميع المصادر الموثوقة، انضم الينا الآن ليصلك كل جديد الى بريدك الإلكتروني مباشرة.
اشترك الآن

اكتشف المزيد

  • صورة اليوم
  • مقالات رأي
  • اخر الاخبار
  • رائج اليوم
  • ألنشرة البريدية
2023 © المراقب. جميع الحقوق محفوظة.
الخليج ترند > تقنية > مهندسو Apple يوضحون كيف يمكن أن يكون “الاستدلال” الهش للذكاء الاصطناعي

مهندسو Apple يوضحون كيف يمكن أن يكون “الاستدلال” الهش للذكاء الاصطناعي

فريق التحرير كتب فريق التحرير منذ 8 أشهر 5 دقيقة للقراءة
شارك

منذ فترة، كانت شركات مثل OpenAI وGoogle تروج لقدرات “الاستدلال” المتقدمة باعتبارها الخطوة الكبيرة التالية في أحدث نماذج الذكاء الاصطناعي الخاصة بها. الآن، على الرغم من ذلك، أظهرت دراسة جديدة أجراها ستة مهندسين من شركة Apple أن “الاستدلال الرياضي” الذي تعرضه نماذج اللغة الكبيرة المتقدمة يمكن أن يكون هشًا للغاية وغير موثوق به في مواجهة التغييرات التي تبدو تافهة في المشكلات المعيارية الشائعة.

المحتويات
امزجهالا تشتت انتباهك

تساعد الهشاشة التي تم إبرازها في هذه النتائج الجديدة في دعم الأبحاث السابقة التي تشير إلى أن استخدام ماجستير إدارة الأعمال لمطابقة الأنماط الاحتمالية يفتقد الفهم الرسمي للمفاهيم الأساسية اللازمة لقدرات التفكير الرياضي الموثوقة حقًا. “إن حاملي الماجستير الحاليين غير قادرين على التفكير المنطقي الحقيقي”، يفترض الباحثون بناءً على هذه النتائج. “بدلاً من ذلك، يحاولون تكرار خطوات التفكير التي تمت ملاحظتها في بيانات التدريب الخاصة بهم.”

امزجها

في “GSM-Symbolic: فهم حدود الاستدلال الرياضي في نماذج اللغات الكبيرة” – المتوفر حاليًا كورقة مطبوعة مسبقًا – بدأ باحثو Apple الستة بمجموعة GSM8K الموحدة التي تضم أكثر من 8000 مشكلة كلامية رياضية على مستوى الصف الدراسي، والتي تُستخدم غالبًا كمعيار لقدرات التفكير المعقدة لـ LLMs الحديثة. ثم يتبعون النهج الجديد المتمثل في تعديل جزء من مجموعة الاختبار هذه لاستبدال أسماء وأرقام معينة ديناميكيًا بقيم جديدة – لذا فإن السؤال حول حصول صوفي على 31 قطعة بناء لابن أخيها في GSM8K يمكن أن يصبح سؤالاً حول حصول بيل على 19 قطعة بناء لـ شقيقه في تقييم GSM-Symbolic الجديد.

يساعد هذا النهج على تجنب أي “تلوث بيانات” محتمل يمكن أن ينتج عن أسئلة GSM8K الثابتة التي يتم إدخالها مباشرة في بيانات تدريب نموذج الذكاء الاصطناعي. وفي الوقت نفسه، لا تغير هذه التغييرات العرضية من الصعوبة الفعلية للاستدلال الرياضي المتأصل على الإطلاق، مما يعني أن النماذج يجب أن تؤدي نظريًا نفس الأداء عند اختبارها على GSM-Symbolic مثل GSM8K.

بدلاً من ذلك، عندما اختبر الباحثون أكثر من 20 ماجستيرًا في إدارة الأعمال (LLM) على نظام GSM-Symbolic، وجدوا أن متوسط ​​الدقة انخفض في جميع المجالات مقارنة بـ GSM8K، مع انخفاض الأداء بنسبة تتراوح بين 0.3 بالمائة و9.2 بالمائة، اعتمادًا على النموذج. وأظهرت النتائج أيضًا تباينًا كبيرًا عبر 50 تشغيلًا منفصلاً لـ GSM-Symbolic بأسماء وقيم مختلفة. وكانت الفجوات التي تصل إلى 15% من الدقة بين أفضل وأسوأ عمليات التشغيل شائعة داخل النموذج الواحد، ولسبب ما، أدى تغيير الأرقام إلى دقة أسوأ من تغيير الأسماء.

هذا النوع من التباين – سواء ضمن عمليات GSM-Symbolic المختلفة أو مقارنة بنتائج GSM8K – يعد أكثر من مفاجئ بعض الشيء لأنه، كما يشير الباحثون، “خطوات الاستدلال الشاملة اللازمة لحل السؤال تظل كما هي.” حقيقة أن مثل هذه التغييرات الصغيرة تؤدي إلى مثل هذه النتائج المتغيرة تشير إلى الباحثين أن هذه النماذج لا تقوم بأي تفكير “رسمي” ولكنها بدلاً من ذلك “تحاول أداء نوع من مطابقة أنماط التوزيع، ومواءمة الأسئلة المعطاة والنتائج” خطوات الحل مع الخطوات المماثلة التي تظهر في بيانات التدريب.

لا تشتت انتباهك

ومع ذلك، كان التباين الإجمالي الموضح في اختبارات GSM-Symbolic صغيرًا نسبيًا في كثير من الأحيان في المخطط الكبير للأشياء. على سبيل المثال، انخفضت دقة ChatGPT-4o من OpenAI من 95.2 بالمائة على GSM8K إلى 94.9 بالمائة على GSM-Symbolic، والتي لا تزال مثيرة للإعجاب. يعد هذا معدل نجاح مرتفع جدًا باستخدام أي من المعيارين، بغض النظر عما إذا كان النموذج نفسه يستخدم المنطق “الرسمي” خلف الكواليس أم لا (على الرغم من انخفاض الدقة الإجمالية للعديد من النماذج بشكل كبير عندما أضاف الباحثون خطوة منطقية واحدة أو خطوتين إضافيتين فقط إلى المشكلات ).

ومع ذلك، كان أداء امتحانات LLM التي تم اختبارها أسوأ بكثير، عندما قام باحثو Apple بتعديل معيار GSM-Symbolic من خلال إضافة “بيانات ذات صلة على ما يبدو ولكنها في النهاية غير مهمة” إلى الأسئلة. بالنسبة لمجموعة معايير “GSM-NoOp” (اختصار لـ “لا توجد عملية”)، قد يتم تعديل سؤال حول عدد الكيوي الذي يختاره شخص ما خلال عدة أيام ليشمل التفاصيل العرضية التي تقول “خمسة منهم (الكيوي) كانوا أصغر قليلاً من المتوسط.”

أدت إضافة هذه التضليلات الحمراء إلى ما وصفه الباحثون بـ “انخفاض الأداء الكارثي” في الدقة مقارنة بـ GSM8K، حيث تراوحت من 17.5 بالمائة إلى 65.7 بالمائة، اعتمادًا على النموذج الذي تم اختباره. وكتب الباحثون أن هذه الانخفاضات الهائلة في الدقة تسلط الضوء على الحدود الكامنة في استخدام “مطابقة الأنماط” البسيطة “لتحويل البيانات إلى عمليات دون فهم معناها حقًا”.

فريق التحرير أكتوبر 16, 2024 أكتوبر 16, 2024
شارك المقال
فيسبوك تويتر واتساب واتساب نسخ الرابط طباعة
شارك
المقال السابق قبل انطلاقها .. محظورات داخل لجان امتحانات الميدتيرم بالجامعات
المقال التالي أبرزهم صابر الرباعي.. تفاصيل حفل ليلة الموسيقار محمد عبدالوهاب بموسم الرياض
اترك تعليقك اترك تعليقك

اترك تعليقاً إلغاء الرد

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

تابع معنا اخر الاخبار لحظة بلحظة واطلع على ما يحدث في العالم من حولك

ابق على إطلاع

اخر مستجدات العالم لحظة بلحظة من جميع المصادر الموثوقة، انضم الينا الآن ليصلك كل جديد.

اشترك الآن

رائج اليوم

قد يحدث Derek Hough Taylor و Tay Lautner “في الواقع” على “DWTS”

ديريك هوغ يزن ما إذا كان تايلور و تاي لوتنر يمكن أن يتجه إلى قاعة…

ثقافة وفنون منذ يومين

الحرب على غزة.. عشرات الشهداء بالقطاع وحراك سياسي عقب رد حماس على مقترح ويتكوف

في اليوم الـ75 من استئناف حرب الإبادة على غزة، واصلت قوات الاحتلال الإسرائيلي قصفها لمناطق…

اخر الاخبار منذ 3 أيام

رئيس وزراء سنغافورة ينصح النواب بأن يكونوا فوق الشبهات

قال رئيس وزراء سنغافورة لورانس وونغ لأعضاء الحزب الحاكم في البرلمان إنه يجب عليهم توخي…

اخر الاخبار منذ 3 أيام

عاجل| مراسل الجزيرة: 30 شهيدا و120 مصابا في إطلاق نار إسرائيلي على شبان قرب موقع مساعدات أمريكية غرب رفح

1/6/2025-|آخر تحديث: 07:15 (توقيت مكة)مراسل الجزيرة: 30 شهيدا و120 مصابا في إطلاق نار إسرائيلي على…

اخر الاخبار منذ 3 أيام

العفو الدولية تدعو البرلمان الإيطالي إلى رفض قانون يجرم الاحتجاج

دعت منظمة العفو الدولية اليوم السبت، البرلمان الإيطالي إلى رفض قانون جديد وصفته بـ"القمعي" الذي…

اخر الاخبار منذ 3 أيام

اكتشف المزيد

  • صورة اليوم
  • مقالات رأي
  • اخر الاخبار
  • رائج اليوم
  • النشرة البريدية

مقالات ذات صلة

مراجعة: Aventon المستوى 3

تقنية

كيف تجسست صناعة المزرعة على نشطاء حقوق الحيوان ودفعت مكتب التحقيقات الفيدرالي إلى معاملتهم كخبيرات حيوية

تقنية

حطم ماريو كارت وورلد ديف سياراتهم الخاصة على من سيحصل على القيادة

تقنية

سباقات ماريو كارت العالمية أكثر فوضوية – والأفضل – على الإطلاق

تقنية

20 أفضل صفقات على هدايا عيد الأب

تقنية

اكتشف علماء الفلك مجرة ​​ملايين السنين أكبر من أي شيء تم ملاحظته سابقًا

تقنية

مراجعة: MSI Titan 18 HX AI

تقنية

اختبر منافس Neuralink للتو زرع الدماغ في شخص ما

تقنية
مصدرك الأول لآخر الاخبار العالمية
Facebook Twitter Youtube Instagram Linkedin

2023 © المراقب. جميع الحقوق محفوظة.

روابط هامة

  • الرئيسية
  • من نحن
  • سياسة الخصوصية
  • اعلن معنا
  • اتصل بنا

أهم الأقسام

  • ثقافة وفنون
  • سياحة وسفر
  • سياسة
  • صحة
  • اقتصاد

نرشح لك

بعد رحيل إنزاجي.. إنتر ميلان يفاضل بين هذا الثنائي لتدريب الفريق
هجوم إرهابي كولورادو المشتبه به محمد صابري سليمان ، 5 أطفال محتجزين بالجليد
وزير النقل: مصر لن تستورد أي أتوبيسات كهربائية من الخارج

صحيفة المراقب هي صحيفة يومية عربية تهتم بآخر اخبار المملكة العربية السعودية والخليج العربي والشرق الأوسط والعالم. تابع معنا اخر اخبار الاقتصاد والرياضة والسياسة واهم القضايا التي تهم المواطن العربي.

Welcome Back!

Sign in to your account

نسيت كلمة المرور؟