باستخدام هذا الموقع ، فإنك توافق على سياسة الخصوصية و شروط الاستخدام .
القبول

انضم الى قائمة المتابعين لتصلك جميع الاخبار مباشرة. اشترك الآن

الخليج ترند
  • الرئيسية
  • اخر الاخبار
  • دوليات
    • الولايات المتحدة
    • اوروبا
    • اسيا
    • كندا
    • افريقيا
  • اقتصاد
    • اسواق
    • شركات
    • الاستثمار
    • العملات المشفرة
  • سياسة

    سياسة

    سياسة

    الرجل المتهم بمحاولة اغتيال ترامب يطلب من القاضية إيلين كانون التنحي عن قضيته

    يطلب الرجل المتهم بالجلوس خلف سياج متصل بسلسلة على حدود ملعب الغولف التابع لدونالد ترامب في فلوريدا ومعه بندقية، بزعم…

    سياسة

    هابرمان: أصبحت لغة ترامب أكثر قتامة

    هابرمان: أصبحت لغة ترامب أكثر قتامة تقول المحللة السياسية لشبكة CNN، ماجي هابرمان، إن لغة الرئيس السابق دونالد ترامب خلال…

    سياسة

    بالنسبة لبايدن، فإن وفاة السنوار تضخ حالة من عدم اليقين – ولكنها أيضًا تفتح بابًا – لحل الصراع في غزة

    على مدار أشهر، ظل المسؤولون الأمريكيون المحبطون الذين يتطلعون إلى إنهاء الحرب في غزة يفكرون بهدوء في السيناريو الوحيد الذي…

    سياسة

    سيتم منح المواطنين اللبنانيين الذين يعيشون في الولايات المتحدة إغاثة إنسانية مع استمرار الصراع بين إسرائيل وحزب الله

    أعلنت وزارة الأمن الداخلي اليوم الخميس، أن المواطنين اللبنانيين المقيمين في الولايات المتحدة سيحصلون على شكل من أشكال الإغاثة الإنسانية،…

  • تقنية
  • رياضة
  • صحة
  • منوعات

    منوعات

    منوعات

    رئيس الوزراء: الإعلام أحد أهم أدوات قوة مصر الناعمة

    أكد الدكتور مصطفى مدبولي، رئيس مجلس الوزراء أن الإعلام المصري يمثل أحد أهم أدوات قوة مصر الناعمة، مشددًا على ضرورة…

    منوعات

    في ذكرى وفاتها.. عدد أبناء الراحلة فاتن حمامة

    يوافق اليوم ذكرى وفاة سيدة الشاشة العربية فاتن حمامة التي رحلت منذ 10 أعوام، عن عمر يناهز 84 عاما، بعدما…

    منوعات

    أسوان فى 24 ساعة.. إزالة للتعديات وتكريم فريق مكتبة مصر.. وإطلاق حملة رمضان بصحة لكل العائلة

    شهدت محافظة اسوان على مدار الـ 24 ساعة من يوم السبت الموافق 1/3/2025 أحداث متنوعة.وفي إطار تشجيع البحث العلمي بجامعة…

    منوعات

    جولة الرئيس الخليجية تحرك جديد لدعم الموقف العربي بشأن غزة

    قال محمد عيد أمين المصريين بالخارج في حزب مصر أكتوبر، إن القاهرة تملك تاريخاً عريقا من العلاقات الوطيدة مع دول…

  • المزيد
    • ثقافة وفنون
    • سياحة وسفر
اشترك معنا
Aa
الخليج ترند
  • اخر الاخبار
  • دوليات
  • سياسة
  • اقتصاد
  • صحة
  • تقنية
  • ثقافة وفنون
  • رياضة
  • سياحة وسفر
  • منوعات
البحث
  • الرئيسية
  • اخر الاخبار
  • دوليات
    • الولايات المتحدة
    • اوروبا
    • اسيا
    • كندا
    • افريقيا
  • اقتصاد
    • اسواق
    • شركات
    • الاستثمار
    • العملات المشفرة
  • سياسة
  • تقنية
  • رياضة
  • صحة
  • منوعات
  • المزيد
    • ثقافة وفنون
    • سياحة وسفر
banner
ابق على إطلاع دائم
اخر مستجدات العالم لحظة بلحظة من جميع المصادر الموثوقة، انضم الينا الآن ليصلك كل جديد الى بريدك الإلكتروني مباشرة.
اشترك الآن

اكتشف المزيد

  • صورة اليوم
  • مقالات رأي
  • اخر الاخبار
  • رائج اليوم
  • ألنشرة البريدية
2023 © المراقب. جميع الحقوق محفوظة.
الخليج ترند > تقنية > مهندسو Apple يوضحون كيف يمكن أن يكون “الاستدلال” الهش للذكاء الاصطناعي

مهندسو Apple يوضحون كيف يمكن أن يكون “الاستدلال” الهش للذكاء الاصطناعي

فريق التحرير كتب فريق التحرير منذ 8 أشهر 5 دقيقة للقراءة
شارك

منذ فترة، كانت شركات مثل OpenAI وGoogle تروج لقدرات “الاستدلال” المتقدمة باعتبارها الخطوة الكبيرة التالية في أحدث نماذج الذكاء الاصطناعي الخاصة بها. الآن، على الرغم من ذلك، أظهرت دراسة جديدة أجراها ستة مهندسين من شركة Apple أن “الاستدلال الرياضي” الذي تعرضه نماذج اللغة الكبيرة المتقدمة يمكن أن يكون هشًا للغاية وغير موثوق به في مواجهة التغييرات التي تبدو تافهة في المشكلات المعيارية الشائعة.

المحتويات
امزجهالا تشتت انتباهك

تساعد الهشاشة التي تم إبرازها في هذه النتائج الجديدة في دعم الأبحاث السابقة التي تشير إلى أن استخدام ماجستير إدارة الأعمال لمطابقة الأنماط الاحتمالية يفتقد الفهم الرسمي للمفاهيم الأساسية اللازمة لقدرات التفكير الرياضي الموثوقة حقًا. “إن حاملي الماجستير الحاليين غير قادرين على التفكير المنطقي الحقيقي”، يفترض الباحثون بناءً على هذه النتائج. “بدلاً من ذلك، يحاولون تكرار خطوات التفكير التي تمت ملاحظتها في بيانات التدريب الخاصة بهم.”

امزجها

في “GSM-Symbolic: فهم حدود الاستدلال الرياضي في نماذج اللغات الكبيرة” – المتوفر حاليًا كورقة مطبوعة مسبقًا – بدأ باحثو Apple الستة بمجموعة GSM8K الموحدة التي تضم أكثر من 8000 مشكلة كلامية رياضية على مستوى الصف الدراسي، والتي تُستخدم غالبًا كمعيار لقدرات التفكير المعقدة لـ LLMs الحديثة. ثم يتبعون النهج الجديد المتمثل في تعديل جزء من مجموعة الاختبار هذه لاستبدال أسماء وأرقام معينة ديناميكيًا بقيم جديدة – لذا فإن السؤال حول حصول صوفي على 31 قطعة بناء لابن أخيها في GSM8K يمكن أن يصبح سؤالاً حول حصول بيل على 19 قطعة بناء لـ شقيقه في تقييم GSM-Symbolic الجديد.

يساعد هذا النهج على تجنب أي “تلوث بيانات” محتمل يمكن أن ينتج عن أسئلة GSM8K الثابتة التي يتم إدخالها مباشرة في بيانات تدريب نموذج الذكاء الاصطناعي. وفي الوقت نفسه، لا تغير هذه التغييرات العرضية من الصعوبة الفعلية للاستدلال الرياضي المتأصل على الإطلاق، مما يعني أن النماذج يجب أن تؤدي نظريًا نفس الأداء عند اختبارها على GSM-Symbolic مثل GSM8K.

بدلاً من ذلك، عندما اختبر الباحثون أكثر من 20 ماجستيرًا في إدارة الأعمال (LLM) على نظام GSM-Symbolic، وجدوا أن متوسط ​​الدقة انخفض في جميع المجالات مقارنة بـ GSM8K، مع انخفاض الأداء بنسبة تتراوح بين 0.3 بالمائة و9.2 بالمائة، اعتمادًا على النموذج. وأظهرت النتائج أيضًا تباينًا كبيرًا عبر 50 تشغيلًا منفصلاً لـ GSM-Symbolic بأسماء وقيم مختلفة. وكانت الفجوات التي تصل إلى 15% من الدقة بين أفضل وأسوأ عمليات التشغيل شائعة داخل النموذج الواحد، ولسبب ما، أدى تغيير الأرقام إلى دقة أسوأ من تغيير الأسماء.

هذا النوع من التباين – سواء ضمن عمليات GSM-Symbolic المختلفة أو مقارنة بنتائج GSM8K – يعد أكثر من مفاجئ بعض الشيء لأنه، كما يشير الباحثون، “خطوات الاستدلال الشاملة اللازمة لحل السؤال تظل كما هي.” حقيقة أن مثل هذه التغييرات الصغيرة تؤدي إلى مثل هذه النتائج المتغيرة تشير إلى الباحثين أن هذه النماذج لا تقوم بأي تفكير “رسمي” ولكنها بدلاً من ذلك “تحاول أداء نوع من مطابقة أنماط التوزيع، ومواءمة الأسئلة المعطاة والنتائج” خطوات الحل مع الخطوات المماثلة التي تظهر في بيانات التدريب.

لا تشتت انتباهك

ومع ذلك، كان التباين الإجمالي الموضح في اختبارات GSM-Symbolic صغيرًا نسبيًا في كثير من الأحيان في المخطط الكبير للأشياء. على سبيل المثال، انخفضت دقة ChatGPT-4o من OpenAI من 95.2 بالمائة على GSM8K إلى 94.9 بالمائة على GSM-Symbolic، والتي لا تزال مثيرة للإعجاب. يعد هذا معدل نجاح مرتفع جدًا باستخدام أي من المعيارين، بغض النظر عما إذا كان النموذج نفسه يستخدم المنطق “الرسمي” خلف الكواليس أم لا (على الرغم من انخفاض الدقة الإجمالية للعديد من النماذج بشكل كبير عندما أضاف الباحثون خطوة منطقية واحدة أو خطوتين إضافيتين فقط إلى المشكلات ).

ومع ذلك، كان أداء امتحانات LLM التي تم اختبارها أسوأ بكثير، عندما قام باحثو Apple بتعديل معيار GSM-Symbolic من خلال إضافة “بيانات ذات صلة على ما يبدو ولكنها في النهاية غير مهمة” إلى الأسئلة. بالنسبة لمجموعة معايير “GSM-NoOp” (اختصار لـ “لا توجد عملية”)، قد يتم تعديل سؤال حول عدد الكيوي الذي يختاره شخص ما خلال عدة أيام ليشمل التفاصيل العرضية التي تقول “خمسة منهم (الكيوي) كانوا أصغر قليلاً من المتوسط.”

أدت إضافة هذه التضليلات الحمراء إلى ما وصفه الباحثون بـ “انخفاض الأداء الكارثي” في الدقة مقارنة بـ GSM8K، حيث تراوحت من 17.5 بالمائة إلى 65.7 بالمائة، اعتمادًا على النموذج الذي تم اختباره. وكتب الباحثون أن هذه الانخفاضات الهائلة في الدقة تسلط الضوء على الحدود الكامنة في استخدام “مطابقة الأنماط” البسيطة “لتحويل البيانات إلى عمليات دون فهم معناها حقًا”.

فريق التحرير أكتوبر 16, 2024 أكتوبر 16, 2024
شارك المقال
فيسبوك تويتر واتساب واتساب نسخ الرابط طباعة
شارك
المقال السابق قبل انطلاقها .. محظورات داخل لجان امتحانات الميدتيرم بالجامعات
المقال التالي أبرزهم صابر الرباعي.. تفاصيل حفل ليلة الموسيقار محمد عبدالوهاب بموسم الرياض
اترك تعليقك اترك تعليقك

اترك تعليقاً إلغاء الرد

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

تابع معنا اخر الاخبار لحظة بلحظة واطلع على ما يحدث في العالم من حولك

ابق على إطلاع

اخر مستجدات العالم لحظة بلحظة من جميع المصادر الموثوقة، انضم الينا الآن ليصلك كل جديد.

اشترك الآن

رائج اليوم

محافظ الغربية يشارك في الاجتماع الدوري لمجلس جامعة طنطا

شارك اللواء أشرف الجندي محافظ الغربية في الاجتماع الدوري لمجلس جامعة طنطا لشهر مايو، والذي…

منوعات منذ 3 أيام

يأمل نجل تود كريسلي كايل في المصالحة بعد الانفصال عن أبي ، ويتفاعل مع العفو

تود كريسليابن كايل يأمل في الحصول على المصالحة العائلية الرئيس دونالد ترامبقرار العفو عن والده…

ثقافة وفنون منذ 3 أيام

إمام عاشور يتصدر ترتيب هدافي الدوري ووسام أبو علي رابعا

قاد وسام أبو علي النادي الأهلي لحسم لقب بطولة الدوري بعد تسجيله 4أهداف "سوبر هاتريك"…

منوعات منذ 3 أيام

مسابقة أخبار Fox News Digital: 16 مايو 2025

تم القبض على مؤسس مشارك لعلامة تجارية للآيس كريم في جلسة استماع في مجلس الشيوخ…

منوعات منذ 3 أيام

مبادرات جديدة في تونس لإطلاق حوار وطني ينهي الأزمة السياسية

عاد الحديث في تونس مجددا حول مبادرات عدة أطراف لإطلاق حوار وطني يُنهي الأزمة السياسية…

اخر الاخبار منذ 3 أيام

اكتشف المزيد

  • صورة اليوم
  • مقالات رأي
  • اخر الاخبار
  • رائج اليوم
  • النشرة البريدية

مقالات ذات صلة

يحتضن علامة OnePlus من Apple ، OnePlus AI ، و Samsung's Next Folds – أخبار الترس الخاصة بك من الأسبوع

تقنية

لا تشرب بمفرده: دليل للقهوة التركية

تقنية

مراجعة: أولوية الحالية بالإضافة إلى الدراجة الكهربائية

تقنية

مراجعة: مكتب Staples Union & Scale Electric Standing Desk مع حركات صغيرة

تقنية

مراجعة: Nike X Hyperice Hyperboots

تقنية

يقول المحللون إن حروب ترامب التجارية ستضر بقطاع الطاقة الأمريكي بأكمله ، من النفط إلى الطاقة الشمسية

تقنية

تريد إدارة ترامب محو التاريخ الغريب. نادي الكتب غير التقليدي يقاتل مرة أخرى

تقنية

ما هي exosomes ، ولماذا هي في العناية بالبشرة؟

تقنية
مصدرك الأول لآخر الاخبار العالمية
Facebook Twitter Youtube Instagram Linkedin

2023 © المراقب. جميع الحقوق محفوظة.

روابط هامة

  • الرئيسية
  • من نحن
  • سياسة الخصوصية
  • اعلن معنا
  • اتصل بنا

أهم الأقسام

  • ثقافة وفنون
  • سياحة وسفر
  • سياسة
  • صحة
  • اقتصاد

نرشح لك

الوفد الوزاري العربي يؤجل زيارة رام الله بسبب رفض إسرائيل
مستعدون للرد.. الاتحاد الأوروبي يهدد ترامب بسبب الرسوم على الصلب والألومنيوم
11 أحذية رياضية للباليه لظهر جينيفر لورانس وإميلي راتاجكوفسكي على نمط الأحذية الصيفية

صحيفة المراقب هي صحيفة يومية عربية تهتم بآخر اخبار المملكة العربية السعودية والخليج العربي والشرق الأوسط والعالم. تابع معنا اخر اخبار الاقتصاد والرياضة والسياسة واهم القضايا التي تهم المواطن العربي.

Welcome Back!

Sign in to your account

نسيت كلمة المرور؟