باستخدام هذا الموقع ، فإنك توافق على سياسة الخصوصية و شروط الاستخدام .
القبول

انضم الى قائمة المتابعين لتصلك جميع الاخبار مباشرة. اشترك الآن

الخليج ترند
  • الرئيسية
  • اخر الاخبار
  • دوليات
    • الولايات المتحدة
    • اوروبا
    • اسيا
    • كندا
    • افريقيا
  • اقتصاد
    • اسواق
    • شركات
    • الاستثمار
    • العملات المشفرة
  • سياسة

    سياسة

    سياسة

    الرجل المتهم بمحاولة اغتيال ترامب يطلب من القاضية إيلين كانون التنحي عن قضيته

    يطلب الرجل المتهم بالجلوس خلف سياج متصل بسلسلة على حدود ملعب الغولف التابع لدونالد ترامب في فلوريدا ومعه بندقية، بزعم…

    سياسة

    هابرمان: أصبحت لغة ترامب أكثر قتامة

    هابرمان: أصبحت لغة ترامب أكثر قتامة تقول المحللة السياسية لشبكة CNN، ماجي هابرمان، إن لغة الرئيس السابق دونالد ترامب خلال…

    سياسة

    بالنسبة لبايدن، فإن وفاة السنوار تضخ حالة من عدم اليقين – ولكنها أيضًا تفتح بابًا – لحل الصراع في غزة

    على مدار أشهر، ظل المسؤولون الأمريكيون المحبطون الذين يتطلعون إلى إنهاء الحرب في غزة يفكرون بهدوء في السيناريو الوحيد الذي…

    سياسة

    سيتم منح المواطنين اللبنانيين الذين يعيشون في الولايات المتحدة إغاثة إنسانية مع استمرار الصراع بين إسرائيل وحزب الله

    أعلنت وزارة الأمن الداخلي اليوم الخميس، أن المواطنين اللبنانيين المقيمين في الولايات المتحدة سيحصلون على شكل من أشكال الإغاثة الإنسانية،…

  • تقنية
  • رياضة
  • صحة
  • منوعات

    منوعات

    شادي محمد يتوقع نتيجة مباراة الأهلي والاتحاد السعودي في كأس العالم للأندية

    تحدث شادي محمد مدافع النادي الأهلي السابق، عن مواجهة الاتحاد السعودي القادمة في كأس العالم للأندية، كما توقع نتيجة المباراة. …

    منوعات

    ما يجب عليك طلبه من مطعم Wendy’s، وفقًا لأخصائيي التغذية

    انضم إلى Fox News للوصول إلى هذا المحتوى بالإضافة إلى الحصول على وصول غير محدود إلى آلاف المقالات ومقاطع الفيديو…

    منوعات

    لجنة لحل نزاع هدم مسجد في المنصورة والتعويض العيني أو المادي عنه

    انتهت الجمعية العمومية لقسمي الفتوى والتشريع، إلى تكليف طرفي النزاع وزارة الأوقاف، ومحافظة دمياط، بتشكيل لجنة فنية برئاسة أستاذ متخصص…

    منوعات

    شروط تسجيل الطلاب المستجدين 1446 في الصف الأول الابتدائي

    أعلنت وزارة التربية والتعليم السعودية عن شروط تسجيل الطلاب المستجدين في الصف الأول الابتدائي في نظام نور التعليمي؛ لتسجيل الطلاب…

  • المزيد
    • ثقافة وفنون
    • سياحة وسفر
اشترك معنا
Aa
الخليج ترند
  • اخر الاخبار
  • دوليات
  • سياسة
  • اقتصاد
  • صحة
  • تقنية
  • ثقافة وفنون
  • رياضة
  • سياحة وسفر
  • منوعات
البحث
  • الرئيسية
  • اخر الاخبار
  • دوليات
    • الولايات المتحدة
    • اوروبا
    • اسيا
    • كندا
    • افريقيا
  • اقتصاد
    • اسواق
    • شركات
    • الاستثمار
    • العملات المشفرة
  • سياسة
  • تقنية
  • رياضة
  • صحة
  • منوعات
  • المزيد
    • ثقافة وفنون
    • سياحة وسفر
banner
ابق على إطلاع دائم
اخر مستجدات العالم لحظة بلحظة من جميع المصادر الموثوقة، انضم الينا الآن ليصلك كل جديد الى بريدك الإلكتروني مباشرة.
اشترك الآن

اكتشف المزيد

  • صورة اليوم
  • مقالات رأي
  • اخر الاخبار
  • رائج اليوم
  • ألنشرة البريدية
2023 © المراقب. جميع الحقوق محفوظة.
الخليج ترند > اقتصاد > شركات > تسارع مجموعات الذكاء الاصطناعي إلى إعادة تصميم اختبار النماذج وإنشاء معايير جديدة

تسارع مجموعات الذكاء الاصطناعي إلى إعادة تصميم اختبار النماذج وإنشاء معايير جديدة

فريق التحرير كتب فريق التحرير منذ 7 أشهر 6 دقيقة للقراءة
شارك

تسارع مجموعات التكنولوجيا إلى إعادة تصميم كيفية اختبار وتقييم نماذج الذكاء الاصطناعي الخاصة بها، حيث تتجاوز التكنولوجيا سريعة التقدم المعايير الحالية.

أعلنت كل من OpenAI وMicrosoft وMeta وAnthropic مؤخرًا عن خطط لبناء عملاء ذكاء اصطناعي يمكنهم تنفيذ المهام للبشر بشكل مستقل نيابة عنهم. وللقيام بذلك بفعالية، يجب أن تكون الأنظمة قادرة على تنفيذ إجراءات متزايدة التعقيد، باستخدام المنطق والتخطيط.

تجري الشركات “تقييمات” لنماذج الذكاء الاصطناعي من قبل فرق من الموظفين والباحثين الخارجيين. وهي عبارة عن اختبارات موحدة، تُعرف باسم المعايير المرجعية، تعمل على تقييم قدرات النماذج وأداء أنظمة المجموعات المختلفة أو الإصدارات الأقدم.

ومع ذلك، فإن التطورات الأخيرة في تكنولوجيا الذكاء الاصطناعي تعني أن العديد من أحدث النماذج تمكنت من الاقتراب من دقة 90 في المائة أو أكثر في الاختبارات الحالية، مما يسلط الضوء على الحاجة إلى معايير جديدة.

“وتيرة الصناعة سريعة للغاية. قال أحمد الدحلة، قائد الذكاء الاصطناعي التوليدي في ميتا: “لقد بدأنا الآن في تشبع قدرتنا على قياس بعض هذه الأنظمة (وكصناعة)، وأصبح تقييمها أكثر صعوبة”.

للتعامل مع هذه المشكلة، قامت العديد من مجموعات التكنولوجيا، بما في ذلك Meta وOpenAI وMicrosoft، بإنشاء معايير واختبارات داخلية خاصة بها للذكاء. لكن هذا أثار مخاوف داخل الصناعة بشأن القدرة على مقارنة التكنولوجيا في غياب الاختبارات العامة.

“تتيح لنا العديد من هذه المعايير معرفة مدى بعدنا عن أتمتة المهام والوظائف. قال دان هندريكس، المدير التنفيذي لمركز سلامة الذكاء الاصطناعي ومستشار شركة Elon Musk’s xAI: “من دون نشرها، سيكون من الصعب على الشركات والمجتمع الأوسع معرفة ذلك”.

تستخدم المعايير العامة الحالية – Hellaswag وMMLU – أسئلة متعددة الخيارات لتقييم الحس السليم والمعرفة عبر مواضيع مختلفة. ومع ذلك، يرى الباحثون أن هذه الطريقة أصبحت الآن زائدة عن الحاجة وأن النماذج تحتاج إلى مشاكل أكثر تعقيدًا.

قال مارك تشين، نائب الرئيس الأول للأبحاث في OpenAI: “لقد وصلنا إلى عصر لم تعد فيه الكثير من الاختبارات المكتوبة بواسطة الإنسان كافية كمقياس جيد لمدى قدرة النماذج”. “وهذا يخلق تحديا جديدا بالنسبة لنا كعالم بحثي.”

تم تحديث أحد المعايير العامة، SWE-bench Verified، في أغسطس لتقييم الأنظمة الذاتية بشكل أفضل بناءً على تعليقات الشركات، بما في ذلك OpenAI.

يستخدم مشاكل برمجية واقعية مصدرها منصة المطورين GitHub ويتضمن تزويد وكيل الذكاء الاصطناعي بمستودع الأكواد ومشكلة هندسية ومطالبته بإصلاحها. تتطلب المهام المنطق لإكمالها.

وفقًا لهذا المقياس، يحل أحدث نموذج من OpenAI، وهو معاينة GPT-4o، 41.4 في المائة من المشكلات، بينما يحصل Claude 3.5 Sonnet من Anthropic على 49 في المائة.

قال جاريد كابلان، كبير مسؤولي العلوم في Anthropic: “الأمر أكثر صعوبة (مع الأنظمة الوكيلة) لأنك تحتاج إلى ربط هذه الأنظمة بالكثير من الأدوات الإضافية”.

وأضاف: “عليك بشكل أساسي إنشاء بيئة رملية كاملة ليلعبوا فيها. الأمر ليس بهذه البساطة مجرد تقديم مطالبة، ورؤية ماهية الإكمال ثم تقييم ذلك”.

هناك عامل مهم آخر عند إجراء اختبارات أكثر تقدما وهو التأكد من إبقاء الأسئلة المرجعية خارج المجال العام، من أجل ضمان عدم قيام النماذج “بالغش” بشكل فعال من خلال توليد الإجابات من بيانات التدريب بدلا من حل المشكلة.

تعد القدرة على التفكير والتخطيط أمرًا بالغ الأهمية لإطلاق العنان لإمكانات وكلاء الذكاء الاصطناعي الذين يمكنهم تنفيذ المهام عبر خطوات وتطبيقات متعددة، وتصحيح أنفسهم.

قال إيسي كامار، نائب الرئيس ومدير مختبر حدود الذكاء الاصطناعي في أبحاث مايكروسوفت: “إننا نكتشف طرقًا جديدة لقياس هذه الأنظمة وبالطبع أحد هذه الطرق هو التفكير، وهو مجال مهم”.

ونتيجة لذلك، تعمل ميكروسوفت على معيارها الداخلي الخاص، والذي يتضمن مشاكل لم تظهر من قبل في التدريب لتقييم ما إذا كانت نماذج الذكاء الاصطناعي لديها قادرة على التفكير كما يفعل الإنسان.

تساءل البعض، بما في ذلك باحثون من شركة Apple، عما إذا كانت نماذج اللغات الكبيرة الحالية “تستدل” أو “تطابق الأنماط” تمامًا مع أقرب البيانات المماثلة التي شوهدت في تدريباتهم.

وقال روشير بوري، كبير العلماء في شركة آي بي إم للأبحاث: “في المجالات الأضيق التي تهتم بها الشركات، فإنها تقوم بالتفكير”. “(النقاش يدور حول) هذا المفهوم الأوسع للاستدلال على المستوى البشري، والذي من شأنه أن يضعه تقريبًا في سياق الذكاء العام الاصطناعي. هل يعقلون حقًا أم أنهم يرددون؟”

يقيس OpenAI التفكير بشكل أساسي من خلال التقييمات التي تغطي الرياضيات وموضوعات العلوم والتكنولوجيا والهندسة والرياضيات ومهام البرمجة.

“الاستدلال هو مصطلح عظيم جدا. كل شخص يعرفه بشكل مختلف وله تفسيره الخاص. . . قال تشين من OpenAI: “هذه الحدود غامضة للغاية (ونحن) نحاول ألا نتورط كثيرًا في هذا التمييز نفسه، ولكن ننظر إلى ما إذا كان يقود المنفعة أو الأداء أو القدرات”.

كما أدت الحاجة إلى معايير جديدة إلى جهود المنظمات الخارجية.

في شهر سبتمبر، أعلنت شركة Scale AI وشركة Hendrycks الناشئة عن مشروع يسمى “الاختبار الأخير للإنسانية”، والذي يجمع أسئلة معقدة من خبراء من مختلف التخصصات، والتي تتطلب إكمالها تفكيرًا مجردًا.

مثال آخر هو FrontierMath، وهو معيار جديد تم إصداره هذا الأسبوع، أنشأه علماء رياضيات خبراء. واستنادًا إلى هذا الاختبار، تستطيع النماذج الأكثر تقدمًا الإجابة على أقل من 2 بالمائة من الأسئلة.

ومع ذلك، بدون اتفاق صريح على قياس هذه القدرات، يحذر الخبراء من أنه قد يكون من الصعب على الشركات تقييم منافسيها أو على الشركات والمستهلكين فهم السوق.

“لا توجد طريقة واضحة للقول إن هذا النموذج أفضل بالتأكيد من هذا النموذج” (لأنه) عندما يصبح المقياس هدفًا، فإنه يتوقف عن أن يكون مقياسًا جيدًا” ويتم تدريب النماذج على اجتياز المعايير المحددة، كما قال ميتا آل. داهل.

“إنه شيء نعمل، كصناعة بأكملها، على تحقيقه.”

تقارير إضافية من هانا ميرفي في سان فرانسيسكو

فريق التحرير نوفمبر 9, 2024 نوفمبر 9, 2024
شارك المقال
فيسبوك تويتر واتساب واتساب نسخ الرابط طباعة
شارك
المقال السابق تعاني أوقاف Ivy League من تراجع السوق الخاصة
المقال التالي الباراتايكوندو المصري يسافر إلى كوريا لتبادل الخبرات الرياضية والثقافية
اترك تعليقك اترك تعليقك

اترك تعليقاً إلغاء الرد

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

تابع معنا اخر الاخبار لحظة بلحظة واطلع على ما يحدث في العالم من حولك

ابق على إطلاع

اخر مستجدات العالم لحظة بلحظة من جميع المصادر الموثوقة، انضم الينا الآن ليصلك كل جديد.

اشترك الآن

رائج اليوم

حملة تضليل رقمي.. من وراء شائعة الانقلاب في كوت ديفوار؟

في 21 مايو/أيار الجاري، اجتاحت وسائل التواصل الاجتماعي موجة غير مسبوقة من المنشورات التي تزعم…

اخر الاخبار منذ يوم واحد

يجب على مجلس الأمن التابع للأمم المتحدة تجديد حظر الأسلحة في جنوب السودان

في عام 2015 ، كحرب أهلية كانت مستعرة في جنوب السودان ، فرض مجلس الأمن…

افريقيا منذ يومين

عملية ربط المعدة بالمنظار القابلة للتعديل في دبي وأبوظبي: الحل الذكي للسمنة مع د. عبد السلام الطائي

في ظل انتشار السمنة كمشكلة صحية عالمية، تبرز عملية ربط المعدة بالمنظار القابلة للتعديل كأحد الخيارات الأكثر…

صحة منذ يوم واحد

Ritzy ، مطعم المشاهير يبيع كوكتيلًا بقيمة 33 ألف دولار-ويأتي مع حقيبة بيركين

إنه رف أعلى وأعلى خط. أرسل مطعم حصري في ميامي الكثير إلى دوامة بعد الكشف…

منوعات منذ يومين

تسونامي يضرب إسرائيل .. جيش الاحتلال يستعد لحدث يزلزل تل أبيب

يستعد جيش الاحتلال لمواجهة تسونامي يضرب إسرائيل، بعد الزلازل التي ضربت اليونان خلال الأسابيع الماضية،…

منوعات منذ يومين

اكتشف المزيد

  • صورة اليوم
  • مقالات رأي
  • اخر الاخبار
  • رائج اليوم
  • النشرة البريدية

مقالات ذات صلة

Abercrombie و Gap يحصلان على دفعة من إحياء التسعينيات

شركات

عيون ألمانيا 10 ٪ ضريبة رقمية على عمالقة التكنولوجيا

شركات

حكم على جولدمان ساكس بانكر السابق بالسجن لمدة عامين بدور 1MDB

شركات

مايكل أوليري مدرب Ryanair يضرب هدف مكافأة 100 مليون يورو

شركات

ترحب الصناعة بـ “النهج الأكثر جرأة” لفصل فائض معاش DB

شركات

الواقع الناشئ لخطة Openai-SoftBank Grand لمراكز البيانات

شركات

يقدر ما يقرب من 2.5 مليون شخص في إنجلترا أن ADHD

شركات

ترامب التعريفة الحاكمة المخاطر التي تبطئ تسليم الصفقة التجارية في المملكة المتحدة

شركات
مصدرك الأول لآخر الاخبار العالمية
Facebook Twitter Youtube Instagram Linkedin

2023 © المراقب. جميع الحقوق محفوظة.

روابط هامة

  • الرئيسية
  • من نحن
  • سياسة الخصوصية
  • اعلن معنا
  • اتصل بنا

أهم الأقسام

  • ثقافة وفنون
  • سياحة وسفر
  • سياسة
  • صحة
  • اقتصاد

نرشح لك

Abercrombie و Gap يحصلان على دفعة من إحياء التسعينيات
كيف تراكم الدفاع في أوروبا الرخيصة
إعلام بني سويف يسبق الزمن: فيلم درامي يكشف ملامح مصر الذكية

صحيفة المراقب هي صحيفة يومية عربية تهتم بآخر اخبار المملكة العربية السعودية والخليج العربي والشرق الأوسط والعالم. تابع معنا اخر اخبار الاقتصاد والرياضة والسياسة واهم القضايا التي تهم المواطن العربي.

Welcome Back!

Sign in to your account

نسيت كلمة المرور؟