لم يأخذ فيشر انتقادات نيمان وبيرسون بشكل جيد. رداً على ذلك ، أطلق على أساليبهم “صبيانية” و “أكاديمية سخيفة”. على وجه الخصوص ، لم يوافق فيشر على فكرة تحديد فرضيتين ، بدلاً من حساب “أهمية” الأدلة المتاحة ، كما اقترح. في حين أن القرار هو نهائي ، فإن اختبارات أهميته أعطت فقط رأيًا مؤقتًا ، والذي يمكن مراجعته لاحقًا. ومع ذلك ، فإن جاذبية فيشر لعقل علمي مفتوح تم تقويضها إلى حد ما بسبب إصراره على أن يستخدم الباحثون قطعًا بنسبة 5 في المائة لقيمة “كبيرة” ، وادعائه بأنه “سيتجاهل كل النتائج التي تفشل في الوصول إلى هذا المستوى”.
سوف يفسح المجال أمام عقود من الغموض ، حيث تجمعت الكتب المدرسية تدريجياً مع اختبار فرضية فيشر الفارغة مع نهج نايمان وبيرسون القائم على القرار. أصبح النقاش الدقيق حول كيفية تفسير الأدلة ، مع مناقشة التفكير الإحصائي وتصميم التجارب ، بدلاً من ذلك مجموعة من القواعد الثابتة للطلاب لمتابعة.
سيعتمد البحث العلمي السائد على عتبات القيمة p التبسيطية والقرارات الحقيقية أو الفقرة حول الفرضيات. في هذا العالم الذي تعلمه الدور ، كانت الآثار التجريبية إما حاضرة أو لم تكن كذلك. الأدوية إما عملت أو لم تفعل. لن يكون حتى الثمانينيات من القرن الماضي ، حيث بدأت المجلات الطبية الرئيسية في النهاية تحرر من هذه العادات.
ومن المفارقات أن الكثير من التحول يمكن إرجاعه إلى فكرة صاغها نيمان في أوائل الثلاثينيات. مع الاقتصادات التي تكافح في الكساد الكبير ، لاحظ أن هناك طلبًا متزايدًا على رؤى إحصائية في حياة السكان. لسوء الحظ ، كانت هناك موارد محدودة متاحة للحكومات لدراسة هذه المشكلات. أراد السياسيون نتائج في أشهر – أو حتى أسابيع – ولم يكن هناك ما يكفي من الوقت أو المال لدراسة شاملة. نتيجة لذلك ، كان على الإحصائيين الاعتماد على أخذ عينات من مجموعة فرعية صغيرة من السكان. كانت هذه فرصة لتطوير بعض الأفكار الإحصائية الجديدة. لنفترض أننا نريد تقدير قيمة معينة ، مثل نسبة السكان الذين لديهم أطفال. إذا أخذنا أخذ عينات من 100 بالغ بشكل عشوائي ولم يكون أي منهم من الآباء ، فما الذي يوحي به هذا البلد ككل؟ لا يمكننا أن نقول بشكل قاطع أن لا أحد لديه طفل ، لأنه إذا أخذنا عينات من مجموعة مختلفة من 100 شخص ، فقد نجد بعض الآباء. لذلك نحتاج إلى طريقة لقياس مدى ثقةنا في تقديرنا. هذا هو المكان الذي جاء فيه ابتكار Neyman. أظهر أنه يمكننا حساب “فاصل الثقة” لعينة تخبرنا عدد المرات التي يجب أن نتوقع فيها أن تقع قيمة السكان الحقيقية في نطاق معين.
يمكن أن تكون فترات الثقة مفهومًا زلقًا ، نظرًا لأنها تتطلب منا تفسير بيانات الحياة الواقعية الملموسة من خلال تخيل العديد من العينات الافتراضية الأخرى التي يتم جمعها. مثل أخطاء النوع الأول والنوع الثاني ، تتناول فترات ثقة Neyman سؤالًا مهمًا ، فقط بطريقة غالبًا ما تحير الطلاب والباحثين. على الرغم من هذه العقبات المفاهيمية ، هناك قيمة في وجود قياس يمكن أن يحصل على عدم اليقين في الدراسة. غالبًا ما يكون الأمر مغرًا – خاصة في وسائل الإعلام والسياسة – للتركيز على متوسط قيمة واحد. قد تشعر قيمة واحدة بدرجة أكبر ودقة ، لكنها في النهاية استنتاج وهمي. في بعض من التحليل الوبائي المواجه للجمهور ، اخترت أنا وزملاؤه أنا وزملائي الإبلاغ فقط عن فترات الثقة ، لتجنب الانتباه في غير محله على قيم محددة.
منذ الثمانينيات من القرن الماضي ، وضعت المجلات الطبية التركيز على فترات الثقة بدلاً من المطالبات المستقلة الحقيقية أو الفقرة. ومع ذلك ، يمكن أن يكون من الصعب كسر العادات. العلاقة بين فترات الثقة والقيم p لم تساعد. لنفترض أن فرضيتنا الفارغة هي أن العلاج له تأثير صفر. إذا لم تحتوي فاصل الثقة المقدر بنسبة 95 في المائة على التأثير على الصفر ، فستكون القيمة P أقل من 5 في المائة ، واستنادًا إلى نهج Fisher ، سنرفض الفرضية الفارغة. ونتيجة لذلك ، غالبًا ما تكون الأوراق الطبية أقل اهتمامًا بفاصل عدم اليقين نفسه ، وبدلاً من ذلك أكثر اهتمامًا بالقيم التي تقوم بها – أو لا – لا -. قد يحاول الدواء تجاوز فيشر ، لكن تأثير قطعه التعسفي بنسبة 5 في المائة.
مقتطفات مقتبسة من إثبات: علم اليقين غير المؤكد ، بقلم آدم كوشارسكي. نشرت بواسطة كتب الملف الشخصي في 20 مارس 2025 ، في المملكة المتحدة.