Confidence Interval دليلك المبسط للفهم الصحيح

سنفترض أنك كباحث أردت أن تعرف متوسط وزن الطلبة في إحدى الجامعات ، وحيث أنك لن تقوم بقياس وزن كل الطلبة ، فقد قمت بأخذ عينة عشوائية مكونة من 50 طالب وقمت بقياس وزنهم وحساب المتوسط الحسابي mean

ولنفترض أن الرقم الذى حصلت عليه هو 70 كجم ، وهو معبر بشكل أو بآخر عن وزن طلاب هذه الجامعة

ولكن ..

لو افترضنا أننا قمنا بقياس فعلى لوزن كل طالب من طلاب الجامعة فهل سنحصل على النفس النتيجة؟

ربما نعم ، وغالبا لا ..

لو افترضنا أننا أخذنا عينة أخرى فقد نحصل على نفس النتيجة وقد لا نحصل عليها ..

إذن قيامنا بأخذ عينة، وحساب المتوسط الحسابي فنحن لسنا واثقين تماما من أن هذا الرقم يعبر تماما عن كل الطلبة..

ما رأيك لو أخذنا بدلا من هذا الرقم الوحيد مجالا من الأرقام له حد أكبر وحد أدنى ، ونقول أننا واثقون إلى درجة معينة من أن المتوسط الحسابي لكل الطلبة يقع بين هذين الرقمين ، وليكن مثلا 65 و 75 كجم

ربما يكون التعبير عن وزن الطلبة بهذه الطريقة أكثر إفهاما للقارىء .. وهذا المجال هو ما نسميه مجال الثقة أو Confidence Interval

ونختصرها في كثير من الأحيان إلى CI

ولكن انتبه ، نحن لا نتحدث عنها في المطلق ، ولكن لا بد أن تصحبها نسبة مئوية تعبر عن درجة الثقة التي نتحدث عنها ، وبالتالي تكون مثلا : 90%CI , 95% CI, 99% CI

فنقول مثلا:

95% CI of students’ mean weight is 65, 75 kg

بمعنى أننا لو كررنا التجربة عدد كبير أو لا نهائي من المرات فإن متوسط وزن طلبة الجامعة سيكون بين هذين الرقمين في 95% من المرات

ويمكن تفسيرها بالطريقة التالية:

We are 95% confident that the true population mean (mean of all university students weight) lies between 65 and 75 kg

لذا يكون التفسير هو أننا متأكدون بنسبة 95% من أن متوسط الوزن (الصحيح)  لكل الطلبة يقع في هذا النطاق.

قد يحدث أن تجد أحدهم يفسرها بطريقة أخرى :

There is a 95% probability that the true population mean (mean of all university students) lies between 65 and 75 kg

ولكن انتبه: هذا التفسير هو خطأ شائع يقع فيه الكثيرون.

إذا كانت فكرة الموضوع واضحة حتى الآن ، يمكننا إضافة بعض المعلومات التي تعمق الفهم ..

  1. لو افترضنا أننا أخذنا عينة مكونة من 500 طالب بدلا من 50 طالب، في هذه الحالة نتوقع أن تكون النتيجة التي حصلنا عليها أكثر دقة ، وأقرب للرقم الحقيقي الذى نبحث عنه ، وبالتالي ستكون ال confidence interval  أضيق ، ولتكن مثلا 68 و 72
  2. بينما لو أننا كنا أثر تساهلا ، فأردنا مثلا الحصول على 90%CI  بدلا من 95%CI   في هذه الحالة نتوقع أن تكون ال confidence interval  أضيق ، لأننا سمحنا بهامش خطأ أكبر

ملاحظة : لو كنا نحسب confidence interval  للفارق بين مجموعتين مثلا ، واحتوت هذه الفترة على الرقم صفر ، فكانت مثلا بين -2 و 8 ، هذا يعنى أنه ربما يكون الفارق بين المجموعتين صفرا ، وبالتالي قد لا يكون هناك فارق ذو دلالة إحصائية بين المجموعتين.

وهناك حالة خاصة نبحث فيها عن إذا ما كانت ال confidence interval  تحتوى على الرقم 1 وليس الرقم صفر ،  وهى حالة ال OR, RR

حيث أنها تمثل نسبة بين مجموعتين ، ومعنى كون قيمتها =1 هو عدم وجود فارق بين المجموعتين

الخلاصة :

Interpretation of 95%CI : we are 95% confident that the true population mean lies between …. & ….

As the sample size increases, the confidence interval is narrower

If we want more precise confidence level (for example 99% instead of 95%), the CI will be wider

Mean, SD – Median, IQR – Frequency, %; In the baseline table

mean median

يستخدم الجدول الأول في أغلب الأبحاث لوصف العينة المشاركة في الدراسة أو التجربة، وفى هذا الجدول نجد أن أي متغير موصوف بواحد من هذه الطرق:

Mean and standard deviation

Median and interquartile range

Frequency and percentage

فما المقصود بهذه المصطلحات، ومتى نستخدم كل واحدة من هذه الطرق؟

لنبدأ بالأسهل:

Frequency and percentage

إذا كان لدينا متغير من النوع الكيفي مثل الجنس، وجود المرض من عدمه، المستوى التعليمي.. الخ

Categorical variable as sex, presence of disease, educational level

نقوم في هذه الحالة بعرض عدد الأفراد في كل مجموعة ونسبتهم المئوية، مثلا لو كان لدينا 120 مريض ، من بينهم 80 امرأة ، سنعبر عنهم بالعدد أي 80 والنسبة المئوية أي 66.67% وسيكون عدد الذكور 40 ونسبتهم المئوية 33.33%

لاحظ أنه عندما يتكون المتغير من مجموعتين فقط مثل الجنس (ذكر، أنثى)، وجود مرض مزمن (نعم، لا) قد يتم ذكر النسبة المئوية لمجموعة واحدة فقط باعتبار أنه من المفهوم أن المجموعة الأخرى هي المكمل للمائة، بمعنى أننا إذا ذكرنا أن نسبة النساء 60% فمفهوم أن نسبة الذكور 40%.

أما المتغيرات الرقمية مثل الطول، الوزن، عدد الأطفال في الأسرة، عدد أيام الإقامة في المستشفى .. الخ فستخدم لوصفها إما:

Mean and standard deviation or Median and interquartile range

ومن المهم هنا أن نعرف لماذا نقوم أحيانا بوصف المتغير باستخدام أي من الطريقتين وليس الأخرى

من حيث المبدأ يفضل استخدام المتوسط الحسابي والانحراف المعيارى Mean and standard deviation

إلا أن هناك حالات لا يفضل استخدامهما وهى التي لا يكون توزيع المتغير فيها طبيعيا not normally distributed، أو كان الاختبار الإحصائى الذى نستخدمه non parametric

وفى هاتين الحالتين نفضل استخدام Median and interquartile range

لنوضح أولا ما معنى أن يكون توزيع البيانات طبيعيا normally distributed data

المتغير ذو التوزيع الطبيعى للتبسيط هو الذى يشبه في توزيعه شكل الجرس الشهير Bell shaped distribution

وللتبسيط: هو الذى يكون متماثلا حول المتوسط الحسابي، أكثر القياسات فيه مرتكزة حول الوسط بينما قليل من القياسات موجودة عند الأطراف، وأكثر القياسات الحيوية تكون قريبة من التوزيع الطبيعى مثل الوزن والطول وضغط الدم ، الخ.

أما المتغير الذى لا يكون توزيعه طبيعيا فيكون على الأغلب بسبب تركز القياسات في أحد الجانبين ، لنعطى مثالا عن عدد الأيام التي يقيمها المريض في المستشفى، لو جمعنا بيانات تخص 100 مريض مثلا لوجدنا أن أكثرهم قضى في المستشفى بين يوم إلى ثلاثة أيام، بينما هناك قلة من المرضى بقيت في المستشفى لمدة تزيد عن أسبوع وبعضهم ربما قضى شهر أو أكثر ولكنها حالات قليلة. لو قمنا برسم بيانى للتعبير عن هذا المتغير فسنجد القيم متركزة إلى الجانب الأيسر عند الأرقام القليلة ولها ذيل طويل نحو الجانب الأيمن (حاول أن تتخيل معى 😊 ).

هنا التعبير عن المتغير باستخدام المتوسط الحسابي والانحراف المعيارى لن يكون دقيقا لأن كلاهما سيتأثر بالقيم الكبيرة للغاية للمرضى الذين أقاموا في المستشفى لفترات طويلة للغاية. ويكون من الأفضل هنا عرض المتغير باستخدام Median and interquartile range

إذن ما هو الوسيط median ؟

هو الرقم الذى يتوسط البيانات، يقع في المنتصف بحيث أن نصف القياسات تقع أقل منه ونصفها أعلى منه ، لو أردنا أن نقوم بحسابه مثلا لطول مجموعة من الأطفال ، فإننا نقوم بترتيب الأطفال حسب الطول من الأقصر وحتى الأطول ، ويكون الوسيط هو طول الطفل الذى يقع تماما في المنتصف، بحيث يقسم المجموعة إلى قسمين : نصفهم أطول منه ونصفهم أقصر منه.

أما المصطلح الآخر Interquartile range , IQR

فللتوضيح سنستخدم نفس المثال الخاص بأطوال الأطفال، فإذا تم قسمتهم بعد ترتيبهم إلى قسمين باستخدام الوسيط median

وأخذنا النصف الأقصر وقمنا أيضا بقسمته إلى نصفين، وكذلك النصف الأطول وقسمته إلى نصفين مجددا، فكأننا قمنا بتقسيم المجموعة إلى أربعة ارباع بعد ترتيبهم. ولكل من هذه الأرقام التي استخدمناها للتقسيم اسم:

Q1, first quartile

هو الرقم الذى يمثل نهاية الربع الأول ، أي أن ربع الأشخاص أقصر منه أو 25% من البيانات أقل منه.

Q2, median

وهو الرقم الذى يمثل منتصف البيانات تمام كما سبق وذكرنا ، أى 50% من البيانات أقل منه.

Q3, third quartile

وهو الرقم الذى يمثل نهاية الربع الثالث ، أي أن ثلاثة أرباع الأشخاص أقصر منه أو 75% من البيانات أقل منه.

The interquartile rang is equal to Q3-Q1

أي أنه يمثل الفارق بين القيمة التي تقع عند الربع الثالث والقيمة التي تقع عند الربع الأول ، أي أنه يمثل 50% من البيانات التي تقع في المنتصف ، وهناك ربع أقل منها ، وربع أكبر منها.

****

لنوضح الآن المقصود بالفارق بين parametric and non-parametric tests

ببساطة هناك إجمالا نوعين من الاختبارات الإحصائية

بعضها يستخدم مع البيانات ذات التوزيع الطبيعى ( وبعض الشروط الأخرى) ويعتمد على مقارنة قيم البيانات بين المجموعات ومنها على سبيل المثال independent t test and one way ANOVA

وهذه نطلق عليها parametric tests

والبعض الآخر من الاختبارات يستخدم ترتيب البيانات وليس قيمها الفعلية، ونقوم باستخدامها عندما لا تتحقق الشروط لاستخدام الاختبارات السابقة، ومن أمثلتها Mann–Whitney test and Kruskal–Wallis test

عندما يكون الاختبار الإحصائى من النوع الأول (parametric test) يفضل أن نعرض البيانات باستخدام Mean and standard deviation

أما عندما يكون الاختبار الإحصائى المستخدم من النوع الثانى (Non-parametric test) يفضل أن نستخدم Median and Interquartile range

خلاصة الكلام:

Frequency and percentage: for categorical data.

Mean and standard deviation: for normally distributed variables and when parametric tests are used.

Median and Interquartile range: for non-normally distributed variables and when non-parametric tests are used.