Mean, SD – Median, IQR – Frequency, %; In the baseline table

mean median

يستخدم الجدول الأول في أغلب الأبحاث لوصف العينة المشاركة في الدراسة أو التجربة، وفى هذا الجدول نجد أن أي متغير موصوف بواحد من هذه الطرق:

Mean and standard deviation

Median and interquartile range

Frequency and percentage

فما المقصود بهذه المصطلحات، ومتى نستخدم كل واحدة من هذه الطرق؟

لنبدأ بالأسهل:

Frequency and percentage

إذا كان لدينا متغير من النوع الكيفي مثل الجنس، وجود المرض من عدمه، المستوى التعليمي.. الخ

Categorical variable as sex, presence of disease, educational level

نقوم في هذه الحالة بعرض عدد الأفراد في كل مجموعة ونسبتهم المئوية، مثلا لو كان لدينا 120 مريض ، من بينهم 80 امرأة ، سنعبر عنهم بالعدد أي 80 والنسبة المئوية أي 66.67% وسيكون عدد الذكور 40 ونسبتهم المئوية 33.33%

لاحظ أنه عندما يتكون المتغير من مجموعتين فقط مثل الجنس (ذكر، أنثى)، وجود مرض مزمن (نعم، لا) قد يتم ذكر النسبة المئوية لمجموعة واحدة فقط باعتبار أنه من المفهوم أن المجموعة الأخرى هي المكمل للمائة، بمعنى أننا إذا ذكرنا أن نسبة النساء 60% فمفهوم أن نسبة الذكور 40%.

أما المتغيرات الرقمية مثل الطول، الوزن، عدد الأطفال في الأسرة، عدد أيام الإقامة في المستشفى .. الخ فستخدم لوصفها إما:

Mean and standard deviation or Median and interquartile range

ومن المهم هنا أن نعرف لماذا نقوم أحيانا بوصف المتغير باستخدام أي من الطريقتين وليس الأخرى

من حيث المبدأ يفضل استخدام المتوسط الحسابي والانحراف المعيارى Mean and standard deviation

إلا أن هناك حالات لا يفضل استخدامهما وهى التي لا يكون توزيع المتغير فيها طبيعيا not normally distributed، أو كان الاختبار الإحصائى الذى نستخدمه non parametric

وفى هاتين الحالتين نفضل استخدام Median and interquartile range

لنوضح أولا ما معنى أن يكون توزيع البيانات طبيعيا normally distributed data

المتغير ذو التوزيع الطبيعى للتبسيط هو الذى يشبه في توزيعه شكل الجرس الشهير Bell shaped distribution

وللتبسيط: هو الذى يكون متماثلا حول المتوسط الحسابي، أكثر القياسات فيه مرتكزة حول الوسط بينما قليل من القياسات موجودة عند الأطراف، وأكثر القياسات الحيوية تكون قريبة من التوزيع الطبيعى مثل الوزن والطول وضغط الدم ، الخ.

أما المتغير الذى لا يكون توزيعه طبيعيا فيكون على الأغلب بسبب تركز القياسات في أحد الجانبين ، لنعطى مثالا عن عدد الأيام التي يقيمها المريض في المستشفى، لو جمعنا بيانات تخص 100 مريض مثلا لوجدنا أن أكثرهم قضى في المستشفى بين يوم إلى ثلاثة أيام، بينما هناك قلة من المرضى بقيت في المستشفى لمدة تزيد عن أسبوع وبعضهم ربما قضى شهر أو أكثر ولكنها حالات قليلة. لو قمنا برسم بيانى للتعبير عن هذا المتغير فسنجد القيم متركزة إلى الجانب الأيسر عند الأرقام القليلة ولها ذيل طويل نحو الجانب الأيمن (حاول أن تتخيل معى 😊 ).

هنا التعبير عن المتغير باستخدام المتوسط الحسابي والانحراف المعيارى لن يكون دقيقا لأن كلاهما سيتأثر بالقيم الكبيرة للغاية للمرضى الذين أقاموا في المستشفى لفترات طويلة للغاية. ويكون من الأفضل هنا عرض المتغير باستخدام Median and interquartile range

إذن ما هو الوسيط median ؟

هو الرقم الذى يتوسط البيانات، يقع في المنتصف بحيث أن نصف القياسات تقع أقل منه ونصفها أعلى منه ، لو أردنا أن نقوم بحسابه مثلا لطول مجموعة من الأطفال ، فإننا نقوم بترتيب الأطفال حسب الطول من الأقصر وحتى الأطول ، ويكون الوسيط هو طول الطفل الذى يقع تماما في المنتصف، بحيث يقسم المجموعة إلى قسمين : نصفهم أطول منه ونصفهم أقصر منه.

أما المصطلح الآخر Interquartile range , IQR

فللتوضيح سنستخدم نفس المثال الخاص بأطوال الأطفال، فإذا تم قسمتهم بعد ترتيبهم إلى قسمين باستخدام الوسيط median

وأخذنا النصف الأقصر وقمنا أيضا بقسمته إلى نصفين، وكذلك النصف الأطول وقسمته إلى نصفين مجددا، فكأننا قمنا بتقسيم المجموعة إلى أربعة ارباع بعد ترتيبهم. ولكل من هذه الأرقام التي استخدمناها للتقسيم اسم:

Q1, first quartile

هو الرقم الذى يمثل نهاية الربع الأول ، أي أن ربع الأشخاص أقصر منه أو 25% من البيانات أقل منه.

Q2, median

وهو الرقم الذى يمثل منتصف البيانات تمام كما سبق وذكرنا ، أى 50% من البيانات أقل منه.

Q3, third quartile

وهو الرقم الذى يمثل نهاية الربع الثالث ، أي أن ثلاثة أرباع الأشخاص أقصر منه أو 75% من البيانات أقل منه.

The interquartile rang is equal to Q3-Q1

أي أنه يمثل الفارق بين القيمة التي تقع عند الربع الثالث والقيمة التي تقع عند الربع الأول ، أي أنه يمثل 50% من البيانات التي تقع في المنتصف ، وهناك ربع أقل منها ، وربع أكبر منها.

****

لنوضح الآن المقصود بالفارق بين parametric and non-parametric tests

ببساطة هناك إجمالا نوعين من الاختبارات الإحصائية

بعضها يستخدم مع البيانات ذات التوزيع الطبيعى ( وبعض الشروط الأخرى) ويعتمد على مقارنة قيم البيانات بين المجموعات ومنها على سبيل المثال independent t test and one way ANOVA

وهذه نطلق عليها parametric tests

والبعض الآخر من الاختبارات يستخدم ترتيب البيانات وليس قيمها الفعلية، ونقوم باستخدامها عندما لا تتحقق الشروط لاستخدام الاختبارات السابقة، ومن أمثلتها Mann–Whitney test and Kruskal–Wallis test

عندما يكون الاختبار الإحصائى من النوع الأول (parametric test) يفضل أن نعرض البيانات باستخدام Mean and standard deviation

أما عندما يكون الاختبار الإحصائى المستخدم من النوع الثانى (Non-parametric test) يفضل أن نستخدم Median and Interquartile range

خلاصة الكلام:

Frequency and percentage: for categorical data.

Mean and standard deviation: for normally distributed variables and when parametric tests are used.

Median and Interquartile range: for non-normally distributed variables and when non-parametric tests are used.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s