Learn with us

💫✨Nomogramسحر ال 

logistic regressionربما يعرف أكثرنا أن ال

يستخدم عندما ندرس متغيرا له خيارين فقط (مثلا : مريض/ غير مريض، توجد مضاعفات/ لا توجد مضاعفات ، طبيعى/ غير طبيعى).
وينتج لدينا معادلة معقدة بعض الشيء يمكننا استخدامها للتنبؤ باحتمالية حدوث هذا الأمر محل الدراسة.
ولكن هل هناك طريقة مبسطة لحساب هذه الاحتمالية دون المرور عبر معادلات
معقدة؟

Nomogramهنا يأتي سحر أحد الرسومات البيانية والتي تسمى نوموجرام
والسحر هنا يأتي من أمرين،

Logistic regressionالأول أنه يمثل بطريقة ما عرضا لل

على شكل جراف ، ويعكس الأهمية النسبية لكل متغير
أما الأمر الثانى فهو استخدامه لحساب احتمالية حدوث الأمر محل الدراسة بطريقة مبسطة لا تشتمل سوى على جمع بعض الأرقام البسيطة فقط، ودون الدخول في
حسابات معقدة.

؟nomogramكيف هو شكل ال

وكيف يمكن فهمه واستخدامه ؟
Rيمكن عمل هذا الرسم باستخدام برنامج stata أو باستخدام

stataالمثال المرفق تم عمله باستخدام برنامج
ويمثل استخدام العمر والجنس والسعة القصوى للأكسجين VO2max للتنبؤ بوجود مرض في القلب

-:يتكون الشكل البيانى من جزئين-
الجزء الأول فيه المتغيرات التي تم استخدامها في النموذج .. في المثال المرفق لدينا Age, sex, VO2max
كل متغير يكون ممثلا بخط. ويكون على هذا الخط نقاط متعددة تمثل قيمة المتغير مثل العمر، أو نقاط بعدد المجموعات مثل متغير الجنس : نقطة للذكور وأخرى للإناث.
اذا كانت زيادة قيمة المتغير تعنى زيادة احتمالية حدوث الحدث مثل العمر (يكون اتجاه تدريج الخط من اليسار لليمين) : زيادة العمر تعنى زيادة احتمالية وجود مرض بالقلب
VO2maxأما إذا كان نقص قيمة المتغير تعنى زيادة احتمالية حدوث الحدث مثل

( يكون اتجاه تدريج المتغير من اليمين لليسار) : نقص السعة القصوى للأكسجين يعنى زيادة احتمالية وجود مرض بالقلب.
أسفل هذه المتغيرات نجد خطا مرقما اسمه score ويعنى الدرجة التي سنعطيها لكل متغير بناء على قيمته

الجزء الثانى: من الرسم يعرض لنا خطا مرقما يخص المجموع الكلى ، وخط آخر يمثل احتمالية وقوع الحدث (وهذا الخط يتراوح ترقيمه بين الصفر والواحد حيث أن الاحتمالية لوقوع أي حدث تتراوح بين الصفر والواحد).

إذن كيف نستخدم هذا النوموجرام من أجل معرفة احتمالية وجود مرض بالقلب لأحد الأشخاص؟
سنفترض أن أحد الأشخاص هو ذكر ، عمره 55 عاما، وقيمة السعة القصوى للأكسجين لديه 52 .

في هذه الحالة سوف نرى الدرجة التي يحصل عليها المريض مقابل كل متغير (الخطوط برتقالية اللون)

المريض ذكر : يحصل على درجة 3.2-
العمر 55 سنة : يحصل على درجة 7.3-
السعة القصوى للأكسجين 52: يحصل على 1.5-
الدرجة الكلية للشخص تأتى من جمع هذه الدرجات : 3.2 +7.3+1.5 =
12-

ننتقل إلى الجزء الأسفل من الرسم لنحصل على احتمال وقوع الحدث المناظر للدرجة 12 (السهم الأخضر الصغير) ، نجد أنها 0.58 تقريبا أي %58
إذن وصلنا لأن احتمالية وجود مرض في القلب لدى هذا الشخص هي %.58

لاحظ أن طول الخط الممثل لكل متغير يتناسب مع تأثير هذا المتغير على احتمالية وجود المرض (الحدث) الذى ندرسه

كيف يمكن عمل مثل هذا النوموجرام ؟
stataأولا يمكن استخدام برنامج nomolog عبر وظيفة

والتي تحتاج إلى تحميل الباقة الخاصة بها
rmsثانيا عبر برنامج R باستخدام الباقة
..بالتأكيد توجد طرق وبرامج أخرى

بالمناسبة: شرح طريقة تنفيذ واستخدام النوموجرام تأتى ضمن محاضرات الكورس المتقدم الذى نقدمه : Advanced Medical Statistics 

الجديد فى SPSS28

ما الجديد في الإصدار 28 من برنامج SPSS 🎯
هذه الانطباعات مبنية على تجربة شخصية سريعة بالمقارنة باستخدام الإصدار 26 من البرنامج
خصائص جديدة في البرنامج:👇
🔸 تم إضافة meta-analysis وعمل forest-plot وهى إضافة رائعة لمن هم معتادون على البرنامج
🔹تم إضافة power analysis and sample size calculation بصورة مبسطة وهى تغنى عن اللجوء لبرامج أخرى مثل ستاتا و جى باور
🔸لم تعد قيمة p-value الصغيرة للغاية تظهر بشكل .000وهو الذى كان يفهم خطأ بواسطة بعض الباحثين ، الآن تظهر القيمة بشكل <.001 وهو الأقرب للفهم
🔹الآن يمكن الحصول على correlation coefficient confidence interval for
• يمكن الحصول على نصف ال correlation matrix (المثلث الأسفل) بدلا من الحصول عليها بالشكل العادى
🔸يمكن حساب independent samples t test باستخدام mean and standard deviation بدلا من الداتا الكاملة
🔹 يظهر حساب effect size مباشرة مع حساب independent samples t test
🔸المجموعة المرجعية في ال logistic regression أصبحت المجموعة الأولى بشكل تلقائى بدلا من الأخيرة وصار تغييرها أسهل
🔹 أصبح من الممكن مباشرة حساب simple main effect في اختبار two way ANOVA بصورة مباشرة
🔸 تم إضافة اختبار weighted kappa (أضيف في النسخة 27)
🔹 أصبح التعامل مع الجداول في ال output أكثر سهولة حيث يمكن التعديل عليها بسهولة، وأيضا خروجها بشكل منظم مثل APA format

هل يمكن أن يخدعنا الارتباط Correlation ?

سنفترض أن إحدى المستشفيات لديها جهاز قديم لقياس مقدار الهيموجلوبين في الدم ، وقررت أن تشترى جهازا جديدا للقيام بهذه المهمة. من أجل التأكد أنه لا يوجد فارق بين أداء الجهازين (القديم والجديد) قمنا بتحليل 500 عينة دم على الجهازين (كل عينة تم تحليلها مرة على كل جهاز). قمنا بعدها بجمع الداتا ورسم scatter plot كما في الشكل الظاهر على اليسار، وقمنا بعمل تحليل الارتباط فظهرت لنا قيمة مرتفعة للغاية 0.98 ، إذن يبدو كل شيء على ما يرام .. ولكن .. الحقيقة ليست كذلك

في أواخر القرن الماضى قام العالمان الانجليزيان بلاند وألتمان بابتكار شكل بيانى تم Bland-Altman plotتسميته على اسمهما وذلك قياس مدى الاتفاق بين القياسات

وهو الذى يظهر في الناحية اليمنى الرسم ببساطة يضع على المحور الأفقى متوسط القيمة التي حصلنا عليها من الجهازين ، بينما يضع على المحور الرأسي الفرق بين القياسين فمثلا لو كان القياس على الجهاز الأول 14 وعلى الجهاز الثانى 12 ، فسيكون المتوسط 13 ، والفارق 2 ، ويتم التعبير عنه بنقطة على الشكل البيانى

scatter plotمثل أي

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

:لاكتمال الشكل البياني نضيف عدة خطوط أفقية*

أولا: خط عند الرقم الذي يمثل متوسط الفارق بين الجهازين (هنا يظهر كخط أفقى أزرق عند القيمة 1.82)

confidence interval of the difference ثانيًا:نضيف خطين يمثلا %95

( هنا يظهران كخطين منقطين لونهما بنى ، واحد فوق والآخر تحت الخط السابق) Limits of Agreementويمثلان

ثالثًا: قد نضيف خط آخر عند الصفر (يظهر كخط برتقالى منقط في أسفل الرسم)

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

ما الرسالة التي نستطيع أن نقرأها في هذا الرسم ؟*

أولًا: متوسط الفارق بين قراءات الجهازين هو 1.82 ، لصالح الجهاز الأول ( الجهازالقديم)

confidence intervalكما يظهر أن هذا الفارق ومعه خطى

بعيدين كثيرا عن الصفر، مما يعنى أن الفارق بين الجهازين مختلف كثيرا عن الصفر

ثانيًا: هناك بعض الأشخاص ظهر لديهم فارق أكبر من المعتاد

(confidence intervalالنقاط التي تقع خارج خطى ال ).

ثالثًا: سنلاحظ أن الفارق يزيد تدريجيا بزيادة قيمة متوسط القراءة، أي انه كلما كان الهيموجلوبين مرتفع ، كلما كان الفارق بين الجهازين أكبر

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

!كل هذه المعلومات حصلنا عليها من شكل بيانى واحد فقط

ماذا لو كان الجهازين متماثلين والفارق بينهما طفيف وعشوائي؟

:عندها سيكون الشكل البيانى مختلفًا

سيكون خط المنتصف قريبا من الصفر أو متطابقا معه-

Limits of Agreementستكون كل النقاط (أو معظمها) بين خطى-

سيكون الفارق بين القياسات ثابت تقريبا ( لا يتغير بتغير متوسط القراءات)-

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

الخلاصة: الشكل البيانى لبلاند وألتمان قد يكون أكثر تعبيرا عن مدى الاتفاق بين قياسين بينما قد يكون الارتباط مضللا

لاحظ أننا استخدمنا هنا رسم بلاند وألتمان لنفس المتغير (الهيموجلوبين)، أما إذا كان لدينا متغيرين مختلفين (مثل الطول والوزن) فلا يمكن استخدامه.

دليلك المختصر لاختيار الاختبار الإحصائى المناسب


دليلك المختصر لاختيار الاختبار الإحصائى المناسب

في هذا الدليل حاولنا تبسيط الأمر لمساعدة الباحث في الوصول للإختبار الإحصائى المناسب، وذلك بالمرور عبر خمسة أسئلة أو خمسة مراحل كما يلى

أولًا: هل نبحث عن العلاقة بين متغيرين فقط

(bivariate analysis) أم أننا نبحث عن علاقة عدة متغيرات بالمتغير محل الدراسة (multivariable analysis)
إذا كنا نبحث عن نبحث عن علاقة عدة متغيرات بالمتغير محل الدراسة فنحن غالبا regression analysisنتحدث عن  ثانيا: إذا كنا نبحث العلاقة بين متغيرين اثنين فقط، فهل نبحث عن الفرق أو الاختلاف (difference) أم عن الارتباط بين المتغيرين (correlation)
مثال لدراسة الاختلاف: هل يوجد اختلاف بين درجات الذكور والإناث؟ هل نسبة إصابة الذكور والإناث بهذا المرض هي نفسها؟
أما عن الارتباط بين متغيرين فالمثال: هل هناك علاقة بين مستوى السكر في الدم ومستوى ضغط الدم؟ هل هناك علاقة بين ارتفاع مستوى التعليم وارتفاع مستوى الدخل؟

 ثانيًا: إذا كنا نبحث العلاقة بين متغيرين اثنين فقط، فهل نبحث عن الفرق أو الاختلاف

(difference) أم عن الارتباط بين المتغيرين (correlation)
مثال لدراسة الاختلاف: هل يوجد اختلاف بين درجات الذكور والإناث؟ هل نسبة إصابة الذكور والإناث بهذا المرض هي نفسها؟
أما عن الارتباط بين متغيرين فالمثال: هل هناك علاقة بين مستوى السكر في الدم ومستوى ضغط الدم؟ هل هناك علاقة بين ارتفاع مستوى التعليم وارتفاع مستوى الدخل؟

ثالثًا

(independent)إذا كنا ندرس الفارق أو الاختلاف ، هل عينات المتغير الذى ندرسه مستقل

(paired)أم أننا ندرس عينات مرتبطة
العينات المستقلة مثل وجود مجموعتين: مجموعة تتناول الدواء الأول ومجموعة تتناول الدواء الثانى.
أما العينات المرتبطة فتعنى أن عندى مجموعة واحدة، وأقوم بقياس المتغير لدى نفس الفرد أكثر من مرة، مثل قياس ضغط الدم قبل وبعد تناول دواء معين.

رابعا: ما نوع المتغير الذى نقوم بدراسته؟ وهل يتبع التوزيع الطبيعى
هل هو متغير رقمى مثل ضغط الدم أو مستوى السكر في الدم وذو توزيع طبيعى (normally distributed continuous variable)
أم هو متغير رقمى لايتبع التوزيع الطبيعى مثل عدد أيام الإقامة في المستشفى (non-normally distributed continuous variable)
أم هو متغير كيفي ذو ترتيب (ordinal variable) مثل شدة المرض ، أو درجة انتشار الورم
أو هو متغير اسمى ذو مستويين او أكثر (nominal variable) مثل الجنس ، أو فصيلة الدم

خامسًا: كم عدد المجموعات التي نقارن بينهاهل نقارن بين مجموعتين مثل الذكور والإناث؟ هل نقارن بين ثلاث مجموعات تلقت كل مجموعة دواء معين ، وهكذا

ملاحظات: استخدام هذا الدليل يحتاج إلى فهم لأساسيات الإحصاء وإلمام بتفاصيل كل واحد من هذه الاختبارات وشروط تطبيقههذا الدليل مجرد أداة سريعة للوصول إلى الاختبار الإحصائى المناسب من بين أكثر الاختبارات الإحصائية شيوعًا

🌹نتمنى لكم خالص الفائدة
د. محمد الشريف

SPSS 26 for Beginners (Arabic) كورس بسعر مخفض

reduced

الآن بسعر مخفض جدا
كورس من إنتاجنا على منصة udemy الشهيرة مخصص للمبتدئين في برنامج SPSS
الكورس يستخدم أحدث نسخة من البرنامج وهى الإصدار 26 الصادر في 2019 حيث يكون الشرح للمادة الإنجليزية بعربية بسيطة
الكورس مصمم بطريقة مركزة حيث يحتوى على 35 فيديو قصير تستغرق مدتها حوالى الساعتين والنصف
يهدف هذا الكورس إلى تسهيل التعامل مع البرنامج من البدايات الأولى مرورا بالإحصاء الوصفى وصنع الرسومات البيانية وعمل الاختبارات الإحصائية الأساسية وفهم نتيجتها
يمكنك اعتبار هذا الكورس مرجع سريع إذا أردت أن تعرف كيفية إجراء أى من الاختبارات الاحصائية فتحصل على الاجابة فى شكل فيديو قصير لا يتجاوز عدة دقائق

يمكنكم الحصول على الكورس بسعر مخفض من هذا الرابط

اضغط هنا للوصول للكورس

أو باستخدام الكوبون REDUCED2020

أو من هنا:

اضغط هنا للوصول للكورس
والكورس يغطى الموضوعات التالية :
Section 1: Introduction
1- Introduction and outline
Section 2: Starting with SPSS
2- SPSS first look
3- Data into SPSS
4- Defining variables
Section 3: working with data
5- Compute variable
6- Recode variable
7- Automatic recoding
8- File splitting
9- Selecting cases
10- Weighting cases
Section 4: descriptive statistics
11- Descriptive statistics: one categorical variable
12- Descriptive statistics: Two categorical variables
13- Descriptive statistics: one numerical variable
14- Descriptive statistics: one numerical variable in groups
15- Descriptive statistics: one numerical variable in layers
Section 5: graphs in SPSS
16- Bar charts
17- More bar charts
18- Pie charts
19- Box plot
20- Histogram
21- Scatter plot
Section 6: Analysis of numeric variables: parametric tests
22- Normality testing
23- One sample t test
24- Paired sample t test
25- Independent sample t test
26- One way ANOVA
27- One way ANOVA, post hoc tests
28- Pearson’s correlation
section 7: Analysis of numeric variables: non- parametric tests
29- What are the non-parametric tests?
30- Wilcoxon signed rank test
31- Mann Whitney test
32- Kruskal Wallis test
33- Spearman’s correlation
Section 8: Analysis of categorical variables
34- Chi square test of independence
35- Fisher’s exact test

نتمنى لكم الفائدة

Do we always need to report p-values in clinical trials?

p-value-in-clinical-trials

عندما نقوم بتصميم تجربة عملية من نوع Randomized control study (RCT)

فإننا نقوم بتوزيع المشاركين في التجربة على إحدى المجموعتين ، مجموعة العلاج أو المجموعة الضابطة

Treatment and control groups

وذلك بالطريقة المعروفة باسم Randomization

والهدف من هذه العملية هو أن تتشابه خصائص المجموعتين بالتوزيع المتوازن للمشاركين، وبالتالي يكون الاختلاف في النتيجة بسبب تناول الدواء ، وليس راجعا لاختلاف خصائص المجموعتين، كأن تكون إحدى المجموعات أكبر عمرا ، أو حالتها الصحية أكثر تدهورا أو ينتمون لمستوى اجتماعى معين أو غير ذلك..

عندما نحلل نتيجة التجربة إحصائيا فإننا نبدأ بالجدول الأول والذى نقارن فيه بين الخصائص العامة للمجموعتين ، بهدف أن نؤكد للقارىء أن عملية التوزيع العشوائى للمشاركين كانت ناجحة وأنه لا يوجد اختلاف بين المجموعتين ، فنقارن هنا بين أمور كثيرة مثل الجنس والعمر والحالة الاجتماعية والوظيفية وربما بعض التحاليل قبل بداية التجربة .. الخ

جرت العادة لفترة طويلة أن نذكر في هذا الجدول قيمة ال P value  والتي تكون غالبا  non significant  مدللين بذلك على أنه لا يوجد فارق بين المجموعتين..

والسؤال هنا .. هل نحتاج حقا لفعل هذا؟

قد تتفاجأ عند قراءة بعض الأبحاث في المجلات العالمية الشهيرة بأن هذا الجدول الأول لا يحتوى على p-values  ، وإنما يحتوى فقط على وصف خصائص المجموعتين!

وقد بدأت كثير من المجلات في اتباع هذه الطريقة ، المقارنة الرقمية فقط بين المجموعتين دون ذكر ال p value

لماذا إذن ؟

يرجع هذا لعدة أسباب ..

أولا: في حالة كون عملية التوزيع العشوائى للمشاركين على المجموعتين قد تمت بطريقة صحيحة وحسب الأصول العلمية ، فلا داعى لإعادة فحص ذلك مجددا.

ثانيا: حجم العينة المستخدمة محسوب بناء على الناتج الذى نقوم بدراسته وليس لمقارنة الخصائص عند بداية التجربة ، وبالتالي قد يكون هناك فارق بين المجموعتين ولا يظهر إحصائيا لأن حجم العينة غير كاف

ثالثا: إذا كان حجم العينة كبيرا نسبيا فقد يظهر فارق إحصائى بين المجموعتين، وهذا الفارق ليس لأن المجموعتين مختلفتان بل لأن حجم العينة كبير لدرجة أن أي اختلاف ولو بسيطا سيكون ذا دلالة إحصائية

ماذا نفعل إذن للتأكد من أن كل شيء على ما يرام ..؟

نقوم بفحص أرقام الجدول الأول ، ونقارن بين الفوارق من حيث أهميتها العملية والطبية ، فقد يكون متوسط فارق العمر بين المجموعتين مثلا سنتين ، هذا الفارق قد لا يكون ذو دلالة إحصائية ، ولكنه قد يكون مهما إذا كنا ندرس أحد الأمراض لدى الأطفال بينما قد لا يكون فارقا ذي اعتبار إذا كنا ندرس مرضا لدى كبار السن ، وهكذا ..

في حالة وجود اختلاف في أحد الخصائص بين المجموعتين، ونعتقد أن هذا الاختلاف ذو أهمية لدرجة أنه قد يؤثر على نتيجة التجربة ، يمكننا هنا أن نقوم بعمل تحليل إضافى يأخذ هذا العامل في الاعتبار باستخدام regression analysis

وخلاصة الكلام :

There is no need to report the p-values in the baseline characteristics table to confirm successful randomization. In case there is imbalance between the two groups, a secondary analysis using regression is done to control for those factors.

ملاحظة أخيرة ..

لازالت بعض المجلات العلمية تعتمد الطريقة القديمة ، بينما يعتمد البعض الاخر الطريقة الحديثة ، لذا سيكون عليك في الأغلب اتباع توصية المجلة التي تنوى أن تنشر بحثك فيها ..

 فقط أردنا أن نوضح نقطة قد تخفى على الكثيرين.

Confidence Interval دليلك المبسط للفهم الصحيح

سنفترض أنك كباحث أردت أن تعرف متوسط وزن الطلبة في إحدى الجامعات ، وحيث أنك لن تقوم بقياس وزن كل الطلبة ، فقد قمت بأخذ عينة عشوائية مكونة من 50 طالب وقمت بقياس وزنهم وحساب المتوسط الحسابي mean

ولنفترض أن الرقم الذى حصلت عليه هو 70 كجم ، وهو معبر بشكل أو بآخر عن وزن طلاب هذه الجامعة

ولكن ..

لو افترضنا أننا قمنا بقياس فعلى لوزن كل طالب من طلاب الجامعة فهل سنحصل على النفس النتيجة؟

ربما نعم ، وغالبا لا ..

لو افترضنا أننا أخذنا عينة أخرى فقد نحصل على نفس النتيجة وقد لا نحصل عليها ..

إذن قيامنا بأخذ عينة، وحساب المتوسط الحسابي فنحن لسنا واثقين تماما من أن هذا الرقم يعبر تماما عن كل الطلبة..

ما رأيك لو أخذنا بدلا من هذا الرقم الوحيد مجالا من الأرقام له حد أكبر وحد أدنى ، ونقول أننا واثقون إلى درجة معينة من أن المتوسط الحسابي لكل الطلبة يقع بين هذين الرقمين ، وليكن مثلا 65 و 75 كجم

ربما يكون التعبير عن وزن الطلبة بهذه الطريقة أكثر إفهاما للقارىء .. وهذا المجال هو ما نسميه مجال الثقة أو Confidence Interval

ونختصرها في كثير من الأحيان إلى CI

ولكن انتبه ، نحن لا نتحدث عنها في المطلق ، ولكن لا بد أن تصحبها نسبة مئوية تعبر عن درجة الثقة التي نتحدث عنها ، وبالتالي تكون مثلا : 90%CI , 95% CI, 99% CI

فنقول مثلا:

95% CI of students’ mean weight is 65, 75 kg

بمعنى أننا لو كررنا التجربة عدد كبير أو لا نهائي من المرات فإن متوسط وزن طلبة الجامعة سيكون بين هذين الرقمين في 95% من المرات

ويمكن تفسيرها بالطريقة التالية:

We are 95% confident that the true population mean (mean of all university students weight) lies between 65 and 75 kg

لذا يكون التفسير هو أننا متأكدون بنسبة 95% من أن متوسط الوزن (الصحيح)  لكل الطلبة يقع في هذا النطاق.

قد يحدث أن تجد أحدهم يفسرها بطريقة أخرى :

There is a 95% probability that the true population mean (mean of all university students) lies between 65 and 75 kg

ولكن انتبه: هذا التفسير هو خطأ شائع يقع فيه الكثيرون.

إذا كانت فكرة الموضوع واضحة حتى الآن ، يمكننا إضافة بعض المعلومات التي تعمق الفهم ..

  1. لو افترضنا أننا أخذنا عينة مكونة من 500 طالب بدلا من 50 طالب، في هذه الحالة نتوقع أن تكون النتيجة التي حصلنا عليها أكثر دقة ، وأقرب للرقم الحقيقي الذى نبحث عنه ، وبالتالي ستكون ال confidence interval  أضيق ، ولتكن مثلا 68 و 72
  2. بينما لو أننا كنا أثر تساهلا ، فأردنا مثلا الحصول على 90%CI  بدلا من 95%CI   في هذه الحالة نتوقع أن تكون ال confidence interval  أضيق ، لأننا سمحنا بهامش خطأ أكبر

ملاحظة : لو كنا نحسب confidence interval  للفارق بين مجموعتين مثلا ، واحتوت هذه الفترة على الرقم صفر ، فكانت مثلا بين -2 و 8 ، هذا يعنى أنه ربما يكون الفارق بين المجموعتين صفرا ، وبالتالي قد لا يكون هناك فارق ذو دلالة إحصائية بين المجموعتين.

وهناك حالة خاصة نبحث فيها عن إذا ما كانت ال confidence interval  تحتوى على الرقم 1 وليس الرقم صفر ،  وهى حالة ال OR, RR

حيث أنها تمثل نسبة بين مجموعتين ، ومعنى كون قيمتها =1 هو عدم وجود فارق بين المجموعتين

الخلاصة :

Interpretation of 95%CI : we are 95% confident that the true population mean lies between …. & ….

As the sample size increases, the confidence interval is narrower

If we want more precise confidence level (for example 99% instead of 95%), the CI will be wider

Mean, SD – Median, IQR – Frequency, %; In the baseline table

mean median

يستخدم الجدول الأول في أغلب الأبحاث لوصف العينة المشاركة في الدراسة أو التجربة، وفى هذا الجدول نجد أن أي متغير موصوف بواحد من هذه الطرق:

Mean and standard deviation

Median and interquartile range

Frequency and percentage

فما المقصود بهذه المصطلحات، ومتى نستخدم كل واحدة من هذه الطرق؟

لنبدأ بالأسهل:

Frequency and percentage

إذا كان لدينا متغير من النوع الكيفي مثل الجنس، وجود المرض من عدمه، المستوى التعليمي.. الخ

Categorical variable as sex, presence of disease, educational level

نقوم في هذه الحالة بعرض عدد الأفراد في كل مجموعة ونسبتهم المئوية، مثلا لو كان لدينا 120 مريض ، من بينهم 80 امرأة ، سنعبر عنهم بالعدد أي 80 والنسبة المئوية أي 66.67% وسيكون عدد الذكور 40 ونسبتهم المئوية 33.33%

لاحظ أنه عندما يتكون المتغير من مجموعتين فقط مثل الجنس (ذكر، أنثى)، وجود مرض مزمن (نعم، لا) قد يتم ذكر النسبة المئوية لمجموعة واحدة فقط باعتبار أنه من المفهوم أن المجموعة الأخرى هي المكمل للمائة، بمعنى أننا إذا ذكرنا أن نسبة النساء 60% فمفهوم أن نسبة الذكور 40%.

أما المتغيرات الرقمية مثل الطول، الوزن، عدد الأطفال في الأسرة، عدد أيام الإقامة في المستشفى .. الخ فستخدم لوصفها إما:

Mean and standard deviation or Median and interquartile range

ومن المهم هنا أن نعرف لماذا نقوم أحيانا بوصف المتغير باستخدام أي من الطريقتين وليس الأخرى

من حيث المبدأ يفضل استخدام المتوسط الحسابي والانحراف المعيارى Mean and standard deviation

إلا أن هناك حالات لا يفضل استخدامهما وهى التي لا يكون توزيع المتغير فيها طبيعيا not normally distributed، أو كان الاختبار الإحصائى الذى نستخدمه non parametric

وفى هاتين الحالتين نفضل استخدام Median and interquartile range

لنوضح أولا ما معنى أن يكون توزيع البيانات طبيعيا normally distributed data

المتغير ذو التوزيع الطبيعى للتبسيط هو الذى يشبه في توزيعه شكل الجرس الشهير Bell shaped distribution

وللتبسيط: هو الذى يكون متماثلا حول المتوسط الحسابي، أكثر القياسات فيه مرتكزة حول الوسط بينما قليل من القياسات موجودة عند الأطراف، وأكثر القياسات الحيوية تكون قريبة من التوزيع الطبيعى مثل الوزن والطول وضغط الدم ، الخ.

أما المتغير الذى لا يكون توزيعه طبيعيا فيكون على الأغلب بسبب تركز القياسات في أحد الجانبين ، لنعطى مثالا عن عدد الأيام التي يقيمها المريض في المستشفى، لو جمعنا بيانات تخص 100 مريض مثلا لوجدنا أن أكثرهم قضى في المستشفى بين يوم إلى ثلاثة أيام، بينما هناك قلة من المرضى بقيت في المستشفى لمدة تزيد عن أسبوع وبعضهم ربما قضى شهر أو أكثر ولكنها حالات قليلة. لو قمنا برسم بيانى للتعبير عن هذا المتغير فسنجد القيم متركزة إلى الجانب الأيسر عند الأرقام القليلة ولها ذيل طويل نحو الجانب الأيمن (حاول أن تتخيل معى 😊 ).

هنا التعبير عن المتغير باستخدام المتوسط الحسابي والانحراف المعيارى لن يكون دقيقا لأن كلاهما سيتأثر بالقيم الكبيرة للغاية للمرضى الذين أقاموا في المستشفى لفترات طويلة للغاية. ويكون من الأفضل هنا عرض المتغير باستخدام Median and interquartile range

إذن ما هو الوسيط median ؟

هو الرقم الذى يتوسط البيانات، يقع في المنتصف بحيث أن نصف القياسات تقع أقل منه ونصفها أعلى منه ، لو أردنا أن نقوم بحسابه مثلا لطول مجموعة من الأطفال ، فإننا نقوم بترتيب الأطفال حسب الطول من الأقصر وحتى الأطول ، ويكون الوسيط هو طول الطفل الذى يقع تماما في المنتصف، بحيث يقسم المجموعة إلى قسمين : نصفهم أطول منه ونصفهم أقصر منه.

أما المصطلح الآخر Interquartile range , IQR

فللتوضيح سنستخدم نفس المثال الخاص بأطوال الأطفال، فإذا تم قسمتهم بعد ترتيبهم إلى قسمين باستخدام الوسيط median

وأخذنا النصف الأقصر وقمنا أيضا بقسمته إلى نصفين، وكذلك النصف الأطول وقسمته إلى نصفين مجددا، فكأننا قمنا بتقسيم المجموعة إلى أربعة ارباع بعد ترتيبهم. ولكل من هذه الأرقام التي استخدمناها للتقسيم اسم:

Q1, first quartile

هو الرقم الذى يمثل نهاية الربع الأول ، أي أن ربع الأشخاص أقصر منه أو 25% من البيانات أقل منه.

Q2, median

وهو الرقم الذى يمثل منتصف البيانات تمام كما سبق وذكرنا ، أى 50% من البيانات أقل منه.

Q3, third quartile

وهو الرقم الذى يمثل نهاية الربع الثالث ، أي أن ثلاثة أرباع الأشخاص أقصر منه أو 75% من البيانات أقل منه.

The interquartile rang is equal to Q3-Q1

أي أنه يمثل الفارق بين القيمة التي تقع عند الربع الثالث والقيمة التي تقع عند الربع الأول ، أي أنه يمثل 50% من البيانات التي تقع في المنتصف ، وهناك ربع أقل منها ، وربع أكبر منها.

****

لنوضح الآن المقصود بالفارق بين parametric and non-parametric tests

ببساطة هناك إجمالا نوعين من الاختبارات الإحصائية

بعضها يستخدم مع البيانات ذات التوزيع الطبيعى ( وبعض الشروط الأخرى) ويعتمد على مقارنة قيم البيانات بين المجموعات ومنها على سبيل المثال independent t test and one way ANOVA

وهذه نطلق عليها parametric tests

والبعض الآخر من الاختبارات يستخدم ترتيب البيانات وليس قيمها الفعلية، ونقوم باستخدامها عندما لا تتحقق الشروط لاستخدام الاختبارات السابقة، ومن أمثلتها Mann–Whitney test and Kruskal–Wallis test

عندما يكون الاختبار الإحصائى من النوع الأول (parametric test) يفضل أن نعرض البيانات باستخدام Mean and standard deviation

أما عندما يكون الاختبار الإحصائى المستخدم من النوع الثانى (Non-parametric test) يفضل أن نستخدم Median and Interquartile range

خلاصة الكلام:

Frequency and percentage: for categorical data.

Mean and standard deviation: for normally distributed variables and when parametric tests are used.

Median and Interquartile range: for non-normally distributed variables and when non-parametric tests are used.