Learn with us

💫✨Nomogramسحر ال 

logistic regressionربما يعرف أكثرنا أن ال

يستخدم عندما ندرس متغيرا له خيارين فقط (مثلا : مريض/ غير مريض، توجد مضاعفات/ لا توجد مضاعفات ، طبيعى/ غير طبيعى).
وينتج لدينا معادلة معقدة بعض الشيء يمكننا استخدامها للتنبؤ باحتمالية حدوث هذا الأمر محل الدراسة.
ولكن هل هناك طريقة مبسطة لحساب هذه الاحتمالية دون المرور عبر معادلات
معقدة؟

Nomogramهنا يأتي سحر أحد الرسومات البيانية والتي تسمى نوموجرام
والسحر هنا يأتي من أمرين،

Logistic regressionالأول أنه يمثل بطريقة ما عرضا لل

على شكل جراف ، ويعكس الأهمية النسبية لكل متغير
أما الأمر الثانى فهو استخدامه لحساب احتمالية حدوث الأمر محل الدراسة بطريقة مبسطة لا تشتمل سوى على جمع بعض الأرقام البسيطة فقط، ودون الدخول في
حسابات معقدة.

؟nomogramكيف هو شكل ال

وكيف يمكن فهمه واستخدامه ؟
Rيمكن عمل هذا الرسم باستخدام برنامج stata أو باستخدام

stataالمثال المرفق تم عمله باستخدام برنامج
ويمثل استخدام العمر والجنس والسعة القصوى للأكسجين VO2max للتنبؤ بوجود مرض في القلب

-:يتكون الشكل البيانى من جزئين-
الجزء الأول فيه المتغيرات التي تم استخدامها في النموذج .. في المثال المرفق لدينا Age, sex, VO2max
كل متغير يكون ممثلا بخط. ويكون على هذا الخط نقاط متعددة تمثل قيمة المتغير مثل العمر، أو نقاط بعدد المجموعات مثل متغير الجنس : نقطة للذكور وأخرى للإناث.
اذا كانت زيادة قيمة المتغير تعنى زيادة احتمالية حدوث الحدث مثل العمر (يكون اتجاه تدريج الخط من اليسار لليمين) : زيادة العمر تعنى زيادة احتمالية وجود مرض بالقلب
VO2maxأما إذا كان نقص قيمة المتغير تعنى زيادة احتمالية حدوث الحدث مثل

( يكون اتجاه تدريج المتغير من اليمين لليسار) : نقص السعة القصوى للأكسجين يعنى زيادة احتمالية وجود مرض بالقلب.
أسفل هذه المتغيرات نجد خطا مرقما اسمه score ويعنى الدرجة التي سنعطيها لكل متغير بناء على قيمته

الجزء الثانى: من الرسم يعرض لنا خطا مرقما يخص المجموع الكلى ، وخط آخر يمثل احتمالية وقوع الحدث (وهذا الخط يتراوح ترقيمه بين الصفر والواحد حيث أن الاحتمالية لوقوع أي حدث تتراوح بين الصفر والواحد).

إذن كيف نستخدم هذا النوموجرام من أجل معرفة احتمالية وجود مرض بالقلب لأحد الأشخاص؟
سنفترض أن أحد الأشخاص هو ذكر ، عمره 55 عاما، وقيمة السعة القصوى للأكسجين لديه 52 .

في هذه الحالة سوف نرى الدرجة التي يحصل عليها المريض مقابل كل متغير (الخطوط برتقالية اللون)

المريض ذكر : يحصل على درجة 3.2-
العمر 55 سنة : يحصل على درجة 7.3-
السعة القصوى للأكسجين 52: يحصل على 1.5-
الدرجة الكلية للشخص تأتى من جمع هذه الدرجات : 3.2 +7.3+1.5 =
12-

ننتقل إلى الجزء الأسفل من الرسم لنحصل على احتمال وقوع الحدث المناظر للدرجة 12 (السهم الأخضر الصغير) ، نجد أنها 0.58 تقريبا أي %58
إذن وصلنا لأن احتمالية وجود مرض في القلب لدى هذا الشخص هي %.58

لاحظ أن طول الخط الممثل لكل متغير يتناسب مع تأثير هذا المتغير على احتمالية وجود المرض (الحدث) الذى ندرسه

كيف يمكن عمل مثل هذا النوموجرام ؟
stataأولا يمكن استخدام برنامج nomolog عبر وظيفة

والتي تحتاج إلى تحميل الباقة الخاصة بها
rmsثانيا عبر برنامج R باستخدام الباقة
..بالتأكيد توجد طرق وبرامج أخرى

بالمناسبة: شرح طريقة تنفيذ واستخدام النوموجرام تأتى ضمن محاضرات الكورس المتقدم الذى نقدمه : Advanced Medical Statistics 

هل يمكن أن يخدعنا الارتباط Correlation ?

سنفترض أن إحدى المستشفيات لديها جهاز قديم لقياس مقدار الهيموجلوبين في الدم ، وقررت أن تشترى جهازا جديدا للقيام بهذه المهمة. من أجل التأكد أنه لا يوجد فارق بين أداء الجهازين (القديم والجديد) قمنا بتحليل 500 عينة دم على الجهازين (كل عينة تم تحليلها مرة على كل جهاز). قمنا بعدها بجمع الداتا ورسم scatter plot كما في الشكل الظاهر على اليسار، وقمنا بعمل تحليل الارتباط فظهرت لنا قيمة مرتفعة للغاية 0.98 ، إذن يبدو كل شيء على ما يرام .. ولكن .. الحقيقة ليست كذلك

في أواخر القرن الماضى قام العالمان الانجليزيان بلاند وألتمان بابتكار شكل بيانى تم Bland-Altman plotتسميته على اسمهما وذلك قياس مدى الاتفاق بين القياسات

وهو الذى يظهر في الناحية اليمنى الرسم ببساطة يضع على المحور الأفقى متوسط القيمة التي حصلنا عليها من الجهازين ، بينما يضع على المحور الرأسي الفرق بين القياسين فمثلا لو كان القياس على الجهاز الأول 14 وعلى الجهاز الثانى 12 ، فسيكون المتوسط 13 ، والفارق 2 ، ويتم التعبير عنه بنقطة على الشكل البيانى

scatter plotمثل أي

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

:لاكتمال الشكل البياني نضيف عدة خطوط أفقية*

أولا: خط عند الرقم الذي يمثل متوسط الفارق بين الجهازين (هنا يظهر كخط أفقى أزرق عند القيمة 1.82)

confidence interval of the difference ثانيًا:نضيف خطين يمثلا %95

( هنا يظهران كخطين منقطين لونهما بنى ، واحد فوق والآخر تحت الخط السابق) Limits of Agreementويمثلان

ثالثًا: قد نضيف خط آخر عند الصفر (يظهر كخط برتقالى منقط في أسفل الرسم)

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

ما الرسالة التي نستطيع أن نقرأها في هذا الرسم ؟*

أولًا: متوسط الفارق بين قراءات الجهازين هو 1.82 ، لصالح الجهاز الأول ( الجهازالقديم)

confidence intervalكما يظهر أن هذا الفارق ومعه خطى

بعيدين كثيرا عن الصفر، مما يعنى أن الفارق بين الجهازين مختلف كثيرا عن الصفر

ثانيًا: هناك بعض الأشخاص ظهر لديهم فارق أكبر من المعتاد

(confidence intervalالنقاط التي تقع خارج خطى ال ).

ثالثًا: سنلاحظ أن الفارق يزيد تدريجيا بزيادة قيمة متوسط القراءة، أي انه كلما كان الهيموجلوبين مرتفع ، كلما كان الفارق بين الجهازين أكبر

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

!كل هذه المعلومات حصلنا عليها من شكل بيانى واحد فقط

ماذا لو كان الجهازين متماثلين والفارق بينهما طفيف وعشوائي؟

:عندها سيكون الشكل البيانى مختلفًا

سيكون خط المنتصف قريبا من الصفر أو متطابقا معه-

Limits of Agreementستكون كل النقاط (أو معظمها) بين خطى-

سيكون الفارق بين القياسات ثابت تقريبا ( لا يتغير بتغير متوسط القراءات)-

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

الخلاصة: الشكل البيانى لبلاند وألتمان قد يكون أكثر تعبيرا عن مدى الاتفاق بين قياسين بينما قد يكون الارتباط مضللا

لاحظ أننا استخدمنا هنا رسم بلاند وألتمان لنفس المتغير (الهيموجلوبين)، أما إذا كان لدينا متغيرين مختلفين (مثل الطول والوزن) فلا يمكن استخدامه.

دليلك المختصر لاختيار الاختبار الإحصائى المناسب


دليلك المختصر لاختيار الاختبار الإحصائى المناسب

في هذا الدليل حاولنا تبسيط الأمر لمساعدة الباحث في الوصول للإختبار الإحصائى المناسب، وذلك بالمرور عبر خمسة أسئلة أو خمسة مراحل كما يلى

أولًا: هل نبحث عن العلاقة بين متغيرين فقط

(bivariate analysis) أم أننا نبحث عن علاقة عدة متغيرات بالمتغير محل الدراسة (multivariable analysis)
إذا كنا نبحث عن نبحث عن علاقة عدة متغيرات بالمتغير محل الدراسة فنحن غالبا regression analysisنتحدث عن  ثانيا: إذا كنا نبحث العلاقة بين متغيرين اثنين فقط، فهل نبحث عن الفرق أو الاختلاف (difference) أم عن الارتباط بين المتغيرين (correlation)
مثال لدراسة الاختلاف: هل يوجد اختلاف بين درجات الذكور والإناث؟ هل نسبة إصابة الذكور والإناث بهذا المرض هي نفسها؟
أما عن الارتباط بين متغيرين فالمثال: هل هناك علاقة بين مستوى السكر في الدم ومستوى ضغط الدم؟ هل هناك علاقة بين ارتفاع مستوى التعليم وارتفاع مستوى الدخل؟

 ثانيًا: إذا كنا نبحث العلاقة بين متغيرين اثنين فقط، فهل نبحث عن الفرق أو الاختلاف

(difference) أم عن الارتباط بين المتغيرين (correlation)
مثال لدراسة الاختلاف: هل يوجد اختلاف بين درجات الذكور والإناث؟ هل نسبة إصابة الذكور والإناث بهذا المرض هي نفسها؟
أما عن الارتباط بين متغيرين فالمثال: هل هناك علاقة بين مستوى السكر في الدم ومستوى ضغط الدم؟ هل هناك علاقة بين ارتفاع مستوى التعليم وارتفاع مستوى الدخل؟

ثالثًا

(independent)إذا كنا ندرس الفارق أو الاختلاف ، هل عينات المتغير الذى ندرسه مستقل

(paired)أم أننا ندرس عينات مرتبطة
العينات المستقلة مثل وجود مجموعتين: مجموعة تتناول الدواء الأول ومجموعة تتناول الدواء الثانى.
أما العينات المرتبطة فتعنى أن عندى مجموعة واحدة، وأقوم بقياس المتغير لدى نفس الفرد أكثر من مرة، مثل قياس ضغط الدم قبل وبعد تناول دواء معين.

رابعا: ما نوع المتغير الذى نقوم بدراسته؟ وهل يتبع التوزيع الطبيعى
هل هو متغير رقمى مثل ضغط الدم أو مستوى السكر في الدم وذو توزيع طبيعى (normally distributed continuous variable)
أم هو متغير رقمى لايتبع التوزيع الطبيعى مثل عدد أيام الإقامة في المستشفى (non-normally distributed continuous variable)
أم هو متغير كيفي ذو ترتيب (ordinal variable) مثل شدة المرض ، أو درجة انتشار الورم
أو هو متغير اسمى ذو مستويين او أكثر (nominal variable) مثل الجنس ، أو فصيلة الدم

خامسًا: كم عدد المجموعات التي نقارن بينهاهل نقارن بين مجموعتين مثل الذكور والإناث؟ هل نقارن بين ثلاث مجموعات تلقت كل مجموعة دواء معين ، وهكذا

ملاحظات: استخدام هذا الدليل يحتاج إلى فهم لأساسيات الإحصاء وإلمام بتفاصيل كل واحد من هذه الاختبارات وشروط تطبيقههذا الدليل مجرد أداة سريعة للوصول إلى الاختبار الإحصائى المناسب من بين أكثر الاختبارات الإحصائية شيوعًا

🌹نتمنى لكم خالص الفائدة
د. محمد الشريف

SPSS 26 for Beginners (Arabic) كورس بسعر مخفض

reduced

الآن بسعر مخفض جدا
كورس من إنتاجنا على منصة udemy الشهيرة مخصص للمبتدئين في برنامج SPSS
الكورس يستخدم أحدث نسخة من البرنامج وهى الإصدار 26 الصادر في 2019 حيث يكون الشرح للمادة الإنجليزية بعربية بسيطة
الكورس مصمم بطريقة مركزة حيث يحتوى على 35 فيديو قصير تستغرق مدتها حوالى الساعتين والنصف
يهدف هذا الكورس إلى تسهيل التعامل مع البرنامج من البدايات الأولى مرورا بالإحصاء الوصفى وصنع الرسومات البيانية وعمل الاختبارات الإحصائية الأساسية وفهم نتيجتها
يمكنك اعتبار هذا الكورس مرجع سريع إذا أردت أن تعرف كيفية إجراء أى من الاختبارات الاحصائية فتحصل على الاجابة فى شكل فيديو قصير لا يتجاوز عدة دقائق

يمكنكم الحصول على الكورس بسعر مخفض من هذا الرابط

اضغط هنا للوصول للكورس

أو باستخدام الكوبون REDUCED2020

أو من هنا:

اضغط هنا للوصول للكورس
والكورس يغطى الموضوعات التالية :
Section 1: Introduction
1- Introduction and outline
Section 2: Starting with SPSS
2- SPSS first look
3- Data into SPSS
4- Defining variables
Section 3: working with data
5- Compute variable
6- Recode variable
7- Automatic recoding
8- File splitting
9- Selecting cases
10- Weighting cases
Section 4: descriptive statistics
11- Descriptive statistics: one categorical variable
12- Descriptive statistics: Two categorical variables
13- Descriptive statistics: one numerical variable
14- Descriptive statistics: one numerical variable in groups
15- Descriptive statistics: one numerical variable in layers
Section 5: graphs in SPSS
16- Bar charts
17- More bar charts
18- Pie charts
19- Box plot
20- Histogram
21- Scatter plot
Section 6: Analysis of numeric variables: parametric tests
22- Normality testing
23- One sample t test
24- Paired sample t test
25- Independent sample t test
26- One way ANOVA
27- One way ANOVA, post hoc tests
28- Pearson’s correlation
section 7: Analysis of numeric variables: non- parametric tests
29- What are the non-parametric tests?
30- Wilcoxon signed rank test
31- Mann Whitney test
32- Kruskal Wallis test
33- Spearman’s correlation
Section 8: Analysis of categorical variables
34- Chi square test of independence
35- Fisher’s exact test

نتمنى لكم الفائدة

Do we always need to report p-values in clinical trials?

p-value-in-clinical-trials

عندما نقوم بتصميم تجربة عملية من نوع Randomized control study (RCT)

فإننا نقوم بتوزيع المشاركين في التجربة على إحدى المجموعتين ، مجموعة العلاج أو المجموعة الضابطة

Treatment and control groups

وذلك بالطريقة المعروفة باسم Randomization

والهدف من هذه العملية هو أن تتشابه خصائص المجموعتين بالتوزيع المتوازن للمشاركين، وبالتالي يكون الاختلاف في النتيجة بسبب تناول الدواء ، وليس راجعا لاختلاف خصائص المجموعتين، كأن تكون إحدى المجموعات أكبر عمرا ، أو حالتها الصحية أكثر تدهورا أو ينتمون لمستوى اجتماعى معين أو غير ذلك..

عندما نحلل نتيجة التجربة إحصائيا فإننا نبدأ بالجدول الأول والذى نقارن فيه بين الخصائص العامة للمجموعتين ، بهدف أن نؤكد للقارىء أن عملية التوزيع العشوائى للمشاركين كانت ناجحة وأنه لا يوجد اختلاف بين المجموعتين ، فنقارن هنا بين أمور كثيرة مثل الجنس والعمر والحالة الاجتماعية والوظيفية وربما بعض التحاليل قبل بداية التجربة .. الخ

جرت العادة لفترة طويلة أن نذكر في هذا الجدول قيمة ال P value  والتي تكون غالبا  non significant  مدللين بذلك على أنه لا يوجد فارق بين المجموعتين..

والسؤال هنا .. هل نحتاج حقا لفعل هذا؟

قد تتفاجأ عند قراءة بعض الأبحاث في المجلات العالمية الشهيرة بأن هذا الجدول الأول لا يحتوى على p-values  ، وإنما يحتوى فقط على وصف خصائص المجموعتين!

وقد بدأت كثير من المجلات في اتباع هذه الطريقة ، المقارنة الرقمية فقط بين المجموعتين دون ذكر ال p value

لماذا إذن ؟

يرجع هذا لعدة أسباب ..

أولا: في حالة كون عملية التوزيع العشوائى للمشاركين على المجموعتين قد تمت بطريقة صحيحة وحسب الأصول العلمية ، فلا داعى لإعادة فحص ذلك مجددا.

ثانيا: حجم العينة المستخدمة محسوب بناء على الناتج الذى نقوم بدراسته وليس لمقارنة الخصائص عند بداية التجربة ، وبالتالي قد يكون هناك فارق بين المجموعتين ولا يظهر إحصائيا لأن حجم العينة غير كاف

ثالثا: إذا كان حجم العينة كبيرا نسبيا فقد يظهر فارق إحصائى بين المجموعتين، وهذا الفارق ليس لأن المجموعتين مختلفتان بل لأن حجم العينة كبير لدرجة أن أي اختلاف ولو بسيطا سيكون ذا دلالة إحصائية

ماذا نفعل إذن للتأكد من أن كل شيء على ما يرام ..؟

نقوم بفحص أرقام الجدول الأول ، ونقارن بين الفوارق من حيث أهميتها العملية والطبية ، فقد يكون متوسط فارق العمر بين المجموعتين مثلا سنتين ، هذا الفارق قد لا يكون ذو دلالة إحصائية ، ولكنه قد يكون مهما إذا كنا ندرس أحد الأمراض لدى الأطفال بينما قد لا يكون فارقا ذي اعتبار إذا كنا ندرس مرضا لدى كبار السن ، وهكذا ..

في حالة وجود اختلاف في أحد الخصائص بين المجموعتين، ونعتقد أن هذا الاختلاف ذو أهمية لدرجة أنه قد يؤثر على نتيجة التجربة ، يمكننا هنا أن نقوم بعمل تحليل إضافى يأخذ هذا العامل في الاعتبار باستخدام regression analysis

وخلاصة الكلام :

There is no need to report the p-values in the baseline characteristics table to confirm successful randomization. In case there is imbalance between the two groups, a secondary analysis using regression is done to control for those factors.

ملاحظة أخيرة ..

لازالت بعض المجلات العلمية تعتمد الطريقة القديمة ، بينما يعتمد البعض الاخر الطريقة الحديثة ، لذا سيكون عليك في الأغلب اتباع توصية المجلة التي تنوى أن تنشر بحثك فيها ..

 فقط أردنا أن نوضح نقطة قد تخفى على الكثيرين.

Confidence Interval دليلك المبسط للفهم الصحيح

سنفترض أنك كباحث أردت أن تعرف متوسط وزن الطلبة في إحدى الجامعات ، وحيث أنك لن تقوم بقياس وزن كل الطلبة ، فقد قمت بأخذ عينة عشوائية مكونة من 50 طالب وقمت بقياس وزنهم وحساب المتوسط الحسابي mean

ولنفترض أن الرقم الذى حصلت عليه هو 70 كجم ، وهو معبر بشكل أو بآخر عن وزن طلاب هذه الجامعة

ولكن ..

لو افترضنا أننا قمنا بقياس فعلى لوزن كل طالب من طلاب الجامعة فهل سنحصل على النفس النتيجة؟

ربما نعم ، وغالبا لا ..

لو افترضنا أننا أخذنا عينة أخرى فقد نحصل على نفس النتيجة وقد لا نحصل عليها ..

إذن قيامنا بأخذ عينة، وحساب المتوسط الحسابي فنحن لسنا واثقين تماما من أن هذا الرقم يعبر تماما عن كل الطلبة..

ما رأيك لو أخذنا بدلا من هذا الرقم الوحيد مجالا من الأرقام له حد أكبر وحد أدنى ، ونقول أننا واثقون إلى درجة معينة من أن المتوسط الحسابي لكل الطلبة يقع بين هذين الرقمين ، وليكن مثلا 65 و 75 كجم

ربما يكون التعبير عن وزن الطلبة بهذه الطريقة أكثر إفهاما للقارىء .. وهذا المجال هو ما نسميه مجال الثقة أو Confidence Interval

ونختصرها في كثير من الأحيان إلى CI

ولكن انتبه ، نحن لا نتحدث عنها في المطلق ، ولكن لا بد أن تصحبها نسبة مئوية تعبر عن درجة الثقة التي نتحدث عنها ، وبالتالي تكون مثلا : 90%CI , 95% CI, 99% CI

فنقول مثلا:

95% CI of students’ mean weight is 65, 75 kg

بمعنى أننا لو كررنا التجربة عدد كبير أو لا نهائي من المرات فإن متوسط وزن طلبة الجامعة سيكون بين هذين الرقمين في 95% من المرات

ويمكن تفسيرها بالطريقة التالية:

We are 95% confident that the true population mean (mean of all university students weight) lies between 65 and 75 kg

لذا يكون التفسير هو أننا متأكدون بنسبة 95% من أن متوسط الوزن (الصحيح)  لكل الطلبة يقع في هذا النطاق.

قد يحدث أن تجد أحدهم يفسرها بطريقة أخرى :

There is a 95% probability that the true population mean (mean of all university students) lies between 65 and 75 kg

ولكن انتبه: هذا التفسير هو خطأ شائع يقع فيه الكثيرون.

إذا كانت فكرة الموضوع واضحة حتى الآن ، يمكننا إضافة بعض المعلومات التي تعمق الفهم ..

  1. لو افترضنا أننا أخذنا عينة مكونة من 500 طالب بدلا من 50 طالب، في هذه الحالة نتوقع أن تكون النتيجة التي حصلنا عليها أكثر دقة ، وأقرب للرقم الحقيقي الذى نبحث عنه ، وبالتالي ستكون ال confidence interval  أضيق ، ولتكن مثلا 68 و 72
  2. بينما لو أننا كنا أثر تساهلا ، فأردنا مثلا الحصول على 90%CI  بدلا من 95%CI   في هذه الحالة نتوقع أن تكون ال confidence interval  أضيق ، لأننا سمحنا بهامش خطأ أكبر

ملاحظة : لو كنا نحسب confidence interval  للفارق بين مجموعتين مثلا ، واحتوت هذه الفترة على الرقم صفر ، فكانت مثلا بين -2 و 8 ، هذا يعنى أنه ربما يكون الفارق بين المجموعتين صفرا ، وبالتالي قد لا يكون هناك فارق ذو دلالة إحصائية بين المجموعتين.

وهناك حالة خاصة نبحث فيها عن إذا ما كانت ال confidence interval  تحتوى على الرقم 1 وليس الرقم صفر ،  وهى حالة ال OR, RR

حيث أنها تمثل نسبة بين مجموعتين ، ومعنى كون قيمتها =1 هو عدم وجود فارق بين المجموعتين

الخلاصة :

Interpretation of 95%CI : we are 95% confident that the true population mean lies between …. & ….

As the sample size increases, the confidence interval is narrower

If we want more precise confidence level (for example 99% instead of 95%), the CI will be wider

Mean, SD – Median, IQR – Frequency, %; In the baseline table

mean median

يستخدم الجدول الأول في أغلب الأبحاث لوصف العينة المشاركة في الدراسة أو التجربة، وفى هذا الجدول نجد أن أي متغير موصوف بواحد من هذه الطرق:

Mean and standard deviation

Median and interquartile range

Frequency and percentage

فما المقصود بهذه المصطلحات، ومتى نستخدم كل واحدة من هذه الطرق؟

لنبدأ بالأسهل:

Frequency and percentage

إذا كان لدينا متغير من النوع الكيفي مثل الجنس، وجود المرض من عدمه، المستوى التعليمي.. الخ

Categorical variable as sex, presence of disease, educational level

نقوم في هذه الحالة بعرض عدد الأفراد في كل مجموعة ونسبتهم المئوية، مثلا لو كان لدينا 120 مريض ، من بينهم 80 امرأة ، سنعبر عنهم بالعدد أي 80 والنسبة المئوية أي 66.67% وسيكون عدد الذكور 40 ونسبتهم المئوية 33.33%

لاحظ أنه عندما يتكون المتغير من مجموعتين فقط مثل الجنس (ذكر، أنثى)، وجود مرض مزمن (نعم، لا) قد يتم ذكر النسبة المئوية لمجموعة واحدة فقط باعتبار أنه من المفهوم أن المجموعة الأخرى هي المكمل للمائة، بمعنى أننا إذا ذكرنا أن نسبة النساء 60% فمفهوم أن نسبة الذكور 40%.

أما المتغيرات الرقمية مثل الطول، الوزن، عدد الأطفال في الأسرة، عدد أيام الإقامة في المستشفى .. الخ فستخدم لوصفها إما:

Mean and standard deviation or Median and interquartile range

ومن المهم هنا أن نعرف لماذا نقوم أحيانا بوصف المتغير باستخدام أي من الطريقتين وليس الأخرى

من حيث المبدأ يفضل استخدام المتوسط الحسابي والانحراف المعيارى Mean and standard deviation

إلا أن هناك حالات لا يفضل استخدامهما وهى التي لا يكون توزيع المتغير فيها طبيعيا not normally distributed، أو كان الاختبار الإحصائى الذى نستخدمه non parametric

وفى هاتين الحالتين نفضل استخدام Median and interquartile range

لنوضح أولا ما معنى أن يكون توزيع البيانات طبيعيا normally distributed data

المتغير ذو التوزيع الطبيعى للتبسيط هو الذى يشبه في توزيعه شكل الجرس الشهير Bell shaped distribution

وللتبسيط: هو الذى يكون متماثلا حول المتوسط الحسابي، أكثر القياسات فيه مرتكزة حول الوسط بينما قليل من القياسات موجودة عند الأطراف، وأكثر القياسات الحيوية تكون قريبة من التوزيع الطبيعى مثل الوزن والطول وضغط الدم ، الخ.

أما المتغير الذى لا يكون توزيعه طبيعيا فيكون على الأغلب بسبب تركز القياسات في أحد الجانبين ، لنعطى مثالا عن عدد الأيام التي يقيمها المريض في المستشفى، لو جمعنا بيانات تخص 100 مريض مثلا لوجدنا أن أكثرهم قضى في المستشفى بين يوم إلى ثلاثة أيام، بينما هناك قلة من المرضى بقيت في المستشفى لمدة تزيد عن أسبوع وبعضهم ربما قضى شهر أو أكثر ولكنها حالات قليلة. لو قمنا برسم بيانى للتعبير عن هذا المتغير فسنجد القيم متركزة إلى الجانب الأيسر عند الأرقام القليلة ولها ذيل طويل نحو الجانب الأيمن (حاول أن تتخيل معى 😊 ).

هنا التعبير عن المتغير باستخدام المتوسط الحسابي والانحراف المعيارى لن يكون دقيقا لأن كلاهما سيتأثر بالقيم الكبيرة للغاية للمرضى الذين أقاموا في المستشفى لفترات طويلة للغاية. ويكون من الأفضل هنا عرض المتغير باستخدام Median and interquartile range

إذن ما هو الوسيط median ؟

هو الرقم الذى يتوسط البيانات، يقع في المنتصف بحيث أن نصف القياسات تقع أقل منه ونصفها أعلى منه ، لو أردنا أن نقوم بحسابه مثلا لطول مجموعة من الأطفال ، فإننا نقوم بترتيب الأطفال حسب الطول من الأقصر وحتى الأطول ، ويكون الوسيط هو طول الطفل الذى يقع تماما في المنتصف، بحيث يقسم المجموعة إلى قسمين : نصفهم أطول منه ونصفهم أقصر منه.

أما المصطلح الآخر Interquartile range , IQR

فللتوضيح سنستخدم نفس المثال الخاص بأطوال الأطفال، فإذا تم قسمتهم بعد ترتيبهم إلى قسمين باستخدام الوسيط median

وأخذنا النصف الأقصر وقمنا أيضا بقسمته إلى نصفين، وكذلك النصف الأطول وقسمته إلى نصفين مجددا، فكأننا قمنا بتقسيم المجموعة إلى أربعة ارباع بعد ترتيبهم. ولكل من هذه الأرقام التي استخدمناها للتقسيم اسم:

Q1, first quartile

هو الرقم الذى يمثل نهاية الربع الأول ، أي أن ربع الأشخاص أقصر منه أو 25% من البيانات أقل منه.

Q2, median

وهو الرقم الذى يمثل منتصف البيانات تمام كما سبق وذكرنا ، أى 50% من البيانات أقل منه.

Q3, third quartile

وهو الرقم الذى يمثل نهاية الربع الثالث ، أي أن ثلاثة أرباع الأشخاص أقصر منه أو 75% من البيانات أقل منه.

The interquartile rang is equal to Q3-Q1

أي أنه يمثل الفارق بين القيمة التي تقع عند الربع الثالث والقيمة التي تقع عند الربع الأول ، أي أنه يمثل 50% من البيانات التي تقع في المنتصف ، وهناك ربع أقل منها ، وربع أكبر منها.

****

لنوضح الآن المقصود بالفارق بين parametric and non-parametric tests

ببساطة هناك إجمالا نوعين من الاختبارات الإحصائية

بعضها يستخدم مع البيانات ذات التوزيع الطبيعى ( وبعض الشروط الأخرى) ويعتمد على مقارنة قيم البيانات بين المجموعات ومنها على سبيل المثال independent t test and one way ANOVA

وهذه نطلق عليها parametric tests

والبعض الآخر من الاختبارات يستخدم ترتيب البيانات وليس قيمها الفعلية، ونقوم باستخدامها عندما لا تتحقق الشروط لاستخدام الاختبارات السابقة، ومن أمثلتها Mann–Whitney test and Kruskal–Wallis test

عندما يكون الاختبار الإحصائى من النوع الأول (parametric test) يفضل أن نعرض البيانات باستخدام Mean and standard deviation

أما عندما يكون الاختبار الإحصائى المستخدم من النوع الثانى (Non-parametric test) يفضل أن نستخدم Median and Interquartile range

خلاصة الكلام:

Frequency and percentage: for categorical data.

Mean and standard deviation: for normally distributed variables and when parametric tests are used.

Median and Interquartile range: for non-normally distributed variables and when non-parametric tests are used.

Odds Ratio and Risk Ratio والخلط الذى لا ينتهى !

OR and RR

يكثر الخلط بينهما، وأحيانا يتم الحديث عنهما كما لو كانا شيء واحد، وأحيانا يتم استخدام واحد منهما بالخطأ بدلا من الآخر!

سأحكى لكم حكايتين عن تجربتين..

الأولى تجربة من نوع Cohort study

صديقنا الباحث يعمل في شركة كبرى بها مئات الموظفين، وراوده سؤال بحثى: هل تحدث أمراض القلب أكثر لدى المدخنين أم لدى غير المدخنين في الشركة؟

قام بتقسيم موظفي الشركة إلى مجموعة المدخنين، ومجموعة غير المدخنين، سأل الجميع إن كان أحدهم لديه مشكلة بالفعل في القلب، وقام باستبعاد مرضى القلب من الدراسة.

المجموعتين الآن ليس لدى أي منهم أمراض بالقلب، وقرر أن يتابع هؤلاء الموظفين لمدة 5 سنوات، وأن يحسب نسبة حدوث أمراض القلب في كل مجموعة، ولنفترض أن كل مجموعة تتكون من 400 موظف.

وجد الباحث في نهاية السنوات الخمس أن نسبة حدوث أمراض القلب لدى غير المدخنين هي 5%، أي من بين الموظفين ال 400 أصيب 20 بأمراض القلب.

بينما لدى مجموعة المدخنين كانت نسبة حدوث أمراض القلب هي 10%، ومفهوم أن ذلك يعنى أن 40 موظف مدخن من بين ال 400 قد أصيب بأمراض القلب.

يمكننا أن نعبر عن العبارات السابقة علميا بهذه الطريقة:

The risk of having heart diseases among non-smokers =20/400= 5%

The risk of having heart diseases among smokers =40/400= 10%

** لاحظ أننا نقوم بقسمة عدد الحالات على إجمالي المجموعة (المقام هنا يمثل كل المجموعة)

وإذا أردنا أن نقارن هاتين النسبتين سنقول أن احتمالية (خطورة) حدوث أمراض القلب لدى المدخنين تمثل ضعف احتمالية (خطورة) حدوث أمراض القلب لدى غير المدخنين.

The risk of having heart diseases among smokers is 2 times the risk of having heart diseases among non-smokers. This is the Relative Risk, or the Risk Ratio, or RR

أي أن هذا المصطلح يقارن نسبة مئوية إلى نسبة مئوية، نسبة حدوث المرض لدى المعرضين للخطر(التدخين) إلى نسبة حدوث المرض لدى غير المعرضين (غير المدخنين)، وبالتالي هي 10 مقسومة على 5 أو 0.10 مقسومة على 0.05 ، والنتيجة هي 2

RR= 0.1/0.05=10/5=2

***

في هذه التجربة يمكن أيضا أن نقوم بحساب ال Odds Ratio

هو مصطلح أصعب قليلا ولكنه هام للغاية، ويختلف في حسابه عن ال Relative risk

هنا أيضا نقوم بقسمة رقمين على بعضهما

Odds of the disease (heart disease) among exposed (smokers)/ odds of the disease among non-exposed

هنا نقسم:

Odds/odds

ولكن كيف نحسب ال odds

هنا لا نقوم بقسمة عدد المرضى على إجمالي المجموعة ، بل نقوم بقسمة عدد المرضى إلى غير المرضى في كل مجموعة

بالنسبة لمجموعة المدخنين:

Odds of the disease (heart disease) among exposed (smokers) =

number of diseased/ number not diseased= 40/360 = 0.11

أما مجموعة غير المدخنين:

Odds of the disease (heart disease) among non-exposed (non-smokers) =

number of diseased/ number not diseased= 20/380 = 0.05

ثم نقسم الرقم الأول على الثانى لنحصل على ال OR

OR= 0.11/0.05= 2.2

ويتم تفسيرها كالآتى:

Odds of having heart disease among smokers is 2.2 times the odds of having heart disease among non-smokers.

****

يبدو هنا أن ال Relative Risk أكثر منطقية وأسهل للفهم..

لماذا إذن نحتاج لحساب ال odds ratio

****

لننتقل الآن إلى الحكاية الأخرى ..

كان هناك باحث آخر يعمل في نفس الشركة، وأراد أن يصمم بحث مشابه عن وجود علاقة بين التدخين وأمراض القلب ، ولكنه لا يستطيع أن ينتظر 5 سنوات مثل الباحث الأول ليحصل على النتيجة، فصمم تجربة أخرى من نوع case control study

قام الباحث بدراسة 100 مريض حدثت لديهم ذبحة صدرية، وقام بالبحث عن 100 شخص آخرين يتشابهون مع هؤلاء الأشخاص، كل مريض يناظره شخص صحيح، يشابهه في العمر، والجنس ، والتعليم، والمستوى الاجتماعى، والوظيفى ، إلخ.

ثم قام الباحث بسؤال كل شخص من المجموعتين عن تاريخه مع التدخين (أو قام بفحص سجلاتهم الطبية على مدار السنوات السابقة)، فوجد أن المرضى كان بينهم 40 مدخن، بينما مجموعة الأشخاص الأصحاء كان بينهم 20 مدخن فقط.

توقف هنا للحظة، ولا حظ الفرق بين التجربتين..

في التجربة الأولى حسبنا معدل حدوث أمراض القلب لدى المدخنين وغير المدخنين، وبالتالي حسبنا ال Relative Risk, or the Risk Ratio

بينما هنا فتشنا عن تاريخ التدخين في مجموعة من مرضى القلب ومجموعة من الأصحاء، وبالتالي لا مجال في هذه التجربة الثانية للحديث عن معدل الإصابة بالمرض! (عدد المرضى هنا يتحكم به الباحث ونحدده من البداية، وليس بناء على معدل حدوث المرض).

وبالتالي لا يمكن في هذه التجربة حساب ال Relative Risk, or the Risk Ratio

ويمكننا فقط للتعبير عن هذه العلاقة أن نقوم بحساب ال odds ratio

لنسترجع معاً المعطيات:

100 مريض ذبحة صدرية: 40 مدخن، 60 لا يدخن

100 شخص سليم: 20 مدخن، 80 لا يدخن

ويمكن النظر للداتا بطريقة أخرى:

من بين 60 مدخن 40 لديهم ذبحة صدرية، 20 أصحاء

ومن بين 140 شخص لا يدخن: 60 لديهم ذبحة صدرية، 80 أصحاء

يبدو الأمر مشوشا بعض الشيء ، ولكننا يمكننا حساب ال odds ratio في الاتجاهين:

Odds of being a smoker among patients with heart attack/ odds of being a smoker among healthy people

(40/60)/(20/80)= 2.67

وتفهم بهذه الطريقة:

Odds of being a smoker among patients with heart attack is 2.67 times the odds of being a smoker among healthy people

أو الاتجاه الآخر :

Odds of having a heart attack among smokers / odds of having a heart attack among non smokers

(40/20)/(60/80)=2.67

وتفهم بهذه الطريقة:

Odds of having a heart attack among smokers is 2.67 times the odds of having a heart attack among non smokers

على الرغم من أنها يمكن أن تحسب في كل من الاتجاهين ، إلا أننا غالبا ما نحسبها بالطريقة الثانية لمقارنة المرض بين المعرضين لعامل خطر معين، ونفس المرض لدى غير المعرضين لهذا العامل

****

لا بأس إن كانت الحسابات مزعجة وغير واضحة، فليس الهدف هنا شرح المعادلات، ولكن الهدف هو الخروج ببعض النقاط الهامة التالية :

• Odds Ratio is different from Risk Ratio.

• Only in rare diseases the value of odds ratio and relative risk will be almost numerically similar.

• Odds is calculated by dividing part/part as diseased/not diseased, while risk is calculated by dividing part/total as diseased/all exposed (diseased and not diseased).

• Relative risk is calculated in cohort studies but not in case control studies

• Odds ratios are important as they are used for interpretation of logistic regression and are the only suitable measure in case control studies.

نأمل أن يكون هذا الشرح قد ساعد على تقريب المفاهيم والتمييز بينها

Correlation & Regression المفاهيم والاستخدامات

من المهم لأى دارس أو باحث أن يعرف الفرق بين هذين المصطلحين واستخداماتهما وألا يخلط بينهما

لنبدأ معا بموضوع الارتباط Correlation

يمكن من الاسم التخمين أنه يمثل العلاقة بين متغيرين، وتحديدا قوة واتجاه العلاقة.

Association between two variables

مثلا يمكننا القول أن هناك علاقة أو ارتباط بين طول الطفل ووزنه، ويمكننا أيضا أن نقول أن العلاقة إيجابية، أي أن الطول والوزن يزيدان معا، بينما قد تكون علاقة أخرى عكسية مثل العلاقة بين النشاط البدنى ومؤشر كتلة الجسم BMI

زيادة أحدهما يكون مصحوبا غالبا بنقص الآخر

 ويمكننا أن نعبر عن العلاقة بين المتغيرين برقم واحد، يزيد بزيادة قوة الارتباط، وتكون قيمته موجبة في العلاقة الإيجابية، وسالبة في العلاقة العكسية، وهذا الرقم نسميه معامل الارتباط أو correlation coefficient

تتراوح قيمة معامل الارتباط من -1 إلى 1 ، كلما اقتربنا من 1 أو -1 تكون العلاقة أكثر قوة، وكلما اقتربنا من الصفر تكون العلاقة ضعيفة أو معدومة.

مثال:

The correlation coefficient for children’s weight and height: r=0.85

The correlation is positive and strong

مثال آخر:

The correlation coefficient for physical activity and BMI: r= -0.4

The correlation is negative and moderate

مثال أخير:

The correlation coefficient for children’s weight and score in the exam: r=0.05

There is no correlation between children’s weight and score in the exam

ملاحظة هامة: وجود ارتباط بين عاملين لا يعنى أن أحدهما يسبب الآخر أو يؤثر في الآخر، أي أن الارتباط لا يعنى السببية، وتذكر الجملة الشهيرة:

correlation does not imply causation

ملاحظة أخرى: الارتباط بين المتغير س والمتغير ص ، هو نفسه الارتباط بين المتغير ص والمتغير س ، بمعنى:

Correlation of weight and height is equal to the correlation of height and weight

ملاحظة ثالثة: هناك نوعان شهيران من الارتباط Pearson’s correlation and Spearman’s correlation  

 يتشابهان في الغرض ويختلفان في الاستخدام

*****

والآن لننتقل للموضوع الآخر الذى يطلق عليه الانحدار Regression

إذا كان الارتباط correlation  يستخدم لوصف العلاقة بين متغيرين

فإن الانحدار Regression يقوم بحساب المعادلة الرياضية التي تصف تأثير أحد المتغيرين في المتغير الآخر

وبالتالي يمكن استخدام معادلة الانحدار في التنبؤ بهذا المتغير “التابع” والذى نطلق عليه dependent variable

ويمكننا تمثيل العلاقة بين المتغيرين بخط على الرسم البيانى يمثل العلاقة بينهما ولهذا الخط معادلة حسابية، تخبرنا بمقدار التغير الذى سيحدث في المتغير التابع إن حدث تغير في المتغير المستقل independent variable

لاحظ أن علاقة الانحدار بين س، ص تختلف عن علاقة الانحدار بين ص ، س ، الأمر مختلف ولابد من أخذ علاقة السببية في الاعتبار، أي من المتغيرين يؤثر في الآخر

الانحدار لا يقوم فقط باستخدام متغير واحد للتنبؤ بآخر ، بل إن الشائع هو استخدام أكثر من متغير للتنبؤ بمتغير واحد.

على سبيل المثال: يمكننا أن نستخدم قياس السكر في الدم أثناء الصيام للتنبؤ بمستوى الهيموجلوبين السكرى

Using fasting blood glucose to predict HbA1c level

وقد تكون المعادلة مثلا

HBA1c = 3.2+ (0.45*Blood glucose)

الاستخدام الأشهر للانحدار هو التنبؤ، وهو الأمر الذى ينبنى عليه تطبيقات واستخدامات كثيرة جدا في علوم البيانات والذكاء الصناعى

بينما يستخدم في الأبحاث الطبية أيضا لغرض آخر هام، ألا وهو :

Controlling for other variables

بمعنى أننى قد أجرى أحد البحوث الطبية لدراسة العلاقة بين التدخين و مشاكل الشرايين التاجية، هذه العلاقة قد تتأثر بعوامل أخرى كثيرة مثل الجنس ، العمر، شرب القهوة، طبيعة العمل، تناول الكحول، وجود مرض السكرى .. الخ

وللوصول إلى علاقة دقيقة بين التدخين ومشاكل الشرايين التاجية، نحتاج لاستخدام نموذج انحدار أو regression model

يحتوى على كل هذه العوامل السابق ذكرها.

أنواع الانحدار التي نراها غالبا في الأبحاث الطبية تعتمد على المتغير التابع الذى نقوم بالتنبؤ به أو دراسة تأثير العوامل الأخرى عليه dependent variable

وأشهر هذه الأنواع هي:

Linear regression: for continuous dependent variable, e.g. HBA1c

ويستخدم إذا كان المتغير الذى نتنبأ به متغير رقمى، مثل مستوى أحد المركبات الكيميائية في الدم، أو ضغط الدم، الخ

Logistic regression: for binary variables, e.g. Yes/No, Diseased/Not diseased

نستخدمه في حالة كون المتغير الذى نتنبأ به متغير من مستويين مثل وجود المرض أو عدمه ، أو حدوث الوفاة أو لا.

Cox regression: for survival analysis where the outcome is time to certain event, e.g. time to recurrence

نستخدمه في نوع خاص من الدراسات، والتي تقيس الزمن حتى حدوث حدث معين، مثل الزمن حتى الوفاة، أو الزمن حتى رجوع السرطان

ملاحظة أخيرة: أنواع الانحدار أكثر وأعمق وحساباته أيضا معقدة، أردنا هنا أن نعطى فكرة سطحية مبسطة عن الموضوع.