Learn with us

Mean, SD – Median, IQR – Frequency, %; In the baseline table

mean median

يستخدم الجدول الأول في أغلب الأبحاث لوصف العينة المشاركة في الدراسة أو التجربة، وفى هذا الجدول نجد أن أي متغير موصوف بواحد من هذه الطرق:

Mean and standard deviation

Median and interquartile range

Frequency and percentage

فما المقصود بهذه المصطلحات، ومتى نستخدم كل واحدة من هذه الطرق؟

لنبدأ بالأسهل:

Frequency and percentage

إذا كان لدينا متغير من النوع الكيفي مثل الجنس، وجود المرض من عدمه، المستوى التعليمي.. الخ

Categorical variable as sex, presence of disease, educational level

نقوم في هذه الحالة بعرض عدد الأفراد في كل مجموعة ونسبتهم المئوية، مثلا لو كان لدينا 120 مريض ، من بينهم 80 امرأة ، سنعبر عنهم بالعدد أي 80 والنسبة المئوية أي 66.67% وسيكون عدد الذكور 40 ونسبتهم المئوية 33.33%

لاحظ أنه عندما يتكون المتغير من مجموعتين فقط مثل الجنس (ذكر، أنثى)، وجود مرض مزمن (نعم، لا) قد يتم ذكر النسبة المئوية لمجموعة واحدة فقط باعتبار أنه من المفهوم أن المجموعة الأخرى هي المكمل للمائة، بمعنى أننا إذا ذكرنا أن نسبة النساء 60% فمفهوم أن نسبة الذكور 40%.

أما المتغيرات الرقمية مثل الطول، الوزن، عدد الأطفال في الأسرة، عدد أيام الإقامة في المستشفى .. الخ فستخدم لوصفها إما:

Mean and standard deviation or Median and interquartile range

ومن المهم هنا أن نعرف لماذا نقوم أحيانا بوصف المتغير باستخدام أي من الطريقتين وليس الأخرى

من حيث المبدأ يفضل استخدام المتوسط الحسابي والانحراف المعيارى Mean and standard deviation

إلا أن هناك حالات لا يفضل استخدامهما وهى التي لا يكون توزيع المتغير فيها طبيعيا not normally distributed، أو كان الاختبار الإحصائى الذى نستخدمه non parametric

وفى هاتين الحالتين نفضل استخدام Median and interquartile range

لنوضح أولا ما معنى أن يكون توزيع البيانات طبيعيا normally distributed data

المتغير ذو التوزيع الطبيعى للتبسيط هو الذى يشبه في توزيعه شكل الجرس الشهير Bell shaped distribution

وللتبسيط: هو الذى يكون متماثلا حول المتوسط الحسابي، أكثر القياسات فيه مرتكزة حول الوسط بينما قليل من القياسات موجودة عند الأطراف، وأكثر القياسات الحيوية تكون قريبة من التوزيع الطبيعى مثل الوزن والطول وضغط الدم ، الخ.

أما المتغير الذى لا يكون توزيعه طبيعيا فيكون على الأغلب بسبب تركز القياسات في أحد الجانبين ، لنعطى مثالا عن عدد الأيام التي يقيمها المريض في المستشفى، لو جمعنا بيانات تخص 100 مريض مثلا لوجدنا أن أكثرهم قضى في المستشفى بين يوم إلى ثلاثة أيام، بينما هناك قلة من المرضى بقيت في المستشفى لمدة تزيد عن أسبوع وبعضهم ربما قضى شهر أو أكثر ولكنها حالات قليلة. لو قمنا برسم بيانى للتعبير عن هذا المتغير فسنجد القيم متركزة إلى الجانب الأيسر عند الأرقام القليلة ولها ذيل طويل نحو الجانب الأيمن (حاول أن تتخيل معى 😊 ).

هنا التعبير عن المتغير باستخدام المتوسط الحسابي والانحراف المعيارى لن يكون دقيقا لأن كلاهما سيتأثر بالقيم الكبيرة للغاية للمرضى الذين أقاموا في المستشفى لفترات طويلة للغاية. ويكون من الأفضل هنا عرض المتغير باستخدام Median and interquartile range

إذن ما هو الوسيط median ؟

هو الرقم الذى يتوسط البيانات، يقع في المنتصف بحيث أن نصف القياسات تقع أقل منه ونصفها أعلى منه ، لو أردنا أن نقوم بحسابه مثلا لطول مجموعة من الأطفال ، فإننا نقوم بترتيب الأطفال حسب الطول من الأقصر وحتى الأطول ، ويكون الوسيط هو طول الطفل الذى يقع تماما في المنتصف، بحيث يقسم المجموعة إلى قسمين : نصفهم أطول منه ونصفهم أقصر منه.

أما المصطلح الآخر Interquartile range , IQR

فللتوضيح سنستخدم نفس المثال الخاص بأطوال الأطفال، فإذا تم قسمتهم بعد ترتيبهم إلى قسمين باستخدام الوسيط median

وأخذنا النصف الأقصر وقمنا أيضا بقسمته إلى نصفين، وكذلك النصف الأطول وقسمته إلى نصفين مجددا، فكأننا قمنا بتقسيم المجموعة إلى أربعة ارباع بعد ترتيبهم. ولكل من هذه الأرقام التي استخدمناها للتقسيم اسم:

Q1, first quartile

هو الرقم الذى يمثل نهاية الربع الأول ، أي أن ربع الأشخاص أقصر منه أو 25% من البيانات أقل منه.

Q2, median

وهو الرقم الذى يمثل منتصف البيانات تمام كما سبق وذكرنا ، أى 50% من البيانات أقل منه.

Q3, third quartile

وهو الرقم الذى يمثل نهاية الربع الثالث ، أي أن ثلاثة أرباع الأشخاص أقصر منه أو 75% من البيانات أقل منه.

The interquartile rang is equal to Q3-Q1

أي أنه يمثل الفارق بين القيمة التي تقع عند الربع الثالث والقيمة التي تقع عند الربع الأول ، أي أنه يمثل 50% من البيانات التي تقع في المنتصف ، وهناك ربع أقل منها ، وربع أكبر منها.

****

لنوضح الآن المقصود بالفارق بين parametric and non-parametric tests

ببساطة هناك إجمالا نوعين من الاختبارات الإحصائية

بعضها يستخدم مع البيانات ذات التوزيع الطبيعى ( وبعض الشروط الأخرى) ويعتمد على مقارنة قيم البيانات بين المجموعات ومنها على سبيل المثال independent t test and one way ANOVA

وهذه نطلق عليها parametric tests

والبعض الآخر من الاختبارات يستخدم ترتيب البيانات وليس قيمها الفعلية، ونقوم باستخدامها عندما لا تتحقق الشروط لاستخدام الاختبارات السابقة، ومن أمثلتها Mann–Whitney test and Kruskal–Wallis test

عندما يكون الاختبار الإحصائى من النوع الأول (parametric test) يفضل أن نعرض البيانات باستخدام Mean and standard deviation

أما عندما يكون الاختبار الإحصائى المستخدم من النوع الثانى (Non-parametric test) يفضل أن نستخدم Median and Interquartile range

خلاصة الكلام:

Frequency and percentage: for categorical data.

Mean and standard deviation: for normally distributed variables and when parametric tests are used.

Median and Interquartile range: for non-normally distributed variables and when non-parametric tests are used.

Odds Ratio and Risk Ratio والخلط الذى لا ينتهى !

OR and RR

يكثر الخلط بينهما، وأحيانا يتم الحديث عنهما كما لو كانا شيء واحد، وأحيانا يتم استخدام واحد منهما بالخطأ بدلا من الآخر!

سأحكى لكم حكايتين عن تجربتين..

الأولى تجربة من نوع Cohort study

صديقنا الباحث يعمل في شركة كبرى بها مئات الموظفين، وراوده سؤال بحثى: هل تحدث أمراض القلب أكثر لدى المدخنين أم لدى غير المدخنين في الشركة؟

قام بتقسيم موظفي الشركة إلى مجموعة المدخنين، ومجموعة غير المدخنين، سأل الجميع إن كان أحدهم لديه مشكلة بالفعل في القلب، وقام باستبعاد مرضى القلب من الدراسة.

المجموعتين الآن ليس لدى أي منهم أمراض بالقلب، وقرر أن يتابع هؤلاء الموظفين لمدة 5 سنوات، وأن يحسب نسبة حدوث أمراض القلب في كل مجموعة، ولنفترض أن كل مجموعة تتكون من 400 موظف.

وجد الباحث في نهاية السنوات الخمس أن نسبة حدوث أمراض القلب لدى غير المدخنين هي 5%، أي من بين الموظفين ال 400 أصيب 20 بأمراض القلب.

بينما لدى مجموعة المدخنين كانت نسبة حدوث أمراض القلب هي 10%، ومفهوم أن ذلك يعنى أن 40 موظف مدخن من بين ال 400 قد أصيب بأمراض القلب.

يمكننا أن نعبر عن العبارات السابقة علميا بهذه الطريقة:

The risk of having heart diseases among non-smokers =20/400= 5%

The risk of having heart diseases among smokers =40/400= 10%

** لاحظ أننا نقوم بقسمة عدد الحالات على إجمالي المجموعة (المقام هنا يمثل كل المجموعة)

وإذا أردنا أن نقارن هاتين النسبتين سنقول أن احتمالية (خطورة) حدوث أمراض القلب لدى المدخنين تمثل ضعف احتمالية (خطورة) حدوث أمراض القلب لدى غير المدخنين.

The risk of having heart diseases among smokers is 2 times the risk of having heart diseases among non-smokers. This is the Relative Risk, or the Risk Ratio, or RR

أي أن هذا المصطلح يقارن نسبة مئوية إلى نسبة مئوية، نسبة حدوث المرض لدى المعرضين للخطر(التدخين) إلى نسبة حدوث المرض لدى غير المعرضين (غير المدخنين)، وبالتالي هي 10 مقسومة على 5 أو 0.10 مقسومة على 0.05 ، والنتيجة هي 2

RR= 0.1/0.05=10/5=2

***

في هذه التجربة يمكن أيضا أن نقوم بحساب ال Odds Ratio

هو مصطلح أصعب قليلا ولكنه هام للغاية، ويختلف في حسابه عن ال Relative risk

هنا أيضا نقوم بقسمة رقمين على بعضهما

Odds of the disease (heart disease) among exposed (smokers)/ odds of the disease among non-exposed

هنا نقسم:

Odds/odds

ولكن كيف نحسب ال odds

هنا لا نقوم بقسمة عدد المرضى على إجمالي المجموعة ، بل نقوم بقسمة عدد المرضى إلى غير المرضى في كل مجموعة

بالنسبة لمجموعة المدخنين:

Odds of the disease (heart disease) among exposed (smokers) =

number of diseased/ number not diseased= 40/360 = 0.11

أما مجموعة غير المدخنين:

Odds of the disease (heart disease) among non-exposed (non-smokers) =

number of diseased/ number not diseased= 20/380 = 0.05

ثم نقسم الرقم الأول على الثانى لنحصل على ال OR

OR= 0.11/0.05= 2.2

ويتم تفسيرها كالآتى:

Odds of having heart disease among smokers is 2.2 times the odds of having heart disease among non-smokers.

****

يبدو هنا أن ال Relative Risk أكثر منطقية وأسهل للفهم..

لماذا إذن نحتاج لحساب ال odds ratio

****

لننتقل الآن إلى الحكاية الأخرى ..

كان هناك باحث آخر يعمل في نفس الشركة، وأراد أن يصمم بحث مشابه عن وجود علاقة بين التدخين وأمراض القلب ، ولكنه لا يستطيع أن ينتظر 5 سنوات مثل الباحث الأول ليحصل على النتيجة، فصمم تجربة أخرى من نوع case control study

قام الباحث بدراسة 100 مريض حدثت لديهم ذبحة صدرية، وقام بالبحث عن 100 شخص آخرين يتشابهون مع هؤلاء الأشخاص، كل مريض يناظره شخص صحيح، يشابهه في العمر، والجنس ، والتعليم، والمستوى الاجتماعى، والوظيفى ، إلخ.

ثم قام الباحث بسؤال كل شخص من المجموعتين عن تاريخه مع التدخين (أو قام بفحص سجلاتهم الطبية على مدار السنوات السابقة)، فوجد أن المرضى كان بينهم 40 مدخن، بينما مجموعة الأشخاص الأصحاء كان بينهم 20 مدخن فقط.

توقف هنا للحظة، ولا حظ الفرق بين التجربتين..

في التجربة الأولى حسبنا معدل حدوث أمراض القلب لدى المدخنين وغير المدخنين، وبالتالي حسبنا ال Relative Risk, or the Risk Ratio

بينما هنا فتشنا عن تاريخ التدخين في مجموعة من مرضى القلب ومجموعة من الأصحاء، وبالتالي لا مجال في هذه التجربة الثانية للحديث عن معدل الإصابة بالمرض! (عدد المرضى هنا يتحكم به الباحث ونحدده من البداية، وليس بناء على معدل حدوث المرض).

وبالتالي لا يمكن في هذه التجربة حساب ال Relative Risk, or the Risk Ratio

ويمكننا فقط للتعبير عن هذه العلاقة أن نقوم بحساب ال odds ratio

لنسترجع معاً المعطيات:

100 مريض ذبحة صدرية: 40 مدخن، 60 لا يدخن

100 شخص سليم: 20 مدخن، 80 لا يدخن

ويمكن النظر للداتا بطريقة أخرى:

من بين 60 مدخن 40 لديهم ذبحة صدرية، 20 أصحاء

ومن بين 140 شخص لا يدخن: 60 لديهم ذبحة صدرية، 80 أصحاء

يبدو الأمر مشوشا بعض الشيء ، ولكننا يمكننا حساب ال odds ratio في الاتجاهين:

Odds of being a smoker among patients with heart attack/ odds of being a smoker among healthy people

(40/60)/(20/80)= 2.67

وتفهم بهذه الطريقة:

Odds of being a smoker among patients with heart attack is 2.67 times the odds of being a smoker among healthy people

أو الاتجاه الآخر :

Odds of having a heart attack among smokers / odds of having a heart attack among non smokers

(40/20)/(60/80)=2.67

وتفهم بهذه الطريقة:

Odds of having a heart attack among smokers is 2.67 times the odds of having a heart attack among non smokers

على الرغم من أنها يمكن أن تحسب في كل من الاتجاهين ، إلا أننا غالبا ما نحسبها بالطريقة الثانية لمقارنة المرض بين المعرضين لعامل خطر معين، ونفس المرض لدى غير المعرضين لهذا العامل

****

لا بأس إن كانت الحسابات مزعجة وغير واضحة، فليس الهدف هنا شرح المعادلات، ولكن الهدف هو الخروج ببعض النقاط الهامة التالية :

• Odds Ratio is different from Risk Ratio.

• Only in rare diseases the value of odds ratio and relative risk will be almost numerically similar.

• Odds is calculated by dividing part/part as diseased/not diseased, while risk is calculated by dividing part/total as diseased/all exposed (diseased and not diseased).

• Relative risk is calculated in cohort studies but not in case control studies

• Odds ratios are important as they are used for interpretation of logistic regression and are the only suitable measure in case control studies.

نأمل أن يكون هذا الشرح قد ساعد على تقريب المفاهيم والتمييز بينها

Correlation & Regression المفاهيم والاستخدامات

من المهم لأى دارس أو باحث أن يعرف الفرق بين هذين المصطلحين واستخداماتهما وألا يخلط بينهما

لنبدأ معا بموضوع الارتباط Correlation

يمكن من الاسم التخمين أنه يمثل العلاقة بين متغيرين، وتحديدا قوة واتجاه العلاقة.

Association between two variables

مثلا يمكننا القول أن هناك علاقة أو ارتباط بين طول الطفل ووزنه، ويمكننا أيضا أن نقول أن العلاقة إيجابية، أي أن الطول والوزن يزيدان معا، بينما قد تكون علاقة أخرى عكسية مثل العلاقة بين النشاط البدنى ومؤشر كتلة الجسم BMI

زيادة أحدهما يكون مصحوبا غالبا بنقص الآخر

 ويمكننا أن نعبر عن العلاقة بين المتغيرين برقم واحد، يزيد بزيادة قوة الارتباط، وتكون قيمته موجبة في العلاقة الإيجابية، وسالبة في العلاقة العكسية، وهذا الرقم نسميه معامل الارتباط أو correlation coefficient

تتراوح قيمة معامل الارتباط من -1 إلى 1 ، كلما اقتربنا من 1 أو -1 تكون العلاقة أكثر قوة، وكلما اقتربنا من الصفر تكون العلاقة ضعيفة أو معدومة.

مثال:

The correlation coefficient for children’s weight and height: r=0.85

The correlation is positive and strong

مثال آخر:

The correlation coefficient for physical activity and BMI: r= -0.4

The correlation is negative and moderate

مثال أخير:

The correlation coefficient for children’s weight and score in the exam: r=0.05

There is no correlation between children’s weight and score in the exam

ملاحظة هامة: وجود ارتباط بين عاملين لا يعنى أن أحدهما يسبب الآخر أو يؤثر في الآخر، أي أن الارتباط لا يعنى السببية، وتذكر الجملة الشهيرة:

correlation does not imply causation

ملاحظة أخرى: الارتباط بين المتغير س والمتغير ص ، هو نفسه الارتباط بين المتغير ص والمتغير س ، بمعنى:

Correlation of weight and height is equal to the correlation of height and weight

ملاحظة ثالثة: هناك نوعان شهيران من الارتباط Pearson’s correlation and Spearman’s correlation  

 يتشابهان في الغرض ويختلفان في الاستخدام

*****

والآن لننتقل للموضوع الآخر الذى يطلق عليه الانحدار Regression

إذا كان الارتباط correlation  يستخدم لوصف العلاقة بين متغيرين

فإن الانحدار Regression يقوم بحساب المعادلة الرياضية التي تصف تأثير أحد المتغيرين في المتغير الآخر

وبالتالي يمكن استخدام معادلة الانحدار في التنبؤ بهذا المتغير “التابع” والذى نطلق عليه dependent variable

ويمكننا تمثيل العلاقة بين المتغيرين بخط على الرسم البيانى يمثل العلاقة بينهما ولهذا الخط معادلة حسابية، تخبرنا بمقدار التغير الذى سيحدث في المتغير التابع إن حدث تغير في المتغير المستقل independent variable

لاحظ أن علاقة الانحدار بين س، ص تختلف عن علاقة الانحدار بين ص ، س ، الأمر مختلف ولابد من أخذ علاقة السببية في الاعتبار، أي من المتغيرين يؤثر في الآخر

الانحدار لا يقوم فقط باستخدام متغير واحد للتنبؤ بآخر ، بل إن الشائع هو استخدام أكثر من متغير للتنبؤ بمتغير واحد.

على سبيل المثال: يمكننا أن نستخدم قياس السكر في الدم أثناء الصيام للتنبؤ بمستوى الهيموجلوبين السكرى

Using fasting blood glucose to predict HbA1c level

وقد تكون المعادلة مثلا

HBA1c = 3.2+ (0.45*Blood glucose)

الاستخدام الأشهر للانحدار هو التنبؤ، وهو الأمر الذى ينبنى عليه تطبيقات واستخدامات كثيرة جدا في علوم البيانات والذكاء الصناعى

بينما يستخدم في الأبحاث الطبية أيضا لغرض آخر هام، ألا وهو :

Controlling for other variables

بمعنى أننى قد أجرى أحد البحوث الطبية لدراسة العلاقة بين التدخين و مشاكل الشرايين التاجية، هذه العلاقة قد تتأثر بعوامل أخرى كثيرة مثل الجنس ، العمر، شرب القهوة، طبيعة العمل، تناول الكحول، وجود مرض السكرى .. الخ

وللوصول إلى علاقة دقيقة بين التدخين ومشاكل الشرايين التاجية، نحتاج لاستخدام نموذج انحدار أو regression model

يحتوى على كل هذه العوامل السابق ذكرها.

أنواع الانحدار التي نراها غالبا في الأبحاث الطبية تعتمد على المتغير التابع الذى نقوم بالتنبؤ به أو دراسة تأثير العوامل الأخرى عليه dependent variable

وأشهر هذه الأنواع هي:

Linear regression: for continuous dependent variable, e.g. HBA1c

ويستخدم إذا كان المتغير الذى نتنبأ به متغير رقمى، مثل مستوى أحد المركبات الكيميائية في الدم، أو ضغط الدم، الخ

Logistic regression: for binary variables, e.g. Yes/No, Diseased/Not diseased

نستخدمه في حالة كون المتغير الذى نتنبأ به متغير من مستويين مثل وجود المرض أو عدمه ، أو حدوث الوفاة أو لا.

Cox regression: for survival analysis where the outcome is time to certain event, e.g. time to recurrence

نستخدمه في نوع خاص من الدراسات، والتي تقيس الزمن حتى حدوث حدث معين، مثل الزمن حتى الوفاة، أو الزمن حتى رجوع السرطان

ملاحظة أخيرة: أنواع الانحدار أكثر وأعمق وحساباته أيضا معقدة، أردنا هنا أن نعطى فكرة سطحية مبسطة عن الموضوع.

Random sampling vs Random assignment لا تخلط بينهما !

يحدث أحيانا أن يخطئ بعض الباحثين بالخلط بين الأمرين أو استخدام أحدهما بينما هو يقصد الآخر، وغالبا ما يكون السبب هو وجود نفس الكلمة فيهما ، كلمة random

Random sampling

هو أمر يتعلق بطريقة أخذ العينة، ويعنى بالعربية اختيار عينة عشوائية، ولا تعني كلمة العشوائية هنا الصدفة أو كيفما اتفق، بل تعنى أن كل شخص في جمهور أو مجتمع البحث له نفس الاحتمالية أو الفرصة كى يتم اختياره في العينة.

والهدف هنا هو الحصول على عينة ممثلة لجمهور البحث، وهو الأمر الذى نحتاجه من أجل تعميم نتائج الدراسة على الجمهور الذى تم أخذ العينة منه.

Done to ensure the representativeness of the sample (external validity)

مثال: لو أردنا أن نعرف رأى الأطباء في الرواتب التي يتقاضونها ، فينبغى أن نحصل على عينة عشوائية تمثل الأطباء في مجتمع معين حتى يمكن تعميم النتيجة على جموع الأطباء في هذا المجتمع، بينما لو أخذنا العينة من مستشفى واحد فقط ، عندها يكون رأى العينة ممثل لرأى أطباء هذه المستشفى دون غيرها  ولا يمكن تعميمه.

بينما

Random assignment

هي طريقة نستخدمها في التجارب العلمية لتوزيع المشاركين بطريقة عشوائية على مجموعتين أو أكثر، أي أن احتمالية توزيع كل فرد مشارك في التجربة متساوية إلى أى من المجموعات، والهدف من توزيع المشاركين بهذه الطريقة هو أن تكون خصائص المشاركين في كل مجموعة متشابهة، وبالتالي يمكن الجزم بأن نتيجة التجربة ليست منحازة إلى أي من المجموعتين، وأن التأثير الذى حصلنا عليه هو نتيجة لاختلاف الدواء المعطى لكل من المجموعتين مثلا وليس لسبب آخر، أي نستطيع الوصول للسببية.

Done to ensure that the groups are similar in characteristics and any difference is caused by the intervention/treatment (internal validity)

مثال: أريد أن أعرف هل هناك تأثير مثلا للأسبرين على ضغط الدم ، أقوم بعمل تجربة لقياس ذلك بتوزيع المشاركين عشوائيا على مجموعتين ، مجموعة تأخذ الأسبرين ، ومجموعة تأخذ بلاسيبو ، توزيع المشاركين بهذه الطريقة يضمن أن الاختلاف في ضغط الدم هو نتيجة تناول الاسبرين وليس لسبب آخر.

الخلاصة هي أننا نستخدم العينة العشوائية random sampling  كى نحصل على عينة ممثلة للجمهور حتى نستطيع أن نقوم بتعميم النتائج، بينما نستخدم توزيع المشاركين بشكل عشوائى Random assignment  حتى نحصل على مجموعات متجانسة تمكننا من أن ننسب الاختلاف إلى التجربة

Random sampling for generalizability and random assignment for causality!

نفس الأرقام ولكن الأشكال البيانية مختلفة ! كيف يمكن أن يحدث هذا ؟

كان هناك اعتقادا سائدا بين الإحصائيين والعلماء أن الأرقام أكثر دقة من الرسومات البيانية والتى قد تكون تقريبية..
فكانوا يقولون :
“Numerical calculations are exact, but graphs are rough”
إلى أن جاء عالم انجليزى اسمه فرانسيس أنسكومب عام 1973 وقلب هذا الاعتقاد رأسا على عقب عن طريق تقديم 4 مجموعات من البيانات من القيم x, y متطابقة من حيث الملخصات الرقمية:
لها نفس المجموع و المتوسط الحسابي والانحراف المعيارى ، ومعامل الارتباط ، ومعادلة الانحدار
Sum of x = 99
Sum of y = 82.51
Mean of x= 9
Standard deviation of x= 3.32
Mean of y = 7.5
Standard deviation of y= 2.03
Correlation between x and y =0.816
Linear regression line: y = 3 + 0.5x
ولكن عند عمل رسم بيانى لها تظهر الأشكال الأربعة فى الصورة التالية


مفاجأة غريبة .. ولكنها الحقيقة
الشكل البيانى مهم أيضا لعرض الداتا بنفس أهمية الملخصات الرقمية
والاختلاف هنا بين المجموعات الأربع يظهر الاختلاف فى العلاقة بين المتغيرين
فتظهر العلاقة بطريقة خطية فى المجموعة الأولى

linear relationship
بينما العلاقة غير خطية فى المجموعة الثانية

non-linear relationship
وفى المجموعة الثالثة العلاقة خطية ولكن توجد قيمة شاذة

one outlier point
أما فى المجموعة الرابعة فلا توجد علاقة بين المتغيرين ولكن هناك نقطة أدت لظهور معامل ارتباط عالى..
خلاصة الأمر أن الرسم البيانى مهم أيضا مثلما الأرقام مهمة.
وهذه صورة لقيم البيانات فى المجموعات الأربع.

حساب حجم العينة في التجارب العلمية: إجابة مبسطة عن سؤال متجدد

من الأسئلة الهامة التي يواجهها أي باحث بعد أن يستقر على موضوع أو سؤال بحثي للعمل عليه هو: ما حجم العينة التي يجب أن يعمل عليها؟

بعضهم قد يقرر أن اختيار 30 مريض لكل مجموعة عدد كاف ، وبعضهم قد يقول أننى أعمل على تجربة صعبة ويكفينى 40 مريض يتم توزيعهم على مجموعتين ، وبعضهم قد يسأل الأستاذ المشرف على البحث أو حتى زميل في القسم  .. ليحصل على إجابة شبيهة ..

إلا أن إجابة هذا السؤال أمر أكثر تعقيدا ويحتاج إلى بعض الحسابات كما سنرى ..

سنفترض أولا أننا نجرى تجربة علمية Clinical trial

ولنكون أكثر تحديدا سنحدد أننا نريد أن نقوم بعمل  Randomized control trial (RCT)  بهدف مقارنة دواء جديد بآخر موجود في السوق لعلاج أحد الأمراض

من أجل حساب حجم العينة المطلوبة لهذه التجربة والتجارب المشابهة سنحتاج إلى تحديد المعلومات التالية :

1- Power of the study

والمقصود بهذا المصطلح هو احتمالية قدرة التجربة الحالية على الوصول لنتيجة إيجابية حقيقية ، أي قدرة التجربة على إثبات أن الدواء الجديد أفضل في حالة كونه في الحقيقة أفضل ، وهو رقم غالبا ما يكون 80% أو 90% في معظم التجارب

2- Level of statistical significance

هذا الرقم غالبا ما يكون 0.05 ، ويطلق عليه أيضاα   أو  type 1 error وهو الحد الذى سنعتبر الأرقام للـ p-value الأقل منه ذات دلالة إحصائية statistically significant

3- Enrollment ratio

في معظم الدراسات يكون حجم المجموعتين متساوى، أي تكون قيمة هذا الرقم هي 1، ولكن قد يرغب الباحث في بعض الأحيان أن يكون عدد المرضى في إحدى المجموعتين ضعف العدد في المجموعة الأخرى أو أكثر ، وهنا يصبح هذا الرقم 2 أو 3 …

4- Expected effect size

هذه النقطة هي الأهم على الإطلاق، وهى التي تحتاج مجهود من الباحث ويتوقف عليها الجزء الأكبر من حساب العينة، خصوصا أن النقطتين السابقتين نادرا ما يتم تغييرهما ..

هنا نحتاج إلى الإجابة على أسئلة هامة :

السؤال الأول: ما هي النتيجة أو المتغير الأساسي الذى أقيسه في التجربة، هل أقيس مثلا عدد المرضى الذين تم شفاؤهم في كل مجموعة؟ أم أقيس التغير في مستوى السكر في الدم أو أقيس التغير في الوزن؟ أو أقوم بحساب الوقت الذى يعيشه المريض حتى الوفاة ؟ .. الخ

السؤال الثانى:  ما هو نوع هذا المتغير او هذه النتيجة ؟

هل نقوم بحساب عدد المرضى الذين تم شفاؤهم في كل مجموعة مثلا ، وبالتالي فالنتيجة المتوقعة هي نسبة مئوية للشفاء في كل مجموعة؟ Two proportions

أم نقوم بقياس ما مثل قياس السكر أو الكوليستيرول أو الوزن ، وبالتالي النتيجة المتوقعة هي  درجة التحسن أو الاختلاف بين القراءات في كل مجموعة؟  Two means

أو أن المتغير هو الوقت حتى حدوث الوفاة مثلا (سنتجاهل هذا النوع حاليا)  Two median time to event , or two survival rates.

السؤال الثالث: ما هي الأرقام المتوقعة كنتيجة أو كفارق لتكون الدراسة ناجحة؟

إذا كان الدواء الحالي يقوم بشفاء 70% من المرضى ، فما هي النسبة التي أتوقعها أو أحتاجها من الدواء الجديد ليكون إضافة إلى السوق أو ذو فعالية لها معنى، هل هذا الرقم هو 75% أو 80% أو أكثر أو أقل..

وإذا كنا نتحدث عن قياس للسكر أو الوزن مثلا ، فنحتاج إلى معرفة متوسط التغير في مستوى السكر او الوزن مثلا لكلا الدوائين،  نحتاج إلى المتوسط والانحراف المعيارى.  Mean and standard deviation

السؤال الرابع المنطقى جدا : من أين يمكن الحصول على هذه الأرقام !

الإجابة تختلف بحسب كل دراسة، فقد يكون مصدر المعلومة دراسات سابقة أو شبيهة على نفس الدواء ، أو قد يكون بناء على رأى الخبراء في هذا المجال.

وأخيرا يمكننا أن نستخدم المعادلة الصحيحة لحساب حجم العينة ، والتي توفرها الكثير من المواقع على الانترنت.

باختصار : أهم سؤال يحتاج الباحث للإجابة عليه لحساب حجم العينة هو معرفة المتغير الأساسي الذى سيقوم بقياسه في المجموعتين وقيمة المتغير المتوقعة من التجربة حتى تكون لنتيجتها معنى.

مرة أخرى: العوامل التي يتحدد عليها حجم العينة هي:

Power – في حالة زيادة قيمتها سيزيد حجم العينة

Significance level – إذا قللنا مستواه سنحتاج إلى زيادة حجم العينة

Effect size – كلما كان الفارق بين تأثير الدوائين صغيرا كلما احتجنا إلى حجم عينة أكبر (من أجل القدرة على قياس هذا الفارق)

ملاحظات:

  1. عدم حساب حجم العينة بطريقة صحيحة يؤدى إما إلى استخدام حجم عينة صغير وبالتالي عدم الوصول إلى نتيجة ذات دلالة إحصائية، أو استخدام حجم عينة أكبر من المطلوب وبالتالي تضييع الوقت والجهد والمال.
  2. الأنواع الأخرى من الدراسات مثل cross sectional, case control and cohort studies  لها طرق أخرى لحساب حجم العينة.
  3. هناك بعض الفروقات بين الأنواع المختلفة للتجارب من حيث كونها superiority , non-inferiority or equivalence trials  لم نتطرق إليها لإبقاء المعلومات مبسطة.
  4. دائما قم بعمل حساب العينة بطريقة صحيحة أو استشر إحصائى متخصص

نترككم مع بعض مواقع الانترنت لحساب حجم العينة بطريقة سهلة ، يمكنكم تجربتها ، ونسعد باستفساراتكم للإجابة عنها..

For both proportions and means:

https://clincalc.com/stats/samplesize.aspx

For proportions:

https://www.stat.ubc.ca/~rollin/stats/ssize/b2.html

For Means:

https://www.stat.ubc.ca/~rollin/stats/ssize/n2.html

المرأة التي سجنت بسبب الإحصاء ، وربما قتلت أيضا !

في فبراير من عام ١٩٩٨ وبعد أقل من شهر من وفاة ابنها بصورة مفاجئة، تم اعتقال المحامية البريطانية سالى كلارك ووجهت لها تهمة قتل طفليها!
كان لها طفل ذكر توفى فجأة عام ١٩٩٦ وعمره حوالى ثلاثة شهور ، ثم تكررت نفس الحادثة حيث توفى لها طفل ذكر آخر وعمره حوالى شهرين في عام ١٩٩٨، تشابه ظروف الحادثتين حيث كانت وحدها في المنزل مع الطفل في كل مرة ، وعدم وجود سبب طبي واضح لوفاة الطفلين كان سببا للشك في أمرها وتوجيه أصابع الاتهام إليها.
استعانت المحكمة بالخبراء لتحديد أسباب الوفاة ، ومدى مسؤوليتها الجنائية عن الأمر..
أحد الخبراء وكان طبيب أطفال رأى أن احتمالية حدوث هذه الوفاة المفاجئة لطفلين في نفس العائلة هي واحد من كل ٧٣ مليون حالة ، أو بعبارة أخرى مرة كل مائة سنة تقريبا .
كان هذا الرقم: واحد من كل ٧٣ مليون حالة مغريا كثيرا للصحافة ، ومغويا أيضا لهيئة المحكمة التي أدانتها بقتل الطفلين ، وحكمت عليها بالسجن.
أثناء قضاء سالى لفترة سجنها أصدرت جمعية الإحصائيين الملكية بيانا ذكرت فيه أن الطريقة التي تم بها حساب الرقم الشهير: واحد من كل ٧٣ مليون حالة هي طريقة غير دقيقة وتشوبها كثير من المشكلات. منها أن هذا الرقم تم الحصول عليه بضرب احتمالية حدوث هذه الوفاة المفاجئة بنفسه ، للحصول على هذه الاحتمالية ، وهذه الطريقة تفترض أن كلا الحدثين مستقل عن الآخر ، وهو الأمر الذى لا يمكن الجزم به هنا ، حيث أن هناك عوامل جينية وبيئية مشتركة بين الطفلين قد تزيد كثيرا من احتمالية حدوث الوفاة لهما.
كما أن التفسير لهذا الرقم بأن احتمال كونها بريئة هو واحد من ٧٣ مليون هو أيضا تفسير مضلل وخاطىء واستعماله في الاعلام ربما ساعد على تضليل الحقيقة.
تمت إعادة المحاكمة وظهرت أدلة أخرى تعزو وفاة الطفل الثانى لنوع معين من البكتيريا، وتم الإفراج عن سالى وتبرئتها بعد قضاء عدة سنوات في السجن.
إلا أن الضرر كان قد وقع بالفعل ، فقد أدت هذه التجربة الحياتية إلى معاناتها من اضطرابات نفسية خطيرة وإدامنها على الخمر ووفاتها بصورة مفاجئة هي أيضا بعد ذلك بسنوات قليلة في عمر الثانية والأربعين بجرعة عالية من الكحول.
الكذب يمكن أن يحدث عن طريق التلاعب بالأرقام ، لكن الأمر قد يؤدي أيضا إلى السجن ، أو ما هو أسوأ!

Describing Data in SPSS, 5 short videos

فى هذا الموضوع نعرض كيفية وصف المتغيرات المختلفة فى البرنامج فى 5 فيديوهات قصيرة

In this topic we illustrate how to describe different types of data variables in 5 short videos


1- Describing data, one categorical variable

2- Describing data, two categorical variable

3- Describing data, one numerical variable

4- Describing data, one numerical variable in multiple groups

5- Describing data, one numerical variable in multiple layers


لمشاهدة الفيديوهات السابقة الخاصة بتجهيز الداتا

منحة الجامعة الأمريكية فى بيروت لدراسة ماجستير الصحة العامة

فرصة متميزة لدراسة ماجستيرالصحة العامة

Master of Public Health
بمنحة دراسية كاملة فى الجامعة الأمريكية فى بيروت ..
حيث يستطيع الحاصلون على بكالوريوس الطب أو الصيدلة أو طب الأسنان أو التمريض أو العلاج الطبيعى بالإضافة إلى العاملين فى مجال الصحة العامة التقديم للدراسة فى هذا البرنامج.

المنحة تشمل المصاريف الدراسية والسفر بالاضافة إلى تغطية السكن والمعيشة عبر مبلغ شهرى مدفوع.
الأفضلية قطعا لمن لديهم خبرة أعلى فى مجال الصحة العامة ، ومن لديهم سجل أكاديمى متميز ، والدراسة تستمر لمدة سنتين ما بين دراسة وتدريب.
هناك 3 تخصصات فرعية فى ماجستير الصحة العامة هى :
Epidemiology and Biostatistics
Health Promotion and Community Health
Health Management and Policy
وبناء عليه يمكن القول أنها أنسب لمن يعمل أو يريد أن يعمل فى المجالات البحثية الخاصة بالصحة العامة ، الإدارة والسياسات الصحية وتشمل الجودة وسلامة المرضى والإدارة عموما ..
التقديم للبرنامج والمنحة يبدأ فى ديسمبر ويستمر حتى منتصف مارس تقريبا
وأنصح من يريد الالتحاق بالبدء فى التحضير الآن ، حيث أن الأوراق المطلوب تجهيزها ستحتاج لبعض الوقت بالإضافة إلى امتحان فى اللغة الانجليزية

جدير بالذكر أن هناك بعض برامج أخرى التى يمكن الحصول على منحة دراسية فيها ، مثل ماجستير فى الوبائيات و دكتوراه فى الوبائيات
Master of Science in Epidemiology
PhD in Epidemiology
مزيد من المعلومات فى هذا الفيديو :

P-value, تبسيط شبه مخل

البى فاليو اللى مغلبانا

توضيح بتبسيط شبه مخل

علشان أختبر أى فرضية علمية بعمل تجربة
من التجربة بجمع داتا 
بحلل الداتا باستخدام اختبار احصائي مناسب 
نتيجة الاختبار بتعطينا في الغالب بي فاليو 
وقيمة البي فاليو بنلاقيها منشورة فى الاوراق العلمية
ايه معنى هذا الرقم؟
نقدر نقول إن البي فاليو هى “احتمالية الصدفة” ، احتمالية ان العلاقة صدفة ، او احتمالية ان الاختلاف صدفة ، حسب البحث بتاعى
بمعنى لو بقارن بين مجموعتين ولقيت ان البي فاليو 0.01 ، معناها ان احتمالية ان الفرق بين المجموعتين مجرد صدفة هو 1%؜ ، وبالتالى هنستبعد ان الفرق ده صدفة ، وهنقول ان غالبا الفرق ده حقيقي
او لو عايز اشوف هل فيه علاقة بين حاجة معينة وحدوث مرض معين ، ولقينا البي فاليو بردو صغيرة ، مثلا 0.02 ، معنى ده ان احتمالية كون العلاقة مجرد صدفة هى 2% ، وبالتالى نقدر نسنتنتج ان فيه علاقة حقيقية ، مش مجرد صدفة وهكذا 
البي فاليو رقم ، بيتراوح بين الصفر والواحد 
وباختصار لو لقينا الرقم ده اقل من 0.05 معناها ان احتمالية الصدفة قليلة ، وبالتالى العلاقة غالبا حقيقية ،او الفرق غالبا حقيقي وبنقول بالانجليزى 
There is statistically significant difference/association 
كل لما الرقم بيقل ، كل ما كانت احتمالية الصدفة اقل ، وبالتالى كل لما كنا اكثر يقينا من وجود علاقة أو فرق (حسب البحث)
بينما لو الرقم أعلى من 0.05 هنقول ان احتمالية الصدفة مش قليلة ، وبالتالى ممكن الفرق او العلاقة دى تكون مجرد صدفة ، وبنقول بالانجليزى 
There is NO statistically significant difference/association
مثال توضيحى أخير :
لو فرضنا انى عملت تجربة علمية علشان أشوف تأثير واحد من التطعيمات (اللقاحات) ، عندى مجموعتين ، مجموعة أخذت اللقاح (الطعم) والأخرى لم تأخذه ، وقمنا بمقارنة نسبة حدوث المرض في المجموعتين وكانت النتيجة بي فاليو = 0.04
وده معناه ان احتمالية كون الفرق بين المجموعتين مجرد صدفة هي 4% ، وبالتالي اقدر أقول إن غالبا الفارق ده حقيقي ، وإن الطعم أو اللقاح فعلا ليه تأثير
بينما لو كانت النتيجة بي فاليو = 0.4
فده معناه ان احتمالية كون الفرق بين المجموعتين مجرد صدفة هي 40% ، وبالتالي اقدر أقول إن غالبا الفارق ده غير حقيقي ، وإن الطعم أو اللقاح ليس له تأثير
كان هذا تبسيط شديد لمعنى البي فاليو اللى هى باختصار “احتمالية الصدفة”
ملاحظة : الشرح الدقيق لمعنى البي فاليو يتطلب التطرق لموضوع null and alternative hypothesis 
وهو الأمر الذى حاولنا تجنب التطرق إليه في محاولة للتبسيط