Learn with us

SPSS 26 for Beginners (Arabic) كورس بسعر مخفض

reduced

الآن بسعر مخفض جدا
كورس من إنتاجنا على منصة udemy الشهيرة مخصص للمبتدئين في برنامج SPSS
الكورس يستخدم أحدث نسخة من البرنامج وهى الإصدار 26 الصادر في 2019 حيث يكون الشرح للمادة الإنجليزية بعربية بسيطة
الكورس مصمم بطريقة مركزة حيث يحتوى على 35 فيديو قصير تستغرق مدتها حوالى الساعتين والنصف
يهدف هذا الكورس إلى تسهيل التعامل مع البرنامج من البدايات الأولى مرورا بالإحصاء الوصفى وصنع الرسومات البيانية وعمل الاختبارات الإحصائية الأساسية وفهم نتيجتها
يمكنك اعتبار هذا الكورس مرجع سريع إذا أردت أن تعرف كيفية إجراء أى من الاختبارات الاحصائية فتحصل على الاجابة فى شكل فيديو قصير لا يتجاوز عدة دقائق

يمكنكم الحصول على الكورس بسعر مخفض من هذا الرابط

اضغط هنا للوصول للكورس

أو باستخدام الكوبون REDUCED2020

أو من هنا:

اضغط هنا للوصول للكورس
والكورس يغطى الموضوعات التالية :
Section 1: Introduction
1- Introduction and outline
Section 2: Starting with SPSS
2- SPSS first look
3- Data into SPSS
4- Defining variables
Section 3: working with data
5- Compute variable
6- Recode variable
7- Automatic recoding
8- File splitting
9- Selecting cases
10- Weighting cases
Section 4: descriptive statistics
11- Descriptive statistics: one categorical variable
12- Descriptive statistics: Two categorical variables
13- Descriptive statistics: one numerical variable
14- Descriptive statistics: one numerical variable in groups
15- Descriptive statistics: one numerical variable in layers
Section 5: graphs in SPSS
16- Bar charts
17- More bar charts
18- Pie charts
19- Box plot
20- Histogram
21- Scatter plot
Section 6: Analysis of numeric variables: parametric tests
22- Normality testing
23- One sample t test
24- Paired sample t test
25- Independent sample t test
26- One way ANOVA
27- One way ANOVA, post hoc tests
28- Pearson’s correlation
section 7: Analysis of numeric variables: non- parametric tests
29- What are the non-parametric tests?
30- Wilcoxon signed rank test
31- Mann Whitney test
32- Kruskal Wallis test
33- Spearman’s correlation
Section 8: Analysis of categorical variables
34- Chi square test of independence
35- Fisher’s exact test

نتمنى لكم الفائدة

Do we always need to report p-values in clinical trials?

p-value-in-clinical-trials

عندما نقوم بتصميم تجربة عملية من نوع Randomized control study (RCT)

فإننا نقوم بتوزيع المشاركين في التجربة على إحدى المجموعتين ، مجموعة العلاج أو المجموعة الضابطة

Treatment and control groups

وذلك بالطريقة المعروفة باسم Randomization

والهدف من هذه العملية هو أن تتشابه خصائص المجموعتين بالتوزيع المتوازن للمشاركين، وبالتالي يكون الاختلاف في النتيجة بسبب تناول الدواء ، وليس راجعا لاختلاف خصائص المجموعتين، كأن تكون إحدى المجموعات أكبر عمرا ، أو حالتها الصحية أكثر تدهورا أو ينتمون لمستوى اجتماعى معين أو غير ذلك..

عندما نحلل نتيجة التجربة إحصائيا فإننا نبدأ بالجدول الأول والذى نقارن فيه بين الخصائص العامة للمجموعتين ، بهدف أن نؤكد للقارىء أن عملية التوزيع العشوائى للمشاركين كانت ناجحة وأنه لا يوجد اختلاف بين المجموعتين ، فنقارن هنا بين أمور كثيرة مثل الجنس والعمر والحالة الاجتماعية والوظيفية وربما بعض التحاليل قبل بداية التجربة .. الخ

جرت العادة لفترة طويلة أن نذكر في هذا الجدول قيمة ال P value  والتي تكون غالبا  non significant  مدللين بذلك على أنه لا يوجد فارق بين المجموعتين..

والسؤال هنا .. هل نحتاج حقا لفعل هذا؟

قد تتفاجأ عند قراءة بعض الأبحاث في المجلات العالمية الشهيرة بأن هذا الجدول الأول لا يحتوى على p-values  ، وإنما يحتوى فقط على وصف خصائص المجموعتين!

وقد بدأت كثير من المجلات في اتباع هذه الطريقة ، المقارنة الرقمية فقط بين المجموعتين دون ذكر ال p value

لماذا إذن ؟

يرجع هذا لعدة أسباب ..

أولا: في حالة كون عملية التوزيع العشوائى للمشاركين على المجموعتين قد تمت بطريقة صحيحة وحسب الأصول العلمية ، فلا داعى لإعادة فحص ذلك مجددا.

ثانيا: حجم العينة المستخدمة محسوب بناء على الناتج الذى نقوم بدراسته وليس لمقارنة الخصائص عند بداية التجربة ، وبالتالي قد يكون هناك فارق بين المجموعتين ولا يظهر إحصائيا لأن حجم العينة غير كاف

ثالثا: إذا كان حجم العينة كبيرا نسبيا فقد يظهر فارق إحصائى بين المجموعتين، وهذا الفارق ليس لأن المجموعتين مختلفتان بل لأن حجم العينة كبير لدرجة أن أي اختلاف ولو بسيطا سيكون ذا دلالة إحصائية

ماذا نفعل إذن للتأكد من أن كل شيء على ما يرام ..؟

نقوم بفحص أرقام الجدول الأول ، ونقارن بين الفوارق من حيث أهميتها العملية والطبية ، فقد يكون متوسط فارق العمر بين المجموعتين مثلا سنتين ، هذا الفارق قد لا يكون ذو دلالة إحصائية ، ولكنه قد يكون مهما إذا كنا ندرس أحد الأمراض لدى الأطفال بينما قد لا يكون فارقا ذي اعتبار إذا كنا ندرس مرضا لدى كبار السن ، وهكذا ..

في حالة وجود اختلاف في أحد الخصائص بين المجموعتين، ونعتقد أن هذا الاختلاف ذو أهمية لدرجة أنه قد يؤثر على نتيجة التجربة ، يمكننا هنا أن نقوم بعمل تحليل إضافى يأخذ هذا العامل في الاعتبار باستخدام regression analysis

وخلاصة الكلام :

There is no need to report the p-values in the baseline characteristics table to confirm successful randomization. In case there is imbalance between the two groups, a secondary analysis using regression is done to control for those factors.

ملاحظة أخيرة ..

لازالت بعض المجلات العلمية تعتمد الطريقة القديمة ، بينما يعتمد البعض الاخر الطريقة الحديثة ، لذا سيكون عليك في الأغلب اتباع توصية المجلة التي تنوى أن تنشر بحثك فيها ..

 فقط أردنا أن نوضح نقطة قد تخفى على الكثيرين.

Confidence Interval دليلك المبسط للفهم الصحيح

سنفترض أنك كباحث أردت أن تعرف متوسط وزن الطلبة في إحدى الجامعات ، وحيث أنك لن تقوم بقياس وزن كل الطلبة ، فقد قمت بأخذ عينة عشوائية مكونة من 50 طالب وقمت بقياس وزنهم وحساب المتوسط الحسابي mean

ولنفترض أن الرقم الذى حصلت عليه هو 70 كجم ، وهو معبر بشكل أو بآخر عن وزن طلاب هذه الجامعة

ولكن ..

لو افترضنا أننا قمنا بقياس فعلى لوزن كل طالب من طلاب الجامعة فهل سنحصل على النفس النتيجة؟

ربما نعم ، وغالبا لا ..

لو افترضنا أننا أخذنا عينة أخرى فقد نحصل على نفس النتيجة وقد لا نحصل عليها ..

إذن قيامنا بأخذ عينة، وحساب المتوسط الحسابي فنحن لسنا واثقين تماما من أن هذا الرقم يعبر تماما عن كل الطلبة..

ما رأيك لو أخذنا بدلا من هذا الرقم الوحيد مجالا من الأرقام له حد أكبر وحد أدنى ، ونقول أننا واثقون إلى درجة معينة من أن المتوسط الحسابي لكل الطلبة يقع بين هذين الرقمين ، وليكن مثلا 65 و 75 كجم

ربما يكون التعبير عن وزن الطلبة بهذه الطريقة أكثر إفهاما للقارىء .. وهذا المجال هو ما نسميه مجال الثقة أو Confidence Interval

ونختصرها في كثير من الأحيان إلى CI

ولكن انتبه ، نحن لا نتحدث عنها في المطلق ، ولكن لا بد أن تصحبها نسبة مئوية تعبر عن درجة الثقة التي نتحدث عنها ، وبالتالي تكون مثلا : 90%CI , 95% CI, 99% CI

فنقول مثلا:

95% CI of students’ mean weight is 65, 75 kg

بمعنى أننا لو كررنا التجربة عدد كبير أو لا نهائي من المرات فإن متوسط وزن طلبة الجامعة سيكون بين هذين الرقمين في 95% من المرات

ويمكن تفسيرها بالطريقة التالية:

We are 95% confident that the true population mean (mean of all university students weight) lies between 65 and 75 kg

لذا يكون التفسير هو أننا متأكدون بنسبة 95% من أن متوسط الوزن (الصحيح)  لكل الطلبة يقع في هذا النطاق.

قد يحدث أن تجد أحدهم يفسرها بطريقة أخرى :

There is a 95% probability that the true population mean (mean of all university students) lies between 65 and 75 kg

ولكن انتبه: هذا التفسير هو خطأ شائع يقع فيه الكثيرون.

إذا كانت فكرة الموضوع واضحة حتى الآن ، يمكننا إضافة بعض المعلومات التي تعمق الفهم ..

  1. لو افترضنا أننا أخذنا عينة مكونة من 500 طالب بدلا من 50 طالب، في هذه الحالة نتوقع أن تكون النتيجة التي حصلنا عليها أكثر دقة ، وأقرب للرقم الحقيقي الذى نبحث عنه ، وبالتالي ستكون ال confidence interval  أضيق ، ولتكن مثلا 68 و 72
  2. بينما لو أننا كنا أثر تساهلا ، فأردنا مثلا الحصول على 90%CI  بدلا من 95%CI   في هذه الحالة نتوقع أن تكون ال confidence interval  أضيق ، لأننا سمحنا بهامش خطأ أكبر

ملاحظة : لو كنا نحسب confidence interval  للفارق بين مجموعتين مثلا ، واحتوت هذه الفترة على الرقم صفر ، فكانت مثلا بين -2 و 8 ، هذا يعنى أنه ربما يكون الفارق بين المجموعتين صفرا ، وبالتالي قد لا يكون هناك فارق ذو دلالة إحصائية بين المجموعتين.

وهناك حالة خاصة نبحث فيها عن إذا ما كانت ال confidence interval  تحتوى على الرقم 1 وليس الرقم صفر ،  وهى حالة ال OR, RR

حيث أنها تمثل نسبة بين مجموعتين ، ومعنى كون قيمتها =1 هو عدم وجود فارق بين المجموعتين

الخلاصة :

Interpretation of 95%CI : we are 95% confident that the true population mean lies between …. & ….

As the sample size increases, the confidence interval is narrower

If we want more precise confidence level (for example 99% instead of 95%), the CI will be wider

Mean, SD – Median, IQR – Frequency, %; In the baseline table

mean median

يستخدم الجدول الأول في أغلب الأبحاث لوصف العينة المشاركة في الدراسة أو التجربة، وفى هذا الجدول نجد أن أي متغير موصوف بواحد من هذه الطرق:

Mean and standard deviation

Median and interquartile range

Frequency and percentage

فما المقصود بهذه المصطلحات، ومتى نستخدم كل واحدة من هذه الطرق؟

لنبدأ بالأسهل:

Frequency and percentage

إذا كان لدينا متغير من النوع الكيفي مثل الجنس، وجود المرض من عدمه، المستوى التعليمي.. الخ

Categorical variable as sex, presence of disease, educational level

نقوم في هذه الحالة بعرض عدد الأفراد في كل مجموعة ونسبتهم المئوية، مثلا لو كان لدينا 120 مريض ، من بينهم 80 امرأة ، سنعبر عنهم بالعدد أي 80 والنسبة المئوية أي 66.67% وسيكون عدد الذكور 40 ونسبتهم المئوية 33.33%

لاحظ أنه عندما يتكون المتغير من مجموعتين فقط مثل الجنس (ذكر، أنثى)، وجود مرض مزمن (نعم، لا) قد يتم ذكر النسبة المئوية لمجموعة واحدة فقط باعتبار أنه من المفهوم أن المجموعة الأخرى هي المكمل للمائة، بمعنى أننا إذا ذكرنا أن نسبة النساء 60% فمفهوم أن نسبة الذكور 40%.

أما المتغيرات الرقمية مثل الطول، الوزن، عدد الأطفال في الأسرة، عدد أيام الإقامة في المستشفى .. الخ فستخدم لوصفها إما:

Mean and standard deviation or Median and interquartile range

ومن المهم هنا أن نعرف لماذا نقوم أحيانا بوصف المتغير باستخدام أي من الطريقتين وليس الأخرى

من حيث المبدأ يفضل استخدام المتوسط الحسابي والانحراف المعيارى Mean and standard deviation

إلا أن هناك حالات لا يفضل استخدامهما وهى التي لا يكون توزيع المتغير فيها طبيعيا not normally distributed، أو كان الاختبار الإحصائى الذى نستخدمه non parametric

وفى هاتين الحالتين نفضل استخدام Median and interquartile range

لنوضح أولا ما معنى أن يكون توزيع البيانات طبيعيا normally distributed data

المتغير ذو التوزيع الطبيعى للتبسيط هو الذى يشبه في توزيعه شكل الجرس الشهير Bell shaped distribution

وللتبسيط: هو الذى يكون متماثلا حول المتوسط الحسابي، أكثر القياسات فيه مرتكزة حول الوسط بينما قليل من القياسات موجودة عند الأطراف، وأكثر القياسات الحيوية تكون قريبة من التوزيع الطبيعى مثل الوزن والطول وضغط الدم ، الخ.

أما المتغير الذى لا يكون توزيعه طبيعيا فيكون على الأغلب بسبب تركز القياسات في أحد الجانبين ، لنعطى مثالا عن عدد الأيام التي يقيمها المريض في المستشفى، لو جمعنا بيانات تخص 100 مريض مثلا لوجدنا أن أكثرهم قضى في المستشفى بين يوم إلى ثلاثة أيام، بينما هناك قلة من المرضى بقيت في المستشفى لمدة تزيد عن أسبوع وبعضهم ربما قضى شهر أو أكثر ولكنها حالات قليلة. لو قمنا برسم بيانى للتعبير عن هذا المتغير فسنجد القيم متركزة إلى الجانب الأيسر عند الأرقام القليلة ولها ذيل طويل نحو الجانب الأيمن (حاول أن تتخيل معى 😊 ).

هنا التعبير عن المتغير باستخدام المتوسط الحسابي والانحراف المعيارى لن يكون دقيقا لأن كلاهما سيتأثر بالقيم الكبيرة للغاية للمرضى الذين أقاموا في المستشفى لفترات طويلة للغاية. ويكون من الأفضل هنا عرض المتغير باستخدام Median and interquartile range

إذن ما هو الوسيط median ؟

هو الرقم الذى يتوسط البيانات، يقع في المنتصف بحيث أن نصف القياسات تقع أقل منه ونصفها أعلى منه ، لو أردنا أن نقوم بحسابه مثلا لطول مجموعة من الأطفال ، فإننا نقوم بترتيب الأطفال حسب الطول من الأقصر وحتى الأطول ، ويكون الوسيط هو طول الطفل الذى يقع تماما في المنتصف، بحيث يقسم المجموعة إلى قسمين : نصفهم أطول منه ونصفهم أقصر منه.

أما المصطلح الآخر Interquartile range , IQR

فللتوضيح سنستخدم نفس المثال الخاص بأطوال الأطفال، فإذا تم قسمتهم بعد ترتيبهم إلى قسمين باستخدام الوسيط median

وأخذنا النصف الأقصر وقمنا أيضا بقسمته إلى نصفين، وكذلك النصف الأطول وقسمته إلى نصفين مجددا، فكأننا قمنا بتقسيم المجموعة إلى أربعة ارباع بعد ترتيبهم. ولكل من هذه الأرقام التي استخدمناها للتقسيم اسم:

Q1, first quartile

هو الرقم الذى يمثل نهاية الربع الأول ، أي أن ربع الأشخاص أقصر منه أو 25% من البيانات أقل منه.

Q2, median

وهو الرقم الذى يمثل منتصف البيانات تمام كما سبق وذكرنا ، أى 50% من البيانات أقل منه.

Q3, third quartile

وهو الرقم الذى يمثل نهاية الربع الثالث ، أي أن ثلاثة أرباع الأشخاص أقصر منه أو 75% من البيانات أقل منه.

The interquartile rang is equal to Q3-Q1

أي أنه يمثل الفارق بين القيمة التي تقع عند الربع الثالث والقيمة التي تقع عند الربع الأول ، أي أنه يمثل 50% من البيانات التي تقع في المنتصف ، وهناك ربع أقل منها ، وربع أكبر منها.

****

لنوضح الآن المقصود بالفارق بين parametric and non-parametric tests

ببساطة هناك إجمالا نوعين من الاختبارات الإحصائية

بعضها يستخدم مع البيانات ذات التوزيع الطبيعى ( وبعض الشروط الأخرى) ويعتمد على مقارنة قيم البيانات بين المجموعات ومنها على سبيل المثال independent t test and one way ANOVA

وهذه نطلق عليها parametric tests

والبعض الآخر من الاختبارات يستخدم ترتيب البيانات وليس قيمها الفعلية، ونقوم باستخدامها عندما لا تتحقق الشروط لاستخدام الاختبارات السابقة، ومن أمثلتها Mann–Whitney test and Kruskal–Wallis test

عندما يكون الاختبار الإحصائى من النوع الأول (parametric test) يفضل أن نعرض البيانات باستخدام Mean and standard deviation

أما عندما يكون الاختبار الإحصائى المستخدم من النوع الثانى (Non-parametric test) يفضل أن نستخدم Median and Interquartile range

خلاصة الكلام:

Frequency and percentage: for categorical data.

Mean and standard deviation: for normally distributed variables and when parametric tests are used.

Median and Interquartile range: for non-normally distributed variables and when non-parametric tests are used.

Odds Ratio and Risk Ratio والخلط الذى لا ينتهى !

OR and RR

يكثر الخلط بينهما، وأحيانا يتم الحديث عنهما كما لو كانا شيء واحد، وأحيانا يتم استخدام واحد منهما بالخطأ بدلا من الآخر!

سأحكى لكم حكايتين عن تجربتين..

الأولى تجربة من نوع Cohort study

صديقنا الباحث يعمل في شركة كبرى بها مئات الموظفين، وراوده سؤال بحثى: هل تحدث أمراض القلب أكثر لدى المدخنين أم لدى غير المدخنين في الشركة؟

قام بتقسيم موظفي الشركة إلى مجموعة المدخنين، ومجموعة غير المدخنين، سأل الجميع إن كان أحدهم لديه مشكلة بالفعل في القلب، وقام باستبعاد مرضى القلب من الدراسة.

المجموعتين الآن ليس لدى أي منهم أمراض بالقلب، وقرر أن يتابع هؤلاء الموظفين لمدة 5 سنوات، وأن يحسب نسبة حدوث أمراض القلب في كل مجموعة، ولنفترض أن كل مجموعة تتكون من 400 موظف.

وجد الباحث في نهاية السنوات الخمس أن نسبة حدوث أمراض القلب لدى غير المدخنين هي 5%، أي من بين الموظفين ال 400 أصيب 20 بأمراض القلب.

بينما لدى مجموعة المدخنين كانت نسبة حدوث أمراض القلب هي 10%، ومفهوم أن ذلك يعنى أن 40 موظف مدخن من بين ال 400 قد أصيب بأمراض القلب.

يمكننا أن نعبر عن العبارات السابقة علميا بهذه الطريقة:

The risk of having heart diseases among non-smokers =20/400= 5%

The risk of having heart diseases among smokers =40/400= 10%

** لاحظ أننا نقوم بقسمة عدد الحالات على إجمالي المجموعة (المقام هنا يمثل كل المجموعة)

وإذا أردنا أن نقارن هاتين النسبتين سنقول أن احتمالية (خطورة) حدوث أمراض القلب لدى المدخنين تمثل ضعف احتمالية (خطورة) حدوث أمراض القلب لدى غير المدخنين.

The risk of having heart diseases among smokers is 2 times the risk of having heart diseases among non-smokers. This is the Relative Risk, or the Risk Ratio, or RR

أي أن هذا المصطلح يقارن نسبة مئوية إلى نسبة مئوية، نسبة حدوث المرض لدى المعرضين للخطر(التدخين) إلى نسبة حدوث المرض لدى غير المعرضين (غير المدخنين)، وبالتالي هي 10 مقسومة على 5 أو 0.10 مقسومة على 0.05 ، والنتيجة هي 2

RR= 0.1/0.05=10/5=2

***

في هذه التجربة يمكن أيضا أن نقوم بحساب ال Odds Ratio

هو مصطلح أصعب قليلا ولكنه هام للغاية، ويختلف في حسابه عن ال Relative risk

هنا أيضا نقوم بقسمة رقمين على بعضهما

Odds of the disease (heart disease) among exposed (smokers)/ odds of the disease among non-exposed

هنا نقسم:

Odds/odds

ولكن كيف نحسب ال odds

هنا لا نقوم بقسمة عدد المرضى على إجمالي المجموعة ، بل نقوم بقسمة عدد المرضى إلى غير المرضى في كل مجموعة

بالنسبة لمجموعة المدخنين:

Odds of the disease (heart disease) among exposed (smokers) =

number of diseased/ number not diseased= 40/360 = 0.11

أما مجموعة غير المدخنين:

Odds of the disease (heart disease) among non-exposed (non-smokers) =

number of diseased/ number not diseased= 20/380 = 0.05

ثم نقسم الرقم الأول على الثانى لنحصل على ال OR

OR= 0.11/0.05= 2.2

ويتم تفسيرها كالآتى:

Odds of having heart disease among smokers is 2.2 times the odds of having heart disease among non-smokers.

****

يبدو هنا أن ال Relative Risk أكثر منطقية وأسهل للفهم..

لماذا إذن نحتاج لحساب ال odds ratio

****

لننتقل الآن إلى الحكاية الأخرى ..

كان هناك باحث آخر يعمل في نفس الشركة، وأراد أن يصمم بحث مشابه عن وجود علاقة بين التدخين وأمراض القلب ، ولكنه لا يستطيع أن ينتظر 5 سنوات مثل الباحث الأول ليحصل على النتيجة، فصمم تجربة أخرى من نوع case control study

قام الباحث بدراسة 100 مريض حدثت لديهم ذبحة صدرية، وقام بالبحث عن 100 شخص آخرين يتشابهون مع هؤلاء الأشخاص، كل مريض يناظره شخص صحيح، يشابهه في العمر، والجنس ، والتعليم، والمستوى الاجتماعى، والوظيفى ، إلخ.

ثم قام الباحث بسؤال كل شخص من المجموعتين عن تاريخه مع التدخين (أو قام بفحص سجلاتهم الطبية على مدار السنوات السابقة)، فوجد أن المرضى كان بينهم 40 مدخن، بينما مجموعة الأشخاص الأصحاء كان بينهم 20 مدخن فقط.

توقف هنا للحظة، ولا حظ الفرق بين التجربتين..

في التجربة الأولى حسبنا معدل حدوث أمراض القلب لدى المدخنين وغير المدخنين، وبالتالي حسبنا ال Relative Risk, or the Risk Ratio

بينما هنا فتشنا عن تاريخ التدخين في مجموعة من مرضى القلب ومجموعة من الأصحاء، وبالتالي لا مجال في هذه التجربة الثانية للحديث عن معدل الإصابة بالمرض! (عدد المرضى هنا يتحكم به الباحث ونحدده من البداية، وليس بناء على معدل حدوث المرض).

وبالتالي لا يمكن في هذه التجربة حساب ال Relative Risk, or the Risk Ratio

ويمكننا فقط للتعبير عن هذه العلاقة أن نقوم بحساب ال odds ratio

لنسترجع معاً المعطيات:

100 مريض ذبحة صدرية: 40 مدخن، 60 لا يدخن

100 شخص سليم: 20 مدخن، 80 لا يدخن

ويمكن النظر للداتا بطريقة أخرى:

من بين 60 مدخن 40 لديهم ذبحة صدرية، 20 أصحاء

ومن بين 140 شخص لا يدخن: 60 لديهم ذبحة صدرية، 80 أصحاء

يبدو الأمر مشوشا بعض الشيء ، ولكننا يمكننا حساب ال odds ratio في الاتجاهين:

Odds of being a smoker among patients with heart attack/ odds of being a smoker among healthy people

(40/60)/(20/80)= 2.67

وتفهم بهذه الطريقة:

Odds of being a smoker among patients with heart attack is 2.67 times the odds of being a smoker among healthy people

أو الاتجاه الآخر :

Odds of having a heart attack among smokers / odds of having a heart attack among non smokers

(40/20)/(60/80)=2.67

وتفهم بهذه الطريقة:

Odds of having a heart attack among smokers is 2.67 times the odds of having a heart attack among non smokers

على الرغم من أنها يمكن أن تحسب في كل من الاتجاهين ، إلا أننا غالبا ما نحسبها بالطريقة الثانية لمقارنة المرض بين المعرضين لعامل خطر معين، ونفس المرض لدى غير المعرضين لهذا العامل

****

لا بأس إن كانت الحسابات مزعجة وغير واضحة، فليس الهدف هنا شرح المعادلات، ولكن الهدف هو الخروج ببعض النقاط الهامة التالية :

• Odds Ratio is different from Risk Ratio.

• Only in rare diseases the value of odds ratio and relative risk will be almost numerically similar.

• Odds is calculated by dividing part/part as diseased/not diseased, while risk is calculated by dividing part/total as diseased/all exposed (diseased and not diseased).

• Relative risk is calculated in cohort studies but not in case control studies

• Odds ratios are important as they are used for interpretation of logistic regression and are the only suitable measure in case control studies.

نأمل أن يكون هذا الشرح قد ساعد على تقريب المفاهيم والتمييز بينها

Correlation & Regression المفاهيم والاستخدامات

من المهم لأى دارس أو باحث أن يعرف الفرق بين هذين المصطلحين واستخداماتهما وألا يخلط بينهما

لنبدأ معا بموضوع الارتباط Correlation

يمكن من الاسم التخمين أنه يمثل العلاقة بين متغيرين، وتحديدا قوة واتجاه العلاقة.

Association between two variables

مثلا يمكننا القول أن هناك علاقة أو ارتباط بين طول الطفل ووزنه، ويمكننا أيضا أن نقول أن العلاقة إيجابية، أي أن الطول والوزن يزيدان معا، بينما قد تكون علاقة أخرى عكسية مثل العلاقة بين النشاط البدنى ومؤشر كتلة الجسم BMI

زيادة أحدهما يكون مصحوبا غالبا بنقص الآخر

 ويمكننا أن نعبر عن العلاقة بين المتغيرين برقم واحد، يزيد بزيادة قوة الارتباط، وتكون قيمته موجبة في العلاقة الإيجابية، وسالبة في العلاقة العكسية، وهذا الرقم نسميه معامل الارتباط أو correlation coefficient

تتراوح قيمة معامل الارتباط من -1 إلى 1 ، كلما اقتربنا من 1 أو -1 تكون العلاقة أكثر قوة، وكلما اقتربنا من الصفر تكون العلاقة ضعيفة أو معدومة.

مثال:

The correlation coefficient for children’s weight and height: r=0.85

The correlation is positive and strong

مثال آخر:

The correlation coefficient for physical activity and BMI: r= -0.4

The correlation is negative and moderate

مثال أخير:

The correlation coefficient for children’s weight and score in the exam: r=0.05

There is no correlation between children’s weight and score in the exam

ملاحظة هامة: وجود ارتباط بين عاملين لا يعنى أن أحدهما يسبب الآخر أو يؤثر في الآخر، أي أن الارتباط لا يعنى السببية، وتذكر الجملة الشهيرة:

correlation does not imply causation

ملاحظة أخرى: الارتباط بين المتغير س والمتغير ص ، هو نفسه الارتباط بين المتغير ص والمتغير س ، بمعنى:

Correlation of weight and height is equal to the correlation of height and weight

ملاحظة ثالثة: هناك نوعان شهيران من الارتباط Pearson’s correlation and Spearman’s correlation  

 يتشابهان في الغرض ويختلفان في الاستخدام

*****

والآن لننتقل للموضوع الآخر الذى يطلق عليه الانحدار Regression

إذا كان الارتباط correlation  يستخدم لوصف العلاقة بين متغيرين

فإن الانحدار Regression يقوم بحساب المعادلة الرياضية التي تصف تأثير أحد المتغيرين في المتغير الآخر

وبالتالي يمكن استخدام معادلة الانحدار في التنبؤ بهذا المتغير “التابع” والذى نطلق عليه dependent variable

ويمكننا تمثيل العلاقة بين المتغيرين بخط على الرسم البيانى يمثل العلاقة بينهما ولهذا الخط معادلة حسابية، تخبرنا بمقدار التغير الذى سيحدث في المتغير التابع إن حدث تغير في المتغير المستقل independent variable

لاحظ أن علاقة الانحدار بين س، ص تختلف عن علاقة الانحدار بين ص ، س ، الأمر مختلف ولابد من أخذ علاقة السببية في الاعتبار، أي من المتغيرين يؤثر في الآخر

الانحدار لا يقوم فقط باستخدام متغير واحد للتنبؤ بآخر ، بل إن الشائع هو استخدام أكثر من متغير للتنبؤ بمتغير واحد.

على سبيل المثال: يمكننا أن نستخدم قياس السكر في الدم أثناء الصيام للتنبؤ بمستوى الهيموجلوبين السكرى

Using fasting blood glucose to predict HbA1c level

وقد تكون المعادلة مثلا

HBA1c = 3.2+ (0.45*Blood glucose)

الاستخدام الأشهر للانحدار هو التنبؤ، وهو الأمر الذى ينبنى عليه تطبيقات واستخدامات كثيرة جدا في علوم البيانات والذكاء الصناعى

بينما يستخدم في الأبحاث الطبية أيضا لغرض آخر هام، ألا وهو :

Controlling for other variables

بمعنى أننى قد أجرى أحد البحوث الطبية لدراسة العلاقة بين التدخين و مشاكل الشرايين التاجية، هذه العلاقة قد تتأثر بعوامل أخرى كثيرة مثل الجنس ، العمر، شرب القهوة، طبيعة العمل، تناول الكحول، وجود مرض السكرى .. الخ

وللوصول إلى علاقة دقيقة بين التدخين ومشاكل الشرايين التاجية، نحتاج لاستخدام نموذج انحدار أو regression model

يحتوى على كل هذه العوامل السابق ذكرها.

أنواع الانحدار التي نراها غالبا في الأبحاث الطبية تعتمد على المتغير التابع الذى نقوم بالتنبؤ به أو دراسة تأثير العوامل الأخرى عليه dependent variable

وأشهر هذه الأنواع هي:

Linear regression: for continuous dependent variable, e.g. HBA1c

ويستخدم إذا كان المتغير الذى نتنبأ به متغير رقمى، مثل مستوى أحد المركبات الكيميائية في الدم، أو ضغط الدم، الخ

Logistic regression: for binary variables, e.g. Yes/No, Diseased/Not diseased

نستخدمه في حالة كون المتغير الذى نتنبأ به متغير من مستويين مثل وجود المرض أو عدمه ، أو حدوث الوفاة أو لا.

Cox regression: for survival analysis where the outcome is time to certain event, e.g. time to recurrence

نستخدمه في نوع خاص من الدراسات، والتي تقيس الزمن حتى حدوث حدث معين، مثل الزمن حتى الوفاة، أو الزمن حتى رجوع السرطان

ملاحظة أخيرة: أنواع الانحدار أكثر وأعمق وحساباته أيضا معقدة، أردنا هنا أن نعطى فكرة سطحية مبسطة عن الموضوع.

Random sampling vs Random assignment لا تخلط بينهما !

يحدث أحيانا أن يخطئ بعض الباحثين بالخلط بين الأمرين أو استخدام أحدهما بينما هو يقصد الآخر، وغالبا ما يكون السبب هو وجود نفس الكلمة فيهما ، كلمة random

Random sampling

هو أمر يتعلق بطريقة أخذ العينة، ويعنى بالعربية اختيار عينة عشوائية، ولا تعني كلمة العشوائية هنا الصدفة أو كيفما اتفق، بل تعنى أن كل شخص في جمهور أو مجتمع البحث له نفس الاحتمالية أو الفرصة كى يتم اختياره في العينة.

والهدف هنا هو الحصول على عينة ممثلة لجمهور البحث، وهو الأمر الذى نحتاجه من أجل تعميم نتائج الدراسة على الجمهور الذى تم أخذ العينة منه.

Done to ensure the representativeness of the sample (external validity)

مثال: لو أردنا أن نعرف رأى الأطباء في الرواتب التي يتقاضونها ، فينبغى أن نحصل على عينة عشوائية تمثل الأطباء في مجتمع معين حتى يمكن تعميم النتيجة على جموع الأطباء في هذا المجتمع، بينما لو أخذنا العينة من مستشفى واحد فقط ، عندها يكون رأى العينة ممثل لرأى أطباء هذه المستشفى دون غيرها  ولا يمكن تعميمه.

بينما

Random assignment

هي طريقة نستخدمها في التجارب العلمية لتوزيع المشاركين بطريقة عشوائية على مجموعتين أو أكثر، أي أن احتمالية توزيع كل فرد مشارك في التجربة متساوية إلى أى من المجموعات، والهدف من توزيع المشاركين بهذه الطريقة هو أن تكون خصائص المشاركين في كل مجموعة متشابهة، وبالتالي يمكن الجزم بأن نتيجة التجربة ليست منحازة إلى أي من المجموعتين، وأن التأثير الذى حصلنا عليه هو نتيجة لاختلاف الدواء المعطى لكل من المجموعتين مثلا وليس لسبب آخر، أي نستطيع الوصول للسببية.

Done to ensure that the groups are similar in characteristics and any difference is caused by the intervention/treatment (internal validity)

مثال: أريد أن أعرف هل هناك تأثير مثلا للأسبرين على ضغط الدم ، أقوم بعمل تجربة لقياس ذلك بتوزيع المشاركين عشوائيا على مجموعتين ، مجموعة تأخذ الأسبرين ، ومجموعة تأخذ بلاسيبو ، توزيع المشاركين بهذه الطريقة يضمن أن الاختلاف في ضغط الدم هو نتيجة تناول الاسبرين وليس لسبب آخر.

الخلاصة هي أننا نستخدم العينة العشوائية random sampling  كى نحصل على عينة ممثلة للجمهور حتى نستطيع أن نقوم بتعميم النتائج، بينما نستخدم توزيع المشاركين بشكل عشوائى Random assignment  حتى نحصل على مجموعات متجانسة تمكننا من أن ننسب الاختلاف إلى التجربة

Random sampling for generalizability and random assignment for causality!

نفس الأرقام ولكن الأشكال البيانية مختلفة ! كيف يمكن أن يحدث هذا ؟

كان هناك اعتقادا سائدا بين الإحصائيين والعلماء أن الأرقام أكثر دقة من الرسومات البيانية والتى قد تكون تقريبية..
فكانوا يقولون :
“Numerical calculations are exact, but graphs are rough”
إلى أن جاء عالم انجليزى اسمه فرانسيس أنسكومب عام 1973 وقلب هذا الاعتقاد رأسا على عقب عن طريق تقديم 4 مجموعات من البيانات من القيم x, y متطابقة من حيث الملخصات الرقمية:
لها نفس المجموع و المتوسط الحسابي والانحراف المعيارى ، ومعامل الارتباط ، ومعادلة الانحدار
Sum of x = 99
Sum of y = 82.51
Mean of x= 9
Standard deviation of x= 3.32
Mean of y = 7.5
Standard deviation of y= 2.03
Correlation between x and y =0.816
Linear regression line: y = 3 + 0.5x
ولكن عند عمل رسم بيانى لها تظهر الأشكال الأربعة فى الصورة التالية


مفاجأة غريبة .. ولكنها الحقيقة
الشكل البيانى مهم أيضا لعرض الداتا بنفس أهمية الملخصات الرقمية
والاختلاف هنا بين المجموعات الأربع يظهر الاختلاف فى العلاقة بين المتغيرين
فتظهر العلاقة بطريقة خطية فى المجموعة الأولى

linear relationship
بينما العلاقة غير خطية فى المجموعة الثانية

non-linear relationship
وفى المجموعة الثالثة العلاقة خطية ولكن توجد قيمة شاذة

one outlier point
أما فى المجموعة الرابعة فلا توجد علاقة بين المتغيرين ولكن هناك نقطة أدت لظهور معامل ارتباط عالى..
خلاصة الأمر أن الرسم البيانى مهم أيضا مثلما الأرقام مهمة.
وهذه صورة لقيم البيانات فى المجموعات الأربع.

حساب حجم العينة في التجارب العلمية: إجابة مبسطة عن سؤال متجدد

من الأسئلة الهامة التي يواجهها أي باحث بعد أن يستقر على موضوع أو سؤال بحثي للعمل عليه هو: ما حجم العينة التي يجب أن يعمل عليها؟

بعضهم قد يقرر أن اختيار 30 مريض لكل مجموعة عدد كاف ، وبعضهم قد يقول أننى أعمل على تجربة صعبة ويكفينى 40 مريض يتم توزيعهم على مجموعتين ، وبعضهم قد يسأل الأستاذ المشرف على البحث أو حتى زميل في القسم  .. ليحصل على إجابة شبيهة ..

إلا أن إجابة هذا السؤال أمر أكثر تعقيدا ويحتاج إلى بعض الحسابات كما سنرى ..

سنفترض أولا أننا نجرى تجربة علمية Clinical trial

ولنكون أكثر تحديدا سنحدد أننا نريد أن نقوم بعمل  Randomized control trial (RCT)  بهدف مقارنة دواء جديد بآخر موجود في السوق لعلاج أحد الأمراض

من أجل حساب حجم العينة المطلوبة لهذه التجربة والتجارب المشابهة سنحتاج إلى تحديد المعلومات التالية :

1- Power of the study

والمقصود بهذا المصطلح هو احتمالية قدرة التجربة الحالية على الوصول لنتيجة إيجابية حقيقية ، أي قدرة التجربة على إثبات أن الدواء الجديد أفضل في حالة كونه في الحقيقة أفضل ، وهو رقم غالبا ما يكون 80% أو 90% في معظم التجارب

2- Level of statistical significance

هذا الرقم غالبا ما يكون 0.05 ، ويطلق عليه أيضاα   أو  type 1 error وهو الحد الذى سنعتبر الأرقام للـ p-value الأقل منه ذات دلالة إحصائية statistically significant

3- Enrollment ratio

في معظم الدراسات يكون حجم المجموعتين متساوى، أي تكون قيمة هذا الرقم هي 1، ولكن قد يرغب الباحث في بعض الأحيان أن يكون عدد المرضى في إحدى المجموعتين ضعف العدد في المجموعة الأخرى أو أكثر ، وهنا يصبح هذا الرقم 2 أو 3 …

4- Expected effect size

هذه النقطة هي الأهم على الإطلاق، وهى التي تحتاج مجهود من الباحث ويتوقف عليها الجزء الأكبر من حساب العينة، خصوصا أن النقطتين السابقتين نادرا ما يتم تغييرهما ..

هنا نحتاج إلى الإجابة على أسئلة هامة :

السؤال الأول: ما هي النتيجة أو المتغير الأساسي الذى أقيسه في التجربة، هل أقيس مثلا عدد المرضى الذين تم شفاؤهم في كل مجموعة؟ أم أقيس التغير في مستوى السكر في الدم أو أقيس التغير في الوزن؟ أو أقوم بحساب الوقت الذى يعيشه المريض حتى الوفاة ؟ .. الخ

السؤال الثانى:  ما هو نوع هذا المتغير او هذه النتيجة ؟

هل نقوم بحساب عدد المرضى الذين تم شفاؤهم في كل مجموعة مثلا ، وبالتالي فالنتيجة المتوقعة هي نسبة مئوية للشفاء في كل مجموعة؟ Two proportions

أم نقوم بقياس ما مثل قياس السكر أو الكوليستيرول أو الوزن ، وبالتالي النتيجة المتوقعة هي  درجة التحسن أو الاختلاف بين القراءات في كل مجموعة؟  Two means

أو أن المتغير هو الوقت حتى حدوث الوفاة مثلا (سنتجاهل هذا النوع حاليا)  Two median time to event , or two survival rates.

السؤال الثالث: ما هي الأرقام المتوقعة كنتيجة أو كفارق لتكون الدراسة ناجحة؟

إذا كان الدواء الحالي يقوم بشفاء 70% من المرضى ، فما هي النسبة التي أتوقعها أو أحتاجها من الدواء الجديد ليكون إضافة إلى السوق أو ذو فعالية لها معنى، هل هذا الرقم هو 75% أو 80% أو أكثر أو أقل..

وإذا كنا نتحدث عن قياس للسكر أو الوزن مثلا ، فنحتاج إلى معرفة متوسط التغير في مستوى السكر او الوزن مثلا لكلا الدوائين،  نحتاج إلى المتوسط والانحراف المعيارى.  Mean and standard deviation

السؤال الرابع المنطقى جدا : من أين يمكن الحصول على هذه الأرقام !

الإجابة تختلف بحسب كل دراسة، فقد يكون مصدر المعلومة دراسات سابقة أو شبيهة على نفس الدواء ، أو قد يكون بناء على رأى الخبراء في هذا المجال.

وأخيرا يمكننا أن نستخدم المعادلة الصحيحة لحساب حجم العينة ، والتي توفرها الكثير من المواقع على الانترنت.

باختصار : أهم سؤال يحتاج الباحث للإجابة عليه لحساب حجم العينة هو معرفة المتغير الأساسي الذى سيقوم بقياسه في المجموعتين وقيمة المتغير المتوقعة من التجربة حتى تكون لنتيجتها معنى.

مرة أخرى: العوامل التي يتحدد عليها حجم العينة هي:

Power – في حالة زيادة قيمتها سيزيد حجم العينة

Significance level – إذا قللنا مستواه سنحتاج إلى زيادة حجم العينة

Effect size – كلما كان الفارق بين تأثير الدوائين صغيرا كلما احتجنا إلى حجم عينة أكبر (من أجل القدرة على قياس هذا الفارق)

ملاحظات:

  1. عدم حساب حجم العينة بطريقة صحيحة يؤدى إما إلى استخدام حجم عينة صغير وبالتالي عدم الوصول إلى نتيجة ذات دلالة إحصائية، أو استخدام حجم عينة أكبر من المطلوب وبالتالي تضييع الوقت والجهد والمال.
  2. الأنواع الأخرى من الدراسات مثل cross sectional, case control and cohort studies  لها طرق أخرى لحساب حجم العينة.
  3. هناك بعض الفروقات بين الأنواع المختلفة للتجارب من حيث كونها superiority , non-inferiority or equivalence trials  لم نتطرق إليها لإبقاء المعلومات مبسطة.
  4. دائما قم بعمل حساب العينة بطريقة صحيحة أو استشر إحصائى متخصص

نترككم مع بعض مواقع الانترنت لحساب حجم العينة بطريقة سهلة ، يمكنكم تجربتها ، ونسعد باستفساراتكم للإجابة عنها..

For both proportions and means:

https://clincalc.com/stats/samplesize.aspx

For proportions:

https://www.stat.ubc.ca/~rollin/stats/ssize/b2.html

For Means:

https://www.stat.ubc.ca/~rollin/stats/ssize/n2.html

المرأة التي سجنت بسبب الإحصاء ، وربما قتلت أيضا !

في فبراير من عام ١٩٩٨ وبعد أقل من شهر من وفاة ابنها بصورة مفاجئة، تم اعتقال المحامية البريطانية سالى كلارك ووجهت لها تهمة قتل طفليها!
كان لها طفل ذكر توفى فجأة عام ١٩٩٦ وعمره حوالى ثلاثة شهور ، ثم تكررت نفس الحادثة حيث توفى لها طفل ذكر آخر وعمره حوالى شهرين في عام ١٩٩٨، تشابه ظروف الحادثتين حيث كانت وحدها في المنزل مع الطفل في كل مرة ، وعدم وجود سبب طبي واضح لوفاة الطفلين كان سببا للشك في أمرها وتوجيه أصابع الاتهام إليها.
استعانت المحكمة بالخبراء لتحديد أسباب الوفاة ، ومدى مسؤوليتها الجنائية عن الأمر..
أحد الخبراء وكان طبيب أطفال رأى أن احتمالية حدوث هذه الوفاة المفاجئة لطفلين في نفس العائلة هي واحد من كل ٧٣ مليون حالة ، أو بعبارة أخرى مرة كل مائة سنة تقريبا .
كان هذا الرقم: واحد من كل ٧٣ مليون حالة مغريا كثيرا للصحافة ، ومغويا أيضا لهيئة المحكمة التي أدانتها بقتل الطفلين ، وحكمت عليها بالسجن.
أثناء قضاء سالى لفترة سجنها أصدرت جمعية الإحصائيين الملكية بيانا ذكرت فيه أن الطريقة التي تم بها حساب الرقم الشهير: واحد من كل ٧٣ مليون حالة هي طريقة غير دقيقة وتشوبها كثير من المشكلات. منها أن هذا الرقم تم الحصول عليه بضرب احتمالية حدوث هذه الوفاة المفاجئة بنفسه ، للحصول على هذه الاحتمالية ، وهذه الطريقة تفترض أن كلا الحدثين مستقل عن الآخر ، وهو الأمر الذى لا يمكن الجزم به هنا ، حيث أن هناك عوامل جينية وبيئية مشتركة بين الطفلين قد تزيد كثيرا من احتمالية حدوث الوفاة لهما.
كما أن التفسير لهذا الرقم بأن احتمال كونها بريئة هو واحد من ٧٣ مليون هو أيضا تفسير مضلل وخاطىء واستعماله في الاعلام ربما ساعد على تضليل الحقيقة.
تمت إعادة المحاكمة وظهرت أدلة أخرى تعزو وفاة الطفل الثانى لنوع معين من البكتيريا، وتم الإفراج عن سالى وتبرئتها بعد قضاء عدة سنوات في السجن.
إلا أن الضرر كان قد وقع بالفعل ، فقد أدت هذه التجربة الحياتية إلى معاناتها من اضطرابات نفسية خطيرة وإدامنها على الخمر ووفاتها بصورة مفاجئة هي أيضا بعد ذلك بسنوات قليلة في عمر الثانية والأربعين بجرعة عالية من الكحول.
الكذب يمكن أن يحدث عن طريق التلاعب بالأرقام ، لكن الأمر قد يؤدي أيضا إلى السجن ، أو ما هو أسوأ!