Learn with us

Random sampling vs Random assignment لا تخلط بينهما !

يحدث أحيانا أن يخطئ بعض الباحثين بالخلط بين الأمرين أو استخدام أحدهما بينما هو يقصد الآخر، وغالبا ما يكون السبب هو وجود نفس الكلمة فيهما ، كلمة random

Random sampling

هو أمر يتعلق بطريقة أخذ العينة، ويعنى بالعربية اختيار عينة عشوائية، ولا تعني كلمة العشوائية هنا الصدفة أو كيفما اتفق، بل تعنى أن كل شخص في جمهور أو مجتمع البحث له نفس الاحتمالية أو الفرصة كى يتم اختياره في العينة.

والهدف هنا هو الحصول على عينة ممثلة لجمهور البحث، وهو الأمر الذى نحتاجه من أجل تعميم نتائج الدراسة على الجمهور الذى تم أخذ العينة منه.

Done to ensure the representativeness of the sample (external validity)

مثال: لو أردنا أن نعرف رأى الأطباء في الرواتب التي يتقاضونها ، فينبغى أن نحصل على عينة عشوائية تمثل الأطباء في مجتمع معين حتى يمكن تعميم النتيجة على جموع الأطباء في هذا المجتمع، بينما لو أخذنا العينة من مستشفى واحد فقط ، عندها يكون رأى العينة ممثل لرأى أطباء هذه المستشفى دون غيرها  ولا يمكن تعميمه.

بينما

Random assignment

هي طريقة نستخدمها في التجارب العلمية لتوزيع المشاركين بطريقة عشوائية على مجموعتين أو أكثر، أي أن احتمالية توزيع كل فرد مشارك في التجربة متساوية إلى أى من المجموعات، والهدف من توزيع المشاركين بهذه الطريقة هو أن تكون خصائص المشاركين في كل مجموعة متشابهة، وبالتالي يمكن الجزم بأن نتيجة التجربة ليست منحازة إلى أي من المجموعتين، وأن التأثير الذى حصلنا عليه هو نتيجة لاختلاف الدواء المعطى لكل من المجموعتين مثلا وليس لسبب آخر، أي نستطيع الوصول للسببية.

Done to ensure that the groups are similar in characteristics and any difference is caused by the intervention/treatment (internal validity)

مثال: أريد أن أعرف هل هناك تأثير مثلا للأسبرين على ضغط الدم ، أقوم بعمل تجربة لقياس ذلك بتوزيع المشاركين عشوائيا على مجموعتين ، مجموعة تأخذ الأسبرين ، ومجموعة تأخذ بلاسيبو ، توزيع المشاركين بهذه الطريقة يضمن أن الاختلاف في ضغط الدم هو نتيجة تناول الاسبرين وليس لسبب آخر.

الخلاصة هي أننا نستخدم العينة العشوائية random sampling  كى نحصل على عينة ممثلة للجمهور حتى نستطيع أن نقوم بتعميم النتائج، بينما نستخدم توزيع المشاركين بشكل عشوائى Random assignment  حتى نحصل على مجموعات متجانسة تمكننا من أن ننسب الاختلاف إلى التجربة

Random sampling for generalizability and random assignment for causality!

نفس الأرقام ولكن الأشكال البيانية مختلفة ! كيف يمكن أن يحدث هذا ؟

كان هناك اعتقادا سائدا بين الإحصائيين والعلماء أن الأرقام أكثر دقة من الرسومات البيانية والتى قد تكون تقريبية..
فكانوا يقولون :
“Numerical calculations are exact, but graphs are rough”
إلى أن جاء عالم انجليزى اسمه فرانسيس أنسكومب عام 1973 وقلب هذا الاعتقاد رأسا على عقب عن طريق تقديم 4 مجموعات من البيانات من القيم x, y متطابقة من حيث الملخصات الرقمية:
لها نفس المجموع و المتوسط الحسابي والانحراف المعيارى ، ومعامل الارتباط ، ومعادلة الانحدار
Sum of x = 99
Sum of y = 82.51
Mean of x= 9
Standard deviation of x= 3.32
Mean of y = 7.5
Standard deviation of y= 2.03
Correlation between x and y =0.816
Linear regression line: y = 3 + 0.5x
ولكن عند عمل رسم بيانى لها تظهر الأشكال الأربعة فى الصورة التالية


مفاجأة غريبة .. ولكنها الحقيقة
الشكل البيانى مهم أيضا لعرض الداتا بنفس أهمية الملخصات الرقمية
والاختلاف هنا بين المجموعات الأربع يظهر الاختلاف فى العلاقة بين المتغيرين
فتظهر العلاقة بطريقة خطية فى المجموعة الأولى

linear relationship
بينما العلاقة غير خطية فى المجموعة الثانية

non-linear relationship
وفى المجموعة الثالثة العلاقة خطية ولكن توجد قيمة شاذة

one outlier point
أما فى المجموعة الرابعة فلا توجد علاقة بين المتغيرين ولكن هناك نقطة أدت لظهور معامل ارتباط عالى..
خلاصة الأمر أن الرسم البيانى مهم أيضا مثلما الأرقام مهمة.
وهذه صورة لقيم البيانات فى المجموعات الأربع.

حساب حجم العينة في التجارب العلمية: إجابة مبسطة عن سؤال متجدد

من الأسئلة الهامة التي يواجهها أي باحث بعد أن يستقر على موضوع أو سؤال بحثي للعمل عليه هو: ما حجم العينة التي يجب أن يعمل عليها؟

بعضهم قد يقرر أن اختيار 30 مريض لكل مجموعة عدد كاف ، وبعضهم قد يقول أننى أعمل على تجربة صعبة ويكفينى 40 مريض يتم توزيعهم على مجموعتين ، وبعضهم قد يسأل الأستاذ المشرف على البحث أو حتى زميل في القسم  .. ليحصل على إجابة شبيهة ..

إلا أن إجابة هذا السؤال أمر أكثر تعقيدا ويحتاج إلى بعض الحسابات كما سنرى ..

سنفترض أولا أننا نجرى تجربة علمية Clinical trial

ولنكون أكثر تحديدا سنحدد أننا نريد أن نقوم بعمل  Randomized control trial (RCT)  بهدف مقارنة دواء جديد بآخر موجود في السوق لعلاج أحد الأمراض

من أجل حساب حجم العينة المطلوبة لهذه التجربة والتجارب المشابهة سنحتاج إلى تحديد المعلومات التالية :

1- Power of the study

والمقصود بهذا المصطلح هو احتمالية قدرة التجربة الحالية على الوصول لنتيجة إيجابية حقيقية ، أي قدرة التجربة على إثبات أن الدواء الجديد أفضل في حالة كونه في الحقيقة أفضل ، وهو رقم غالبا ما يكون 80% أو 90% في معظم التجارب

2- Level of statistical significance

هذا الرقم غالبا ما يكون 0.05 ، ويطلق عليه أيضاα   أو  type 1 error وهو الحد الذى سنعتبر الأرقام للـ p-value الأقل منه ذات دلالة إحصائية statistically significant

3- Enrollment ratio

في معظم الدراسات يكون حجم المجموعتين متساوى، أي تكون قيمة هذا الرقم هي 1، ولكن قد يرغب الباحث في بعض الأحيان أن يكون عدد المرضى في إحدى المجموعتين ضعف العدد في المجموعة الأخرى أو أكثر ، وهنا يصبح هذا الرقم 2 أو 3 …

4- Expected effect size

هذه النقطة هي الأهم على الإطلاق، وهى التي تحتاج مجهود من الباحث ويتوقف عليها الجزء الأكبر من حساب العينة، خصوصا أن النقطتين السابقتين نادرا ما يتم تغييرهما ..

هنا نحتاج إلى الإجابة على أسئلة هامة :

السؤال الأول: ما هي النتيجة أو المتغير الأساسي الذى أقيسه في التجربة، هل أقيس مثلا عدد المرضى الذين تم شفاؤهم في كل مجموعة؟ أم أقيس التغير في مستوى السكر في الدم أو أقيس التغير في الوزن؟ أو أقوم بحساب الوقت الذى يعيشه المريض حتى الوفاة ؟ .. الخ

السؤال الثانى:  ما هو نوع هذا المتغير او هذه النتيجة ؟

هل نقوم بحساب عدد المرضى الذين تم شفاؤهم في كل مجموعة مثلا ، وبالتالي فالنتيجة المتوقعة هي نسبة مئوية للشفاء في كل مجموعة؟ Two proportions

أم نقوم بقياس ما مثل قياس السكر أو الكوليستيرول أو الوزن ، وبالتالي النتيجة المتوقعة هي  درجة التحسن أو الاختلاف بين القراءات في كل مجموعة؟  Two means

أو أن المتغير هو الوقت حتى حدوث الوفاة مثلا (سنتجاهل هذا النوع حاليا)  Two median time to event , or two survival rates.

السؤال الثالث: ما هي الأرقام المتوقعة كنتيجة أو كفارق لتكون الدراسة ناجحة؟

إذا كان الدواء الحالي يقوم بشفاء 70% من المرضى ، فما هي النسبة التي أتوقعها أو أحتاجها من الدواء الجديد ليكون إضافة إلى السوق أو ذو فعالية لها معنى، هل هذا الرقم هو 75% أو 80% أو أكثر أو أقل..

وإذا كنا نتحدث عن قياس للسكر أو الوزن مثلا ، فنحتاج إلى معرفة متوسط التغير في مستوى السكر او الوزن مثلا لكلا الدوائين،  نحتاج إلى المتوسط والانحراف المعيارى.  Mean and standard deviation

السؤال الرابع المنطقى جدا : من أين يمكن الحصول على هذه الأرقام !

الإجابة تختلف بحسب كل دراسة، فقد يكون مصدر المعلومة دراسات سابقة أو شبيهة على نفس الدواء ، أو قد يكون بناء على رأى الخبراء في هذا المجال.

وأخيرا يمكننا أن نستخدم المعادلة الصحيحة لحساب حجم العينة ، والتي توفرها الكثير من المواقع على الانترنت.

باختصار : أهم سؤال يحتاج الباحث للإجابة عليه لحساب حجم العينة هو معرفة المتغير الأساسي الذى سيقوم بقياسه في المجموعتين وقيمة المتغير المتوقعة من التجربة حتى تكون لنتيجتها معنى.

مرة أخرى: العوامل التي يتحدد عليها حجم العينة هي:

Power – في حالة زيادة قيمتها سيزيد حجم العينة

Significance level – إذا قللنا مستواه سنحتاج إلى زيادة حجم العينة

Effect size – كلما كان الفارق بين تأثير الدوائين صغيرا كلما احتجنا إلى حجم عينة أكبر (من أجل القدرة على قياس هذا الفارق)

ملاحظات:

  1. عدم حساب حجم العينة بطريقة صحيحة يؤدى إما إلى استخدام حجم عينة صغير وبالتالي عدم الوصول إلى نتيجة ذات دلالة إحصائية، أو استخدام حجم عينة أكبر من المطلوب وبالتالي تضييع الوقت والجهد والمال.
  2. الأنواع الأخرى من الدراسات مثل cross sectional, case control and cohort studies  لها طرق أخرى لحساب حجم العينة.
  3. هناك بعض الفروقات بين الأنواع المختلفة للتجارب من حيث كونها superiority , non-inferiority or equivalence trials  لم نتطرق إليها لإبقاء المعلومات مبسطة.
  4. دائما قم بعمل حساب العينة بطريقة صحيحة أو استشر إحصائى متخصص

نترككم مع بعض مواقع الانترنت لحساب حجم العينة بطريقة سهلة ، يمكنكم تجربتها ، ونسعد باستفساراتكم للإجابة عنها..

For both proportions and means:

https://clincalc.com/stats/samplesize.aspx

For proportions:

https://www.stat.ubc.ca/~rollin/stats/ssize/b2.html

For Means:

https://www.stat.ubc.ca/~rollin/stats/ssize/n2.html

المرأة التي سجنت بسبب الإحصاء ، وربما قتلت أيضا !

في فبراير من عام ١٩٩٨ وبعد أقل من شهر من وفاة ابنها بصورة مفاجئة، تم اعتقال المحامية البريطانية سالى كلارك ووجهت لها تهمة قتل طفليها!
كان لها طفل ذكر توفى فجأة عام ١٩٩٦ وعمره حوالى ثلاثة شهور ، ثم تكررت نفس الحادثة حيث توفى لها طفل ذكر آخر وعمره حوالى شهرين في عام ١٩٩٨، تشابه ظروف الحادثتين حيث كانت وحدها في المنزل مع الطفل في كل مرة ، وعدم وجود سبب طبي واضح لوفاة الطفلين كان سببا للشك في أمرها وتوجيه أصابع الاتهام إليها.
استعانت المحكمة بالخبراء لتحديد أسباب الوفاة ، ومدى مسؤوليتها الجنائية عن الأمر..
أحد الخبراء وكان طبيب أطفال رأى أن احتمالية حدوث هذه الوفاة المفاجئة لطفلين في نفس العائلة هي واحد من كل ٧٣ مليون حالة ، أو بعبارة أخرى مرة كل مائة سنة تقريبا .
كان هذا الرقم: واحد من كل ٧٣ مليون حالة مغريا كثيرا للصحافة ، ومغويا أيضا لهيئة المحكمة التي أدانتها بقتل الطفلين ، وحكمت عليها بالسجن.
أثناء قضاء سالى لفترة سجنها أصدرت جمعية الإحصائيين الملكية بيانا ذكرت فيه أن الطريقة التي تم بها حساب الرقم الشهير: واحد من كل ٧٣ مليون حالة هي طريقة غير دقيقة وتشوبها كثير من المشكلات. منها أن هذا الرقم تم الحصول عليه بضرب احتمالية حدوث هذه الوفاة المفاجئة بنفسه ، للحصول على هذه الاحتمالية ، وهذه الطريقة تفترض أن كلا الحدثين مستقل عن الآخر ، وهو الأمر الذى لا يمكن الجزم به هنا ، حيث أن هناك عوامل جينية وبيئية مشتركة بين الطفلين قد تزيد كثيرا من احتمالية حدوث الوفاة لهما.
كما أن التفسير لهذا الرقم بأن احتمال كونها بريئة هو واحد من ٧٣ مليون هو أيضا تفسير مضلل وخاطىء واستعماله في الاعلام ربما ساعد على تضليل الحقيقة.
تمت إعادة المحاكمة وظهرت أدلة أخرى تعزو وفاة الطفل الثانى لنوع معين من البكتيريا، وتم الإفراج عن سالى وتبرئتها بعد قضاء عدة سنوات في السجن.
إلا أن الضرر كان قد وقع بالفعل ، فقد أدت هذه التجربة الحياتية إلى معاناتها من اضطرابات نفسية خطيرة وإدامنها على الخمر ووفاتها بصورة مفاجئة هي أيضا بعد ذلك بسنوات قليلة في عمر الثانية والأربعين بجرعة عالية من الكحول.
الكذب يمكن أن يحدث عن طريق التلاعب بالأرقام ، لكن الأمر قد يؤدي أيضا إلى السجن ، أو ما هو أسوأ!

Describing Data in SPSS, 5 short videos

فى هذا الموضوع نعرض كيفية وصف المتغيرات المختلفة فى البرنامج فى 5 فيديوهات قصيرة

In this topic we illustrate how to describe different types of data variables in 5 short videos


1- Describing data, one categorical variable

2- Describing data, two categorical variable

3- Describing data, one numerical variable

4- Describing data, one numerical variable in multiple groups

5- Describing data, one numerical variable in multiple layers


لمشاهدة الفيديوهات السابقة الخاصة بتجهيز الداتا

منحة الجامعة الأمريكية فى بيروت لدراسة ماجستير الصحة العامة

فرصة متميزة لدراسة ماجستيرالصحة العامة

Master of Public Health
بمنحة دراسية كاملة فى الجامعة الأمريكية فى بيروت ..
حيث يستطيع الحاصلون على بكالوريوس الطب أو الصيدلة أو طب الأسنان أو التمريض أو العلاج الطبيعى بالإضافة إلى العاملين فى مجال الصحة العامة التقديم للدراسة فى هذا البرنامج.

المنحة تشمل المصاريف الدراسية والسفر بالاضافة إلى تغطية السكن والمعيشة عبر مبلغ شهرى مدفوع.
الأفضلية قطعا لمن لديهم خبرة أعلى فى مجال الصحة العامة ، ومن لديهم سجل أكاديمى متميز ، والدراسة تستمر لمدة سنتين ما بين دراسة وتدريب.
هناك 3 تخصصات فرعية فى ماجستير الصحة العامة هى :
Epidemiology and Biostatistics
Health Promotion and Community Health
Health Management and Policy
وبناء عليه يمكن القول أنها أنسب لمن يعمل أو يريد أن يعمل فى المجالات البحثية الخاصة بالصحة العامة ، الإدارة والسياسات الصحية وتشمل الجودة وسلامة المرضى والإدارة عموما ..
التقديم للبرنامج والمنحة يبدأ فى ديسمبر ويستمر حتى منتصف مارس تقريبا
وأنصح من يريد الالتحاق بالبدء فى التحضير الآن ، حيث أن الأوراق المطلوب تجهيزها ستحتاج لبعض الوقت بالإضافة إلى امتحان فى اللغة الانجليزية

جدير بالذكر أن هناك بعض برامج أخرى التى يمكن الحصول على منحة دراسية فيها ، مثل ماجستير فى الوبائيات و دكتوراه فى الوبائيات
Master of Science in Epidemiology
PhD in Epidemiology
مزيد من المعلومات فى هذا الفيديو :

P-value, تبسيط شبه مخل

البى فاليو اللى مغلبانا

توضيح بتبسيط شبه مخل

علشان أختبر أى فرضية علمية بعمل تجربة
من التجربة بجمع داتا 
بحلل الداتا باستخدام اختبار احصائي مناسب 
نتيجة الاختبار بتعطينا في الغالب بي فاليو 
وقيمة البي فاليو بنلاقيها منشورة فى الاوراق العلمية
ايه معنى هذا الرقم؟
نقدر نقول إن البي فاليو هى “احتمالية الصدفة” ، احتمالية ان العلاقة صدفة ، او احتمالية ان الاختلاف صدفة ، حسب البحث بتاعى
بمعنى لو بقارن بين مجموعتين ولقيت ان البي فاليو 0.01 ، معناها ان احتمالية ان الفرق بين المجموعتين مجرد صدفة هو 1%؜ ، وبالتالى هنستبعد ان الفرق ده صدفة ، وهنقول ان غالبا الفرق ده حقيقي
او لو عايز اشوف هل فيه علاقة بين حاجة معينة وحدوث مرض معين ، ولقينا البي فاليو بردو صغيرة ، مثلا 0.02 ، معنى ده ان احتمالية كون العلاقة مجرد صدفة هى 2% ، وبالتالى نقدر نسنتنتج ان فيه علاقة حقيقية ، مش مجرد صدفة وهكذا 
البي فاليو رقم ، بيتراوح بين الصفر والواحد 
وباختصار لو لقينا الرقم ده اقل من 0.05 معناها ان احتمالية الصدفة قليلة ، وبالتالى العلاقة غالبا حقيقية ،او الفرق غالبا حقيقي وبنقول بالانجليزى 
There is statistically significant difference/association 
كل لما الرقم بيقل ، كل ما كانت احتمالية الصدفة اقل ، وبالتالى كل لما كنا اكثر يقينا من وجود علاقة أو فرق (حسب البحث)
بينما لو الرقم أعلى من 0.05 هنقول ان احتمالية الصدفة مش قليلة ، وبالتالى ممكن الفرق او العلاقة دى تكون مجرد صدفة ، وبنقول بالانجليزى 
There is NO statistically significant difference/association
مثال توضيحى أخير :
لو فرضنا انى عملت تجربة علمية علشان أشوف تأثير واحد من التطعيمات (اللقاحات) ، عندى مجموعتين ، مجموعة أخذت اللقاح (الطعم) والأخرى لم تأخذه ، وقمنا بمقارنة نسبة حدوث المرض في المجموعتين وكانت النتيجة بي فاليو = 0.04
وده معناه ان احتمالية كون الفرق بين المجموعتين مجرد صدفة هي 4% ، وبالتالي اقدر أقول إن غالبا الفارق ده حقيقي ، وإن الطعم أو اللقاح فعلا ليه تأثير
بينما لو كانت النتيجة بي فاليو = 0.4
فده معناه ان احتمالية كون الفرق بين المجموعتين مجرد صدفة هي 40% ، وبالتالي اقدر أقول إن غالبا الفارق ده غير حقيقي ، وإن الطعم أو اللقاح ليس له تأثير
كان هذا تبسيط شديد لمعنى البي فاليو اللى هى باختصار “احتمالية الصدفة”
ملاحظة : الشرح الدقيق لمعنى البي فاليو يتطلب التطرق لموضوع null and alternative hypothesis 
وهو الأمر الذى حاولنا تجنب التطرق إليه في محاولة للتبسيط

الشاى بالحليب وعلم الإحصاء

كان من عادة بعض أساتذة الجامعة الإنجليز الاجتماع فى لقاء ودى لاحتساء الشاى هم وزوجاتهم ، وفى أحد أيام الصيف وبينما هم مجتمعون ذكرت إحدى السيدات (وهى عالمة متخصصة فى الطحالب اسمها Muriel Bristol) ملاحظة ما ، وهى أن مذاق الشاي ‏يختلف إذا صببناه فوق الحليب عن مذاقه إن صببنا الحليب فوقه.

فى البداية استجلبت الملاحظة سخرية العلماء وضحكهم، إذ كيف يختلف المذاق ما دام التركيب الكيميائى واحد !

اعترض أحد الموجودين، وهو الأستاذ رونالد فيشر Ronald Fisher على هذا الخلاف وأصر على اختبار فرضية السيدة قبل التسرع بالإجابة وحسم القرار…

‏ فقام بتصميم تجربة علمية حيث قدم للسيدة 8 أكواب بعضها صب فيه الشاي على الحليب ( 4 أكواب) .. والأخرى صب فيها ‏الحليب على الشاي (4 أكواب)  دون أن ترى السيدة تحضير الأكواب..

 وطلب منها أن تحدد أيًا منها ينتمي لأي مجموعة ‏وتصنف الأكواب تبعا لذلك ..

نجحت السيدة فى التمييز بين الأكواب المختلفة، وألهمت التجربة فيشر لإجراء المزيد من الأبحاث، ونشر فى عام 1935 كتابا عن تصميم التجارب العلمية وذكر فيه هذه القصة التى أصبحت معروفة فى تاريخ العلم باسم  the lady tasting tea

هذه القصة ذكرها أحد علماء الإحصاء والذى كتب كتابا جميلا يحمل نفس الاسم، ذكر فيه القصة وغيرها من القصص والتجارب والأخبار التى وضحت كيف تطور علم الإحصاء خلال القرن العشرين.

Data preparation is SPSS, 8 videos

فى هذا الموضوع نعرض جميع فيديوهات تجهيز الداتا والمتغيرات فى البرنامج تمهيدا للخطوات التالية

In this post, we are providing all the 8 videos of data and variables preparation in SPSS.

1- Starting with data

2- Defining Variables

3- Computing Variables

4- Recoding Variables

5 – Recoding string variables (automatic recoding)

6- File Splitting

7- Selecting Cases

8- Weighting cases