مقدمه اي بر رگرسيون چند متغيري

رگرسيون چند متغيري چيست ؟
رگرسيون چند متغيري ( multiple regression ) روشي آماري است كه اجازه مي دهد نمره يك فرد در يك متغير را بر اساس نمره هاي او در چندين متغير ديگر پيش بيني كنيم . ارائه مثالي در اين زمينه مي تواند سودمند باشد . فرض كنيد مي خواهيم پيش بيني كنيم يك فرد از شغلش چقدر لذت مي برد . متغيرهايي مانند درآمد ، ميزان تحصيلات ، سن ، جنسيت ، سابقه خدمت و وضعيت اقتصادي – اجتماعي ، همه مي تواند به رضايت شغلي كمك كند . اگر داده هاي مربوط به اين متغيرها را فرضاً به وسيله نظر سنجي از چند صد عضو از اعضاء جامعه جمع آوري كنيم ، خواهيم ديد كه از ميان متغيرهاي ذكر شده كداميك رضايت از شغل را مي تواند پيش بيني كند و كداميك اين كار را دقيق تر مي تواند انجام دهد . شايد بتوانيم نشان دهيم كه نوع حرفه ، حقوق و سابقه خدمت رضايت شغلي را مي توانند دقيق تر پيش بيني كنند ، در حالي كه ساير متغيرها در پيش بيني رضايت از شغل كمكي به ما نمي كنند .
هنگام استفاده از رگرسيون چند متغيري در روانشناسي بسياري از محققين اصطلاح « متغير مستقل » را براي شناسايي متغيرهايي كه مي پندارد بر تعدادي از « متغيرهاي وابسته » اثر مي گذارد به كار مي برند . ما ترجيح مي دهيم كه از اصطلاح متغيرهاي پيش بين براي متغيرهايي كه امكان دارد در پيش بيني نمره هاي ساير متغيرها كه ما به آنها متغير ملاك مي گوييم به ما كمك كنند استفاده كنيم . بنابراين در مثال ذكر شده قبلي نوع شغل ، حقوق و سابقه خدمت متغيرهاي پيش بين معني دار هستند و به ما اجازه مي دهند تا متغير ملاك

يعني ميزان رضايت شخص از شغل خود را تخمين بزنيم . همان طور كه قبلاً اشاره كرديم رفتار انسان به طور ذاتي پيچيده است و بنابراين پيش بيني دقيق آن ممكن است اما رگرسيون چند متغيري اين امكان را مي دهد كه مجموعه اي از متغيرهاي پيش بيني را شناساي كنيم كه با هم برآورد مفيدي را از نمره احتمالي فرد در متغير ملاك ارائه مي دهند .

ارتباط رگرسيون چند متغيري و تحليل واريانس
در يكي از بخش هاي قبلي همبستگي و رگرسيون را برايتان توضيح داديم . اگر دو متغير همبسته باشند دانستن نمره يك متغير به شما اجازه پيش بيني نمره متغير ديگر را مي دهد . هر چه ميزان همبستگي بيشتر باشد نمرات به خط رگرسيون نزديك تر و بنابراين پيش بيني دقيق تر خواهد بود . رگرسيون چند متغيري گسترش اين اصل است كه يك متغير را بر اساس چندين متغير ديگر پيش بيني كنيم . هنگام پيش بيني رفتار آدمي داشتن بيش از يك متغير پيش بين سودمند است زيرا اعمال افكار و هيجان ها همه احتمالاً به وسيله تركيبي از عوامل

مختلف تحت تاثير قرار مي گيرند . با استفاده از رگرسيون چند متغيري مي توانيم به آزمون نظريه ها ( يا مدل ها ) بپردازيم تا ببينيم كدام دسته از متغيرها به طور تقريباً دقيق رفتار ما را تحت تاثير قرار مي دهند. همان طور كه در بخش ۱ فصل ۶ در تحليل واريانس گفته شد رفتار انسان متغير است و بنابراين به سختي مي تواند مورد پيش بيني قرار گيرد . آنچه در تحليل واريانس و رگرسيون چند متغيري انجام مي دهيم جستجو براي يافتن عوامل تاثير گذار بر واريانس نمرات مشاهده شده است در مثال قبل افراد در ميزان رضايت از شغل خود ممكن است با يكديگر تفاوت زيادي داشته باشند تعدادي از اين تفاوت ها به دليل متغيرهايي است كه ما شناسايي كرديم . به عنوان مثال شايد بتوانيم بگوييم كه ميزان حقوق سهم عمده

اي از واريانس رضايت شغلي را تشكيل مي دهد ، بنابراين براي پيش بيني رضايت شغلي افراد دانستن ميزان حقوق آنان بسيار سودمند است . حال مي توانيم درك كنيم كه نكات گفته شده در اينجا تا حدودي مشابه با اهداف تحليل واريانس است در تحليل وايانس سعي مي كنيم تعيين كنيم چه مقدار از واريانس ناشي از دستكاري ما در متغير مستقل است ( به نسبت درصدي از واريانس كه نمي توانيم به حساب آوريم . )

در رگرسيون چند متغيري متغيرهاي مستقل را مستقيماً دستكاري نمي كنيم . به جاي آن سطوح طبيعي رخ دادن متغيرها اندازه گيري مي شوند تا ببينيم آيا اين موضوع در پيش بيني نمره متغير وابسته ( يا متغير ملاك ) به ما كمك مي كند يا خير . بنابراين تحليل واريانس مثال محدود و خاصي از روش هاي عمومي به كار گرفته شده است در رگرسيون چند متغيره است .

به عبارت ديگر در تحليل واريانس مي توانيم مستقيماً عوامل رادستكاري كرده و تغييرات حاصل در متغيروابسته را اندازه گيري كنيم . در حالي كه در رگرسيون چند متغيري روي دادن طبيعي نمرات را در تعدادي از متغيرهاي پيش بين اندازه گيري مي كنيم . و سعي در تعيين اين امر داريم كه كدام دسته از متغيرهاي مشاهده شده ، در پيش بيني متغير ملاك موفق ترند .

روالي كه فعلاً بر حيطه آمار حاكم است بر تشابه بين رگرسيون چند متغيري و تحليل واريانس و نيز تشابه بين همبستگي و آزمون تي تاكيد مي رورزد . تمام اين روش هاي آماري در اصل سعي دارند يك كار را انجام دهند . توضيح واريانس در سطح يك متغير بر پايه سطح يك يا چند متغير ديگر . اين متغيرهاي ديگر ممكن است طي آزمايش كنترل شده مستقيماً مورد دستكاري و يا طي نظر سنجي ها و يا پژوهش هاي مشاهده اي مورد مشاهده قرار مي گيرد . اما اصول اصل يكي است .
در چه شرايطي مي توان از رگرسيون چند متغيري استفاده كرد ؟

۱- هنگاميكه مي توانيد از روش آماري استفاده كنيد كه بين متغيرهاي پيش بين و ملاك رابطه خطي وجود داشته باشد . يعني ارتباط ، خط مستقيمي را تشكيل مي دهد ( براي تعيين ارتباط غير خطي ، روش هاي مخصوص مورد استفاده قرار مي گيرند . )

۲- متغير ملاكي كه به دنبال پيش بيني آن هستيد بايد بر اساس مقياس پيوسته ( مانند مقياس فاصلهاي و نسبي ) اندازه گيري شده باشد . روشهاي متفاوت سنجش رگرسيون كه رگرسيون لوجستيك ( logistic regression ) ناميده مي شوند . براي متغيرهاي وابسته دو بخشي ( dichotomous ) مورد استفاده قرار مي گيرد .

۳- متغير پيش بيني انتخاب شده بايد براساس مقياس نسبي ، فاصله اي ، و يا رتبه اي مورد اندازه گيري قرار گرفته باشد . متغير پيش بين اسمي فقط هنگامي كه مي تواند مورد استفاده قرار گيرد كه به صورت دو بخشي باشد . يعني بيش از دو طبقه نداشته باشد . مثلاً جنسيت قابل قبول است ( جايي كه مذكر رمز ۱ و مونث رمز ۲ را به خود اختصاص داده است . ) اما هويت جنسي ( زنانه ، مردانه و دو جنسيت ) را نمي توان به عنوان يك متغير واحد رمز گذاري كرد . به جاي آن سه متغير متفاوت را كه هر يك داراي دو سطح باشند مي توانيد ايجاد كنيد .

۴- رگرسيون چند متغيري به تعداد زيادي مشاهده نياز دارد . تعدادموارد بايد حتماً بيش از تعداد متغيرهاي پيش بيني باشند كه در رگرسيون از آن استفاده مي كنيد . حداقل مطلق اين است كه شركت كنندگان بايد پنج برابر متغيرهاي پيش بين باشند . ميزان قابل قبول تر نسبت ده به يك است اما عده اي ادعا مي كنند براي بعضي از روش هاي آماري انتخابي اين نسبت بايد چهل به يك باشد .

اصطلاح شناسي
اصطلاح هاي خاصي وجود دارند كه براي درك نتايج اين روش آماري بايد توضيح داده شوند .

بتا ( ضريب استاندارد شده رگرسيون ) Beta ( standardized regression coefficient)
اصطلاح بتا مقياسي است براي تعيين مقدار متغيرهاي پيش بين بر متغير ملاك .بتا بر اساس واحد انحراف استانداد اندازه گيري مي شود . به عنوان مثال مقدار بتاي ۵/۲ مشخص مي كند كه ميزان تغيير يك انحراف استاندارد در متغير پيش بين منجر به تغيير ۵/۲ انحراف استاندارد در متغير ملاك مي شود . بنابراين هر چه قدر مقدار بتا بزرگتر باشد اثر متغير پيش بين بر متغير ملاك بيشتر خواهد بود .

وقتي در مدل مورد استفاده خود فقط يك متغير پيش بين داشته باشيد بتا برابر با ضريب همبستگي بين متغير پيش بين و متغير ملاك خواهد بود . اين برابري منطقي است زيرا نشان دهنده همبستگي بين دو متغير است . هنگامي كه بيش از يك متغير پيش بينداريد نمي تواني به سادگي با مقايسه ضرايب همبستگي سهم هر يك از متغيرهاي پيش بين را در پيش بيني متغير ملاك با يكديگر مقايسه كنيد . ضريب همبستگي بتا به اين خاطر محاسبه مي شود كه به شما اجازه دهد تا چنين مقايسه اي را انجام دهيد و قدرت رابطه بين هر يك از متغيرهاي پيش بين را با متغير ملاك بسنجيد .

آر ، مجذور آر، مجذور آر تنظيم شده ( R, R Square, adjested R )
آر اندازه همبستگي بين مقدار مشاهده شده و مقدار پيش بيني شده متغيرملاك است . در مثال قبلي نشان دهنده همبستگي بين سطوح رضايت شغلي گزارش شده توسط شركت كنندگان و سطوح پيش بيني شده براي آنان توسط متغير پيش بين است . مجذور آر يعني آر به توان ۲ مربع اين مقياس همبستگي است و سهم واريانس در متغير ملاك را نشان مي دهد كه توسط مدل انتخاب شده ما در نظر گرفته شده است . در اصل اين مقياسي است كه نشان مي دهد با شناختن متغيرهاي پيش بين به چه ميزان مي توان نسبت به پيش

بيني متغيرهاي ملاك اقدام كرد در هر حال مجذور آر ميزان موفقيت مدل انتخاب شده را هنگام كاربرد آن در محيط واقعي تا حدودي بيش از اندازه تخمين مي زند ، بنابراين مجذور آر تنظيم شده محاسبه مي شود كه تعداد متغيرهاي به كار گرفته شده در مدل و تعداد مشاهداتي كه مدل انتخاب شده بر آن پايه گذاري شده اند را به حساب مي آورد . مجذور آر تنظيم شده سودمندترين مقياس موفقيت مدل انتخاب شده را نشان مي دهد . به عنوان مثال اگر مقدار مجذور آر تنظيم شده ۷۵/۰ باشد مي توانيم بگوييم كه مدل انتخاب شده ۷۵درصد واريانس در متغير ملاك را به حساب آورده است .

ملاحظات
همخطي چند گانه ( muticollinearty )
هنگام انتخاب متغير پيش بين بايد متغيري انتخاب شود كه همبستگي با متغيرملاك راداشته باشد ولي با ساسيرمتغيرهاي پيش بين ارتباط قوي نداشته باشد . همبستگي بين متغيرهاي پيش بين غيرعادي نيست . اصطلاح هم خطي چند گانه ( يا هم خطي ) براي توضيح وضعيتي به كار مي رود كه بين دو يا تعداد بيشتري از متغيرهاي پيش بين همبستگي بالايي مشاهده شود . چنين همبستگي هايي هنگام استنتاج درباره اثر هر يك از متغيرهاي پيش بين در موفقيت مدل ايجاد اشكال مي كن . spss شمارا به ابزاري براي بررسي اين امر مجهز كرده است كه درباره آن تو۱ضيح داده مي شود .

روش هاي انتخاب
راههاي متفاوتي براي تعيين سهم نسبي هر يك از متغيرهاي پيش بين وجود دارد . در روش « هم زمان » كه spss آن را روشenter خوانده است پژوهشگر مجموعه اي از متغيرهاي پيش بين را مشخص مي كند كه مدل را مي سازند سپس ميزان موفقيت اين مدل در پيش بيني متغير ملاك تعيين مي شود . د روش هاي سلسله مراتبي بر عكس روش قبلي متغيرها را به ترتيب خاصي به درون مدل وارد مي كنند . ترتيب مخص شده نشان دهنده ملاحظات نظري يا يافته هاي قبلي مي باشد . اگر براي اهميت يك متغير نسبت به ساير متغيرها دليلي در دست نداريد . نبايد از اين روش ها استفاده كنيد . با وارد شدن هر يك از متغيرها به درون مدل ميزان سهم آن نيز تعيين مي شود . اگر اضافه شدن يك متغير باعث

افزايش معني دار قدرت پيش بيني مدل نشود آن متغير حذف مي گردد . در روش هاي آماري ترتيب ايجاد شده براي وارد كردن متغيرهاي پيش بين به درون مدل ( يا خارج از آن ) بر اساس قدرت همبستگي آنها با متغير ملاكي تعيين مي شود . در واقع ويرايش هاي متفاوتي از اين روش وجود دارد كه آنها را انتخاب پيش رو(FORWARD ) انتخاب پس رو ( backward ) و انتخاب قدم به قدم ( stepwise selection ) مي نامند . در انتخاب پيش رو spss متغيرها را يكي يكي بر اساس ترتيب قدرت تعيين شده براي همبستگي آنها با متغير ملاك به مدل وار مي كند . اثر اضافه شدن هر يك از آنها هنگام وارد كردن آنها به مدل تعيين مي شود و متغيرهايي كه به صورت معني داري توان موفقيت مدل را افزايش نمي دهند حذف مي شود

.
در انتخاب پس رو spss تمام متغيرهاي پيش بين را به درون مدل وارد مي كند . سپس ضعيف ترين متغير حذف مي شود و رگرسيون مجدداً محاسبه مي شود اگر اين عمل باعث ضعيف شدن معني دار مدل شود آن متغير مجدداً وارد مي شود . در غير اين صورت از دسته متغيرها حذف مي شود . اين شيوه تا هنگامي كه فقط متغيرهاي پيش بين سودمند در مدل باقي بمانند ادامه مي يابد .

هر يك از متغيرها بر اساس توالي وارد شده و سپس مقدار آن تعيين مي شود اگر اضافه شدن متغير به مدل كمك كند باقي مانده اما در اين حالت كليه متغيرهاي باقي مانده در مدل مورد آزمون مجدد قرار مي گيرند تا مشخص شود كه آيا هنوز در موقعيت مدل سهيم هستند در غير اينصورت حذف مي شوند .
علاوه بر روش هاي « هم زمان » قدم به قدم پيش رو ، پس رو spss روش حذف كه در آن متغيرها به صورت بلوكي از مدل حذف مي شوند را نيز ممكن مي سازد .

نحوه انتخاب روش مناسب
اگر هيچ مدل نظري در ذهن نداريد يا تعداد مواردتان بسيار كم است مناسب ترين روش استفاده از روش enter يا هم زمان است . روال هاي آماري بايد با احتياط و فقط هنگامي كه تعداد مواردتان بسيار زياد است به كار روند . اين امر به اين خاطر است كه تغييرات كوچك داده ها كه ناشي از خطاي نونه گيري است مي تواند اثر بزرگي بر ترتيب ورود متغيرها بگذارد و احتمال باقي ماندن آنها را افزايش دهد . در هر حال يكي از مزيت هاي روش قدم به قدم اين است كه در اقتصادي ترين مدل ها نيز نتيجه مي دهد . اين امر در صورتي مهم است كه براي پيش بيني متغير ملاك بخواهد حداقل تعداد متغير را اندازه گيري كنيد . اگر به خاطر اين امر يا به دلايل ديگر قصد انتخاب مدل آماري را داريد بايد به كمك دسته ديگري از داده هاي مستقل مبادرت به اعتبار يابي نتايج كنيد . اين كار مي تواند با انجام يك مطالعه ديگر يا تقسيم تصادفي مجموعه داده هايتان به دو نيمه انجام گيرد . تنها نتايجي بايد گزارش شوند كه در هر دو تحليل مشترك هستند .