تعاريف و تنظيم داده هاي آماري

۱- تعاريف و توزيعهاي آماري
۱-۱- تعريف علم آمار :
قبل از آنكه علم آمار تعريف گردد لازم است كمي راجع به تاريخچه آن سخن به ميان بيايد تاريخچه علم آماررا مي توان از بدو تشكيل دولتها آغاز كرد ، زيرا كلمه آمار Statusticesاز كلمه State به معني دولت گرفته شده است . دولتهاي اوليه نيز براي پي بردن به سلطه و قلمروخود احتياج به آن داشتند . البته در آن زمان منظور از آمار ارقام و اطلاعات مورد نياز دولتها براي گرفتن ماليات و سربازي و ساير امور مربوطه به كشورداري و سياست بوده است .

از چند هزار سال قبل از مسيح در كشورهاي مصر و چين و هندوستان قديم سرشماري نفوس و همچنين اندازه ميزان – دارائي تحت نفوذ دولتها انجام گرديده است و يا اينكه اغلب به طور ناقص انجام گرديده است ، با اين حال همين شمارشهاي ابتدائي پايه و اساس آمار امروزي را بنيان نهاده است ولي تقريباً در نيم قرن اخير همراه با ساير علوم ، علم آمار نيز سير صعودي را پيموده و گاهي پيشتاز و پيش قراول بعضي از علوم بوده است ، كه با استفاده از آن بود كه اغلب علوم چند برابر سرعت سير عادي خود را گرفتند ، زيرا روشها و فنوني كه براي تحقيقات علمي ضروري هستند از علم آمار بدست مي‌آيد ، بخصوص در علوم فيزيكي و زيست شناسي و اجتماعي و اقتصادي بكار برده مي شود . ناگفته نماند گاه ممكن است كه يك روش معين تنها به منظور استفاده در يك رشته خاص پژوهش علمي طرح ريزي شده باشد . اين بدان معني نيست كه در آن رشته بخصوص آمار كاربرد زيادي دارد .
از آنجائيكه علم آمار ريشه و علايقش به كليه علوم بشري رسيده است ، امروزه در تمامي دانشگاههاي جهان در اكثر رشته هاي مختلف دانشگاهي اعم از رشته هاي پزشكي ، فني ، كشاورزي و برنامه ريزي و… تدريس مي شود . براي آنكه هدف اين درس بهتر معلوم شود ، لازم است بدواً علم آمار را تعريف نمائيم .
حال چند تعريف را از بين كليه تعاريف كه جامع تر به نظر مي آيد بيان مي كنيم . لازم به تذكر است كه براي علم آمار تعاريف زيادي شده است .
– آمار علمي است كه خواص جامعه را مورد بررسي قرار مي دهد .
– آمار علمي است كه مشخصات جامعه ها را به صورت كمي ولي بادر نظراوضاع كيفي آنها مورد بررسي قرار ميدهد .
– آمار علمي است كه اصول وروش جمع آوري اطلاعات آماري ، نمايش دادن آنها ، تجزيه و تحليل و استنتاج آماري را مورد بحث قرار مي‌دهد .

 

۴-۳- واريانس ۱
در ميانگين قدر مطلق انحرافات براي اينكه انحرافات مثبت و منفي يكديگر را خنثي نكنند آن را به صورت قدر مطلق بيان كرديم . اين منظور از راه مجذور كردن انحرافات نيز ممكن بود تا فرمول از حالت جبري خارج نشود . بدين طريق مشخص كننده جديدي از پراكندگي كه از هر حيث بر مشخص كننده هاي قبلي برتري دارد بدست خواهد آمد كه آن را واريانس مي نامند و يا ، نمايش مي دهند . ( واريانس واقعي جامعه را با نشان مي دهند )

و عادتاً در اين كتاب آن را با نشان خواهيم داد .

در صورتيكه داده هاي آماري به صورت جدول توزيع فراواني باشد به بيان ديگر فراوانيهاي مقادير صفت يكسان نباشد ( مانند ميانگين حسابي سا ده و ميانگين وزني ) فرمول واريانس به صورت زير خواهد بود .

معمولا صورت واريانس يعني مجموع مجذور و انحرافات از ميانگين را با (۲) و به طور خلاصه با SS نمايش مي دهند در نتيجه فرمول واريانس در حالت كلي به زير خواهد بود .

چو ن محاسبه واريانس به اين صورت خالي از اشكال نيست (چرا ؟) بدين جهت صورت كسر واريانس (SS) را بسط داده به صورت زير در مي آيند .

(اثبات اين فرمول بعهده دانشجويان گذارده مي شود )
در نتيجه فرمول كلي واريانس عبارت خواهد بو د:

وگاهي را با علامت اختصاري يعني عامل تصحيح (Correction Factor)
نشان مي دهند .

و با استفاده از نتيج مي شود كه
در نتيجه فرمول عبارت خواهد بود از :

و فرمول واريانس نيز به صورت زير در مي آيد .

ويا

در صورتي كه داده هاي آماري به صورت فراواني نسبي بيان شود فرمول واريانس برابر خواهد بود

مانند تمام مشخص كننده هاي پيش بهتر است محاسبه آن به كمك جدول انجام گيرد . يادآور مي شود كه در مقايسه دو يا چند جامعه ، جامعه ايكه واريانس آن كمتر است مقادير صف

ت متغير مورد مطالعه آن جامعه يكنواخت تر از جامعه هاي ديگر مي باشد .
تبصره ((در مواردي كه تعداد نمونه نسبت به تعداد كل جامعه خيلي كوچك باشد واريانس را از فرمول بدست مي آورند ))

۴-۳-۱- خواص واريانس

چون فرمول واريانس به صورت جبري بيان گرديده است لذا با توجه به فرمول آن مي توان خواص زير را بيان كرد و اين خواص به ما كمك مي كند كه محاسبات را آسان تر بدست آوريم .
۱- اگر از تمامي مقاديرصفت يك مقدار ثابت a كسر يا اضافه نمائيم مقدار آن تغيير نمي كند .

۲- اگر تمام مقادير صفت را بر مقدار ثابت تقسيم (يا ضرب ) نمائيم واريانس متغير اصلي برابر كوچكتر ( اگر ضرب شود برابر بزرگتر) مي شود .

۳- اگر كليه فراوانيها را به يك عدد ثابت تقسيم نمائيم مقدار وايانس تغيير نمي كند ( مانند ميانگين )
۴- اگر k جامعه به حجمهاي و ميانگين يا واريانسهاي را باهم جمع نمائيم واريانس جامعه كل كه از تركيب شدن آنها تشكيل شده است مساوي است با ميانگين واريانس هاي جامعه هاي جزء ، بعلاوه واريانس ميانگينهاي آنها در حول ميانگين كل يعني :

كه در آن ميانگين كل مي باشد .

مثال ۱۱- واريانس توزيعهاي زير را محاسبه نموده و بيان كنيد كه كد ام يك يكنواخت تر است .

براي حل توزيع Y از كليه مقادير صفت (y) 1000 كم كرده و فراوانيها را بر ۱۰۰ تقسيم مي كنيم طبق خواص واريانس مقدار آن تغيير نمي كند و در نتيجه خواهيم داشت :

چون كوچكتر از است در نتيجه جامعه x يكنواخت تر از جامعه y مي باشد .
مثال ۱۲- براي جدول توزيع فراواني زير واريانس را محاسبه نمائيد (مثل ۶ ميانگين )

۴-۴- انحراف معيار ۱
يكي ديگر از مشخص كننده هاي پراكندگي انحراف معيار است ، اين مشخص كننده بر ساير مشخص كننده هاي پراكندگي رجحان دارد . در پاراگراف زير راجع به انحراف معيار سخن مي رانيم .
انحراف معيار عبارت است از جذر واريانس و آن را با علامت S يا نمايش مي دهند وقتي از جامعه نمونه انتخاب شود انحراف معيار نمونه ها از فرمول
محاسبه مي شود .
حال بيان مي كنيم كه چرا اين مشخص كننده بر ديگر مشخص كننده هاي پراكندگي برتري دارد ، اگر صف متغيير X مثلا بيانگر ساعت باشد در اين صورت واريانس مساوي است با مجذور ساعت . و يا اگر گوياي مزد كارگران باشد واريانس مساوي با مجذور تومان مي شود . اين مطلب هرگز صحيح نيست و تصور گمراه كننده اي ايجاد مي كند . اينجاست كه بايد گفت مقياس پارامت

ر پراكندگي بايد بر حسب همان واحدي بيان گردد كه مقادير متغيير (داده هاي آماري ) بر حسب آن واحد اندازه گيري مي شود . بدين دليل جذر واريانس به عنوان يك مشخص كننده برتر نسبت به ساير مشخص كننده ها ي پراكندگي به كار برده مي شود .
در اينجا بيان اين نكته ضروري است كه انحراف معيار هرگز از انحراف متوسط كوچكتر ن

مي شود( ) و براي نمونه هاي بزرگتر اگرتوزيع مقادير نرمال نزديكتر باشد مي توان گفت كه نسبت انحراف معيار بر انحراف متوسط تقريباً برابر با ۲۵/۱ مي باشد به عنوان مثال واريانس را كه قبلاً محاسبه كرده بوديم ، انحراف معيار آن را محاسبه مي كنيم :

لازم است گفته شود كه براي اين دادها ميانگين قدر مطلق انحرافات نيز قبلا محاسبه گرديده است به طوري كه ملاحظه مي شود مي باشد .

۷- ضريب همبستگي ۱
ضريب همبستگي كه آن را با r و يا با p نشان مي دهند شاخصي است كه به منظور تعيين نوع همبستگي و ميزان درجه رابطه بين صفات بكار برده مي شود و مقدار آن بين يك و منهاي يك نوسان مي كند يعني اگر بيان كننده اين است كه بين متغير هاي همبستگي به طور كامل ولي معكوس وجود دارد كه البته اين دو حالت بندرت پيش مي آيد ولي اگر باشد معني و مفهوم آن اين است كه بين دو متغير مورد مطالعه مطلقاً همبستگي وجود ندارد وقتي r منفي باشد بيانگر اين مطلب است كه در معادله مقدار a مثبت است .( )
فرمول ضريب همبستگي عبارت است از

كه آن را ضريب همبستگي پيرسون مي نامند . كه در آن قبلا گفته شده و نيز عبارت است از
يعني صورت كسر واريانس x و y تواما مي باشد كه آن را كواريانس (Covariance) y و X مي نامند . و فرمول آن عبارت است از :

البته كواريانس عبارت است از مشخص كننده اي است كه براي تعيين جهت همبستگي بكار برده مي شود .
با توجه به اينكه مخرج r يا P عبارت است از در نتيجه ضريب همبستگي را

مي توان چنين نيز نوشت :

مي توان آن را به صورت ساده زير نشان داد :

لازم به ياد آوري است كه اگر جدول مورد مطالعه ( داده هاي آماري ) دو بعدي باشد مجموع حاصل ضرب هاي يعني چنين خواهد بود :

مجذور را ضريب تعيين مي نامند كه راجع به آن بعداً سخن به ميان خواهد آمد .
تبصره ۱: با توجه به فرمول ضريب همبستگي پيرسون معلوم مي شود كه اگر مقادير صفت متغير x و y را تغير دهيم ميزان كميت r تغير نمي كند يعني متغيير و انجام گيرد ضريب همبستگي x و y برابر با ضريب همبستگي خواهد بود .
( با استفاده از خواص واريانس )

تبصره –۲- ضريب r متقارن است ، يعني اگر جاي x و y را عوض كنيم مقدار r تغيير نمي كند .
مثال ۲ – براي داده هاي مثال يك مطلوب است ضريب همبستگي .
حل : براي محاسبه r ( ضريب همبستگي ) جدول زير را تشكيل مي دهيم .

در نتيجه :

مثال ۳- نتايج مشاهدات بر روي دو صفت yو x به توسط جدول زير بيان شده است مطلوب است ضريب همبستگي

دليل اينكه مقدار r در هر دو مثال يكي شده اين است كه اگر در مثال سوم تغيير انجام گيرد همان مقادير مثال دو بدست مي آيد .

در نتيجه :

تمرين – ثابت كنيد اگر مبداء مختصات را به نقطه انتقال دهيم معادله خط رگوسيون به صورت زير در مي آيد .

۸- استاندارد كردن ضريب همبستگي –
با توجه به فرمول ضريب همبستگي ملاحظه مي شود كه مقدار آن از واحد هاي اندازه گيري x و y تبعيت مي كند . حال براي اين كه مقدار r از واحدهاي اندازه گيري xو y تبعيت نكند . مقادير x و y را به صورت استاندارد تبديل مي كنند .

در واقع همبستگي بين x و y به همبستگي بين صفات ا

ستاندارد شده آنها تبديل مي شود . در نتيجه معادله خط رگرسيوني به صورت تبديل مي شود . بنابراين :
و يا خواهد بود .

۳ – فضاي نمونه يا فضاي حوادث
مجموعه تمامي نتايج ممكن ازمايش را فضاي نمونه يا فضا

ي حوادث مي نامند . براي مثال يك تاس را مي ريزيم ممكن است رويه يك يا دو …يا شش بيايد . مجموعه كه تمام نتايج ممكن اين تجربه را نشان مي دهد به نام فضاي نمونه اي اي آزمايش ناميده مي شود هر كدام از عضوهاي مجموعه S را به نام يك نقطه از فضاي نمونه اي مي نامند .
و يا اگر دو تاس را بريزيم فضاي نمونه اي اين آزمايش عبارت است از كه در آن .
تمرين : يك سكه را سه بار پرتاب مي كنيم ، مطلوب است فضاي نمونه اي اين آزمايش .

۴-فراواني مطلق و نسبي
از آنجا كه ارتباط نزديك بين احتمال يك حادثه با فراواني نسبي آن در يك سري آرمايش كه تعداد آنها به اندازه كافي زياد باشد برقرار است لذا بار ديگر فراواني نسبي يك حادثه را بازگو مي نمائيم .
مقدار مشاهدات در يك آزمايش را فراواني مطلق مي نامند مثلا اگر يك سكه n بار ترپات شود بارشير بيايد آنگاه را فراواني مطلق و را فراوني نسبي حادثه مي نامند و به صورت نشان مي دهند مي دانيم كه هميشه بر قرار است و در حالتي كه است كه باشد و همچنين در صورتي كه صادق است باشد يعني حادثه A وقوع نيابد .

۵-تعريف احتمال برمبناي فراواني نسبي
فرض كنيم هريك از دانشجويان كلاس يك سكه پرتاب مي كنند اگردانشجوي اولي بار و دومي و سومي بارو … همين طور I ام بار سكه اي را پرتاب كنند ، اگر تعداد رويه شير آمدن به ترتيب براي دانشجوي اولي ، دومي سومي و…
و براي بار رخ دهد آنگاه فراواني نسبي شير آمدن در پرتاب سكه براي هريك از دانشجويان برابر با :
مي باشد .
اگر به جاي n ها عدد گذارده شود ملاحظه مي شود كه با بزرگ شدن n فراوانيهاي نسبي به عدد ۵/۰ نزديكتر مي شوند .
با توجه به مطالب بالامي توان گفت كميت ثابت كه در حول آن فراواني نسبي حادثه در سري آزمايشهاي زياد گرد هم مي آيد به عنوان اندازه اسكان وقوع حادثه قبول مي شود ، احتمال آن حادثه ناميده مي شود و آن را با يا نمايش مي دهند در عمل به عنوان مقدار تقريبي احتمال حادثه تصادفي ، فراواني نسبي آن حادثه در آزمايش هاي با n بزرگ قبول مي شود يعني همواره

البته طبق قانون اعداد بزرگ كه برنولي اثبات كرده

يعني احتمال اينكه اختلاف فراواني نسبي حادثه A ، از احتمال آن حادثه كوچكتر از باشد برابر با يك است . اين مسئله به نام قانون اعداد بزرگ معروف است كه آن را اولين بار برنولي طرح كرد . اين قانون مي گويد :
اگر تعداد آزمايشها را زياد به سمت بينهايت ميل دهيم فراواني نسبي نيز به سمت احتمال وقوع حادثه ميل خواهد كرد .

۶- تعريف كلاسيك احتمال
احتمال يك حادثه عددي است كه اندازه اسكان آن حادثه را نشان مي دهد و آن را به طور كلاسيك به طريق زير تعيين مي كنند .
اگر نتايج يك آزمايش بتواند كلا به n حالت هم احتمال ( يعني لحاظ وقوع حادثه هيچ گونه امتيازي به هم نداشته باشند ) و ناسازگار ( مانعت الجمع يعني با وقوع يكي

از آنها وقوع حالات ديگر امكان پذير نباشد ) واقع شود و m حالت آن براي حادثه معين A مساعد باشد احتمال وقوع حادثه A كسري است برابر با به عبارت ساده تر نسبت حالات مساعد برحالات ممكنه را احتمال مي نامند.

 

نظور از كل حالات ممكنه عبارت است از مجموعه حوادث در يك آزمايش كه دو بدو ناسازگار و هم احتمال باشند با توجه به تعريف احتمال مي توان گفت كه شمردن حالتهاي ممكن و مساعد مهمترين قسمت حل مسائل احتمالات است .
مثال ۱- يك تاس بازي كاملا منظم و همگن را مي ريزيم احتمال آمدن رويه پنج چقدر است ؟
حل : موقع ريختن تاس تعداد كل حالات ممكن ۶ است كه هم احتمال و ضمناً ناسازگارند زيرا موقع ريختن تاس دو يا چند روي آن نمي توانند باهم بيايند . از اين ۶ حالت يك حالت مساعد براي وقوع حادثه فوق وجود دارد پس احتمال اين حادثه مساوي است با
مثال ۲ – دو تاس بازي را باهم مي ريزيم احتمال اينكه لااقل روي يكي از آنها پنج بيايد چيست ؟
حل : تعداد كل حالات ممكن مساوي است با ۳۶ زيرا هر روي يكي از تاس هاي باهر كدام از ۶ روي تاس ديگر مي تواند بيايد . پس تعداد كل حالات مساوي است با ۳۶=۶*۶ اين حالات هم احتمال و ناسازگارند . حال براي شمارش تعداد حالات مساعد چنين استدلال مي كنيم :
رويه پنج يكي از تاس ها مي تواند با هر كدام از ۶ رويه تاس دومي بيايد در اين صورت ۶ حالت پيش مي آيد كه روي يكي از تاس ها پنج بيايد ، به همين طريق روي پنج تاس دومي مي تواند با هر كدام از شش رويه تاس اولي بيايد پس در اينجا نيز شش حالت پيش مي آيد كه يكي از رويه ها پنج باشد ولي در حالتي كه هر دو تاس پنج بيايد در هر دو حالت باهم برابرند بنابر اين در حالت دوم تنها پنج حالت را بايد در نظر گرفت ، به اين ترتيب تعداد حالت مساعد برابر با ۱۱=۵+۶ خواهد شد واحتمال اين حادثه يعني اينكه لااقل روي يكي از تاس ها پنج باشد مساوي است با
به طوري كه ملاحظه مي شود براي محاسبه احتمال مي بايد دقيقاً تعداد حالات ممكن و حالات مساعد را شمرد ، همچنين مي بايد هم احتمال بودن و ناسازگار بودن حالات را در نظر گرفت .
بايد متذكر شد كه گاهي تعدادكل نتايج آزمايش (كل حالات ممكنه ) و تعداد نتايج مساعد بر حادثه A را بسادگي نمي توان تعيين كرد ولي مي توان نسبت آ“ها را بدست آورد .

۷- قضاياي مربوط به احتمال
۱- احتمال كميت غير منفي است .
۲- احتمال حادثه يقين (I) مساوي است با يك
۳- احتمال حادثه غير ممكن (O) مساوي است با صفر
۴- براي هر حادثه دلخواه A رابطه بر قرار است .
۵- اگر حادثه A حادثه B را ملزم كند يعني آنگاه رابطه بر قرار خواهد بود .
۶- اگر حوادث Aو B هم ارز باشند آنگاه احتمال هاي آنها مساوي خواهند بود .

۷- مجموع احتمال وقوع حادثه A و عدم وقوع حادثه A يعني مساوي است با يك

۸- قضيه حاصل جمع احتمالات – اگر حادثه A به S حالت تجزيه گردد .
يعني :

ويا

آنگاه احتمال حادثه A مساوي خواهد بود با حاصل جمع احتمال ها ي حوادث

يعني :

اين قضيه در صورتي صادق است كه حوادث ناسازگار باشند ، در مورد سازگار بودن حوادث بعداً سخن خواهد رفت .
مثال ۳ – در يك كيسه ۵ مهره سفيد و ۴ مهر ه سياه و ۳ مهره قرمز و ۶ مهره آبي است يك مهره به طور تصادفي از آن خارج مي كنيم احتمال اينكه مهره انتخابي رنگي باشد ( سفيد نباشد ) چقدر است .
حل – سياه ، قرمز ، و آبي بودن را به ترتيب مي ناميم و با استفاده از قضيه حاصل جمع خواهيم داشت :

مثال ۴ – دهكده اي از دو قسمت عليا و سفلي