آشنايی با آمار توصيفي
پيشگفتار
در عصر حاضر كسي نمي‌تواند منكر این واقعیت باشد كه آمار نقشي لاینفک در زندگي روزمره ما بازي مي‌كند. اخبار روزانه رسانه‌هاي گروهی با گزارشی از وضع هوا به پایان مي‌رسندو در طول اخبار، به جریانهای بازار بورس و سهام اشاره مي‌شود و روزنامه‌ها خبر از افزایش نرخ اجناس مي‌دهندو…

آمار به عنوان پايه يك روش و راه موثر در بررسی مسائل موجود، در بسیاری از زمينه‌هاي علمي از جمله جامعه شناسي، کشاورزی، فيزيك و….به‌ كار گرفته مي‌شود. در دانش امروزي، معمولا سعی مي‌شود كه اطلاعات موجود در يك زمينه خاص، در قالب اعداد نمایش داده شود تا به هنگام تجزیه و تحلیل اطلاعات، فهم بهتری از پدیده مورد مطالعه به‌ دست آمده و امکان مقایسه فراهم گردد. در يك جمله آمار مجموعه‌اي از روشهای جمع آوری، تهيه وتنظیم و تجزیه و تحلیل اطلاعات است كه براي كسب يك يا چند نتیجه به خدمت گرفته مي‌شود.

دیدگاههایی درمورد آمار
تهيه آمار كاری وقت گير و زمان بر و اصولا كسالت آور است.
آمار گورستانی از اعداد و ارقام است كه در هر اداره و سازمان نمونه ای از آن پيدا می شود.
آمار مجموعه ای از روابط و فرمولهای رياضی پيچيده و گيج كننده است.
آمار شامل نمودارها و جدولهايی از اعداد است.
آمار فرايندی است كه در آن هر ده سال افرادی را به منازل فرستاده و اطلاعات

آمار ابزاری است كه بسياری با توسل به آن افكار عمومی را به نفع خود جلب می كنند.
آمار مفهومی است كه براي ثبت و نمايش اطلاعات عددی به كار می رود، مانند تعداد بيكاران، كارمزد حمل كالا به وسيله كشتی در ۱۵ سال گذشته، جمعيت نواحی جنوب شهر تهران، تعداد افراد تلف شده در اثر شيوع يك بيماری يا مقدار مسافت طی شده در زمان معينی به وسيله برنده مسابقه‌ دو.
دید کلی
بیشتر مردم با کلمه آمار، به مفهومی که برای ثبت و نمایش اطلاعات عددی بکار می‌رود، آشنا هستند: تعداد بیکاران، قیمت روزانه بعضی از سهام در بازار بورس، کارمزد تحمل کالا بوسیله کشتی در ۱۵ سال گذشته مثالهایی از این مفهوم‌اند. ولی این مفهوم با موضوع منطبق با موضوع اصلی مورد بحث آمار نیست. آمار عمدتا با وضعیتهای سروکار دارد که در آنها وقوع یک پیشامد بطور حتمی قابل پیش بینی نیست. استنتاجهای آماری غالبا غیر حتمی‌اند زیرا مبتنی بر اطلاعات ناکاملی هستند. معادل کلمه آمار در زبان انگلیسی statistics است که از لحاظ تاریخی از کلمه لاتین status مشتق شده است.
نقش آمار در زندگی روزمره
پی بردن به واقعیات امور از طریق گردآوری و تعبیر داده‌ها، منحصر به پژوهشگران حرفه‌ای نیست. این امر در زندگی روزمره همه مردم که می‌کوشند آگاهانه، ناآگاهانه مسائلی را درباره جامعه، شرایط زندگی، محیط زندگی خود و کل دنیا درک کنند، معمول است. برای کسب اطلاع از وضع بیکاری، آلودگی ناشی از ضایعات صنعتی، اثر یک مسکن در رفع بیماری و سایر مسائل مورد علاقه در زندگی روزمره، اطلاعات و ارقام را جمع آوری و آنها را تفسیر می‌نماییم یا کوشش می‌کنیم که تفسیرهای دیگران را بفهیم. بنابراین، هر روز از طریق تجزیه و تحلیل ضمنی اطلاعات مبتنی بر واقعیات، عمل کسب آگاهی انجام می‌گیرد.
نقش آمار در پژوهشهای علمی

موضوع آمار عبارت است از هنر علم جمع آوری، تعبیر و تجزیه و تحلیل داده‌ها و استخراج تعمیمهای منطقی در مورد پدیده‌های تحت بررسی. با توجه به مراحل اساسی یک تحقیق علمی که عبارتند از: مشخص کردن هدف، جمع آوری اطلاعات، تجزیه و تحلیل داده‌ها و بیان یافته‌های آشکار است که آمار بطور وسیعی در قلمرو تمام تحقیقات علمی بکار می‌رود. بویژه، در مرحله جمع آوری اطلاعات، آمار راهنمای محقق در انتخاب روشها و وسایل مناسب برای جمع‌آوری داده‌های اطلاعاتی است. در مراحل بعد از گرد آوری داده‌ها، نیاز بیشتری به روشهای آماری وجود دارد.
کاربرد آمار

 

کاربرد روشهای آماری در قلمروهای گوناگون از علوم انسانی، علوم مهندسی، رشته‌های علمی جدیدی پدید آورده است که در ارتباط متقابل با آمار هستند. نظیر آمار زیستی، روان‌سنجی، آمار مهندسی، آمار بازرگانی، اقتصاد سنجی و جمعیت شناسی. به علاوه علم آمار در رشته‌های بسیار دیگری که هنوز از ترکیب آنها با آمار شاخه‌هایی با اسامی خاص پدید نیامده، از قبیل علوم سیاسی، هواشناسی و محیط شناسی نقش عمده‌ای ایفا می‌کند.
آمار توصيفي
براي اينكه نتايج مناسب و مطلوب از اطلاعات كه در آمار گيري‌ها جمع آوري مي‌كنيم، به‌ دست آيد بايد:
– اعداد نماينده واقعي مشاهدات بوده و غيرواقع يا غلط نباشند
– به نحو مفيدي تهيه و تنظيم شوند
– به نحو صحيح تجزيه و تحليل گردند
– قابل نتيجه گيري صحيح باشند
به طور كلي، روشهایی که بوسیلة آنها می توان اطلاعات جمع آوری شده را تنظیم، طبقه بندی و خلاصه نمود و آنها را بوسیلة نمودارهایی نمایش داد به آمار توصیفی موسوم است. برای معرفی این روشها نیاز به برخی اصطلاحات داریم که در ذیل به معرفی آنها می پردازیم.
جمعيت
مجموعة تمام افراد یا اشیایی که مطالعات آماری در مورد یک یا چند صفت آنها در یک مکان و زمان معین انجام می گیرد به جمعیت موسوم است. هر یک از این افراد یا اشیا را یک عضو جمعیت می نامند و تعداد اعضای جمعیت را اندازة جمعیت می نامند.
مثال۱:

اندازه قد يا وزن دانشجويان بيست ساله يك شهر، تعداد لامپهاي سالم و يا ناسالم توليد شده در يك كارخانه و در يك روز معين، مثالهايي از جمعيتهاي آماري‌ هستند.
مثال۲:
اگر بخواهیم معدل دانشجویان یک دانشکده در یک نیمسال را مورد بررسی قرار دهیم آنگاه جمعیت مورد نظر کلیة دانشجویان آن دانشکده می باشند و صفت مورد مطالعه معدل نیمسال تحصیلی آنها است. همین طور اگر بخواهیم میزان کالری موجود در غذاهای کنسرو شده در یک کارخانه کنسرو سازی در یک روز معین را مورد بررسی قرار دهیم آنگاه جمعیت مورد نظر تمامی غذاهای کنسرو شده کارخانه در آن روز و صفت مورد مطالعه میزان کالری موجود در آنها می باشد.
نكته:
معمولا مطالعه ويژگي‌هاي مورد نظر، به هنگامی كه جمعیت آماری بسیار گسترده باشد،مستلزم صرف هزینه و وقت زيادي مي‌باشد و در بسیاری از مواقع، اين امر اصولا امکان پذیر نیست. بنابراین در چنین موردی، براي مطالعه ویژگی مورد نظر، به قسمتی از جمعیت آماری اکتفا مي‌كنيم
نمونه:
زیر مجموعه ای از جمعیت که طبق یک قاعده و ضابطة خاصی برای مطالعة صفتی از جمعیت انتخاب می شود را یک نمونه گویند. تعداد اعضای نمونه به اندازة نمونه موسوم است.
نکته:
اين نمونه وقتي مفيد و قابل قبول خواهد بود كه بتواند نماينده خوبي براي كل جمعيت مورد مطالعه باشد. با توجه به اهميت اين موضوع شاخه‌اي از آمار تحت عنوان نظريه نمونه‌گيري با بررسي نمونه‌اي به اين امر مهم مي‌پردازد. در بسياري از موارد، معمولا نمونه تصادفي ساده را در نظر مي‌گيرند.
مثال:

براي بررسی اندازه قد دانشجویان بیست ساله يك شهر، انتخاب مثلا ۱۵۰ نفر از بین اين جمعیت به طور تصادفی، يا انتخاب ۱۰۰ لامپ به تصادف از لامپهاي توليدي يك کارخانه در يك روز معین، براي تعيين كيفيت لامپهاي توليدي اين کارخانه مثالهايي از نمونه تصادفی هستند.
متغير:
خصوصیت مورد مطالعه، از فردی به فرد دیگر، يا از شي به شي دیگر در جمعیت آماری تغيير مي‌كند، كه آن را اصطلاحا متغير مي‌ناميم.
معمولا دو نوع متغير در آمار مورد نظر هستند:
‗ متغيرهاي گروهي، نظير رنگ، نژاد، شغل و گروه خوني كه شامل چند گروه يا طبقه مي‌باشند.
‗ متغيرهاي عددي كه ممكن است نتيجه شمارش باشد، مانند تعداد احشام هر خانوار در يك روستا،‌تعداد حوادث در يك كارخانه در روزهاي مختلف، و يا نتيجه اندازه‌گيري باشد، مثل قد دانشجويان بيست ساله در يك شهر، حجم شربت مولتي ويتامين با استاندارد خاص.
متغير:

• متغير‌هاي گسسته
۱٫ متغير‌هاي گروهي
۲٫ متغير‌هاي عددي كه از راه شمارش به‌دست آمده اند
• متغير‌هاي پیوسته
۱٫ متغيرهايي را كه از طريق اندازه‌گيري به دست آمده باشند
مقياسهاي اندازهگيري
در بسیار از مسائل پيش‌رو،‌ اندازه‌گيري ویژگی يك متغیر مستلزم آگاهی و شناخت خاصي است. به طور كلي چهار نوع مقیاس براي اندازه گيري وجود دارد:
§ مقياس اسمي
§ مقياس ترتيبي
§ مقياس فاصله‌اي
§ مقياس نسبتي
مقياس اسمي:
اين نوع مقياس اندازه‌گيري عمدتا براي طبقه بندي داده‌ها به كار مي‌رود و منظور از آن اتلاق يك عدد طبيعي به داده‌هاي متفاوت است.
مثال:
اختصاص اعداد ۱ تا ۴ به گروه‌هاي خوني A,B, AB, O.
توجه داشته باشيد كه:
اين اعداد را نمي‌توان براي مقايسه يا چهار عمل اصلي به كار برد

مقياس ترتيبي:
اين نوع مقياس اندازه‌گيري عموما براي طبقه بندي داده‌ها به منظور يك نوع برتري به كار مي‌رود.
مثال:
در يك كارخانه ممكن است كارگران را به سه دسته ساده، نيمه ماهر و ماهر تقسيم بندي كنيم. اتلاق به ترتيب اعداد ۱ تا ۳ به اين سه دسته يك مقياس ترتيبي است.
توجه داشته باشيد كه:
اين اعداد تنها براي مقايسه به كار مي‌روند و نمي‌توان با آنها چهار عمل اصلي را انجام داد.
مقياس فاصله اي:
اين نوع مقياس اندارزه‌گيري عموما در زمينه‌هاي كه علاوه بر حفظ ترتيب به نحوي فاصله بين ويژگي‌ها را نيز حفظ مي‌كند. به عبارت ديگر در چنين مقياسي نسبت تفاضلها ثابت مي‌ماند.
مثال:
اندازه‌گيري ضريب هوشي دانش آموزان كلاس اول دبستان در شهر اصفهان.
توجه داشته باشيد كه:
در اين نوع مقياس، عدد صفر يك مفهوم قراردادي است.

مقياس نسبتي:
اين نوع مقياس اندازه‌گيري علاوه بر حفظ فاصله، نسبت را نيز حفظ مي‌كند. به عبارت ديگر در اين نوع اندازه‌گيري نسبت دو مقدار بستگي به واحد اندازه‌گيري ندارد.
داده
در یک بررسی آماری، بایستی صفت مورد مطالعه را به صورت اعداد و ارقام نمایش دهیم. اگر صفت مورد مطالعه کمی، مانند وزن، حجم، درجة حرارت و غیره باشد آنگاه این عمل به سادگی با اندازه گیری امکان پذیر است اما اگر صفت مورد مطالعه کیفی، مانند گروه خون، شغل، رنگ چشم و غیره باشد آنگاه بایستی با یک قاعده معین این مسائل کیفی را با اعداد و ارقام نشان داد. در هر صورت این اعداد و ارقام را داده ها گویند که به دو صورت گسسته و پیوسته می باشند. داده های گسسته داده هایی هستند که بین دو مقدار متصور آنها هیچ عدد دیگری وجود نداشته باشد، مانند تعداد فرزندان یک خانواده که شامل مقادیر ۰، ۱، ۲ و… است و همچنین صفت شغل افراد که به آن مثلاً اعداد ۱، ۲، ۳ و… را نسبت می دهیم و بین این مقادیر عدد دیگری در رابطه با صفت مورد نظر وجود ندارد. داده های پیوسته داده هایی هستند که بین هر دو مقدار متصور آنها همواره عدد دیگری وجود دارد، مانند وزن افراد که بین دو نفر با وزنهای نزدیک به هم همواره می توان فردی را با وزنی بین وزن دو فرد یاد شده در جمعیت یافت. از جمله داده های گسسته می توان داده های مربوط به صفات گروه خون، رنگ، نژاد، شغل، تعداد کالاهای تولیدی و غیره را برشمرد و از جمله داده های پیوسته می توان داده های مربوط به صفات وزن، طول قد، فشار گاز، قطر لوله تولیدی یک کارخانه و غیره را برشمرد.

داده خام:
معمولا به داده‌هاي جمع آوري شده كه انبوهي عدد است و هيچ نوع پردازشی روي آنها انجام نشده است داده خام مي‌گويند.
در آمار بعد از جمع آوری داده ها به بررسی آماری بر روی آنها می پردازیم. در مرحلة نخست با توجه به اهداف بررسی، داده ها را تنظیم، طبقه بندی و خلاصه می کنیم به طوری که بتوانیم اطلاعات مفیدی برای نیل به اهداف و نتایج مورد نظر به دست آوریم. انجام این کار در سه مرحله به شرح زیر صورت می پذیرد:
الف – تنظیم و طبقه بندی داده ها در یک جدول
ب – ترسیم نمودارهای گوناگون از روی مقادیر ارائه شده در جدول
ج – خلاصه کردن داده ها به یک یا چند عدد موسوم به شاخص یا آماره
سه موضوع فوق از موضوعات اساسی بحث آمار توصیفی است که در ذیل به معرفی و بررسی آنها می پردازیم.

جدولهاي آماري
نخستین گام در خلاصه کردن داده ها، طبقه بندی و تنظیم آنها در یک جدول موسوم به جدول آماری است. یک جدول آماری بایستی به نحوی تنظیم شود که بتوان از آن به راحتی اطلاعات نهفته در داده ها را استخراج کرد. متداولترین جدول آماری جدول فراوانی است که در آن داده ها، تعداد موجود از هر داده و درصد موجود از هر داده مشخص می شود.
پيش از آنكه نحوه تنظيم جدول فراواني را بيان نماييم،‌اطلاع از اصطلاحات زير ضروري است.
فراواني
هرگاه nداده y1, y2, k, yn ازk نوع x1, x2, k, xk ، با فرض ، به ترتيب با تعدادهاي
تشكيل شده باشند،‌آنگاه را فراواني مي‌گوييم. به عبارت ديگر تعداد دفعاتي را كه xi در داده‌هاي تكرار مي‌شود، فراواني مي‌ناميم و آن را با نماد نمايش مي‌دهيم.
به خاطر داشته باشيد كه:
اگر اندازه نمونه برابر باشد، آنگاه براي

فراواني نسبي
مثال:
داده‌هاي زير ميزان تصادف منجر به مرگ رد ۳۰ منطقه را نشان مي‌دهد. فراواني دادها را تعيين نماييد.
۷ ۶ ۶ ۳ ۴ ۳ ۵ ۵ ۶ ۸

۳ ۴ ۸ ۴ ۷ ۵ ۸ ۵ ۵ ۳
۶ ۵ ۵ ۶ ۶ ۵ ۶ ۷ ۸ ۲
مشاهده مي‌شود كه داده‌هاي تكرار اعداد ۲،۳،۴،۵،۶،۷،۸ مي‌باشند،‌بنابراين جدول زير را براي فراواني داده‌ها خواهيم داشت

نسبت فراواني به اندازه نمونه را فراواني نسبي مي‌ناميم. اگر فراواني در يك نمونه با اندازه n، برابر fi باشد، آنگاه فراواني نسبي xi را با نماد ri نمايش خواهيم داد، به طوري كه:

به خاطر داشته باشيد كه

فراواني تجمعي
با توجه به تعريف فراواني، فراواني تجمعي رديف i را با نماد نمايش مي‌دهيم و به صورت زير تعريف مي‌كنيم:
به خاطر داشته باشيد كه
براي اندازه نمونه n و آنگاه:

فراواني نسبي تجمعي
با توجه به تعريف فراواني نسبي،‌ فراواني نسبي تجمعي رديف i را با نماد Ri نماد نمايش مي‌دهيم و به صورت زير تعريف مي‌كنيم:
به خاطر داشته باشيد كه:
براي اندازه نمونه n و آنگاه:

مثال:
معدل ۵۰ دانشجوي دانشگاه با تقريب تا يك رقم اعشار،‌ به شرح زير است:
۱/۲ ۹/۱ ۶/۱ ۲/۲ ۱/۲ ۲/۲ ۴/۲ ۸/۱ ۵/۱ ۹/۲
۸/۱ ۳/۲ ۸/۱ ۷/۱ ۳/۲ ۳/۲ ۰/۲ ۵/۲ ۱/۲ ۶/۲
۸/۱ ۱/۲ ۹/۱ ۷/۱ ۷/۱ ۰/۲ ۹/۱ ۲/۲ ۶/۲ ۴/۱
۹/۲ ۴/۲ ۸/۱ ۹/۱ ۲/۲ ۲/۲ ۵/۲ ۰/۲ ۰/۲ ۰/۲
۴/۱ ۵/۲ ۹/۱ ۸/۱ ۶/۱ ۴/۲ ۹/۲ ۹/۱ ۶/۱ ۴/۱

چون داده‌ها تا يك رقم اعشار گرد شده‌اند، بنابراين مي‌توان گفت كه اندازه واقعي معدل ها در فاصله است

نمودارهاي آماري
معمولا داده‌ها را با نمودارهاي مختلف نمايش مي‌دهند. عموما اين نمودارها در ارتباط با داده‌‌هاي پيو.سته به كار گرفته مي شود و منظور از نمايش آنها،‌ تجسم عيني اطلاعات نهفته در داده‌ها است. در اين بخش به معرفي چند نمودار معروف اكتفا مي‌كنيم:
‗ هيستوگرام
‗ چندبر فراواني
‗ چندبر فراواني تجمعي
‗ منحنيهاي فراواني و فراواني تجمعي
‗ نمايش نمودار تنه و شاخه
‗ نمودار جعبه‌اي

هيستوگرام:

چندبر فراواني

چندبر فراواني تجمعي

از اتصال نقاطي كه طول آنها مرز كلاس و عرض آنها فراواني نسبي تجمعي تا آن مرز باشد‍، يك خط شكسته به دست مي‌آيد كه آن را چندبر فراواني تجمعي مي‌نامند

منحنيهاي فراواني

نمايش نمودار تنه و شاخه

 

نمرات ۸۰ دانشجو در امتحانات نهايي درس احتمال و آمار به شرح زير است:
۹۳ ۷۶ ۸۸ ۶۲ ۹۰ ۶۸ ۸۲ ۷۵ ۸۴ ۶۸
۷۵ ۸۵ ۵۹ ۷۱ ۹۳ ۶۰ ۷۳ ۸۸ ۷۹ ۷۳
۷۲ ۶۳ ۷۸ ۹۵ ۶۲ ۷۴ ۸۷ ۷۵ ۶۵ ۶۱
۶۰ ۶۸ ۷۴ ۶۹ ۷۷ ۹۴ ۷۵ ۸۲ ۷۸ ۶۶
۷۱ ۸۳ ۷۹ ۶۰ ۹۵ ۷۵ ۶۱ ۸۹ ۷۸ ۹۹
۷۵ ۷۱ ۶۵ ۷۶ ۸۵ ۷۸ ۹۷ ۶۷ ۶۲ ۷۹
۷۴ ۵۰ ۷۶ ۶۲ ۷۸ ۸۸ ۵۷ ۷۳ ۸۰ ۶۵
۷۷ ۸۵ ۷۵ ۷۶ ۶۳ ۷۲ ۸۱ ۷۳ ۶۷ ۸۶

پس از ساختن نمودار اوليه معمولا بهتر است مقادير هر شاخه را از كوچك به بزرگ، با تعداد دفعات تكرار،‌مرتب كرد، به صورت زير:

معيارهاي مركزي
ميانگين
با استفاده از جدول فراواني و رسم نمودارها مي‌توانيم داده‌ها را به نحو مطلوبي تنظيم كرده و اطلاعات نهفته را تا حدودي مشخص كنيم. با اين حال براي ارايه يك گزارش مناسب،‌بهتر است آنها را در يك يا چند عدد مناسب نيز خلاصه كنيم. چنين عددي مي‌تواند معيار مركزي باشد. مهمترين معيارهاي مركزي ميانگين‌،‌ ميانه و نما است كه در بخش این به شرح هر يك از آنها خواهيم پرداخت.
هرگاه n داده y1, y2, k, ynازk نوع ، با فرض ، به ترتيب با تعدادهاي تشكيل شده باشند،‌ آنگاه را فراواني مي‌گوييم.

ميانگين حسابي

ميانگين وزني

كليه دادهها بزرگتر از صفر باشند ميانگين هندسي

ميانه
اگر داده‌ها را از كوچك به بزرگ مرتب نماييم،‌عدد m را ميانه اين داده‌ها مي‌ناميم،‌اگر نصف داده‌ها در سمت چپ و نصف داده در سمت راست اين عدد قرار گيرد
محاسبه ميانه براي داده‌هاي گسسته
فرض كنيد y1, y2, k, yn داده‌هاي ما باشند و شكل مرتب شده آنها را با
نمايش دهيم آنگاه:

محاسبه ميانه براي داده‌هاي پيوسته

چندكها
چندك يك معيار كلي‌تر از ميانه است و درعنوان حالت خاص ميانه را نيز در بر مي‌گيرد. اگر p يك عدد حقيقي بين صفر و يك باشد،‌آنگاه عدد را چندك مرتبه p مي‌ناميم هر گاه p 100%
داده‌ها سمت چپ و (p -1) 100% داده‌ها سمت راست باشند.