پروژه آمار -مجموعه تمام عناصری را که دارای یک یا چند ویژگی مشترک بوده

مقدمه
واژه statistics که به فارسی آن را آمار ترجمه کرده اند در اغلب زبان ما به دو معنی به کار می‌رود:
الف) به معنی ارقام و اعداد واقعی یا تقریبی دربارۀ اموری از قبیل زادومرگ، طلاق، میزان محصولات کشاورزی و صنعتی تصادفات رانندگی و غیره در این رابطه معمولاً دو اثری مثلاً به نام دفترهای آمار در سازمان‌های ‌دولتی موجود است.

ب) به معنی روش هایی برای جمع آوری ، تنظیم و تجزبه و تحلیل اطلاعات عددی دربارۀ موضوع.
با اینکه این دو مفهوم با هم ارتباط دارند ما در این فصل مطالبی را تحت عنوان تهیه و تنظیم داده ها که اغلب آمار توصیفی نامیده می‌شوند شرح می‌دهیم.
ضرورت استفاده روزافزون از روش‌های ‌آماری سبب شده تا دانشگاه ها، درس آمار و احتمالات را به عنوان درس اصلی رشته‌های ‌علوم پایه، مهندسی، علوم اداری، مدیریت، یازرگانی، اقتصاد، پزشکی و سایر رشته ها منظور نمایند دو دلیل عمده برای رشد سریع کاربرد آمار وجود دارد. نخست آنکه بکارگیری روش‌های ‌کمی در تمامی شاخه‌های ‌علوم در حال گسترش است و دوم آنکه مقدار اطلاعاتی آماری جمع آوری شده و رای قوۀ ادراک است.

در این فصل آمار توصیفی را معرفی و واژه هایی مرتبط با این موضوع نظیر جمعیت، نمونه، متغیرها و داده ها را تعریف کرده و سپس مشخص کننده‌های ‌مرکزی شامل میانگین، میانه و نما را برای داده‌های ‌گسسته و پیوسته معرفی می‌کنیم. همچنین چندک ها را که میانه حالت خاصی از آن است مورد بررسی قرار می‌دهیم. آنگاه مشخص کننده‌های ‌پراکندگی شامل دامنه تغییرات، انحراف متوسط و انحراف معیار را برای داده‌های ‌گسسته و پیوسته ارائه خواهد شد. در پایان نمودارهای گوناگون آماری مورد بحث قرار خواهند گرفت.

جمعیت:
مجموعه تمام عناصری را که دارای یک یا چند ویژگی مشترک بوده و در یک زمان مشخص و یا موقعیت مناسب مورد مطالعه قرار می‌گیرد جمعیت گویند. مثلاً جمعیت دانشجویان رشته‌های ‌فنی و مهندسی که در دو سال گذشته فارغ التحصیل شده اند از نظر دانش علمی مثال دیگر اینکه جمعیت ماشینهای سمند که در دو سال گذشته به بازار آمده اند از نظر قدرت ترمز. جمعیت به دو نوع تقسیم می‌شود: جمعیت متناهی و نامتناهی تعداد عناصر جمعیت را اندازه ی جمعیت گویند و آن را با حرف N نشان می‌دهند.

نمونه:
بخشی از جمعیت را نمونه گویند و یا به میان دیگر نمونه زیر مجموعه ای از جمعیت است.
تعداد عناصر نمونه را اندازه (حجم) نمونه گویند و با حرف N نشان می‌دهند.
در بررسی‌های ‌آماری سعی می‌کنند در انتخاب نمونه دقت کافی انجام گیرد. تا با بررسی چنین نمونه مناسبی نتایج فاصله از آن را بتوان با دقت زیاد برای جمعیت تعمیم داد در هر صورت بایستی نمونه انتخاب شده یک الگوی مناسب از جمعیت باشد برای مثال اگر بخواهیم در مورد میزان درآمد افراد ساکن شهر گرگان مطالعه ای را انجام دهیم بایستی نمونه‌ی ما به گونه ای انتخاب شود که شامل افراد با درآمد کم، متوسط و زیاد به نسبت موجود در جمعیت باشد.
مقیاس سازی:
عددی کردن متغیرها را مقیاس سازی گویند در حقیقت می‌خواهیم عدد حقیقی x را تحت قاعده خاص f به متغیر t نسبت دهیم یعنی x=f(x) برای آشکار شدن موضوع فرض کنید متغیر مورد نظر وزن باشد آنگاه عدد x را توسط تابع f به ویژگی وزن اختصاص می‌دهیم بر حسب اینکه قاعده ی f چگونه باشد چهار مقیاس گوناگون بدست می‌آید.

الف) مقیاس اسمی: هر گاه مقیاس x که معمولاً یک عدد طبیعی است، تنها برای شناسایی افراد یا چیزها یا مکان ها به کار رود، آن را یک مقیاس اسمی می‌نامند مثلاً کارگران یک کارخانه از شهرهای تهران، اصفهان، شیراز و گرگان باشد به ترتیب آن ها را با اعداد ۱و۲و۳و۴ مشخص کنیم این اعداد صرفاً می‌گویند که هر کدام از کدام شهر است مانند کارگری که برچسب ۴ دارد از گرگان است.

ب) مقیاس ترتیبی: از x =f(t) یک مقیاس ترتیبی بدست می‌آید اگر شدت و ضعف متغیر t در x منعکس شود به این معنی که اعداد خاصیت بزرگتر یا کوچکتر را به مفهوم بهتر یا بهتر دارا می‌باشند ولی فاقد خاصیت نسبت هستند به عنوان مثال اگر مهندس یک کارخانه کارگران را از نظر مهارت با اعداد ۱ و۲و۳و۴ مشخص کند، کارگر شماره ۴ از کارگر شماره ۲ ماهرتر است ولی نمی توان گفت که ۲ برابر او مهارت دارد.

مقیاس‌های ‌اسمی و ترتیبی عمدتاً برای متغیرهای کیفی استفاده می‌شوند.
ج) مقیاس فاصله ای: از x=f(t) یک مقیاس فاصله ای بدست می‌آید اگر این تابع به صورت خطی x=a+bt باشد که در عرض از مبدأ مخالف صفر باشد. (a=0) این مقیاس دارای ۳ ویژگی است.
الف: صفر به معنی هیچ نیست
ب: نسبت حفظ نمی شود
ج: نسبت فاصله ها حفظ می‌شود.

د) مقیاس نسبی:
هر گاه مقیاس x، که یک عدد حقیقی است نسبت را حفظ کند، آن را یک مقیاس نسبی گویند این مقیاس عالی ترین نوع مقیاس است که عموم با آن آشنایی دارند و در آن صفر به معنی هیچ و نسبت حفظ می‌شود و نسبت فاصله ها نیز حفظ می‌شود.

قابل ذکر است که مقیاس‌های ‌فاصله ای و نسبتی برای متغیرهای کمی مورد استفاده قرار می‌گیرند.

متغیرها:
ویژگی t، مثلاً گروه خونی،مهارت، هوش و وزن در افراد مختلف جمعیت یکسان نیست و معمولاً از فردی به فرد دیگر تغییر کرده، کاهش یا افزایش می‌یابد از اینرو t را یک متغیر می‌نامیم دو نوع متغیر داریم.
الف) متغیر گروهی: مانند گروه خونی و مهارت که با مقیاس اسمی یا ترتیبی سنجیده می‌شود و براساس آن جمعیت را گروه بندی می‌کنند.
ب) متغیر عددی: مانند شماره فرزندان یک خانواده که از راه شمارش به دست می‌آید، با هوش یک پسر ۱۲ ساله و وزن یک جوان ۲۳ ساله که از راه اندازه گیری با مقیاس فاصله ای و نسبتی بدست می‌آیند.
داده ها:
اطلاعات عددی ارائه شده را داده ها می‌نامند داده ها دو نوع اند:
الف) داده‌های ‌گسسته:
از راه اندازه گیری با مقیاس‌های ‌اسمی، ترتیبی یا شمارش بدست می‌آیند داده‌های ‌گسسته را داده‌های ‌جدا از هم می‌نامند.

ب) داده‌های ‌پیوسته:
از راه اندازه گیری با مقیاس‌های ‌فاصله ای یا نسبتی بدست می‌آیند.
داده ها اغلب به صورت انبوهی از اعداد ارائه می‌شوند و به خوبی خود خام هستند.
مثال برای داده‌های ‌گسسته: فرض کنید می‌خواهیم در مورد تعداد افراد خانوار تحقیق کنیم می‌دانیم این داده ها توسط اعداد ۱ و۲ و ۳ و… بالاخره حداکثر مثلاً ۱۵ یا ۲۰ بیان می‌شود یعنی مجموعه مقادیر ممکنه متناهی می‌باشد.
مثال برای داده‌های ‌پیوسته : اگر بخواهیم وزن دانشجویان یک کلاس را برحسب کیلوگرم بررسی کنیم ممکن است هر مقدار بین دو عدد ۴۰ تا ۹۰ کیلوگرم بدست آید می‌دانیم که این مقادیر نامتناهی است.
جدول‌های ‌آماری:
نخستین گام در خلاصه کردن داده ها، طبقه بندی و تنظیم آن ها در یک جدول مرسوم به جدول آماری است. متداولترین جدول آماری جدول فراوانی است که در آن داده ها تعداد موجود از هر داده و درصد موجود از هر داده و درصد موجود از هر داده مشخص می‌شود بنابراین یک جدول فراوانی شامل موارد زیر است.
الف) فراوانی نسبی: خارج قسمت فراوانی هر طبقه بر کل فراوانی را گویند مثلاً فراوانی نسبی طبقه دوم و آن را با نماد ri نشان می‌دهیم.

ب) فراوانی تجمعی: عبارتست از مجموع فراونی‌های ‌آن طبقه با طبقات بالاتر و آن را با نماد F نشان می‌دهیم.
ج) فراوانی تجمعی نسبی: عبارتست از مجموع فراوانی‌های ‌نسبی آن رده باردهای قبل از آ« و با R نشان می‌دهیم

د) نماینده هر طبقه: عبارتست از میانگین کران بالا و کران پایین آن طبقه
(کران بالا ui + کران پایین li) 2/1= xi
مثال ۱: برای داده‌های ‌گسسته:
تعداد لامپ ها یی که در ۵۰ خانواده در عرض یک ماه مصرف می‌شود عبارتند از:

۷،۵،۳،۳،۴،۵،۳،۲،۸،۳،۳،۲،۴،۴،۳،۶،۸،۶،۷،۴،۵،۴،۶،۴،۵،۲،۳،۴،۲،۷،۳،۵،۴،۶،۲،۲،۳،۴،۵،۴،۸،۴،۳،۲،۲،۶،۴،۵،۷،۸
یک جدول فراوانی برای این داده ها تشکیل دهید چند درصد خانواده ها بیش از ۴ لامپ در ماه مصرف می‌کنند؟
حل: داده ها از طریق شمارش تعداد لامپ‌های ‌مصرف شده بوسیله اعداد ۲ و ۳و … و۸ به دست آمده اند و روی آنها می‌توان چهار عمل اصلی حساب را انجام داد با توجه به عدد ۶۰/۰ در ستون فراوانی تجمعی نسبی ۶۰% از خانواده ها حداکثر ۴ لامپ در ماه مصرف می‌کنند و بنابراین ۴۰% از خانواده ها بیش از ۴ لامپ در ماه مصرف می‌کنند.

جدول فراوانی لامپ‌های ‌مصرف شده ۵۰ خانواده در یک ماه در صفحه بعد آورده شده است.

فراوانی نسبی تجمعی

فراوانی تجمعی

فراوانی نسبی

فراوانی

xi
16/0 8 16/0 8 2
36/0 18 20/0 10 3
60/0 30 24/0 12 4
74/0 37 14/0 7 5
84/0 42 10/0 5 6
92/0 46 8% 4 7
00/1 50 8% 4 8
00/1 50 جمع
تشکیل جدول آماری برای داده ها پیوسته: مراحل تشکیل جدول به شرح زیر است:
۱) مشخص نمودن تعداد رده ها:

اگر n تعداد داده ها و k تعداد رده ها فرض می‌شود از رابطه ۲k=n می‌توان مقدار تقریبی k را معین نمود، بدیهی است اگر k یک عدد غیرصحیح باشد عدد صحیح بعد از آن را به عنوان تعداد رده انتخاب می‌کنند.
۲) مشخص نمودن طول رده:

برای مشخص نمودن طول رده ابتدا مقدار R را از رابطه زیر محاسبه می‌کنیم:
۱+ (کوچکترین داده – بزرگترین داده) = R
سپس از رابطه طول رده را محاسبه می‌کنیم تعداد ارقام اعشاری طول رده باید با تعداد ارقام اعشاری داده ها یکی باشد در غیر اینصورت طول رده را به عدد بزرگتر
گرد می‌کنیم (گرد کردن به سمت بیشتر است مثلاً ۳۶/۳ بود به ۴/۳ گرد می‌کنیم.)
۳) تشکیل رده ها:
کران بالا رده کران پایین رده
U1 = L1+c 5/0- کوچکترین داده = L1
U2 = L2+c L2 = u1
. .
. .
. .
Uk = Lk+c Lk = uk-1
4) تشکیل جدول: در ستون اول جدول رده ها را قرا می‌دهیم، در ستون دوم جدول نماینده رده ها را با استفاده از رابطۀ محاسبه کرده و قرار می‌دهیم. در ستون سوم جدول با شمارش مشاهدات مربوط به هر رده فراوانی رده ها را مشخص می‌کنیم و در آخر ستون‌های ‌بعدی جدول با استفاده از ستون سوم تکمیل می‌کنیم.

مثال۲ مربوط به داده‌های ‌پیوسته:
جدول توزیع فراوانی زیر مربوط به وزن ۱۰۰ دانش آموز بر حسب کیلوگرم می‌باشد جدول توزیع فراوانی آن را رسم کنید.
fi حدود واقعی
۲ ۹۵/۴۲ – ۹۵/۳۹
۴ ۹۵/۴۵ – ۹۵/۴۲
۲۶ ۹۵/۴۸ – ۹۵/۴۵
۴۷ ۹۵/۵۱ – ۹۵/۴۸

۱۵ ۹۵/۵۴ – ۹۵/۵۱
۶ ۹۵/۵۷ – ۹۵/۵۴
۱۰۰
حل: از جدول زیر به سادگی می‌توان نتیجه گرفت که مثلاً وزن ۴۷% از افراد در فاصله {۹۵/۵۱ – ۹۵/۴۸} می‌باشد و یا وزن ۷۹ نفره کم تر از ۹۵/۵۱ کیلوگرم می‌باشد.

Fi Fcp R pi Fpi=ri fi xi حدود طبقات حدود واقعی
۲ ۲% ۲ ۲ ۲% ۲ ۴۵/۴۱ ۹/۴۲-۴۰ ۹۵/۴۲-۹۵/۳۹

۶ ۶% ۶ ۴ ۴% ۴ ۴۵/۴۴ ۹/۴۵-۴۴ ۹۵/۴۵-۹۵/۴۲
۳۲ ۳۲/۰ ۳۲ ۲۶ ۲۶/۰ ۲۶ ۴۵/۴۷ ۹/۴۸-۴۶ ۹۵/۴۸-۹۵/۴۵
۷۹ ۷۹/۰ ۷۹ ۴۷ ۴۷/۰ ۴۷ ۴۵/۵۰ ۹/۵۱-۴۹ ۹۵/۵۱-۹۵/۴۸

۹۴ ۹۴/۰ ۹۴ ۱۵ ۱۵/۰ ۱۵ ۴۵/۵۳ ۹/۵۴-۵۲ ۹۵/۵۴-۹۵/۵۱
۱ ۱ ۱۰۰ ۶ ۶% ۶ ۴۵/۵۶ ۹/۵۷-۵۵ ۹۵/۵۷-۹۵/۵۴
۱۰۰ ۱ ۱۰۰
مثال ۳ برای داده‌های ‌پیوسته: یک نمونه ۵۰ تایی به شرح زیر انتخاب کرده ایم جدول آماری برای این داده ها بیابید.

۸۰ ۷۵ ۱۰۰ ۹۵ ۱۲۵ ۸۵ ۷۰ ۸۵ ۹۰ ۱۰۵
۷۰ ۷۵ ۱۱۵ ۱۰۰ ۷۵ ۱۱۵ ۱۲۰ ۷۵ ۹۵ ۹۰
۸۰ ۸۵ ۹۵ ۱۰۵ ۸۵ ۹۵ ۷۵ ۷۰ ۸۵ ۷۵

۱۱۵ ۹۰ ۹۵ ۱۱۵ ۷۵ ۷۰ ۱۱۵ ۷۵ ۸۰ ۷۰
۹۰ ۷۰ ۸۰ ۱۱۵ ۹۵ ۷۵ ۸۵ ۸۰ ۸۵ ۹۵
حل: ۱ مشخص کردن تعداد رده
پس ۶ رده داریم ۶ = k 6>k>5 = 50 = k2
2 مشخص کردن طول رده
۱۰=c = گرد می‌کنیم ۳۳/۹ = = = c  ۵۶= ۱+(۷۰-۱۲۵)=R
3 تشکیل رده ها
۵/۷۹ = ۱۰+۵/۶۹ = u1 5/69 = 5/0 – ۷۰ = L1
5/89 = u2 5/79= L2

۵/۹۹= u3 5/89 = L3
5/109 =u4 5/99 = L4
5/119 =u5 5/109 = L5
5/129 = u6 5/119 = L6
4 تشکیل جدول
Ri Fi ri fi xi رده ها
۳۰/۰ ۱۵ ۳۰/۰ ۱۵ ۵/۷۴ ۵/۷۹-۵/۶۹
۵۴/۰ ۲۷ ۲۴/۰ ۱۲ ۵/۸۴ ۵/۸۹-۵/۷۹
۷۶/۰ ۳۸ ۲۲/۰ ۱۱ ۵/۹۴ ۵/۹۹-۵/۸۹
۸۴/۰ ۴۲ ۸% ۴ ۵/۱۰۴ ۵/۱۰۹-۵/۹۹

۹۶/۰ ۴۸ ۱۲/۰ ۶ ۵/۱۱۴ ۵/۱۱۹-۵/۱۰۹
۱ ۵۰ ۴% ۲ ۵/۱۲۴ ۵/۱۲۹-۵/۱۱۹
۵۰ = n
هسیتوگرام (نمودار ستونی):
هیستوگرام نموداری متشکل از تعدادی مستطیل است که تعداد این مستطیل ها برابر تعداد رده‌های ‌جدول فراوانی است قاعده هر مستطیل روی محور افقی قرار دارد و طول آن برابر طول واقعی رده است که هر چه باشد آن را یک واحد در نظر می‌گیریم و مرکز آن نماینده رده است ارتفاع هر مستطیل برابر فراوانی نسبی مربوط به آن رده است.

به عنوان مثال هیستوگرام مربوط به مثال ۳ را رسم می‌نمائیم.

محاسبه نما برای داده‌های ‌پیوسته:
در این حالت داده ها را در یک جدول فراوانی مرتب می‌کنیم و رده ای که فراوانی آن از سایر رده ها بیشتر است به عنوان ردۀ نمایی اختیار می‌کنیم حال می‌توان نمایندۀ این رده یعنی xi را به عنوان نما اختیار کرد و یا اگر بخواهیم نما را به طور دقیق تر در این رده محاسبه کنیم از فرمول زیر استفاده می‌کنیم.

به عنوان نمونه در مثال ۳ نما را حساب می‌کنیم.

نمودارهای آماری:
نمایش داده ها را طبق قراردادهای خاص به صورت هندسی، یک نمودار آماری می‌گویند.
هر نمودار آماری باید دارای شماره، عنوان و در صورت لزوم زیرنویس و مأخذ باشد مقیاس‌های ‌اندازه گیری روی محورهای افقی و عمودی باید مشخص باشند نمودارهای آماری در امور اقتصادی، صنعتی بهداشتی و غیره به کار می‌روند. و بر حسب رشته مربوط آنها را به طریق مختلف ترسیم می‌کنند در اینجا فقط چند نوع نمودار که در آمار مورد نیاز می‌باشند شرح می‌دهیم.
نمودارهای آماری برای داده‌های ‌گسسته:

برای داده‌های ‌گسسته دو نوع نمودار میله ای و دایره ای را در زیر معرفی می‌کنیم.
الف) نمودار میله ای:
در این نمودار دو محور عمود بر هم در نظر می‌گیریم و بر روی محور افقی مقادیر xi ها و بر روی محور عمودی مقادیر فراوانی نسبی riما را نمایش می‌دهیم. سپس در هر مقدار xi میله ای به ارتفاع فراوانی نسبی ri مربوط به آن طبقه را رسم می‌کنیم برای مثال جدول مربوط به داده‌های ‌گسسته که در مثال ۱ هست را رسم می‌کنیم.

ب) نمودار دایره ای:
در این نمودار دایره ای را رسم کرده و این دایره را به تعداد طبقات جدول فراوانی به قطاع هایی تقسیم می‌کنیم به طوری که اندازه هر قطاع متناسب با فراوانی نسبی طبقۀ مربوطه باشد.