معرفی آنالیز اجزا اصلی Principal components analysis

– مقدمه:
در این نوشتار قصد داریم به معرفی آنالیز اجزا اصلی (Principal components analysis) به پردازیم. آنالیز اجزا اصلی (pca) یک تکنیک مفید آماری است که کاربرد آن در زمینه های از قبیل : تشخیص چهره،فشرده سازی تصویر و یک تکنیک رایج برای شناسایی یک نمونه در داده های از بعد بالا است.

این تبدیل که با اسامی دیگری چون هتلینگ(Hostelling Transform)، کارهانن-لو(Karhunen-Live Transform(KLT)) و بردار های ویژه نیز شناخته می شود،تبدیل بهینه در کارهای فشرده سازی و کاهش بعد است و خطای میانگین مربعات حاصل از فشرده سازی را کمینه می کند. هر چند این تبدیل به علت وابسته بودن به داده ورودی، جای خود را در الگوریتم های کاربردی و عملی، به تبدیل گسسته کسینوسی(Discret Cosine Transform(DCT)) داده است اما در صورت کافی بودن داده ورودی می تواند تبدیل بهینه را استخراج نماید.

آنالیز اجزای اصلی یک روش اختیاری چند منغیری است. اگر ما در جایی مجبور هستیم مهم ترین متغیر را یا یک تعداد محدودی از متغیر ها را دریک مجموعه انتخاب کنیم از آنالیز اجزای اصلی کمک می گیریم .
آنالیز اجزای اصلی می تواند هم چنین برای پیدا کردن سیگنال ها در اطلاعات نویزدار به کار رود.
قبل از این که از آنالیز اجزا اصلی توصیفی به دست آوریم ابتدا به معرفی مفاهیمی ریاضی که در آنالیز اجزا اصلی استفاده می شود می پردازیم.
این قسمت انحراف معیار، کوورایانس ، بردارهای مشخصه و مقادیر ویژه را پوشش می دهد.این دور نما دانشی قابل فهم از قسمت های آنالیز اجزا اصلی فراهم می آورد.
در این نوشتار مثال های وجود دارد که از طریق آن معنی و مفهوم بحث را روشن می سازد.
۲- ریاضیات زمینه(لازم):
در این قسمت تلاش می کند که مهارت های لازم در ریاضیات پایه مورد نیاز در آنالیز اجزا اصلی بدست آوریم.

به خاطر سپردن طرز کار صحیح تکنیک ریاضی نسبت به فهمیدن دلایل اهمیت کمتری دارد. زیرا که یک تکنیک ممکن استفاده شود و نتیجه عملی به ما در مورد داده نهایی بگوید.
در این قسمت ابتدا به بخشی از آمار که در توزیع اندازه یا چگونگی پراکندگی داده ها است توجه می کنیم و در بخش دیگر به ماتریس جبری، مقادیر ویژه و بردار ه

ای مشخصه که مهمترین ویژگی یک ماتریس که اساس آنالیز اجزا اصلی توجه می کنیم.
۲-۱ آمار:
در سراسر بحث آماری ما با مجموعه نسبتا بزرگی از داده ها سر و کار داریم و باید ارتباط (وابستگی) بین مجموعه با نقاط خاص در آن مجموعه داده را تحلیل کنیم. اما ما قصد داریم در مجموعه داده ها توجه کنیم به تعداد کمی از اطلاعات و نتیجه ای که درباره این مجموعه داده ها به ما می دهد.
۲-۱-۱ انحراف معیار استاندارد :
برای فهمیدن انحراف معیار به یک مجموعه داده احتیاج داریم. آمارشناسان معمولا علاقمند به نمونه گیری از جامعه هستند. برای استفاده کردن از روش های نمونه گیری به عنوان مثال جامعه تمام مردم یک کشور است. در حالی که یک نمونه یک زیر مجموعه از جامعه است که آمارشناسان اندازه می گیرند.
مطلب مهم دیگر درباره آمار اگر از سراسر جامعه استفاده می کنید این است که فقط با اندازه گیری یک نمونه از جامعه شما می توانید با اندازه گیری احتمال(سنجش احتمال) کار کنید.
در این بخش آماری قصد داریم فرض کنیم که اطلاعات ما نمونه ای از جامعه است.
در اینجا یک مثال وجود دارد:
X = [1 2 4 6 12 15 25 45 68 67 65 98]
از علامت Xبرای اشاره به مجموعه اعداد استفاده می کنیم.اگر به یک عدد خاص در مجموعه داده ها بخواهیم اشاره کنیم از یک زیر نویس بر روی علامت X استفاده کنیم که یک عدد خاص را نشان می دهد.
تعدادی مطلب درباره یک مجموعه داده است که ما می توانیم حساب کنیم. برای مثال ما میانگین نمونه ها را می توانیم حساب کنیم. چون با مفهوم میانگین نمونه ای آشنا هستیم فقط فرمول را ارائه می کنیم:

این فرمول می گوید که همه اعداد با هم جمع شوند و سپس تقسیم به تعداد اعدادی که وجود دارد. متاسفانه، میانگین به ما اطلاعات فراوانی به جز تقریبا برای نقطه وسط به ما نمی دهد.
برای مثال دو مجموعه داده مقابل دقیقا میانگین یکسان ۱۰ دارند.
[۰ ۸ ۱۲ ۲۰] , [۸ ۹ ۱۱ ۱۲]
اما تفاوت این دو مجموعه توزیع متفاوت اطلاعات است.به همین دلیل از انحراف معیار استفاده می کنیم (sd) .انحراف معیار یک مجموعه چگونگی توزیع داده ها است.
تعریف انحراف معیار:معدل فاصله از نقطه میانگین یک مجموعه داده.

از فرمول زیر استفاده می کنیم:

مربع فاصله هر نقطه از میانگین مجموعه و آنها را جمع کرده و تقسیم بر n-1 می کنیم و ریشه دوم مثبت می گیریم.
علامتS معمولا برای نشان دادن انحراف معیار یک نمونه به کار می رود.
اگر مجبور به استفاده از سراسر جامعه بودید از تقسیم برn استفاده کنید و اگر از نمونه استفاده می کنید از تقسیم بر n استفاده کنید.
برای دو مجموعه بالا انحراف معیار در جداول زیر محاسبه شده اند:

انتظار داریم مجموعه اول انحراف معیار بزرگتری داشته باشد به این خاطر که داده ها از میانگین فاصله بیشتری دارند.
فقط به عنوان یک مثال دیگر مجموعه داده های زیر میانگین و انحراف معیار ۱۰ دارند زیرا همه اعداد یکی هستند. هیچ کدام از آن ها از میانگین منحرف نمی شوند.

[۱۰ ۱۰ ۱۰ ۱۰]

۲-۱-۲ واریانس:
واریانس معیار دیگری از پراکندگی مجموعه داده ها است. در واقع تقریبا با انحراف معیار برابر است. فرمول آن به صورت زیر است:

با توجه هر دو علامت و فرمول متوجه می شوید که واریانس مربع انحراف معیار است.
S2 علامت معمولی برای واریانس یک نمونه است. هر دو این مقیاس از پراکندگی داده ها هستند. انحراف معیار مقیاس معمولی تری است. اما واریانس هم استفاده می شود.

۲-۱-۳ کوواریانس:
دو مقیاس آخر که ما به آن ها توجه داریم صرفا کمی هستند. مجموعه داده ها مانند موارد زیر می تواند باشد: بلندی همه افراد در یک اتاق،نمره های آخرین امتحان و غیره.
اما با وجود این برای تعداد زیادی از مجموعه داده ها می تواند بیش از یک بعد وجود داشته باشد و هدف از تحلیل آماری این مجموعه داده ها معمولا این است: ارتباطی که بین بعد ها وجود دارد را بفهمیم.
برای مثال ممکن است مجموعه داده هایمان هر دو بلندی همه دانش آموزان یک کلاس باشد . ما میتوانیم تحلیل آماری آیا بلندی یک دانش آموز اثر بر روی نمودار دارد.

انحراف معیار و واریانس فقط بر روی یک بعد عمل می کنند. شما فقط انحراف معیار را به طور جداگانه برای هر بعد از مجموعه داده ها می توانید حساب کنید.مفید است که مقیاسی برای اندازه گیری اختلاف از میانگین نسبت به یکدیگر داشته باشیم. کوواریانس یک چنین مقداری است.
کوواریانس همیشه بین دو بعد اندازه گیری می شود. اگر کوواریانس را بین یک بعد و خودش حساب کنید در واقع شما واریانس را حساب کرده اید. اگر شما یک سری داده سه بعدی (X,Y,Z) داشته باشید می توانید کوورایانس را بین دو بعدX,Y دو بعد X,Z و دو بعدY,Z حساب کنید. اندازه گیری کوواریانس بین X,X یا Y,Y و یا Z,Z به شما واریانس بعد های را به ترتیب می دهد.
فرمول محاسبه کوواریانس بسیار شبیه فرمول محاسبه واریانس است. فرمول محاسبه واریانس را نیز می توان مشابه این عبارت نوشت:

جمله درجه دوم نشان داده شده را به دو بخش بسط داده ایم زیرا این دانشی برای محاسبه کردن کوواریانس به ما می دهد.

این دقیقا همان فرمول واریانس است به جز آن که در دومین مجموعه از پرانتزهاY جایگزین X شده است.

تعریف کوواریانس: برای هر قلم داده تفاوت بین ارزشX و میانگینX را با تفاوت بین ارزشY ضرب می کند و تقسیم برn-1.
فرض می کنیم از یک گروه دانش آموز سوال شده است که در درس خاصی چه نمره ای دریافت کرده اند و چه تعداد ساعت آن ها در کل صرف مطالعه کرده اند. بنا بر این ما دو بعد داریم اولین بعدH تعداد ساعت مطالعه است و دومین بعد M نمره کسب شده است.
شکل زیر به ما اطلاعات فرضی را نشان می دهد. و cov(H,M) کوواریانس ساعت های مطالعه کردن و نمره گرفتن را محاسبه می کند.

بنا براین کوواریانس به چه چیزی را نشان می دهد؟ ارزش درست به اهمیت علامت آن (مثبت یا منفی) نیست. اگر ارزش مثبت باشد، نشان می دهد که هر دو بعد با هم افزایش می یابند، مثلا افزایش ساعت مطالعه، نمره پایانی را افزایش می دهد. اگر ارزش منفی است، اگر یک بعد افزایش یابد، بعد دیگر کاهش می یابد. اگر کوواریانس را منفی بدست آوریم پس آنچه به ما می گوید مخالف هم هستند، که با افزایش ساعت مطالعه نمره پایانی کاهش می یابد. در بعضی موارد که کوواریانس صفر می شود نشان می دهد که دو بعد مستقل از هم هستند.
نتیجه ای که با افزایش نمره به ما می گوید مثلا افزایش ساعت مطالعه می توان به آسانی با رسم یک نمودار از اطلاعات دید مانند شکل زیر:

از آن جا که ارزش کوورایانس را بین هر دو بعد در مجموعه اطلاعات می توان حساب کرد این تکنیک اغلب برای پیدا کردن ارتباط بین بعدها در ابعاد بزرگ مجموعه اطلاعات که تجسم آن مشکل است استفاده می شود.

در نمونه های مستقل ، آزمون t از تقسیم تفاوت بین میانگین های نمونه بر برآوردی از انحراف معیار توزیع اختلافها ( که به عنوان خطای معیار اختلاف یاstandard error of difference شناخته می شود)به دست می آید.اگر واریانسهای نمونه دارای مقادیر مشابهی باشد ، معمولاً با برآورد ترکیبی (pooled estimate) واریانس ثابت جامعه کار می شود. اما اگر واریانس ها برابر نباشند از برآورد . اگر مقدار t در هر یک از دمهای توزیع نمونه گیری قرار بگیرد ، فرضیه صفر رد می شود.مقدار دقیق t که جهت معنی دار شدن لازم است به درجه آزادی(degrees of freedom) توزیع بستگی دارد که خود آن به حجم نمونه در مطالعه وابسته است. اما معمولاً اگر قدر مطلق tبرابر یا بزرگتر از ۲ باشد، معنی دار است،مگر اینکه حجم نمونه خیلی کوچک باشد.در هر حال باید از نمونه های خیلی کوچک پرهیز نمود ، زیرا آزمون مورد نظر توان لازم جهت رد کردنH0 را نخواهد داشت.(توان یا

power یک آزمون آماری احتمال رد کردن H0 است به شرطی که صحیح نباشد.)مدل آزمون t این فرض را می کند که داده ها از توزیع های نرمال با واریانس برابر به دست آمده اند.شبیه سازی های رایانه ای نشان داده است که حتی اگر این فرضها تا حدودی مخدوش شده باشند کماکان می توان با اطمینان از آزمون t استفاده نمود،یه شرط آنکه حجم نمونه خیلی کم نباشد و دارای مقادیر پرت نبوده وحجم نمونه خیلی کم نباشدو دارای مقادیر پرت نبوده وحجم نمونه ها با هم برابر باشد(یاتقریباً برابر باشد) اگر بررسی اولیه داده ها بیانگر آن باشد که فرضهای مدل آزمون t به شدت مختل است .می توان از آزمونهای جایگزین استفاده نمود که از نوع آزمونهای ناپارامتری است و در منوی Nonparametric Tests از Analyze وجود دارد.آزمونهای ناپارامتری در باره توزیعهای جامعه و واریانس آن فرض خاصی نمی کنند.رویکرد دیگر (که به همان میزان موجب افت توان نمی شود) خارج کردن مقادیر پرت و به کار بردن آزمون t با مجموعه تفاوت انحراف معیار و واریانس

 

اگر پس از محاسبه ی میانگین، آن را از تک تک داده ها کم کرده و به توان ۲ برسانیم و سپس میانگین این داده ها را محاسبه کنیم، این میانگین ثانویه، واریانس داده های اوّلیه است:
Var(X)= 1/N(∑(x-x )²) =S²
اگر از فرمول فوق جذر گرفته شود، انحراف معیار حاصل می گردد:
S.D(X)=√Var(X) =S
همان طور که از فرمول محاسباتی بر می آید، محاسبه ی Var(X) آسان تر است؛ زیرا توان دوم هر عدد از ضرب عدد در خودش بدست می آید و دقیق است ولی جذر اعداد معمولاً تقریبی است و محاسبه ی آن دشوار است. از سوی دیگر در آمار و احتمال پیشرفته در صورت نیاز گرفتن مشتق یا انتگرال از Var(X) ساده تر است.