چکیده

در سالهاي اخیر با انفجار حجم داده ها استفاده از ابزارهاي نوین در تحلیل داده ها نیز افزایش چشمگیري یافته استچفیکی از پر کاربردترین این ابزارها داده کاوي استچف الگوریتم هاي اصلی داده کاوي به تفدسته انتخاب خصیصه، طبقه بندي، خوشه بندي و قوانین تجمعی تقسیم می شوندچفیکی از این وظائف انتخاب خصیصه استچفدر انتخاب خصیصه الگوریتم به دنبال یافتن مهمترین خصیصه ها براي پیش بینی برچسبپکلاسژفداده ها استچفالگوریتم هاي متنوعی براي انتخاب خصیصه وجود دارد ما در این مقاله با رویکردي نوین و با استفاده از تکنیکهاي تصمیم گیري چند معیاره از جمله آنتروپی و مدل تحلیل پوششی داده ها به ارائه مدلی ابتکاري در انتخاب خصیصه پرداخته ایم و با ایجاد آزمایشی مناسب به آزمایش ذفپایگاه داده واقعی i iاقدام نموده ایم و با مقایسه با دیگر روشهاي رایج انتخاب خصیصه به آزمایش الگوریتم پیشنهادي پرداخته ایمچفنتایج حاکی از دقت بالاتر روش پیشنهادي در مقایسه با سایر الگوریتم هاي موجود است ف که نشان می دهد با استفاده از تکنیکهاي تصمیم گیري چندمعیاره علاوه بر آنکه می توان دقت داده کاوي را افزایش داد، می توان شاخه جدیدي نیز در الگوریتم ها ایجاد کردچففف

کلمات کلیدي

داده کاوي، الگوریتم انتخاب خصیصه، آنتروپی، تحلیل پوششی داده ها، طبقه بنديچفف

-۱ مقدمه

داده کاوي، به تحلیل اکتشافی داده ها در میان سایر چیزها گفته می شودچفانبوه اطلاعات تولید شده از قسـمتهاي مختلـف نظیـر صـندوق هاي دریافت پول شرکت، نظارت و کنترل، پایگـاه هـاي داده شـرکت مورد کاوش، تحلیل، تقلیل و استفاده مجدد قرار می گیرندچفتحقیقات براي تمام مدل هاي پیشنهاد شده براي پیش بینی فـروش، واکـنش بازار و سود آن انجام شده استچفرویکردهـاي آمـار کلاسـیک، پایـه و اساس داده کاوي هستند چفدر روش هاي اتوماتیک هوش مصنوعی نیز معمــولا مــورد اســتفاده قــرار مــی گیرنــدچفبــه هــر حــال، اکتشــاف سیستماتیک از طریق روش هاي آمار کلاسیک هنـوز پایـه و اسـاس داده کاوي استچفبرخی از نرم افزارهاي کاربردي ایجاد شده در رشـته تحلیل آماري داده ها به صورت اتوماتیک کنترل می شـوند کـه ایـن کنترل نیز تا حدي توسط انسان نیز هـدایت مـی شـودچ [۱]فدر ایـن مقاله ما به بررسی یکی از مهمتـرین وظـایف داده کـاوي کـه طبقـه بندي است می پردازیمچفف

طبقهفبنديم فبه معنی پیش بینی برچسبتفها براي دادهفها بر اساس دادهفهاي برچسب خورده قبلی میفباشد[۲] ف طبقه بندي فرایندي است براي یافتن مدلز فپیا تابعژ فکه دادهفها را تشریح و کلاسهاي آنها را تشخیص میفدهدچفبراي رسیدن به این هدف از مدل ساختهفشده استفاده میفشود که میف تواند برچسب کلاسفهاي نامشخص را بدست آوردچفمدل بیان شده بر اساس تحلیل مجموعهفاي از داده هاي آموزشیذ فپداده هایی که برچسب کلاس آنها مشخص می باشدژفبدست می آیدچ[۳]فف

“مدل بدست آمده چگونه تشریح می شود ؟” فمدل به دست آمده ممکن است به شکلهاي مختلف از جمله قوانین طبقه بندي پIF-THENژفشکللف، درخت تصمیمغفشکل هف، فرمول هاي ریاضی و یا شبکه هاي عصبیهف، شکل مفنشان داده شوندچفف

شکل۱ نمونهاي از قوانین طبقهبندي

فف

Classification ٣ Lable ٤
Model ٥ Train ٦

Decision Tree ٧ Neural Network ٨

شکل ۲ نمونهاي از درخت تصمیم

فف

شکل ۳ نمونهاي از شبکه عصبی

درخت تصمیم ساختاري درختی شبیه به فلوچارت است بطوریکه هر گره آزمونی بر روي مقدار یک خصیصه است و هر شاخه ، حاصل آن آزمون را نشان میفدهد و برگهاي درخت، کلاس ها را نشان میفدهدچ فدرخت هاي تصمیم به سادگی میف توانند تبدیل به قوانین طبقهفبندي شوندچفیک شبکه عصبی زمانی که براي طبقهفبندي استفاده میفشود معمولا مجموعهفاي از دادهفهاي پردازش شبکهفعصبشفها با ارتباطفهاي وزن دار بین این واحدها میفباشد.[۴]فف

روشفهاي دیگري نیز براي ساختن مدلهاي طبقهفبندي از قبیل طبقه بندي بیزي سادهحل، ماشین بردار پشتیبانللپSVMژفو طبقه بندي نزدیکترینفهمسایهفKامهلفپKNNژفوجود داردچفف

طبقه بندي نیز می تواند برچسب ها براي داده هاي گسسته و پیوسته پیش بینی کندچفیعنی علاوه بر پیش بینی برچسب کلاس جهت پیش بینی مقادیر عددي گم شده یا غیرقابل دسترس استفاده

neuron ٩ Naïve Bayesian ١٠
Support Vector Machine ١١ K-Nearest Neighbor ١٢

۲ www.iiec2013.ir

می شودچفف تحلیل رگرسیونملفروشی آماري است که اغلب براي پیش بینی

اعداد بکار برده میفشود ، و نیز روش هاي دیگري در این زمینه وجود دارندچف طبقهفبندي و پیشفبینی ممکن است با تحلیل روابطتلففپفکه در مرحله انتخاب خصیصه انجام می شودژفدنبال شود که تلاش میفکند، خصیصهفهایی را که کمتر در طبقهفبندي و پیشفبینی شرکت میفکنند را حذف نمایدچ[۵]فدر ادامه بخش هاي مقاله بدین ترتیب سازماندهی شده است در بخش هفبه بیان ابزارهاي مورد استفاده می پردازیم در بخش مفبه طراحی آزمایش می پردازیم در بخش تفبه بیان نتایج می پردازیم و در نهایتا در بخش ز فبه نتیجه گیري و پیشنهادات براي محققان دیگر خواهیم پرداختچفف

-۲ ابزارهاي مورد استفاده

در این بخش به بیان ابزارها و روشهاي مورد اسـتفاده در ایـن مقالـه خواهیم پرداختفف
-۱-۲الگوریتم هاي انتخاب و رتبه بندي خصیصه ها

این الگوریتم ها به الگوریتم هـاي Feature Selectionفمعـروف مـی باشند و به دو دسته تقسیم می شوند [۶]یک دسته از ایـن الگـوریتم ها به رتبه بندي خصیصه ها می پردازند مثل کـاي اسـکوئر و امتیـاز فیشر پFilter Attributeژفو دسته دوم زیر مجموعـه اي از خصیصـه ها را انتخاب مـی کننـد بطوریکـه آن زیـر مجموعـه تـا حـد زیـادي خاصیت هاي کل خصیصه ها را داشته باشند که این کار بـا هفهـدف اصلی انجام می شودففف

لنف در پایگاه داده هایی کـه خصیصـه هـاي مناسـب انتخـاب نشده باشند ، با حذف آن خصیصه ها دقـت طبقـه بنـدي افزایش می یابدچ

هنف در پایگاه داده هایی که خصیصه ها مناسب انتخـاب شـده باشند، با کاهش خصیصه هـا پـردازش اطلاعـات سـریعتر انجام خواهد پذیرفتچ
در اینجا به معرفی دو الگوریتم می پردازیمففف
:Cfs15 subset eval 3-1-2
الگوریتم CFsفبر اساس ضریب همبستگی بنا نهاده شـده اسـت و بـر این اساس است که یک زیر مجموعه kفتایی از خصیصـه هـا انتخـاب می شـود و میـانگین ضـریب همبسـتگی بـین خصیصـه هـاي آنـرا محاسبه می کنیم و برابر فقرار می دهیمچفسپس میانگین ضریب همبستگی بین خصیصه ها و کلاس پایگاه داده را محاسبه می کنـیمف

۱۳ Regression 14 Relevance analysis 15 Correlation-based Feature Selector

و برابر فقرار می دهیم و فرا براي آن محاسـبه مـی کنـیم و
تمام زیر مجموعه هاي خصیصه ها را از رابطه محاسبه مـی کنـیم و
هر زیر مجموعه اي که بیشترین مقـدار را داشـت خصیصـه هـاي آن انتخاب می شوندچ[