Data mining

چكيده :
داده كاوي عبارت است از فرآيند خودكار کشف دانش و اطلاعات از پايگاه هاي داد ه اي.
اين فرآيند تكنيك ها يي از هوش مصنوعي را بر روي مقادير زيادي داده اعمال مي كند تا روندها , الگوها و روابط مخفي را كشف كند. ابزار هاي داده كاوي براي كشف دانش يا اطلاعات از داده ها به كاربراتكا نمي كنند، بلكه فرآيند پيشگويي واقعيت ها را خود كار مي سازند. اين تكنولوژي نوظهور، اخيرًا به طورفزايند هاي در تحليل ها مورد استفاده قرار مي گيرد.

كلمات كليدي :
Data mining, Predictive data mining, Exploration data analysis,
Data warehousing, Olap, neural network, Deployment , machine
Learning, Meta-learning, Bagging , Boosting , clustering , Eda
Drill-down analysis, Stacket generalization , classification

مقدمه :
امروزه با حجم عظيمي از داده ها روبرو هستيم. براي استفاده از آنها به ابزارهاي كشف دانش نياز داريم. داده كاوي به عنوان يك توانايي پيشرفته در تحليل داده و كشف دانش مورد استفاده قرار مي گيرد. داده كاوي در علوم (ستاره شناسي،…)‌در تجارت (تبليغات، مديريت ارتباط با مشتري،…) در وب (موتورهاي جستجو،…) در مسايل دولتي (فعاليتهاي ضد تروريستي،…) كاربرد دارد. عبارت داده كاوي شباهت به استخراج زغال سنگ و طلا دارد. داده كاوي نيز اطلاعات را كه در انبارهاي داده مدفون شده است، استخراج مي كند.

در واقع هـــــدف از داده كاوي ايجاد مدل هايي براي تصميم گيري است. اين مدلها رفتارهاي آينده را براساس تحليلهاي گذشته پيش بيني مي كنند. به كاربردن داده كاوي به عنوان اهرمي براي آماده سازي داده ها و تكميل قابليتهاي انباره داده ، بهترين موقعيت را براي به دست آوردن برتريهاي رقابتي ايجاد مي كند.

داده كاوي (Data mining) :

داده كاوي (Data mining) يك فرايند تحليلي است كه جهت كاوش داده ها (معمولاً حجم بالاي داده ها و يا داده هاي تجاري و مربوط به بازار) و جستجوي الگوهاي پايدار يا روابط سيستماتيك مابين متغيرها بكار ميرود وسپس با اعمال الكو هاي شناسايي شده به زير مجمو عه هاي جديد صحت داده هاي بدست آمده بررسي ميگردد. هدف نهايي داده كاوي پيشگويي است.

سازما نها معمو ً لا روزانه مقدار زيادي داده را در انجام عمليات تجاري خود توليد و جمع آوري مي كنند.
امروزه براي اين پايگاه هاي داده شركتي عجيب نيست كه مقدار داده هاي آن در حد ترابايت باشد. با اين حال علي رغم ثروت اطلاعاتي عظيم ذخيره شده حدس زده مي شود كه فقط ٪ ٧كل داد ه هايي كه جمع آوري مي شود مورد استفاده قرار مي گيرد. بدين ترتيب مقدار قابل توجهي داده كه بدون شك حاوي اطلاعات ارزشمند سازماني است تا حد زيادي دست نخورده باقي مي ماند. در محيط تجاري عصر اطلاعات، كه هر روز رقابتي تر مي شود مي توان با استخراج اطلاعات از داد ه هاي استفاده نشده به تصميم گيري هاي استراتژيك دست يافت. در طول تاريخ تحليل داده ها از طريق رگرسيون و ديگر تكنيك هاي آماري انجام شده است. براي استفاده از اين تكنيكها ، لازم است كه تحليل گر مدلي خلق كند و فرآيند گر دآوري دانش را سازمان دهد.

اما امروزه اين روش ها به تنهايي كافي نيستند و بايد از روش ها ي خود كار استفاده كرد.
داده كاوي عبارت است از فرآيند خودكار کشف دانش و اطلاعات از پايگاه هاي داد ه اي.
اين فرآيند تكنيك ها يي از هوش مصنوعي را بر روي مقادير زيادي داده اعمال مي كند تا روندها ، الگوها و روابط مخفي را كشف كند. ابزار هاي داده كاوي براي كشف دانش يا اطلاعات از داده ها به كاربر اتكا نمي كنند، بلكه فرآيند پيشگويي واقعيت ها را خود كار مي سازند. اين تكنولوژي نوظهور، اخيرًا به طور
فرايند هاي در تحليل ها مورد استفاده قرار مي گيرد

داده كاوي پيشگويانه رايج ترين نوع داده كاوي است و با برنامه هاي كاربردي تجاري در ارتباط مستقيم است . فرايند داده كاوي از سه مرحله تشكيل شده است.
ا- كاوش اوليه (initial exploration )
2-ساختن مدل يا شناسايي الگو بوسيلة سنجيدن اعتبار وصحت داده ها
۳-گسترش

۱- مرحله كاوش(Exploration) :
اين مرحله معمولاً با آماده سازي داده ها آغاز مي شود كه تشكيل شده است از پاكسازي داده ها (cleaning data) ،تغير شكل داده ها، انتخاب زير مجموعه اي از ركورد ها (در زماني كه مجموعه اي از داده ها با حجم بالايي از فيلد ها موجود است) و انجام دادن برخي عمليات اوليه جهت قرار دادن متغير ها در يك بازة قابل مديريت،كه بستگي به روش آماري اي كه مورد نظراست دارد و پس ازآن به طبيعت مسئله تحت بررسي مربوط مي شود.
مرحلهُ اول فرآيند داده كاوي مي تواند در هر جايي از گسترة ، انتحاب يك روش مستقيم پيشگويي تا يك روش تجزيه و تحليل با جزئيات وزحمت بالا قرار داشته باشد .(جهت كسب اطلاعات وسيع تر به قسمت EDA مراجعه كنيد).
اين مدل جهت شناسايي متغيير هايي كه بيشتر از همه با موضوع مرتبط هستند و جهت مشخص كردن پيچيدگي و طبيعت كلي مسئله در مراحل بعدي مورد استفاده قرار ميگيرد .

مرحله ۲- ساختن مدل و معتبر سازي (model building and validation):
اين مرحله در گير در نظر گرفتن مدل هاي مختلف،و انتخاب بهترين آنها بر اساس كارايي در پيشگويي ، مي باشد.(براي مثال تعييرات سوُالات را تشريح كندونتايج ثابتي در مقابل نمونه ها توليد كند.) شايد اين به نظر عمليات ساده اي بيايد. ولي در واقع بعضي از مواقع در گير يكسري فرآيند هاي پيچيده مي شود.روشهاي مختلفي جهت رسيدن به اين هدف وجود دارد كه آنها را روشهاي ارزيابي رقابتي مدل ها (competitive evaluation of models ) مي نامند كه مدلهاي مختلفي را بر روي يك دادهُ ثابت اعمال مي كند و سپس كارايي آنها بررسي مي شود تا بهترين آنها انتخاب گردد. اين روش ها كه در خيلي از مواقع به عنوان هستهُ داده كاوي پيشگويانه تلقي مي گردند و شامل طبقه بندي كردن(bagging،)، ترقي دادن (boosting ) ،انباشتن (stacking )و يادگيري غير نمادين(meta learning )ميباشند.

 

مرحلة۳- مرحلهُ گسترش Deployment):( :
در آخرين مرحله مدلي كه به عنواي بهترين مدل در مرحلة قبلي انتخاب شده بود بر روي داده هاي جديد به منظور توليد پيشگويي يا بر آورد خروجي مورد انتظار اعمال ميگردد.

شهرت داده كاوي به طور روز افزوني به عنوان يك ا بزار مديريت تجاري داده ها شهرت يافته است و انتظار مي رود بتواند ساختار هاي دانشي را نمايان سازد كه در شرايط عدم قطعيت تصميمات گرفته شده را هدايت كند.

روشهاي تحليلي جديد خصوصاً جهت نشان دادن مسائل مرتبط با داده كاوي تجاري ،اخيراًبسيار مورد توجه بوده اند (به عنوان مثال درخت هاي رده بندي) ، با اين حال داده كاوي هنوز مبتني بر قواعد مفهومي روشهاي دستيابي قديمي نظير آناليز اكتشافي داده ها (EDA) و مدلساري ميباشد. وقسمت هايي از دست آورد هاي عمومي و بعضي از تكنيك هاي خاص خود را با آنها به اشتراك مي گذارد.

بهرحال تفاوت زيادي در نفطه نظرات و اهداف داده كاوي و روش آناليز اكتشافي داده ها (EDA) وجود دارد . داده كاوي بيشتر متمايل به كاربردها است تا طبيعت اصلي پديدة مورد بررسي.به عبارت ديگر داده كاوي كمتر به شناسايي روابط خاص موجود بين متغيرها مي پردازد.براي مثال آشكار كردن توابع و انواع داده اي خاصي كه بر روابط تعاملي و چند متغيري كه بين متغيرها وجود دارد هدف اصلي داده كاوي نمي باشد. در عوض توجه خود را به ايجاد روشي كه بتواند پيشگويي قابل استفاده اي توليد كند معطوف مي سازد. و به همين دليل است كه داده كاوي از بين دست آوردهاي جعبه سياه(black box ) در كاوش داده ها يا اكتشاف دانش مقبوليت بيشتري دارد. و نه تنها از روش هاي سنتي آناليز اكتشافي داده ها (exploratory data analysis (استفاده مي كند بلكه از روشهايي مانند شبكه هاي عصبي ( Neural network ) كه مي تواند پيشگويي هاي معتبري توليد كند ولي قادر به شناسايي طبيعت خاص روابط داخلي بين متغيرهايي كه پيشگويي ها بر اساس آنها صورت گرفته است نميباشد سود مي جويد.
مفاهيم تعيين كننده در داده كاوي:
۱-هم پيوندي (Bagging) :
هم پيوندي قابليتي براي يافتن روابط ناشناخته موجود در اطلاعات است. اين روابط مواردي از قبيل اينكه
حضور مجموعه اي از مقولات اشاره به اين دارند كه مجموعه مقولات ديگري نيز احتمالا وجود دارند را
شامل مي شود. اين قابليت اساسًا روشي است براي اينكه كشف كنيم چه مقولاتي به هم مي خورند. از آن با عنوان تحليل سبد بازار يا گروه بندي خويشاوندي نيز ياد مي شود.

براي مثال، گزار شهاي هم پيوندي چنين شكلي دارند:”٪ ٨٠ مشترياني كه كالاي A را خريداري نموده اند، كالاي Bرا نيز خريده اند.” درصد خاص وقوع وقايع) مثلا ٪ ٨٠ اين نمونه ( را فاكتور اطمينان هم پيوندي B و A مي نامند. همچنين ممكن است هم پيوندي هاي چند گانه وجود داشته باشد: “٪ ٧٥ مشترياني كه كالاي D را خريداري نموده اند، كالاي Cرا نيز خريده اند.”

كاربرد هاي هم پيوندي عبارتند از برنامه ريزي موجودي، برنامه ريزي تبليغاتي براي فروش و مراسلات بازاريابي مستقيم.
مفهوم Bagging (راُي دادن به رده بندي و بدست آوردن متوسط مسائلي كه داراي متغير هايي با مقادير متوسط وابسته ميباشند)و در گسترة داده كاوي اعمال مي گردد تا طبقه بندي هاي پيشگويانه را از مدل هاي چندگانه يا از يك نوع مدل ، براي درك اطلاعات تركيب كند . و همچنين جهت نشان دادن بي ثبا تي

ماندگار نتايج در زماني كه مدل هاي پيچيده به مجموعه هاي كوچك داده ها اعمال مي شوند به كار مي رود. فرض كنيد كه عمل داده كاوي شما مي خواهد يك مدل جهت طبقه بندي پيشگويا نه بسازد و مجموعة داده هاي آن نسبتاً كوچك است . شما مي توانيد به صورت متوالي مجموعه داده ها را به نمونه هاي كوجكتر تقسيم كنيد و اعمال كنيد همانند رده بندي درختي تا به نمونه مورد نظر برسيد.در عمل درخت هاي متفاوتي براي نمونه هاي منقاوت بسط داده ميشوند.يكي از روش هاي استنتاج يك پيشگويي استفاده از قالب درختي در نمونه هاي مختلف است و پس از آن برخي نظريات بر روي آن اعمال مي گردد.
طبقه بندي نهايي طبقه بندي است كه عموماً توسط درخت هاي متفاوت پيشگويي مي شود. توجه داشته باشيد كه برخي از تركيب هاي وزن دار از پيشگويي ها نيز محتمل است و عموماً مورد استفاده قرار مي گيرد. يك الگوريتم پيشرفته جهت ايجاد وزن براي پيشگويي هاي وزن دار يا voting رويه هاي Boosting هستند.

 

۲-طبقه بندي) Boosting ( :
طبقه بندي در واقع ارزشيابي ويژگيهاي مجموعه اي از داد ه ها و سپس اختصاص دادن آ نها به مجموعه اي از گرو ههاي از پيش تعريف شده است. اين متداولترين قابليت داده كاوي مي باشد. داده كاوي را مي توان با استفاده از داده هاي تاريخي براي توليد يك مدل يا نمايي از يك گروه بر اساس ويژگي هاي داده ها به كار برد. سپس مي توان از اين مدل تعريف شده براي طبقه بندي مجموعه داده هاي جديد استفاده كرد. همچنين مي توان با تعيين نمايي كه با آن سازگار است براي پيش بيني هاي آتي از آن بهره گرفت.
براي مثال، براي طبقه بندي تخلفات و كلاهبرداري ها در صنعت و اعتبارات، با استفاده از قابليت طبقه بندي داده كاوي، سيستم با استفاده از مجموعه اي از پيش تعريف شده از داده ها، تعليم مي بيند. مجموعه داد ه هاي مورد استفاده در اين نمونه بايد هم شامل مجموعه هايي از داد ه هاي معتبر باشند و هم شامل مجموعه هايي از داد ه هاي جعلي. از آن جا كه اين داده ها از پيش تعريف شده هستند، سيستم پارامترهايي را مي يابد كه مي توان از آ نها براي تشخيص طبقه بندي هاي متمايز استفاده كرد. بعد از تعيين پارامترها سيستم از آ نها براي طبقه بندي هاي بعدي بهره خواهد گرفت.

در واقع سيستم هايي كه بر اساس طبقه بندي داده كاوي مي كنند، دو مجموعه ورودي دارند: يك مجموعه آموزشي كه در آن داده هايي كه به طور پيش فرض در دسته هاي مختلفي قرار دارند، همراه با ساختار دسته بندي خود وارد سيستم مي شوند و سيستم بر اساس آ نها به خود آموزش مي دهد يا به عبارتي پارامترهاي دسته بندي را براي خود مهيا مي كند. دسته ديگر از ورودي هايي هستند كه پس از مرحله آموزش و براي تعيين دسته وارد سيستم مي شوند.
تكنيك هاي داده كاوي كه براي دسته بندي به كار مي آيند عمومًا شامل تكنيك هاي شبكه عصبي و درخت تصميم گيري هستند.

يكي از متغيرهاي مهم در قابليت دسته بندي برآورد يا امتياز دهي است. هر جا طبقه بندي يك پاسخ دو تايي مثل بله و خير ارائه كند، برآورد يك درجه بندي مثل پايين بالا و يا متوسط ارائه مي كند. در اصل برآورد، چندين نما در امتداد مجموعه اي از داده ها فراهم مي آورد كه نشان دهنده درجه تعلق يك نما به يك مجموعه است.

كاربرد قابليت طبقه بندي در بازاريابي هدف، تصويب اعتبار و بررسي تقلب، است
مفهوم Boosting در گسترة داده كاوي پيشگويانه مطرح مي شود و جهت ايجاد مدل ها و طبقه بندي هاي چند گانه مورد استفاده قرار مي گيرد و همچنين براي استنتاج وزن ها براي تركيب پيشگويي ها از آن مدل ها در يك پيشگويي واحد يا يك ردة پيشگويي به كار مي رود.

يك الگوريتم ساده جهت Boosting به صورت اين صورت عمل مي كند كه ابتدا كار را با اعمال كردن روش هايي بر روي learning data آغاز مي كنيم (مانند طبقه بندي كننده هاي درختي )و به هر مشاهده وزن يكساني نسبت مي دهيم. طبقه بندي هاي پيشگويي شده را محاسبه كنيد و وزن هاي تعيين شده را بر روي مشاهدات نمونه مورد بررسي كه نسبت معكوس با دقت طبقه بندي دارند اعمال كنيد .به عبارت ساده تر به مشاهداتي كه طبقه بندي آنها دشوار تر است وزن بيشتري را اختصاص بدهيد .(يعني نرخ عدم طبقه بندي آنها بالا بوده است) و وزن كمتري را به آنهايي كه طبقه بندي آنها ساده تر بوده است نسبت بدهيد.(نرخ عدم طبقه بندي پايين بوده است )،سپس طبقه بندي را دوباره به داده هاي وزن دار اعمال كنيدو در طي چرخه بعدي اين عمليات را ادامه دهيد.

Boosting يك توالي از طبقه بندي ها ايجاد مي كند .كه هر توالي طبقه بندي در اين رونديك متخصص در امر طبقه بندي مشاهداتي كه پيش بيني آنها ساده نبوده است خواهد بود ، وسپس پيشگويي هاي انجام شده توسط طبقه بندي كننده هاي مختلف با يكديگر تركيب مي شوند تا يك پيشگويي يا طبقه بندي بهينه ارائه دهند.

٣.الگوهاي ترتيبي :
قابليتهاي ترتيبي هم مانند قابليتهاي هم پيوندي اين خاصيت را دارند كه مي توانند وقايع را با هم مرتبط
كنند. اين كار در هم پيوندي سنتي يا تحليل سبد بازار مجموعه اي از مقولات را به عنوان مقولات پشت سر هم ارزيابي مي كنند و از ابزارهايي مثل سر يهاي زماني هم براي تعيين ترتيب بهره مي برند. الگوهاي ترتيبي علاوه بر آن، اين قابليت جديد را هم دارند كه مي توانند فاصله زماني بين دو واقعه را تخمين بزنند. براي مثال اين قابليت امكان نتيجه گيري هايي از قبيل اينكه ” ٪ ٨٠ افرادي كه كامپيوتر مي خرند ظرف مدت ١ سال چاپگر هم خواهند خريد.” را مهيا مي نمايد. به اين ترتيب شناسايي نوعي از خريدهاي مقدماتي كه پتانسيل خريدهاي بعدي را در آينده تعيين مي كنند، عملي مي شود. در نتيجه از چنين تحليل هايي به شدت در تبليغات فروش استفاده مي گردد.

٤.خوشه بندي(clustering) :

قابليت خوشه بندي وظيفه تقسيم يك گروه ناهمجنس را در چندين زير گروه بر عهده دارد. اين فرايند يك تفاوت اساسي با طبقه بندي دارد. زيرا در اين مدل هيچ گونه الگوي آموزشي نداريم. خوشه بندي به طور خودكار ويژگي هاي متمايز كننده زير گروه ها را تعريف مي كند و زير گرو هها را سازماندهي مي نمايد. و به عنوان نوعي قابليت داده كاوي غير مستقيم مطرح است.
اين ابزارها پايگاه داده را بر اساس ويژگي هاي داده ها به چندين بخش تقسيم مي كنند و گروه هايي از ركوردها را به وجود مي آورند كه نمايانگر يا صاحب صفت خاصي هستند. الگوهاي به دست آمده در ذات پايگاه داده نهادينه هستند و نشانگر بعضي اطلاعات غير منتظره و در عين حال ارزشمند شركتي باشند.
مثالي از كاربردهاي خوشه بندي در تقسيم بندي افرادي است كه به پرسش نامه اي پاسخ داده اند. از اين كار مي توان در تقسيم بندي مشترياني كه به پرسش نامه ها پاسخ داده اند در گروه هايي كه اعضاي آن بيشترين شباهت را با يكديگر و بيشترين تفاوت را با اعضاي ساير گروه ها دارند، استفاده كرد. بعد از بخش بندي جمعيتي با استفاده از قابليت خوشه بندي مي توان بر روي خوشه هاي مشخص شده تحليل هم پيوندي انجام داد تا خريدهاي به هم مرتبط يك گروه جمعيتي خاص شناخته شوند.
كاربرد خوشه بندي براي تعيين بهترين گروه هاي جامعه شناختي براي اهداف خاص بازاريابي است.
اغلب از خوشه بندي به عنوان اولين گام فراين دهاي داده كاوي ياد مي شود كه قبل از ساير فرايند ها براي شناسايي گروهي از ركوردهاي مرتبط با هم كه بعدًا بتوانند نقطه آغاز تحليلها باشند بر روي ركوردها اعمال مي شود.

تهيه مقدمات جهت داده كاوي :
تهيه مقدمات لازم و انجام پاكسازي از جمله مراحل بسيار مهّم ولي عموماً غفلت شده در فرايند داده كاوي مي باشد. مصداق آن در بسياري از پروژه هاي داده كاوي است كه در آنها مجموعه اي از داده ها بوسيلة برخي روشهاي اتوماتيك بدست مي آيند. عموماً روشهايي كه توسط آنها داده هاحمع آوري مي شوند بدرستي كنترل نشده است ( مثل web )و مثلاً داده ها ممكن است شامل مقادير خارج از محدوده باشند
(مثل ۱۰۰- = درآمد) و تركيبات غير ممكن داده ها و آناليز داده هايي كه با دقت انتخاب نشده اند در چنين مسائلي منجر به توليد نتايج منحرف كننده اي مي گردد. خصوصاً در داده كاوي پيشگويانه اين مشكل بسيار محسوس است.

كاهش داده ها در داده كاوي:
عبارت كاهش داده ها در مقولة داده كاوي بيشتر در مورد پروژه هايي به كار مي رود كه هدف آن ها اين است كه اطلاعات موجود در مجموعه داده هاي بزرگ را به صورت قطعه هايي كوچكتر و قابل اداره ، جمع آوري و در هم بياميزند. روش هاي كاهش داده مي توانند شامل جدول بندي هاي ساده(tabulation) ،تجمع(agrigation) يا روش هاي پيچيده ديگري نظير clustering، (clustering principal component analysis) باشند.

گسترش داده كاوي Deployment :
مفهوم گسترش داده كاوي اشاره به درخواست مدل براي پيشگويي يا طبقه بندي يك دادة جديد دارد. پيش از آنكه يك مدل يا مجموعه اي از مدل هاي مشخص براي يك درخواست خاص مشخص شود افراد معمولاً مي خواهند كه اين روشها را طوري گسترش دهند كه پيشگويي ها يا طبقه بندي هاي پيشگويانه به سرعت براي داده هاي جديد بكار گرفته شوند به عنوان مثال يك شركت كارت اعتباري تمايل دارد كه يك مدل يا مجموعه اي از مدل هاي مشخص را (مثل neural network meta learning , ) به كار گيرد تا تراكنش هايي را كه احتمال تقلب در آنها زياد است مشخص كند.
آناليز (Drill – down analysis) :

مفهوم آناليزDrill-down داده كاوي بدين منظور به كار مي رود تا كاوش تعاملي داده ها را به صورت دقيق در پايگاه داده ها داده ها مشخص كند.فرآيند آناليز Drill-down با در نظر گرفتن برخي طبفه بندي ها بر مبني مقاديري از متغيرهاي مهّم مانند (جنسيت ، نواحي جغرافيايي و غيره ) آغاز مي شود . آمار و ارقام گوناگون،جداول و نمودارها و انواع ديگر خلاصه هاي گرافيكي مي توانند براي هر دسته نتيجه شوند.سپس ممكن است بخواهيد آناليزهاي متغير ي بر روي داده هاي هر گروه انحام دهيد براي مثال ممكن است شخصي بخواهد آناليزهاي متغيري برروي داده هاي بدست آمده در مورد مردان ساكن غرب بدست آورد در اينجا ارقام و نمودارهاي گوناگوني بدست مي آيد كه مي توانند تحت آناليزهاي متغير بر اساس متغيرهايي نظير سن،درآمد وغيره به دسته هاي كوچكتر ي طبقه بندي گردند . در پايين ترين سطح داده هاي خام قراردارند . براي مثال شما ممكن است بخواهيد داده هاي مربوط به مشتريان مرد ساكن در يك ناحيه با ميزان درآمد مشخص و غيره را تحت بررسي قرار دهيد و به آن مشتريان سرويس هاي خاصي را ارائه دهيد.

 

انتخاب خصيصه ها (Feature selection) :
يكي از مراحل اوليه در داده كاوي پيشگويانه انتخاب خصيصه ها است. زماني كه در مرحلة مدل سازي واقعي (يا حتي در مراحل اوليه عمليات كاوشگري ) مجموعة داده ها شامل متغيرهاي بيش از اندازة مجاز شده باشد پيشگويي ها از ميان يك ليست بزرگ از كانديدا ها انتخاب مي شوند(براي مثال زماني كه داده ها توسط يك روش اتوماتيك (كامپيوتري ) جمع آوري ميشوند. عير معمول به نظر نمي رسد كه هزاران يا صدها هزار پيشگويي بدست آيد. روش هاي استاندارد آناليز جهت داده كاوي پيشگويانه نظير آناليز شبكه هاي عصبي (neural network)طبقه بندي ودرخت هاي بازگشتي (classification and regression trees) و مدل هاي خطي تقسيم يافته (generalized linear models) زماني كه تعداد پيشگويي ها از چند صد متغير تجاوز مي كند غير عملي به نظر مي رسند.

انتخاب خصيصه ها يك زير مجموعه از خصيصه ها را از ميان يك ليست بزرگ از پيشگويي هاي كانديد بدون در نظر گرفتن ارتباط بين پيشگويي ها يا اينكه ارتباط آنها خطي است ،يا يكنواخت انتخاب مي كند.

به همين دليل اين روش كه عنوان يك پيش پردازنده براي داده كاوي پيشگويانه عمل ميكند با مجموعه هاي قابل اداره اي از پيشگويي ها بدست آيد كه اين مجموعه ها احتمالا با يكديگر مرتبط اند،و سپس آناليز هاي بيشتري بر روي آنها صورت مي گيرد تا طبقه بندي شوند.