چكيده
در دنياي پزشكي امروز،‌داده‌هاي مربوط به علائم بيماران مبتلا به بيماري‌هاي گوناگون و نتايج روش‌هاي كمكي براي تشخيص اين بيماري‌ها، بسيار وسيع و گسترده هستند، به طوري كه معمولاً تحليل و در نظر گرفتن همه جنبه‌ي كليه عوامل دخيل توسط يك فرد، دشوار به نظر مي‌آيد. اين جاست كه نياز به يك سيستم مكانيزه براي كمك به كشف الگوهاي موجود و هم چنين پيش بيني رخدادهاي آتي كاملاً احساس مي‌شود. دانش داده كاوي به عنوان ارائه كننده‌ي اين سيستم

مكانيزه كمك‌هاي شاياني در پيشرفت‌هاي پزشكي به ويژه در زمينه‌ي تشخيص بيماري‌هاي گوناگون كرده است. در بعضي از بيماري‌ها در صورت تشخيص ديرهنگام، مي‌توانند به عنوان عوارض جدي و خطرناك و حتي به مرگ منجر شوند، لذا تشخيص به موقع آن‌ها براي پيشرفت درمان ضروري است. در اين مقاله به بررسي تأثيرات الگوريتم‌هاي داده كاوي در بيماري‌ها و علوم پزشكي پرداخته‌ايم.
واژگان كليدي: داده‌كاوي، شبكه عصبي، درخت تصميم

مقدمه:
داده كاوي فرآيند است خودكار براي استخراج الگوهايي كه دانش را بازنمايي مي‌كنند، كه اين دانش به صورت ضمني در پايگاه داده‌هاي عظيم، انباره داده و ديگر مخازن برزرگ اطلاعات، ذخيره شده است. داده كاوي، به طور همزمان از چندين رشته علمي، نظير: تكنولوژي پايگاه داده، هوش مصنوعي، يادگيري ماشين، شبكه‌هاي عصبي،‌آمار، شناسايي الگو، سيستم‌هاي مبتني بر

دانش،‌حصول دانش، بازيابي اطلاعات، محاسبات سرعت بالا و بازنمايي بصري داده بهره مي‌برد. داده كاوي در اواخر دهه ۱۹۸۰ پديدار گشته، در دهه ۱۹۹۰ گام‌هاي بلندي در اين شاخه از علم برداشته شده و انتظار مي‌رود در اين قرن به رشد و پيشرفت خود ادامه دهد؛ و افزايش روز افزون پيشرفت در زمينه تكنولوژي اطلاعات باعث شده كه رشد چشم‌گيري در علوم مختلف به وجود آيد. يكي از اين رشته‌ها كه تغيير در آن قابل ملاحظه است،‌رشته پزشكي مي‌باشد. استفاده از تكنيك‌هاي داده كاوي در اين شاخه از علم باعث شده كه در كليه مباحث مخصوصاً تشخيص بيماري‌ها كمك بسياري به پزشكان شود.

۱-۱-تاريخچه داده كاوي:

بارشدفناورياطلاعاتوروشهايتولیدوجمعآوريدادهها،پایگاهدادههايمربوطبهدادههايتبادلاتتجاري،کشاورزي،اینترنت،جزئیاتمکالماتتلفنی،دادههايپزشکیوغیرهسریعترازهرروزجمعآوريوانبارشمیشوند. لذاازاواخردهه ۸۰ میلاديبشربهفکردستیابیبهاطلاعاتنهفتهدراینپایگاهدادههايحجیمافتادزیراسیستمهايسنتیقادربهاینکارنبودند.
دادهکاوي فرآیندياستکهدرآغازدهه ۹۰ مطرحشدوبانگرشینو،بهمسئلۀاستخراجاطلاعاتازپایگاهدادههامیپردازد. ازسال ۱۹۹۵ دادهکاويبهصورتجديواردمباحثآمارشدودرسال۱۹۹۶ ،اولینشمارةمجلۀکشفدانشومعرفتازپایگاهدادهها منتشرشد. محققانینظیربراچمنوآناند (۱۹۹۶) کلیهمراحلواقعگرایانهوروبهجلوکشفدانشازپایگاهدادههاراتشخیصدادند. درحالحاضر،دادهکاويمهمترینفناوريجهتبهرهبرداريموثرازدادههايحجیماستواهمیتآنروبهفزونیاست. بهطوریکهتخمینزدهشدهاستکهمقداردادههادرجهانهر۲۰ ماهبهحدوددوبرابرمیرسد.در يك تحقيق كه بر روي گروه‌هاي تجاري بسيار بزرگ در جمع‌آوري داده‌ها صورت گرفته مشخص گرديد كه ۱۹ درصد از اين گروه‌ها داراي پايگاه داده‌هايي با سطح بيشتر از ۵۰ گيگا بايت مي‌باشند و ۵۹ درصد از آنها انتظار دارند كه در آينده‌اي نزديك در چنين سطحي قرار گيرند.
در صنايعي مانند كارت‌هاي اعتباري و ارتباطات و فروشگاه‌هاي زنجيره‌اي و خريدهاي الكترونيكي و اسكنرهاي باركد خوان هر روزه داده‌هاي زيادي توليد و ذخيره مي‌شوند. افزايش سرعت كامپيوترها باعث به وجود آمدن الگوريتم‌هايي شده است كه قدرت تجزيه و تحليل بسيار بالايي دارند بدون اينكه محدوديتي در زمينه ظرفيت و سرعت كامپيوترها داشته باشند.
در سال ۱۹۸۹ و ۱۹۹۱ كارگاههاي كشف دانش و معرفت ازپايگاه داده‌ها توسط پياتتسكي و همكارانش برگزار شد. در فواصل سالهاي ۱۹۹۱ تا ۱۹۹۴ كارگاههاي كشف دانش و معرفت از پايگاه‌ داده‌ها توسط فيياد و پياتتسكي و ديگران برگزار شد. به طور رسمي اصطلاح داده كاوي براي اولين بار توسط فيياد در اولين كنفرانس بين المللي «كشف دانش و داده كاوي» در سال ۱۹۹۵ مطرح شد. امروزه كنفرانسهاي مختلفي در اين زمينه در سراسر دنيا برگزار مي‌شود.

افزايش داده‌هاي بسيار باعث پيدايش فرصتهاي تازه براي كار در علوم مهندسي و كسب و كار شده است. زمينه داده كاوي و كشف دانش از پايگاه‌ داده‌ها به عنوان يك رشته علمي جديد در مهندسي و علوم كامپيوتر ظهور كرده است. مهندسي صنايع با حوزه‌هاي گوناگون و در برداشتن فرصتهاي بي‌نظير اكنون براي كاربرد داده كاوي و كشف دانش از پايگاه داده‌ها و بري توسعه مفاهيم و روشهاي تازه در اين زمينه آماده است. فرآيندهاي صنعتي زيادي اكنون براي مطمئن شدن از كيفيت سفارشات محصول و كاهش هزينه‌هاي محصول به طور خودكار و كامپيوتري شده‌اند.
۱-۲- داده كاوي چيست؟
نگاهي به ترجمه تحت اللفظي داده كاوي، به ما در درك بهتر اين واژه كمك مي‌كند. Mine به معناي استخراج از منابع نهفته و با ارزش زمين اتلاق مي‌شود. پيوند اين كلمه با كلمه داده‌، جستجويي عميق جهت پيدا كردن اطلاعات اضافي مفيد كه قبلاً نهفته بودند، از داد‌هاي قابل دسترس حجيم، را پيشنهاد مي‌كند.
داده كاوي يك رشته نسبتاً جديد علمي مي‌باشد كه از انجام تحقيقات در رشته‌هاي آمار، يادگيري ماشين، علوم كامپيوتر خصوصاً مديريت پايگاه داده‌ها شكل گرفته است.
تعاريف متنوعي از داده كاوي در مراجع مختلف و توسط افراد مختلف ارائه شده از جمله:
۱- داده كاوي عبارت است از فرآيند استخراج اطلاعات معتبر، از پيش ناشناخته، قابل فهم و قابل اعتماد از پايگاه‌ داده‌هاي بزرگ و استفاده از آن در تصميم‌گيري در فعاليت‌هاي تجاري مههم.
۲- اصطلاح داده كاوي به فرآيند نيمه خودكار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي‌شود.
۳- داده كاوي يعني جستجو در يك پايگاه داده ها براي يافتن الگوهايي ميان داده‌ها.
۴- داده كاوي يعني تجزيه و تحليل مجموعه داده‌هاي قابل مشاهده براي يافتن روابط مطمئن بين داده‌ها.
۵- عبارت داده كاوي مترادف با يكي از عبارت‌هاي استخراج دانش، برداشت اطلاعات، وارسي داده‌ها و حتي لايروبي كردن داده‌هاست كه در حقيقت كشف دانش در پايگاه داده‌هاي (KDD) را توصيف مي‌كند.
اما تعريفي كه در اكثر مرجع به اشتراك ذكر شده عبارت است از «استخراج اطلاعات و دانش و كشف الگوهاي پنهان از پايگاه‌ داده‌هاي بسيار بزرگ و پيچيده». داده كاوي يك متدولوژي بسيار قوي و با پتانسيل بالا مي باشد كه به سازمان ها كمك مي‌كند كه بر روي مهمترين اطلاعات از مخزن داده‌ها ي خود تمركز نمايند.
داده كاوي فرآيندي است كه از ابزارهاي تحليلي گوناگوني براي كشف الگوها و روابط بين داده‌ها استفاده مي‌كند كه ممكن است براي اعتبار بخشيدن به پيش‌بيني استفاده شود.
داده كاوي كمك مي‌كند تا سازمان‌ها با كاوش بر روي داده‌هاي يك سيستم، الگوها و رفتارهاي آينده را كشف و پيش بيني كرده و بهتر تصميم بگيرند. داده كاوي با استفاده از تحليل وقايع گذشته يك تحليل اتوماتيك و پيش بينانه ارائه مي‌نمايد و به سوالاتي جواب مي‌دهد كه پاسخ آنها در گذشته ممكن نبوده و يا به زمان زيادي نياز داشته است.
همانگونه كه در تعاريف گوناگون داده كاوي مشاهده مي‌شود، تقريباً در تمامي تعاريف به مفاهيمي چون استخراج دانش، تحليل و يافتن الگوي بين داده ها اشاره شده است.
۱-۳-داده كاوي و كشف دانش از پايگاه داده:
اصلي‌ترين دليلي كه باعث شده داده كاوي كانون توجهات در علوم پزشكي قرار بگي

رد، مسئله در دسترس بودن حجم وسيعي از داده‌ها و نياز شديد به اينكه از اين داده‌ها، اطلاعات و دانش سودمند استخراج مي‌كنند. داده كاوي عبارت از اقتباس يا استخراج دانش از مجموعه‌اي از داده‌ها است.
داده كاوي را مي‌توان حاصل سير تكاملي طبيعي تكنولوژي اطلاعات دانست، كه اين سير تكاملي ناشي از يك سير تكاملي در صنعت پايگاه داده، نظير: عمليات جمع آوري داده‌ها و ايجاد پايگاه داده، مديريت داده و تحليل و فهم داده مي‌باشد.
به منظور شناسايي و استخراج الگو و روابط جديد كه بتواند دانش جديدي را به ثمر برساند، كشف دانش در پايگاه‌هاي اطلاعاتي روش‌هايي متنوع و گسترده‌اي را به كار مي‌برد مانند تركيب قدرت رايانه و تخصيص قدرت و مهارت در انسان. كشف دانش داراي مراحل تكراري زير است:
پاك سازي داده‌ها (از بين بردن نويز و ناسازگاري داده‌ها)، يكپارچه سازي داده‌ها (چندين منبع داده تركيب مي‌شوند)، انتخاب داده‌ها (داده‌هاي مرتبط با آناليز از پايگاه داده بازيابي مي‌شوند)، تبديل كردن داده‌ها (تبديل داده‌ها به فرمي كه مناسب براي داده كاوي باشد مثل خلاصه سازي و همسان سازي)، داده كاوي (فرآيند اصلي كه روال‌هاي هوشموند براي استخراج الگوها از داده ها به كار گرفته مي‌شوند)، ارزيابي الگو (براي مشخص كردن الگوهاي صحيح و مورد نظر به وسيله معيارهاي اندازه‌گيري)، ارائه دانش (يعني نمايش بصري، تكنيك‌هاي بازنمايي دانش براي ارائه دانش كشف شده به كاربر استفاده مي‌شود). داده كاوي فقط يك ابزار است و نه يك عصاي جادويي. داده كاوي به اين معني نيست كه شما راحت به كنار بنشينيم و ابزارهاي داده كاوي همه كار را انجام دهد.
داده كاوي نياز به شناخت داده‌ها و ابزارهاي تحليل و افراد خبره در اين زمينه‌ها را از بين نمي‌برد. داده كاوي فقط به تحليلگران براي پيدا كردن الگوها و روابط بين داده‌ها كمك مي‌كند و در اين مورد نيز روابطي كه يافته مي‌شود بايد به وسيله داده‌هاي واقعي دوباره بررسي و تست گردد.
۱-۴- مراحل داده كاوي :

داده كاوي در اين چرخه خود نيز شامل مراحل مختلفي مي‌باشد كه عبارتند از:
۱- تعيين اطلاعات گذشته
۲- تميز كردن داده ها و پردازش اوليه. در اين مرحله خطاهاي داده‌ها تصحيح مي‌شوند و داده هاي اشتباه جايگزين مي‌شوند. اين مرحله ممكن است تا ۶۰ درصد از زمان داده كاوي را دربرگيرد.
۳- يكپارچه سازي داده‌ها. معمولاً داده‌ها از منابع متفاوتي جمع آوري مي‌شوند بايد به صورتي درآيند كه يك مخزن از داده هاي مناسب ايجاد شود تا بتوان عمليات داده كاوي را بهتر انجام داد.
۴- انتخاب مجموعه داده هاي هدف
۵- يافتن ويژگيهاي مورد استفاده و تعيين ويژگي‌هاي جديد
۶- نمايش داده‌ها به صورتي كه بتوان براي داده كاوي استفاده نمود.
۷- انتخاب عمليات داده كاوي (طبقه بندي، خوشه بندي، پيش بيني و غيره)
۸- انتخاب روش داده كاوي (شبكه‌هاي عصبي، درخت تصميم و نظاير آن)
۹- داده كاوي و جستجو براي يافتن الگوي مناسب
۱۰- ارزيابي و تحليل اگلوي به دست آمده و حذف الگوهاي نامناسب
۱۱- تفسير نتايج داده‌ها و استنتاج از اطلاعات با ارزش
بايد توجه داشت كه جمع آوري و محافظت از داده‌ها نكته بسيار مهمي مي‌باشد. اصولاً چون قابل و نوع داده‌ها در طول زمان تغيير مي‌كند ممكن است بسياري از داده‌هاي موجود در قالبهاي متفاوت باشند و همچنين بسياري از دادههاي قديمي از بين رفته و دور ريخته شوند. در حالي كه ممكن است اهميت اين دادها از داده‌هاي جديد به هيچ وجه كمتر نباشد. همچنين به علت اين كه داده‌ها مي‌توانند از منابع مختلف داخلي و خ ارجي مانند كاركنان شركت، مديران، مشتريان، كارفرمايان، پيمانكاران باشند باز هم ممكن است قالب داده‌ها با هم يكسان نباشد. به همين دليل انتخاب داده‌هاي درست و يكپارچه سازي قالب آن‌ها به منظور استفاده در داده كاوي از اهميت بسيار بالايي برخوردار مي‌باشد. در شكل ۱-۱ مي‌توان مراحل داده كاوي را به اختصار نشان داد.

شكل ۱-۱ مراحل داده كاوي
۱-۵-اجزاي اصلي سيستم داده كاوي:
سيستم داده كاوي داراي اجزاي بسيار زيادي مي‌باشد كه در ادامه به بسياري از آن‌ها مي‌پردازيم:
پايگاه داده، انباره داده يا ديگر مخازن اطلاعات: كه از مجموعه‌اي از پايگاه داده ها، انباره داده، صفحه گسترده، يا ديگر انواع مخازن اطلاعات، پاكسازي داده‌ها و تكنيك‌هاي يكپارچه سازي روي اين داده‌ها انجام مي‌شود.
سرويس دهنده پايگاه داده يا انبار داده: كه مسئول بازيابي داده‌هاي

مرتبط براساس نوع درخواست داده كاوي كاربر مي‌باشد.
پايگاه دانش: اين پايگاه از دانش زمينه تشكيل شده تا به جستجو كمك كند يا براي ارزيابي الگوهاي يافته شده از آن استفاده مي‌شود.
موتور داده كاوي: اين موتور جزء اصلي از سيستم داده كاوي است و به طور ايده آل شامل مجموعه‌اي از پيمانه‌هايي نظير توصيف، تداعي، كلاس بندي، آناليز خوشه‌ها و آناليز تكامل و انحراف است.
پيمانه ارزيابي الگو: اين جزء معيارهاي جذابيت را به كار مي‌بندد و با پيمانه داده كاوي تعامل مي‌كند، بدين صورت كه تمركز آن بر جستجو بين الگوهاي جذاب مي‌باشد، و از يك حد آستانه جذابيت استفاده مي‌كند تا الگوهاي كشف شده را ارزيابي كند.
واسط گرافيكي كاربر: اين پيمانه بين كاربر و سيستم داده كاوي ارتباط برقرار مي‌كند، به كاربر اجازه مي‌دهد تا با سيستم داده كاوي از طريق پرس و جو ارتباط برقرار كند. اين جزء به كاربر اجازه مي‌دهد تا شماي پايگاه داده يا انباره داده را مرور كرده، الگوهاي يافته شده را ارزيابي كرده و الگوها را در فرم‌هاي بصري گوناگون، بازنمايي كند.

 

۱-۶- عمليات داده كاوي:
مجموعه عملياتي را كه روش داده كاوي قادر به انجام آن است در ذيل به صورت كامل تشريح شده‌اند.

۱-۶-۱- طبقه بندي و پيشگويي
طبقه بندي يكي از عمليات رايج و مورد استفاده در داده كاوي است. طبقه‌بندي عملياتي است كه سازمانها را قادر مي‌سازد كه در حل مسائل خاص در مجموعه‌هاي بزرگ و پيچيده به كشف الگوها دست يابند. طبقه‌بندي فرآيندي مي‌باشد كه مجموعه‌ داده‌ها را به قسمت‌هاي مشخص تقسيم مي‌كند. براي مثال مشتريان يك شركت بيمه را براساس خصوصياتشان به دو گروه با ريسك بالا و ريسك پائين تقسيم مي‌كند. با اين كار در واقع مشتريان اين شركت طبقه‌بندي شده‌اند.
ساده‌ترين روشي كه براي طبقه‌بندي به نظر مي رسد گذاشتن حدي براي دسته‌ها مي باشد، مثلاً افراد با درآمد بالاي مقداري مشخص را به يك دسته و افراد با درآمد پائين‌تر از آن را به يك دسته‌ي ديگر تخصيص دهيم.
ميشل (۱۹۹۷)، مولر و چركاسكي (۱۹۹۸)، تعدادي از روشهايي كه مي توانند جهت داده كاوي مسائل طبقه‌بندي به كاربرده شوند، شامل: درخت تصميم و شبكه‌هاي عصبي و نظير اين‌ها را ارايه كردند. اين روشها در دامنه گسترده‌اي از زمينه‌هاي مهندسي به كار برده مي‌شوند. براي نمونه، شبكه‌هاي عصبي در كنترل بازخوردها براي كشف الگوها و آشكارسازي خروجي مناسب كنترل شده به كاربرده مي‌شوند.
طبقه بندي داده‌ها يك فرآيند دو مرحله‌اي مي‌باشد. در گام اول، يك مدل براساس مجموعه داده‌هاي آموزشي موجود در پايگاه داده ها ساخته مي‌گردد. مجموعه داده‌هاي آموزشي از ركوردها، نمونه‌ها،‌مثالها و يا اشيائي كه شامل مجموعه‌اي از صفات يا جنبه ها مي‌باشد، تشكيل شده‌اند. هر نمونه يك برچسب كلاس معلوم دارد، كه در يكي از صفات به نام برچسب كلاس مشخص شده است. به هر يك از نمونه هاي مجموعه داده‌هاي آموزشي، يك نمونه آموزشي گويند، كه به طور تصادفي از مجموعه داده‌ها انتخاب مي‌شود. زماني كه برچسب كلاس آموزشي مشخص باشد، اين مرحله از يادگيري را يادگيري نظارت شده (يادگيري

با ناظر) مي‌نامند. نوع ديگري از يادگيري بدون نظارت (يادگيري بدون ناظر) مي‌باشد،‌كه در آن برچسب كلاس هر نمونه آموزشي نامعلوم است (مانند خوشه بندي). به طور معمول،‌مدلهاي ساخته شده به فرمهايي از قواعد طبقه‌بندي و درخت تصميم نشان داده مي‌شوند.
به عنوان مثال يك پايگاه داده ها شامل اطلاعات مشتريان كارتهاي اعتبراي را در نظر بگيريد، قواعد طبقه‌بندي مي‌تواند جهت طبقه بندي مشتريان به نرخ اعتبار عالي و خوب ساخته شوند. از اين قواعد مي‌توان جهت طبقه بندي نمونه داده‌هاي جديد استفاده كرد.
در گام دوم مدل براي طبقه بندي مناسب مشتريان جديد استفاده مي‌شود. قواعد يادگيري

كه از تحليل داده‌هاي مشتريان موجود حاصل شده است، مي‌تواند براي پيشگيري كلاس اعتبار مشتريان جديد با‌ آينده مورد استفاده قرار گيرد.
از نقطه نظر كلي، طبقه بندي و رگرسيون دو نوع اصلي از مسائل پيشگويي هستند، كه طبقه بندي جهت پيشگوي مقادير گسسته و اسمي مورد استفاده قرار مي‌گيرد، در حالي كه رگرسيون جهت پيشگويي مقادير پيوسته مورد استفاده قرار مي‌گيرد. در اينجا ما پيشگويي را براي پيشگويي برچسب كلاس به عنوان طبقه بندي و براي پيشگويي مقادير پيوسته، به عنوان پيشگويي معرفي مي‌كنيم.
طبقه بندي و پيشگويي كاربردهاي زيادي در بازرگاني، بانكداري، پزشكي، ارتباطات، كشاوريز و غيره دارد.
طبقه بندي را مي‌توان به عنوان يك فرآيند دو مرحله‌اي در نظر گرفت. اول، يك مدل طبقه بندي با توجه به مجموعه داده‌هاي آموزشي ساخته مي‌شود. چنين مدلي مي‌تواند به فراهم كردن يك درك بهتر از داده‌هاي گمشده كمك كند. به طور معمول، اين مدلها به فرمهايي از درخت تصميم، يا فرمولهاي رياضي نمايش داده مي‌شود. سپس مدل مي‌تواند قوانين اگر- آنگاه را جهت پيشگويي برچسب‌هاي كلاس داده‌هاي جديد كه داراي برچسب كلاس نامعلوم هستند، مورد استفاده قرار دهد.
۱-۶-۱-۱- روشهاي طبقه بندي:
روشهاي طبقه بندي در داده كاوي عبارتند از:
۱- رگرسيون خطي چند گانه
۲- رگرسيون لجستيك
۳- تحليل مميزي
۴- بيز ساده
۵- شبكه‌هاي عصبي
۶- درختهاي تصميم
۷- K- نزديكترين همسايگي
۱-۶-۲- خوشه بندي:
خوشه بندي يكي از مهمترين ابزار كشف داده‌ها است كه در كشف‌هاي تصادفي به كار گرفته مي‌شود. در حال حاضر، اخذ دانش يك گلوگاه عمده در فرآيند مهندسي دانش محس

وب مي‌شود. الگوريتم‌هاي يادگيري ماشين و داده‌ كاوي با هدف استخراج دانش از داده‌ها، به عنوان روشي براي حل اين مشكل مطرح مي‌باشند. يك رهيافت متداول در اين زمينه روش خوشه بندي است كه براي تصميم‌گيري يا طبقه بندي يا كلاس بندي مي‌تواند تصميمات نماديني را به نمونه‌هاي جديد با استفاده از نمونه‌هاي موجود متسب كنند. روش‌هاي خوشه بندي به واسطه قابليت دركي كه در خود نهفته دارند، از اقبال خوبي برخوردار شده اند. وجود قابليت درك از جه

ات گوناگوني حائز اهميت مي‌باشد: فهم قلمرو، درك قابليت‌هاي كلاس‌بندي، توجيه تصميم و بالاخره وجود قوانيني نماديني كه مي‌توانند از روي خوشه‌هاي استخراج شده و سپس در يك سيستم تصميم‌گيري مبني بر قوانين به كار گرفته شوند.
خوشه‌بندي در واقع يك عمليات غيرنظارتي مي‌باشد. اين عمليات هنگامي استفاده مي‌شود كه ما به دنبال يافتن گروه‌هايي از داده‌هاي مشابه مي‌باشيم بدون اينكه از قبل پيش بيني در مورد شباهت‌اي موجود داشته باشيم. خوشه بندي معمولاً هنگامي استفاده مي‌شود كه به دنبال يافتن گروه‌هايي از مشتريان هستيم كه قبلاً شناخته نشده‌اند. براي مثال مي‌توان شباهت‌هاي مشتريان در استفاده از تلفن همراه را به منظور گروه‌بندي مشتريان و تشخيص خدمت جديدي جستجو نمود.
خوشه بندي عملي است كه در طي آن گروه‌هايي از داده‌ها و يا اقلام وجود دارند به طوري كه هر مورد به يك خوشه نسبت داده مي‌شوند واعضاي داخل خوشه نيز بايد داراي شباهت ذاتي با هم باشند و معيار اندازه‌گيري شباهت بايد كاملاً مشخص باشد و براي هر جفت از موارد قابل محاسبه باشد. بنابراين در هر خوشه يك خود شباهتي بين اقلام آن خوشه وجود دارد.
پايگاه‌هاي داده بسيار بزرگ ممكن است شامل متغيرهاي بسيار زياد، ابعاد بسيار بزرگ و ساختار بسيار پيچيده باشند به طوريكه حتي بهترين روش‌هاي داده كاوي مستقيم هم نمي توانند الگوهاي معني داري در آن‌ها را استخراج نمايند. در خيلي از موارد مشكل اين نيست كه الگويي براي كشف شدن وجود ندارد بلكه در واقع تعداد زيادي الگو وجود دارد ولي روشهاي داده كاوي براي جواب دادن به سوالي كه مطرح شده است، الگويي كشف نمي‌كنند.
در بازاريابي ممكن است افراد، جامعه را به وسيله متغيرهايي كه از قبل به عنوان معيارهاي مناسبي مي‌شناختيم طبقه‌بندي نماييم. در حالي كه ممكن است به دليل پيچيدگي پايگاه داده‌ها نظري در مورد متغيرهاي طبقه‌بندي كننده و يا چگونگي تعيين و يا خوشه ها نداشته باشيم. در اين گونه موارد است كه به سراغ روشهاي خوشه بندي مي‌رويم.
خوشه بندي يك روش داه كاوي غير مستقيم است. براي اكثر روش‌هاي داده كاوي مثل درخت تصميم گيري و شبكه‌هاي عصبي، با يك مجموعه آموزشي شروع كرده و به كمك اين مجموع

ه سعي مي‌شود يك مدل براي بخش‌بندي داده ها، ايجاد گردد. سپس از آن مدل براي پيش بيني داده‌هاي جديد استفاده شود.
در روش خوشه بندي هيچ دسته‌اي از قبل وجود ندارد و در واقع متغيرها به صورت مستقل و وابسته تقسيم نمي‌شوند. بلكه ما در اينجا به دنبال گروه‌هايي از داده‌ها هستيم كه به هم

شباهت دارند و با كشف اين شباهت‌ها مي‌توان رفتارها را بهتر شناسايي كرد و بر مبناي آنها طوري عمل كرد كه نتيجه بهتري حاصل شود.
۱-۶-۳- تحليل روابط و وابستگيها :
پيشرفت تكنولوژي فروشگاه‌هاي خرده فروشي را قادر ساخته است حجم زيادي از داده‌هاي مربوط به خريد هر يك از مشتريان كه از آن به عنوان سبد بازار ياد مي‌شود را جمع آوري و ذخيره نمايند. فراهم بودن جزئيات اطلاعات ثبت شده مشتريان منجر به بهبود روش‌هايي شده است كه به طور اتوماتيك روابط بين آيتم‌هايي كه در پايگاه داده‌ها انبارش شده‌اند را جستجو مي‌كنند.
همزمان با پيدايش علم داده كاوي در اوايل دهه ۹۰ الگوريتم‌هاي استخراج قوانين وابستگي از پايگاه داده‌ها نيز پابه عرصه گذاشت. نويسندگان زيادي در زمينه استخراج قوانين وابستگي در پايگاه داده‌ها بحث كرده‌اند. در به مقايسه‌ي الگوريتمهاي مهم استخراج قوانين وابستگي، مزيت‌ها و معايب الگوريتم‌ها پرداخت شده است.
اساساً ارتباط ميان مجموعه اشياء وابستگي‌هاي جالب توجهي هستند كه منجر به امكان آشكارسازي الگوهاي مفيد و قوانين وابستگي براي پشتيباني تصميم، پيش بيني‌هاي مالي،‌سياست‌هاي بازاريابي، وقايع پزشكي و خيلي كاربردهاي ديگر مي‌شود. در حقيقت توجهات زيادي را در تحقيقات اخير به خود جلب كرده است.
تحليل وابستگي‌ها يك حالت غير نظارتي داده كاوي مي‌باشد كه به جستجو براي يافتن ارتباط در مجموعه داده‌ها مي‌پردازد. يكي از كاربردي‌ترين حالات تحليل وابستگي‌ها «تجزيه تحليل سبد بازار» مي‌باشد كه در آن هدف يافتن كالاهايي است كه معمولاً به طور همزمان خريدار مي‌شوند. اين كار كمك مي‌كند كه خرده فروشان بهتر بتوانند كالاهاي خود را سازماندهي كرده و چيدمان بهتري از محصولات خود داشته باشند.
داده‌هاي موجود در سبد بازار نشان دهنده خريد مشتري در يك زمان خاص هستند. هر مشتري خريد مجزايي را در كميته‌هاي مختلف و زمانهاي متفاوت انجام مي‌دهد. با تجزيه و تحليل سبد بازار بينشي براي خرده فروشان از اينكه چه محصولاتي با هم خريداري مي‌شوند فراهم مي‌گردد و بنابراين مي‌توانند رفتار خريد مشتريان را پيش بيني كنند اين كار به آنها كمك مي‌كند كه بهتر بتوانند كالاهاي خود را سازماندهي كرده و چيدمان بهتري از محصولات خود داشته باشند و بنابراين سودآوري خود را افزايش دهند.
۱-۶-۴- پيش بيني :

در طبقه بندي گروه‌هايي مشخص مي شوند كه اقلام به آن‌ها تعلق دارند. پيشگويي‌هايي كه براساس مدلهاي طبقه بندي ارايه مي‌شوند داراي يك خروجي گسسته مي‌باشد كه مشخص مي‌كند كه مثلاً يك مشتري جزء گروه با پاسخ مثبت است يا منفي و يك مريض جزء گروه با ريسك بالا است يا پائين. ولي پيش بيني بر خلاف پيش گويي يك مقدار پيوسته را پيش بيني مي‌كند مثلاً تقاضاي آينده با قيمت نفت در سال آينده. پيش بيني معمولاً به وسيله رگرسيون (عملياتي كه با

تعيين ارتباط بين متغيرها به پيش بيني مي‌پردازد) صورت مي‌گيرد. بسته‌هاي نرم افزار مانند SAS و SPSS معمولاً توانايي حل مساله‌هاي پيجيده را فراهم مي‌نمايند. ولي استفاده از چنين عمليات آماري نياز به دانش بالاي آمار در خصوص شرايط و چگونگي استفاده از اين ابزارها را دارد. ابزارهاي داده كاوي نظير شبكه‌هاي عصبي نيز به وفور براي پيش بيني استفاده مي‌شود.
از مسايل ساده پيش بيني عبارتند از: پيش بيني مقادير پيوسته براساس يكسري داده‌هاي موجود. براي مثال پيش بيني درآمد يك فرد براساس مشخصات فرد. ابزارهايي نظير درخت تصميم گيري و شبكه‌هاي عصبي چنين كاري را انجام مي‌دهند.
از مسايل پيچيده پيش بيني مي‌توان به پيش بيني يك يا چند مقدار براساس الگوهاي تكراري و متوالي مانند سطح سهام بازار در ۳۰ روز آينده براساس داده‌هاي ۶ ماه گذشته اشاره كرد. ابزارهاي داده كاوي به سختي چنين پيش بيني‌هايي را انجام مي‌دهند. در اين گونه مواقع داده‌هاي موجود بايد به صورتي مناسب و در جهت مناسب استفاده شوند و فرمت داده‌هاي خروجي به درستي مشخص باشد. همچنين در اين گونه پيش بيني ها نياز به يك تحليل‌گر به منظور پردازش داده‌هاي ورودي و تحليل داده‌هاي خروجي بيشتر احساس مي‌شود.
۱-۷-زيربناي داده كاوي:
تكنيكهاي داده كاوي نتيجه‌ي تحقيقات گسترده و بلند مدتي است كه در طول سالها براي افزايش بازدهي تجاري موسسات بكار برده مي‌شدند. تحقيقات در اين زمينه از زماني آغاز شد كه براي نخستين بار اطلاعات تجاري هر سازمان، بر روي سيسمتهاي ذخيره سازي آن زمان كه ا زنوع

مغناطيسي بودند، ذخيره شدند. اين رشته تحقيقات با توسعه و پيشرفت سيسمتهاي اطلاعات كه قابليت ذخيره‌ي حجم بيشتري از داده‌ها را فراهم مي‌كردند و همچنين از سرعت بسيار بالاتري در ذخيره سازي و بازيابي اطلاعات برخوردار بودند،‌اهميت بشتري يافت. روشهاي دسترسي تصادفي يا رندم به اطلاعات و پيدايش روشهاي حركت در ميان داده‌ها، خصوصاً بصورت بلادرنگ، فناوري داده كاوي را متحول ساخت.
روشهاي داده كاوي بر پايه‌هاي زير استوار هستند:
• گردآوري حجم عظيمي داده
• كامپيوترهاي چند پردازنده‌ي قدرتمند
• الگوريتمهاي داده كاوي
در سالهاي ۱۹۶۰ صنعت گردآوري اطلاعات و امكان ذخيره‌ي داده‌ها در تجهيزاتي نظير نوار و دي

سك توسط شركتهايي كه IBM و CDC از پيشگامان آنها بودند، شكل تجاري به خود گرفت. با رواج چنين مكانيسمهايي تبادل استاتيك اطلاعات امكانپذير شده، پرسشهاي تجاري از قبيل آنكه سود خالص شركت در پنج سال آخر فعاليت چقدر بود هاست؟ پاسخ داده مي‌شود. ۲۰ سال بعد از فناوري فوق، با پيشرفتهاي نرم افزاري و استفاده از بانكهاي اطلاعاتي رابطه‌اي و زبان جستجوي ساخت يافته توسط شركتهاي موفقي همچون ORACLE، SYBASE، INFORMIX، BM، MICROSOFT و … اطلاعات در همان لحظه‌ي ثبت شدن قابل تبادل بودند. بعبارت ديگر تبادل اطلاعات بصورت ديناميك امكانپذير شده بود. نمونه‌اي از سوالات تجاري كه اين سيستم پاسخگوي آن است چنين بود: «مقدار فروش شعب (كشور يا شهر مورد نظر) در ماه مارس گذشته چه ميزان بوده است؟». در سالهاي دهه‌ي نود نوبت به تكنولوژي‌هايي همچون انبار داده‌ها و امكانات تصميم‌گيري نرم افزاري رسيد.
۱-۸- تكنولوژي‌هاي مرتبط با داده‌ كاوي:
۱- پردازش تحليل روي خط OLAP-5
2- بانكهاي اطلاعاتي چند بعدي
۳- انبار داده‌ها
پيشگامان ابزارهاي نرم افزاري چنين تكنولوژيهايي شركتهايي نظير Pilot, Comshare, Arbor Cognos،Microstrategy بودند. البته بلافاصله در همان زمان شركتهايي نظير ORACLE, IBM

MICROSOFTكه امروزه نام آنها را در همه جا مشاهده مي‌كنيم نيز كنترل جريان را بدست گرفته و نرم افزارهاي آنها بازار را تسخير كرد. هسته‌ي فناوري داده كاوي شامل علوم آمار، هوش مصنوعي، آموزش ماشين و علوم نوين ديگري است كه در طول سالهاي گذشته پيشرفت قابل توجهي داشته است.