داده کاوي

چکيده
از هنگامي که رايانه در تحليل و ذخيره سازي داده ها بکار رفت (۱۹۵۰) پس از حدود ۲۰ سال، حجم داده ها در پايگاه داده ها دو برابر شد. همچنين تعداد پايگاه داده ها با سرعت بيشتري رشد نمود. اين در حالي است که تعداد متخصصين تحليل داده ها و آمارشناسان با اين سرعت رشد نكرد.
حال با وجود سيستم هاي يکپارچه اطلاعاتي، سيستم هاي يکپارچه بانکي و تجارت الکترونيک، لحظه به لحظه به حجم داده ها در پايگاه داده هاي مربوط اضافه شده و باعث به وجود آمدن انبارهاي ( توده هاي ) عظيمي از داده ها شده است به طوري که ضرورت کشف و استخراج سريع و دقيق دانش از اين پايگاه داده ها را بيش از پيش نمايان کرده است (چنان که در عصر حاضر گفته مي شود).

فهرست مطالب
فصل ۱ مقدمه ۹
۱٫۱ مقدمه ۱۰
فصل ۲ مفاهيم داده کاوي ۱۲
۲٫۱ فرايند داده کاوي ۱۳
۲٫۲ دو مفهوم اساسي در داده کاوي ۱۴
۲٫۳ اساس داده کاوي ۱۵
۲٫۴ عوامل ايجاد داده کاوي ۱۶
۲٫۵ زير بناي داده کاوي ۱۶
۲٫۶ عناصر داده کاوي ۱۷
۲٫۷ مراحل داده کاوي ۱۸
۲٫۸ وظايف داده کاوي ۲۱
۲٫۹ فنون داده کاوي ۲۲
۲٫۱۰ معماري داده کاوي ۲۵
۲٫۱۱ تکنيک هاي مختلف داده کاوي ۲۶
فصل ۳ کاربرد هاي داده کاوي ۲۸
۳٫۱ معرفي ۲۹
۳٫۲ کاربرد داده کاوي در کتابخانه ها و محيط هاي دانشگاهي ۳۰
۳٫۳ کاربرد داده کاوي در فعاليت شرکت ها ۳۲
۳٫۴ کاربرد داده کاوي در مديريت و کشف فريب ۳۲
۳٫۵ کاربرد داده کاوي در صنعت خورده فروشي ۳۳

۳٫۶ داده کاوي در مديريت ارتباط با مشتري ۳۳
۳٫۷ کاربرد داده کاوي در پزشکي ۳۵
۳٫۸ وب کاوي ۳۵
۳٫۹ تصوير کاوي ۳۷

فهرست مطالب
فصل ۴ مثال تفهيمي در مورد داده کاوي ۳۸ مثال تفهيمي در مورد داده کاوي ۳۹

فهرست اشکال
شکل ۲٫۱ فنون داده کاوي ۲۲
شکل ۲٫۲ نمونه اي از يک درخت تصميم ۲۴
شکل ۲٫۳ طبقه بندی در داده کاوی ۲۷
شکل ۳٫۱ داده کاوی در مدیریت ارتباط با مشتری ۳۴

فهرست جداول
جدول ۳٫۱ کاربردهاي داده کاوي درکتابخانه ها ۳۱

فصل اول
مقدمه

۱٫۱ مقدمه :
درطول دهه گذشته باپيشرفت روزافزون کاربرد پايگاه داده ها،حجم داده هاي ثبت شده به طور متوسط هر۵سال ۲برابرمي شود. دراين ميان سازمان هايي موفقند که بتوانند حداقل ۷٪داده هايشان راتحليل کنند. تحقيقات انجام يافته نشان داده است که سازمانها کمترازيک درصد داده هايشان رابراي تحليل استفاده مي کنند.
به عبارت ديگردرحالي که غرق درداده ها هستند تشنه دانش مي باشند.
بنابراعلام دانشگاه MIT دانش نوين داده کاوي (Data mining) يکي ازده دانش درحال توسعه اي است که دهه آينده راباانقلاب تکنولوژي مواجه مي سازد.اين تکنولوژي امروزه داراي کاربرد بسياروسيعي درحوزه هاي مختلف است به گونه اي که امروزه حدومرزي براي کاربرد اين دانش درنظرنگرفته وزمينه هاي کاري اين دانش راازذرات کف اقيانوس ها تااعماق فضامي دانند.
امروزه بيشترين کاربرد داده کاوي دربانکها، مراکزصنعتي وکارخانجات بزرگ، مراکزدرماني وبيمارستانها ،مراکز تحقيقاتي ،بازاريابي هوشمند وبسياري ازمواردديگرمي باشد.
داده کاوي پل ارتباطي ميان علم وآمار،علم کامپيوتر، هوش مصنوعي ،الگو شناسي،فراگيري ماشين وبازنمايي بصري داده مي باشد.داده کاوي فرآيندي پيچيده جهت شناسايي الگوها ومدل هاي صحيح، جديد وبه صورت بالقوه مفيد، درحجم وسيعي ازداده مي باشد، به طريقي که اين الگوها ومدلها براي انسانها قابل درک باشد.داده کاوي به صورت يک محصول قابل خريداري نمي باشد،بلکه يک رشته علمي وفرآيندي است که بايستي به ص

ورت يک پروژه پياده سازي شود.
کاوش داده ها به معني کنکاش داده هاي موجود درپايگاه داده وانجام تحليل هاي مختلف برروي آن به منظوراستخراج اطلاعات مي باشد.
داده کاوي فرآيندي تحليلي است که براي کاوش داده ها( معمولاً حجم عظيمي ازداده ها) صورت مي گيرد ويافته هابا به کارگيري الگوهايي ،احرازاعتبارمي شوند.هدف اصلي داده کاوي پيش بيني است.وبه صورت دقيق ترمي توان گفت:
” کاوش داده ها شناسايي الگوهاي صحيح ،بديع، سودمند وقابل درک ازداده هاي موجود دريک پايگاه داده است که بااستفاده ازپردازش هاي معمول قابل دستيابي نيستند.”

فصل دوم
مفاهيم داده کاوي

۲٫۱ فرايند داده کاوي
فرآيند داده کاوي شامل سه مرحله مي باشد:
۱- کاوش اوليه
۲- ساخت مدل ياشناسايي الگو باکمک احرازاعتبار/ تاييد
۳- بهره برداري
مرحله ۱: کاوش
معمولاً اين مرحله باآماده سازي داده ها صورت مي گيرد که ممکن است شامل پاک سازي داده ها، تبديل داده ها وانتخاب زيرمجموعه هايي ازرکوردها با حجم عظيمي ازمتغييرها( فيلدها) باشد.
سپس باتوجه به ماهيت مساله تحليلي، اين مرحله به مدل هاي پيش بيني ساده يا مدل هاي آماري وگرافيکي براي شناسايي متغييرهاي مورد نظروتعيين پيچيدگي مدل ها براي استفاده درمرحله بعدي نيازدارد.
مرحله ۲: ساخت واحرازاعتبارمدل
اين مرحله به بررسي مدل هاي مختلف وگزينش بهترين مدل باتوجه به کارايي پيش بيني آن مي پردازد.شايد اين مرحله ساده به نظربرسد.اما اين طورنيست.تکنيک هاي متعددي براي رسيدن به اين هدف توسعه يافتند.و” ارزيابي رقابتي مدل ها” نام گرفتند. بدين منظورمدل هاي مختلف براي مجموعه داده هاي يکسان به کارمي روند تاکارايي شان باهم مقاس

يه شود. سپس مدلي که بهترين کارايي راداشته باشد انتخاب مي شود. اين تکنيک ها عبارتندازStacking، Boosting،Bagging و Meta- Learning
مرحله ۳: بهره برداري
آخرين مرحله مدلي راکه درمرحله قبل انتخاب شده است، درداده هاي جديد به کارمي گيرد تا پيش بيني هاي خروجي هاي موردانتظار راتوليدنمايد.داده کاوي به عنوان ابزارمديريت اطلاعات براي تصميم گيري، عموميت يافته است. اخيراً توسعه تکنيک هاي تحليلي جديد د

راين زمينه مورد توجه قرارگرفته است.(مثلاً Classification Tree) اما هنوزداده کاوي مبتني براصول آماري نظير(EDA: Exploratory Data Analysis)مي باشد.
بااين وجود تفاوت عمده اي بين داده کاوي وEDA وجود دارد. داده کاوي بيشتربه برنامه هاي کاربردي گرايش داردتا ماهيت اصلي پديده، به عبارتي داده کاوي کمترباشناسايي روابط بين متغييرها سروکاردارد.
۲٫۲ دو مفهوم اساسي در داده کاوي
Bagging:
اين مفهوم براي ترکيب رده بندي هاي پيش بيني شده ازچند مدل به کارمي رود.فرض کنيد که قصدداريد مدلي براي رده بندي پيش بيني بسازيد ومجموعه داده ها مورد نظرتان کوچک است.شمامي توانيد نمونه هايي (باجايگزيني ) راازمجموعه داده ها انتخاب وبراي نمونه هاي اصلي ازدرخت رده بندي استفاده نماييد.به طورکلي براي نمونه هاي مختلف به درخت هاي متفاوتي خواهيدرسيد.سپس براي پيش بيني باکمک درخت هاي متفاوت به دست آمده ازنمونه ها يک راي گيري ساده انجام دهيد.رده بندي نهايي رده بندي اي خواهدبود که درخت هاي مختلف آن راپيش بيني کرده اند.
Boosting:
اين مفهوم براي توليد مدل هاي چند گانه (براي پيش بيني يارده بندي ) به کارمي رود.Boosting ترکيبي از classifierها راتوليد خواهدکرد.
۲٫۳ اساس داده کاوي
اساس داده کاوي برمبناي سه فعاليت اصلي ذيلاً به آنها اشاره مي شود:
۱- هدف داده کاوي: داده هاي بي ارزش وعوامل بيروني حذف مي شوند.
۲- فشرده سازي دادها : اين عمل به وسيله کد گذاري داده ها صورت مي گيرد.
۳- کشف الگوها: الگوهاي موجود درپايگاه داده ها ازقبيل طبقه بندي ،الگوهاي زنجيري و….. کشف مي شوند.
انتخاب يک سيستم داده کاوي

 

سيستم هاي داده کاوي درروش وعملکرد متفاوتند وحتي ممکن است باانواع کاملا متفاوتي ازمجموعه داده ها مطابق باشند.براي انتخاب يک سيستم داده کاوي بايد شرايط زيردرنظرگرفته شوند:
۱- نوع داده ها: که مي تواند متني، رابطه اي، زنجيري، فضايي و….باشد.
۲- ساختار وويژگي هاي سرور ومشتري
۳- منبع داده ها
۴- روش وعملکرد سيستم
۵- قابليت اندازه گيري
۶- استفاده ازابزارهاي ديداري
۷- زبان سيستم
۸- گرافيکي بودن محيط سيستم
۲٫۴ عوامل ايجاد داده کاوي
۱- سيل اطلاعات
۲- معاملات کامپيوتري،اطلاعات علمي،اطلاعات پزشکي اشخاص، بازيها،شبکه جهاني وب
۳- کاربرداطلاعات به عنوان کالا
۴- رشدانبارهاي داده ونيازبه استخراج اطلاعات مفيد
۵- راهکارهاي فناوري جديد اطلاعات
۶- تحقيقات وپيشرفت درعلوم ازجمله هوش مصنوعي
۲٫۵ زيربناي داده کاوي
تکنيک هاي داده کاوي نتيجه ي تحقيقات گسترده وبلندمدتي است که درطول سالها براي افزايش بازدهي تجاري موسسات بکاربرده مي شدند.تحقيقات دراين زمينه اززماني آغازشدکه براي نخستين باراطلاعات تجاري هرسازمان،برروي سيستم هاي ذخيره سازي آن زمان که ازنوع مغناطيسي بودند،ذخيره شدند. اين رشته تحقيقات

باتوسعه وپيشرفت سيستم هاي اطلاعات که قابليت ذخيره حجم بيشتري ازداده ها رافراهم مي کردندوهمچنين ازسرعت بسياربالاتري درذخيره سازي وبازيابي اطلاعات برخورداربودند، اهميت بيشتري يافت. روش هاي دسترسي تصادفي يارندم به اطلاعات وپيدايش روشهاي حرکت درميان داده ها،خصوصاً به صورت بلادرنگ، فناوري داده کاوي رامتحول ساخت.
روش هاي داده کاوي برپايه هاي زير استوار هستند:
۱- گردآوري حجم عظيمي داده
۲- کامپيوترهاي چند پردازنده ي قدرتمند
۳- الگوريتمهاي داده کاوي
۲٫۶ عناصرداده کاوي
توصيف وکمک به پيش بيني دوکارکرد اصلي داده کاوي هستند.تحليل داده مربوط به مشخصه هاي انتخابي متغييرها؛ ازگذشته وحال،ودرک الگوهاي مثالي ازتحليل توصيفي است.برآورد ارزش آينده يک متغيير وطرح ريزي کردن روندمثالي پيشگويانه داده کاوي است.
براي عملي شدن هريک ازدوکارکرد فوق الذکرداده کاوي، چند گام ابتدايي اما مهم بايد اجراشوند که ازاين قرارند:
۱- انتخاب دادها
۲- پاک سازي داده ها
۳- غني سازي داده ها
۴- کدگذاري داده ها
بادارابودن هدف کلي درمطالعه، انتخاب مجموعه داده هاي اصلي براي تحليل، اولين ضرورت است.رکوردهاي لازم مي تواند ازانبارداده ها ويابانک اطلاعاتي عملياتي استخراج شود.اين رکوردهاي داده جمع آوري شده، اغلب ازآنچه آلودگي داده ها نامگذاري شده است رنج مي برند وبنابراين لازم است پاکسازي شوند تاازيکدستي فرمت (شکلي) آنها اطمينان حاصل شود، موارد تکراري حذف شده وکنترل سازگاري دامنه به عمل آيد ممکن است داده هاي گرد آوري شده ازجنبه هاي خاصي ناقص ياناکافي باشد.دراين صورت داده هاي مشخصي بايد گردآوري شوند تابانک اطلاعاتي اصلي راتکميل کنند منابع مناسب براي اين منظوربايد شناسايي شوند.
اين فرآيند مرحله غني سازي داده ها راتکميل مي کند .يک سيستم کدگذاري مناسب معمولاً جهت انتقال داده ها به فرم ساختاربندي شده جديد، متناسب براي عمليات داده کاوي تعبيه مي شود.

 

۲٫۷ مراحل داده کاوي
داده کاوي درطي ۱۰ مرحله انجام مي گيرد.اين مراحل به ترتيب عبارتنداز:
۱- شناسايي هدف: دراين مرحله مشخص مي شود که کاربربه چه چيزي مي خواهددست يابد وچه نوع وچه سطحي ازاطلاعات رامي خواهد ازپايگاه داده ها به دست آورد به طوري که دروقت اوصرفه جويي شود.
۲- انتخاب داده: پس ازاين که هدف تعيين شد بايد داده انتخاب شود.درانتخاب داده بايد شرايطي درنظرگرفته شود ازقبيل اين که: آيافيلد مشترکي دربين داده هاي انتخاب شده وجود دارد که بتواند براي لينک شدن به يک پايگاه داده ي ديگرمورد استفاده قرارگيرد؛ آيا داده اي که قراراست کاوش شود قابل دسترسي هست، آياپس ازاين که مجموعه داده ها تهيه شد درآن انباشتگي وجود داردخير؛ چقدرازاين داده ها به هدف مورد به هدف نظرماهستند؟
۳- آماده سازي داده ها: پس ازسازماندهي وانتخاب داده ها بايد فرمت قابل استفاده داده ها مشخص شود. هدف ازاين مرحله توليد يک مجموعه آماده ازداده هاي کاوش شده است. شناسايي متغييرهاي زايد وپارازيت ها دريک مجموعه داده ها ورفع اين متغييرها ازاهداف اين مرحله است.
۴- ارزيابي داده ها: دراين مرحله ساختار داده ها باتوجه به شرايطي ارزيابي مي شوند که اين شرايط
عبارتندازاين که: ويژگي وساختار پايگاه داده ها چيست؛ شرايط کلي مجموعه داده ها چيست؛ توزيع مجموعه
دادها به چه صورت است؛ آيا ساختار داده ها بانيازاستفاده کنندگان مطابقت دارد؟
۵- قالب بندي پاسخ: منظوراين است که پاسخ به چه فرمتي ارائه شود. به شکل تصوير،گزارش، ساختار درختي، شبکه عصبي و….
۶- انتخاب ابزار: دراين مرحله ابزار مناسب براي داده کاوي انتخاب مي شود.درموقع انتخاب ابزار مناسب براي داده کاوي بايد درنظربگيريم که آيا اين ابزارباکامپيوترکاربرمطابقت دارد ياخير؟ يک ابزار داده کاوي بايد به گونه اي باشد که نتايج تجزيه وتحليل آن براي کاربر قابل درک باشد.همچنين بايد بدانيم که ابزاري که انتخاب مي کنيم چه نوع پاسخهايي راتوليد مي کند. بايد به اين نکته توجه کنيم که هيچ ابزاري به تنهايي قادربه تهيه پاسخ نيست؛ بلکه مجموعه اي ازابزارها به همراه مجموعه اي ازبرنامه ها مورد نيازاست.
۷- مدلسازي: دراين مرحله فرآيند داده کاوي شروع مي شود. اين مرحله شامل جستجوي الگوها دريک مجموعه داده ها وطبقه بندي ،تصميم گيري ،جمع آوري وارز

 

شيابي داده ها مي باشد.
مواردي رابايددرنظرگرفت ازقبيل: ميزان خطاهاي مدل تا چه حداست؟ آيا اين کدل ها قابل پذيرش هستند؟ آيا امکان پيشرفت آنها وجود دارد؟ آيا براي يک مدل به داده هاي بيشتروروش هاي مختلفي نيازاست؟ آيا نيازاست که مجموعه داده ها تست شوند…..
۸- اعتبار سازي يافته ها: اين مرحله شامل تست کردن الگوهاست. درتجزيه وتحليل داده کاوي بايد درمورد نتايج تجزيه وتحليل بامدير،طراح،مجري طرح، تحليل گرومهندسان بحث شود. به اين دليل که مطمئن شويم که يافته هها صحيح ومطابق بااهداف ماهستند. همچنين بررسي کنيم که آيا نتايج قابل دسترسي هستند؟ آيا نيازاست که به مراحل قبلي بازگرديم تا نتايج بهتري کسب کنيم؟ آيا ابزارهاي ديگرداده کاوي مي توانند مورد استفاده قرارگيرند به طوري که همانند نتايج استخراج شوند و…..
۹- ارائه نتايج: اين مرحله گزارش نهايي رابراي کاربرتهيه مي کند. اين گزارش بايد با استناد به کل فرآيند داده کاوي باشد.باارائه نتايج به کاربرمشخص مي شود که آيا اين يافته ها مطابق بااهداف اوهستند؟ وآيا داده هاي بيشتري مي توانند باعث پيشرفت تجزيه وتحليل شوند؟
۱۰- استفاده ازنتايج: هدف نهايي داده کاوي استفاده ازنتايج کشف شده براي ايجاد يک موقعيت جديد وبهتراست.

۲٫۸ وظايف داده کاوي
باتوجه به مباحث مطرح شده مي توان وظايف داده کاوي رابه صورت زيرخلاصه کرد:
توصيف: يافتن الگوهايي که داده ها راتوصيف مي کنند.
پيش بيني : استفاده ازمتغييرها براي پيش بيني ارزش هاي ناشناخته ديگرمتغيرها
توضيح: اگرکاربري دريک زمان واحد به دواثردسترسي داشته باشداين طور نتيجه گيري مي شود که
ارتباطي بين دواثروجوددارد.بنابراين اگرکاربرديگري تنها به يکي ازاين دواثردسترسي داشته باشد ازطريق
داده کاوي پيش بيني مي شود که اين کاربراحتمالاً به اثراول نيزعلاقمنداست.

۲٫۹ فنون داده کاوي
فنون داده کاوي يک گروه نا متجانس راشکل مي دهند چراکه هرتکنيکي که بتواند بينش جديدي ازداده ها رااستخراج کند مي تواند داده کاوي به حساب آيد. برخي از ابزارهاي رايج به کارگرفته شده تحت عنوان داده کاوي عبارتنداز:
۱- ابزارهاي پرس وجو
۲- فنون آماري

۳- مصورسازي
۴- پردازش تحليلي پيوسته
۵- يادگيري مبتني برمورد
۶- درختان تصميم گيري
۷- قوانين وابستگي
۸- شبکه هاي عصبي
۹- الگوريتم ژنتيکي
شكل۲٫۱ فنون داده کاوي

ابزارهاي پرس وجو: ابزارهاي متداول زبان پرس وجوي ساختاربندي شده درابتدا براي انجام تحليل هاي اوايه به کارگرفته شدند که مي تواند مسيرهايي براي تفحص بيشترنشان دهد.
فنون آماري: مشخصات اصلي داده ها لازم است باکاربرد انواع مختلفي ازتحليل هاي آماري شامل جدول بندي ساده ومتقاطع داده ها ومحاسبه پارامترهاي آماري مهم به دست آيد.
مصورسازي: با نمايش داده ها درقالب نمودارها وعکس ها مانند نمودار پراکندگي ،گروه بندي داده ها درخوشه هاي متناسب تسهيل مي شود. استنباط عميق ترممکن است با به کارگيري تکنيک هاي گرافيکي پيشرفته حاصل شود.
پردازش تحليلي پيوسته: ازآن جا که مجموعه داده ها ممکن است روابط چندين بعدي داشته باشند، روش هاي متعددي براي ترکيب دادن آنها وجود دارد. ابزارهاي پردازش تحليلي پيوسته به ذخيره چنين ترکيباتي کمک مي کند وابزارهاي ابتدا، انتهاي پيوسته براي انجام پرس وجو ايجاد مي کند.اما اين ابزارها هيچ دانش جديدي ايجاد نمي کنند.
يادگيري مبتني برمورد: اين تکنيک مشخصات گروه هاي داده ها را تحليل مي کند وبه پيش بيني هرنهاد واقع شده درهمسايگي شان کمک مي کند.الگوريتم هايي که استرتژي يادگيري تعاملي رابراي کاوش دريک فضاي چندين بعدي به کارمي گيرند براي اين منظور مفيداست.

درختان تصميم گيري: اين تکنيک بخش هاي مختلف فهرست پاسخ هاي موفق داده شده مربوط به يک پرس
وجو رابازيابي مي کند وبه اين

 

ترتيب به ارزيابي صحيح گزينه هاي مختلف کمک مي کند.

شکل ۲٫۲ نمونه اي از يک درخت تصميم

قوانين وابستگي:اغلب مشاهده مي شود که يک وابستگي نزديک (مثبت يا منفي) بين مجموعه اي ازداده هاي معين وجوددارد. بنابراين قوانين رسمي وابستگي براي توليد الگوهاي جديد ساخته وبه کارگرفته مي شود.
شبکه هاي عصبي: اين يک الگوريتم يادگيري ماشيني است که عملکرد خودش رابراساس کاربرد وارزيابي نتايج بهبود مي بخشد.
الگوريتم ژنتيکي: اين هم تکنيک مفيد ديگري براي پيش بيني هدف است. به اين ترتيب که با يک گروه يا خوشه شروع مي شود ورشدش درآينده راباحضور دربرخي مراحل فرآيند محاسبه احتمال جهش تصادفي،همان طور که درتکامل طبيعي فرض مي شود طرح ريزي مي نمايد.اين تکنيک به چند روش مي تواند عملي شود.وترکيب غيرقابل انتظار يانادري راازعواملي که درحال وقوع بوده ومسيرمنحني طراحي داده ها را تغيير مي دهند ،منعکس مي کند.
گام نهايي فرآيند داده کاوي، گزارش دادن است. گزارش شامل تحليل نتايج وکاربردهاي پروژه درصورت به کارگيري آنها است.ومتن مناسب جداول وگرافيک ها رادرخود جاي مي دهد.بيشتراوقات گزارش دهي يک فرآيند تعاملي است که تصميم گيرنده با داده ها درپايانه کامپيوتري بازي مي کند وفرم چاپي برخي نتايج واسطه محتمل رابراي عمليات فوري بدست مي آورد.
داده کاوي درتوليد چهارنوع دانش زيرمفيداست:
۱- دانش سطحي (کاربرد هاي SQL )
2- دانش چند وجهي (کاربردهاي OALP)
3- دانش نهان( تشخيص الگووکاربردهاي الگوريتم يادگيري ماشيني)
۴- دانش عميق (کاربردهاي الگوريتم بهينه سازي داخلي)
۲٫۱۰ معماري داده کاوي
يک سيستم کشف دانش براساس داده کاوي بايد داراي مراحل تکراري زيرباشد:
۱- پاکسازي داده ها( ازبين بردن نويز وناسازگاري داده ها)
۲- يکپارچه سازي داده (چندين منبع داده ترکيب مي شود.)
۳- انتخاب داده ها( داده هاي مرتبط باآناليزازپايگاه داده بازيابي مي شوند.)
۴- تبديل کردن داده ها(تبديل داده ها به فرمي که مناسب براي داده کاوي باشد مثل خلاصه سازي وهمسان سازي)
۵- داده کاوي( فرآيند اصلي که روال هوشمند براي استخراج الگوها ازداده ها به کارگرفته مي شوند.)
۶- ارزيابي الگو(براي مشخص کردن الگوهاي صحيح ومورد نظربه وسيله معيارهاي اندازه گيري)
ارائه دانش( يعني نمايش بصري، تکنيکهاي بازنمايي دانش براي ارائه دانش کشف شده به کاربراستفاده مي شود.)

هرمرحله داده کاوي بايد باکاربر يا پايگاه دانش تعامل داشته باشد.الگوهاي کشف شده به کاربر ارائه مي شوند ودرصورت خواست اوبه عنوان دانش به پايگاه دانش اضافه مي شوند. توجه شود که برطبق اين ديدگاه داده کاوي تنها يک مرحله ازکل فرآيند است،البته به عنوان يک مرحله اساسي که الگوهاي مخفي راآشکار مي سازد.
۲٫۱۱ تکنيک هاي مختلف داده کاوي

تکنيک هاي مختلف داده کاوي رامي توان براساس نوع عملياتي که انجام مي دهند به دودسته ” پيش بيني کننده ” و” تشريح کننده ” تقسيم کرد. تکنيک هاي پيش بيني کننده باساخت مدلي براي پايگاه داده وظيفه پيش بيني موارد ناشناخته رابرعهده دارند.درحالي که تکنيک هاي تشريح کننده الگوهايي قابل فهم ازداده ها رابراي انسان کشف مي کنند.
طبقه بندي : هدف ازطبقه بندي ،مشخص کردن ويژگي هايي است که بتوان توسط آن، کلاسهاي مختلف راازيکديگرمتمايز کرد طبقه بندي درداده کاوي طي دو مرحله انجام مي گيرد.ابتدا ازروي داده هاي قديمي، کلاس هاي مختلف تشخيص داده شده وسپس تعلق داشتن داده هاي جديد به کلاس هاي موجود، پيش بيني مي شود.طبقه بندي جزوتکنيک هاي يادگيري باناظراست زيرابادراختيارداشتن يک مجموعه داده آموزشي (به عنوان راهنما) داده هاي جديد راطبقه بندي مي کند.اين روش جزوروش هاي پيش بيني کننده به حساب مي آيد.

شکل ۲٫۳ طبقه بندی در داده کاوی

فصل سوم
کاربرد هاي داده کاوي

۳٫۱ معرفي
داده کاوي به عنوان ده علم برترکه منجربه ايجاد تحول درعصرتکنولوژي مي شوددرتمام زمينه ها کاربرد دارد و اصولاً هرجايي که داده وجودداشته باشد داده کاوي نيزمعنا مي يابد.داده کاوي يک رشته جديد باکاربردهاي وسيع وگوناگون است ازقبيل امورتجاري ومالي وفعاليت شرکت ها، امورپزشکي ،تجزيه وتحليل مربوط به DNA ،کشف ناهنجاري ها واسناد جعلي، ارتباطات ازراه دور،ورزش وسرگرمي ،کتابداري واطلاع رساني وامانت ،مديريت بحران ،مديريت وکشف فريب، تحليل شکست ،مديريت روابط مشتري ،مديريت دانش ،بازاريابي ،بانکداري ،صنعت بيمه، حمل ونقل،پزشکي ،متن کاوي، شبکه کاوي ،صوت کاوي ، تصويرکاوي، وب کاوي ، سيستم هواشناسي، سيستم ثبت احوال، شناخت الگوها وکشف روابط پنهان ميان داده ها، پيش بيني، کشف داده هاي خارج ازالگو به منظورکشف تقلب، کنترل کيفيت، کنترل مهندسي وپيش بيني، صنعت خرده فروشي ،تحليل مالي و….

۳٫۲ کاربرد داده کاوي درکتابخانه ها ومحيط هاي دانشگاهي

داده کاوي درابتدا ازحوزه تجارت برخاست اما کاربردهاي آن درسايرحوزه هايي که به گردآوري حجم وسيعي ازداده ها مي پردازند که دستخوش تغييرات پويا نيزمي گردد؛ مفيد شناخته شد.بخشهايي مثل بانکداري، تجارت الکترونيک، تجارت سهام ، بيمارستان وهتل ازاين نمونه اند.
انتظارمي رود که استفاده ازداده کاوي دربخش آموزش به طور عام امکانهاي جديد بسياري ارائه دهد.برخي کاربردهاي داده کاوي درکتابخانه ها وقسمت اداري آموزش درذيل مورد بحث قرارگرفته اند.
عمليات کتابداري به طورکلي شامل مديريت مدارک، ارائه خدمات واموراداره و

نگهداري است.هرکدام ازاين کارکردها باانواع مختلفي ازداده ها سروکاردارند وبه طورجداگانه پردازش مي شوند.اگرچه انجام تحليل ترکيبي براين مجموعه هاي داده نيز مي تواند افق تازه اي رابگشايد که به طرح خدمات جديد وتحول رويه ها وعمليات جاري کمک نمايد.
جدول يک برخي ازکاربردهاي ممکن داده کاوي راکه مي تواند درکتابداري مفيدباشد ارائه مي کند.

جدول ۳٫۱ کاربردهاي داده کاوي درکتابخانه ها

بانک اطلاعاتي کاربرد متصور
گردآوري منابع براي تعيين نقاط قوت وضعف مجموعه
استفاده ازمجموعه براي ايجاد رابطه بين خواننده،منابع کتابخانه وزمان مشخصي ازارسال
امانت بين کتابخانه اي براي تحليل سفارشهاي پاسخ داده شده وسفارشهاي دريافت شده
داده هاي بخش امانت براي پيش بيني روند بازگشت منابع
داده هاي هزينه براي نشان دادن منابع مالي بکارگرفته شده

داده کاوي مي تواند براي پاسخ دادن به يک سوال خاص مربوط به کتابخانه ونيزکشف روندهاي عمومي که به تصميم گيري کمک مي کنند، استفاده شود.براي مثال سوال مي تواند چنين باشد:
امکان اين که امانت گيرندگان منابع رايک هفته بعدازتاريخ موعد برگردانند تانامه هاي يادآوري کمتري فرستاده شود چقدراست؟

ياميزان اشتراک مورد انتظاربراي نشريات بين المللي انتخاب شده براي سال آينده چقدراست؟ درک الگوي استفاده کلي مجلات الکترونيکي ياتحليل درخواستهاي اعضاء براي ميکروفيلمها طي ۵ سال گذشته نيز همگي مثالهايي ازکشف روندهاي عمومي اند.دامنه تحليل استنادي هم مي تواند بااستفاده ازداده کاوي گسترش داده مي شود.