چکیده: بهرهبرداری از ویژگیهای داده کاوی، زمان و فضا میتواند ساختارهای دانش پنهان جریان دادهها را استخراج کند. کلان دادهها با حجم بالای مجموعه دادههای پیچیده در حال رشد همراه با منابع داده مستقل و چندگانه سر و کار دارند. با توجه به توسعه سریع شبکه، حافظه و ظرفیت کلکسیونهای داده، کلان دادهها با سرعت بالا در همه علوم شامل، فیزیک، زیست شناسی، و علوم پزشکی-زیستی و حوزههای مهندسی در حال توسعه میباشند. یکی از مهمترین ویژگی کلان دادهها این است که هیچ ساختار و نظم مشخصی بر آنها حاکم نیست. حجم وسیع این دادهها نیزباعث شده است، که پردازش آنها عمدتاً به وسیله فناوری رایانش ابری صورت گیرد، چرا که تحلیل آنها مستلزم این است که از دهها، صدها و یا حتی هزاران رایانه به طور همزمان استفاده شود. این مقاله چالشها و مدل پردازشی کلان دادهها را از دیدگاه داده کاوی بررسی میکند و سپس به تجزیه و تحلیل کلان دادهها پرداخته است.

کلمات کلیدی: داده کاوی، اشتراک اطلاعات، پایگاه داده، کلان دادهها.

-۱مقدمه کلان دادهها با مجموعه دادههای پیچیده در حال رشد فراتر از

ظرفیت های کوچک و قابلیتهای سیستمهای مدیریت پایگاه-دادهای تجاری هستند و با حجم عظیمی از منابع ناهمگن، مستقل توزیع شده و با کنترل نامتمرکز شروع شده که به دنبال شناسایی روابط پیچیده و در حال تکامل میان این دادهها میباشند. این مشخصهها، چالش بزرگی برای کشف دانش مفید از کلان دادهها ایجاد میکند.[۱]

یکی از مهمترین ویژگی کلان دادهها این است که هیچ ساختار و نظم مشخصی بر آنها حاکم نیست. حجم وسیع این دادهها نیز باعث شده است که پردازش آنهاعمدتاً به وسیله فناوری رایانش ابری صورت گیرد، چرا که تحلیل آنها مستلزم این است که از دهها، صدها و یا حتی هزاران رایانه به طور همزمان استفاده شود.

مشخصه دیگر کلان دادهها، حجم عظیم دادههای نمایش داده شده با بعدیت متنوع و ناهمگن میباشد. دلیل آنست که گرداورندههای مختلف اطلاعاتی از برنامه شخصی خود برای مرتب سازی داده استفاده کردهاند و ماهیت برنامه های مختلف، باعث ایجاد نمایش متنوعی از دادهها میشود. همچنین منابع داده مستقل، با کنترل نامتمرکز و توزیع شده، مشخصه اصلی کاربردهای کلان دادهها میباشد.[۱]

-۲چالشهای کلان داده برخی چالش های اصلی ذکر شده به شرح زیر است.[۴-۲]

– نمایش اطلاعات: مجموعه دادههای بسیاری دارای سطوح خاصی از عدم تجانس در نوع، ساختار، معنا، سازمان، و دسترس پذیری هستند. هدف نمایش اطلاعات، کسب دانش بیشتر برای تجزیه و تحلیل کامپیوتری معنیدار و تفسیر کاربر میباشد. با این وجود، نمایش اطلاعات نامناسب باعث خواهد شد که ارزش اصلی دادهها کاهش یابد و حتی ممکن است مانع از تجزیه و تحلیل دادهها به طور موثر گردد.

– کاهش افزونگی و فشردهسازی دادهها: به طور کلی، سطح بالایی از افزونگی در مجموعه داده وجود دارد. کاهش افزونگی و فشرده سازی دادهها به منظور کاهش هزینههای غیر مستقیم از کل سیستم با فرض این که ارزش بالقوه اطلاعات تحت تاثیر قرار نگیرد، بکار میرود.

– مدیریت چرخه عمر دادهها: در حال حاضر سیستمهای ذخیرهسازی نمیتواند چنین دادههای عظیمی را پشتیبانی کند. به طور کلی، ارزشهای پنهان در کلان دادهها بستگی به بروز بودن داده دارد. بنابراین، یک اصل با اهمیت داده مربوط به ارزش تحلیلی است که تصمیم بگیرید کدام اطلاعات باید ذخیره شده و کدام داده باید دور ریخته شود.

– مکانیزم تحلیلی: سیستم تجزیه و تحلیل کلان دادهها باید تودههای ناهمگون دادهها در یک زمان محدود را پردازش کند.

*ارائه دهنده

۱

– محرمانه بودن اطلاعات: حفظ و تجزیه و تحلیل از مجموعه کلان دادهها مشکل است. تجزیه و تحلیل کلان دادهها ممکن است تنها برای پردازش تحویل داده شود زمانی که اقدامات مناسب پیشگیرانه برای محافظت از چنین دادههای حساس، برای اطمینان از ایمنی آن انجام میشود.

– مدیریت انرژی: مصرف انرژی پردازنده مرکزی سیستمهای محاسباتی قابل توجه از هر دو دیدگاه اقتصاد و محیط زیست قرار گرفته است. با افزایش حجم دادهها و خواستههای تحلیلی، پردازش، ذخیرهسازی، و انتقال کلان دادهها ناچار خواهد شد بیشتر و بیشتر برق مصرف کند. بنابراین، باید کنترل مصرف انرژی و مکانیزم مدیریت برای تاسیس کلان دادهها تضمین شود.

– توسعه و مقیاس پذیری: سیستم تحلیلی کلان داده باید مجموعه دادههای حال و آینده را حمایت کنند. الگوریتم های تحلیلی باید قادر به روند فزاینده گسترش و مجموعه دادههای پیچیده تر باشد.

– همکاری: تجزیه و تحلیل کلان دادهها در یک پژوهش بین رشتهای، نیاز به همکاری کارشناسان در بخش زمینه های مختلف برای برداشت از پتانسیل کلان دادهها دارد. لذا باید معماری شبکه کلان دادهها برای کمک به دانشمندان و مهندسان در انواع مختلف زمینه دسترسی به داده و به طور کامل استفاده از تخصص خود، تا همکاری برای تکمیل اهداف تحلیلی تاسیس شود.

-۱ -۲چالشهای داده کاوی با کلان دادهها در سیســتم پایگــاه داده یــادگیری هوشــمند بــرای اداره کــلان

داده ها، کلید اصلی، مقیاس پذیری به حجم عظـیم داده و ارائـه روشهایی برای کـار بـا مشخصـه هـای بدسـت آمـده مـی باشـد. چارچوب پردازش کلان داده هـا شـامل سـه لایـه از داخـل بـه خارجی با در نظرگیری پـردازش و دسـتیابی بـه داده (لایـه (I، محرمانگی داده و حـوزه دانـش (لایـه (II و الگـوریتمهـای داده کاوی بزرگ (لایه (III میباشد.

چالشهای لایه I بر دستیابی و پروسه های محاسباتی واقعی داده تمرکز دارد. به دلیل اینکـه کـلان داده هـا غالبـا در محـلهـای متفاوتی ذخیره شده و حجم داده بطور پیوسـته در حـال رشـد است، پلتفرم محاسباتی اثربخش بایـد از حافظـه کـلان داده هـا توزیع شده برای محاسبات خود استفاده کند.

۲

چالش های لایه II حول مسائل حوزه دانش و معناشناسی بـرای کاربردهای مختلف کلان دادهها میباشند. چنین اطلاعاتی قـادر به تهیه مزایایی اضافی برای فرایند دستکاری میباشـند و البتـه موانعی را برای دستیابی به کلان داده ها (لایه (I و الگوریتمهای داده کاوی (لایه (III ایجاد میکنند.

در لایه III، چالش های داده کاوی بر طراحی الگـوریتم بمنظـور مبارزه با مشکلات ناشی از حجم بـزرگ داده، داده هـای توزیـع شده و مشخصه های پویا و پیچیده داده، تمرکز دارند. لایـه III، دارای ســه مرحلــه یــا ســه طبقــه مــیباشــد. اولا، دادههــای چندمنبعی، ناقص، غیرقطعی، ناهمگن و پراکنـده بایـد بوسـیله نکنیک های انتشار داده پیش پردازش شوند. دوما، داده های پویا و ناقص، پس از پیش پردازش، دستکاری می شوند. سوما، دانش سراسری بدست آمده از یادگیری محلی و انتشـار مـدل، تسـت شده و اطلاعات مرتبط به طبقه پـیش پـردازش، بـازخورد داده می شود. سپس مدل و پارامترهـا، بـر اسـاس بـازخورد، تنظـیم می شوند. در کل این فرایند، اشتراک اطلاعات عـلاوه بـر اینکـه امید توسعه هموار هر مرحله را بهمراه دارد، بلکه یکی از اهداف پردازش کلان دادهها نیز بشمار میرود.

در ادامه به بیان دقیق جزئیات با توجه به چارچوب سه لایـه ای خواهیم پرداخت