چکیده:

اندازه، اولین بعد و گاهی مواقع تنها بعدی است که پیرامون موضوع داده های حجیم)big data) 1 جلب توجه می کند. هدف این پژوهش، پیاده سازی بررسی جامع وضعیت big data و ارائه تعریف، ویژگی ها و طبقه بندی big data به همراه بحث پیرامون محاسبات ابری است. در این مقاله ارتباط بین big data و محاسبات ابری، سیستم های ذخیره سازی big data و فناوری Hadoop مطرح خواهد شد. به علاوه درباره چالش های تحقیق با تمرکز بر مقیاس پذیری، در دسترس پذیری، یکپارچگی داده ها، تبدیل داده ها، کیفیت داده ها، غیر یکنواختی داده ها، محرمانگی، مسائل قانونی و تنظیمی، و نحوه اداره بحث خواهد شد. درباره شیوه های تحلیلی به کار رفته برای big data نیز توضیحاتی ارائه می شود.

کلمات کلیدی: big data، Hadoop، NOSQL

۱ – big data

.۱ مقدمه:

افزایش پیوسته حجم و جزئیات داده های جذب شده توسط سازمان ها از قبیل ظهور رسانه های اجتماعی، اینترنت اشیا و مالتی مدیا منجر به ایجاد جریان بسیار عظیم داده در قالب ساختار یافته یا بی ساختار شده است. خلق داده با سرعت بی سابقه ای رخ می دهد[۱] ، که از این پس، big data نامیده می شود و به عنوان یک روند شناخته شده گسترده پدیدار شده است. Big data با سه بعد توصیف می شود: (الف) داده ها بیشمار است، (ب) داده ها را نمی توان به پایگاه داده های ارتباطی منظم دسته بندی کرد و (ج) داده ها به سرعت ایجاد، جذب و پردازش می شود. به علاوه، big data در پزشکی، علوم، مهندسی، امور مالی، تجارت و سرانجام جامعه را متحول نموده است. پیشرفت ها در فناوری های ذخیره سازی و استخراج داده ها امکان حفظ مقادیر فزاینده داده که با تغییر در ماهیت داده های نگهداری شده نزد سازمان ها توصیف می شود را میسر می سازد.[۲] سرعتی که داده های جدید با آن ایجاد می شود گیج کننده است.[۳] چالش عمده برای محققان و کاربران آن است که این نرخ رشد از توانایی شان در طراحی پایگاه های مناسب محاسبات ابری جهت تجزیه و تحلیل داده و به روز آوری حجم کار فشرده فراتر است. محاسبات ابری یکی از چشمگیرترین تغییرات در ICT مدرن و خدمات برای کاربردهای سازمانی به شمار می رود و به ساختار قدرتمندی جهت انجام محاسبات پیچیده و در مقیاس بزرگ مبدل شده است. مزیت های محاسبات ابری شامل منابع مجازی شده، پردازش موازی، امنیت، و ادغام خدمات داده با ذخیره سازی اطلاعات مقیاس پذیر است. محاسبات ابری نه تنها می تواند هزینه و محدودیت اتوماسیون و کامپیوتری کردن امور توسط افراد و سازمان ها را به حداقل برساند بلکه کاهش هزینه نگهداری زیرساخت، مدیریت کارآمد و دسترسی کاربر را تامین می کند.. در نتیجه مزیت های فوق ، تعدادی از برنامه های کاربردی که پایگاه های ابری متعددی را تحت تاثیر قرار می دهند، توسعه یافته و منجر به افزایش چشمگیر مقیاس داده های ایجاد شده و مصرف شده توسط چنین برنامه های کاربردی گردیده است. برخی از مزایای اولیه big data در محاسبات ابری کاربرهایی هستند که خوشه های Hadoop را در محیط های محاسبه بسیار مقیاس پذیر و انعطاف پذیر به کار گرفتند که توسط خریداران از قبیل IBM، Microsoft Azure، و Amazon AWS تامین شده بود.

.۲ تعریف و ویژگی های big data
Big data به افزایش حجم داده هایی که ذخیره سازی، پردازش و تجزیه و تحلیل شان از طریق فناوری های پایگاه داده سنتی دشوار است، اطلاق می شود. ماهیت big data نامشخص است و مشتمل بر فرآیندهای قابل ملاحظه ای جهت شناسایی و تبدیل داده ها به اطلاعات جدید است. واژه «big data» در IT و تجارت نسبتا جدید است. با این حال، بسیاری از محققان و کاروران از این واژه در ادبیات قبلی استفاده کرده اند در حال حاضر تعاریف متعددی از big data وجود دارد. برای مثال »مقدار داده فراتر از قابلیت فناوری در ذخیره سازی، کنترل و پردازش کارآمد.« یا حجم، گوناگونی و سرعت. واژه های حجم، گوناگونی و سرعت اصولا توسط گارتنر۱ به منظور توصیف عناصر چالش های big data معرفی شدند. همچنین IDC فناوری های big data را »به عنوان نسل جدیدی از فناوری ها و ساختارها که به منظور استخراج ارزش از نظر اقتصادی از حجم های بسیار بزرگ انواع گسترده داده ها طراحی شده و جذب، کشف یا تحلیل پر سرعت را میسر می سازد« تعریف کرده است. big data نه تنها با سه V فوق الذکر توصیف می شود بلکه می تواند به چهار V هم بسط داده شود یعنی حجم، گوناگونی، سرعت و ارزش. این تعریف چهار V کاملا شناخته شده است زیرا معنا و ضرورت big data را مشخص می کند.[۴]

۱Gartner

۲

تعریف زیر براساس تعاریف فوق الذکر و اظهار نظر و تحلیل ما از ماهیت big data بیان می شود. Big data مجموعه ای از تکنیک ها و فناوری هایی است که مستلزم َاشکال جدید ادغام جهت آشکار ساختن مقادیر بزرگ نهان از مجموعه داده های بزرگی است که متنوع، پیچیده و متعلق به مقیاسی بزرگ هستند.

(۱) حجم به مقدار همه انواع داده ایجاد شده از منابع مختلف که همچنان توسعه می یابد اشاره دارد. مزیت گردآوری مقادیر بزرگ داده شامل خلق اطلاعات و الگوهای نهان از طریق تجزیه و تحلیل داده ها است. لوریلا و همکارانش۱ مجموعه منحصر به فردی از داده های طولی از دستگاه های سیار هوشمند تهیه نمودند و این مجموعه را در دسترس جامعه پژوهش قرار دادند . اقدامات فوق الذکر، چالش داده های سیار نام دارد که نوکیا۲ مشوق آن بود.[۵] گردآوری داده های طولی مستلزم تلاش قابل توجه و سرمایه گذاری های اساسی است. با این حال، چنین چالش داده های سیار نتیجه جالبی مشابه نتیجه موجود در بررسی قابلیت پیش بینی الگوهای رفتار انسان یا ابزار به اشتراک گذاری داده براساس تکنیک های پویایی و تجسم برای داده های پیچیده حاصل می کند.

(۲) گوناگونی به انواع مختلف داده های گردآوری شده از طریق سنسورها، تلفن های هوشمند یا شبکه های اجتماعی اشاره دارد. این انواع داده شامل ویدئو، تصویر، متن، صوت و انبار داده با فرمت ساختار یافته یا بی ساختار است. بخش عمده داده های ایجاد شده از برنامه های کاربردی سیار دارای فرمت بی ساختار هستند. برای مثال، پیام های متنی، بازی های اینترنتی، وبلاگ ها و رسانه های اجتماعی انواع مختلف داده های بی ساختار را از طریق دستگاه های سیار و سنسورها ایجاد می کنند. کاربران اینترنت نیز مجموعه کاملا متفاوتی از داده های ساختار یافته و بی ساختار ایجاد می کنند .[۶]

(۳) سرعت به سرعت انتقال داده ها اشاره دارد. محتویات داده همواره به علت جذب مجموعه داده های مکمل، ارائه داده های قبلا بایگانی شده جریان داده های حاصل از منابع متعدد تغییر می کند.[۷]

(۴) ارزش مهم ترین بعد big data به شمار می رود؛ که به فرآیند کشف ارزش های بزرگ نهان از مجموعه داده های بزرگ با انواع مختلف و شکل گیری سریع اشاره دارد.