۱-۵- مقدمه
به عنوان يك نتيجه از انفجار اطلاعات مداوم با بسياري از سازمان‌ها غرق در داده‌ها شدند و در نتيجه شكاف داده يا ناتواني براي پردازش اين اطلاعات و استفاده از آن به طور موثر با يك سرعت مهيج در حال افزايش است. محاسبه داده متمركز يك مثال محاسباتي جديد را معرفي مي‌نمايد (كوزس، اندرسون، البرت، گورتون، گراسيو ۲۰۰۹) كه مي‌توان شكاف داده‌ها را با استفاده از پردازش موازي قابل مقايسه مورد خطاب قرار دهد و به دولت و سازمان‌هاي تجاري و محيط‌هاي تحقيق اجازه دهد تا مقادير عظيمي از داده‌ها را پيش ببرد و نظرات قبلي

كاربردهاي اجرايي غير عملي و اجرا نشدني است. محاسبات كلود فرصتي براي سازماندهي كردن با منابع دروني محدود شده ارائه مي‌دهد تا كاربردها محاسباتي داده‌ها فشرده مقياس بالا در يك حالت اثربخش اجرا شود. درگيري‌هاي اساسي از محاسبات داده فشرده در حال مديريت و پيش برد حجم داده ها در حال رشد به طور تشريحي هستند، به طور چشم‌گير چرخه‌ها تحليلي داده هاي وابسته در حال كاهش هستند كه كاربردهاي به موقع و عملي را و الگوريتم‌هاي جديد در حال توسعه را پشتيباني نمايند كه مي‌توانند

مقياس‌گذاري كند تا مقدار عظيمي از داده‌ها را جست‌و جو و پيش ببرد.محققين در Lexis Nexis معقتند كه جواب به اين درگير‌ها مهاري نرم‌افزار و سخت افزار سيستم‌ها كامپيوتري جامع است كه براي پردازش موازي از كاربردها محاسباتي داده‌ها فشرده طراحي شده است. اين فصل درگيري‌هايي از محاسبات داده‌هاي فشرده را كاوش مي‌كند و يك مقايسه جامع از معماري‌هاي سيستم موجود از نظر تجاري ارائه مي‌دهد كه شامل: ابر كامپيوتر تحليلي داده هاي Lexis Nexis(DAS) مي‌شود كه به گروه محاسباتي كارايي بالاي Lexis

Nexis(HPCC) و Hadoop، يك منشأ باز انجام براساس معماري ميكريديوس گوگل برمي‌گردد. محاسبات كلود بر توانايي تأكيد مي‌كند تا منابع محاسباتي را چنان يد بدون يك سرمايه‌گذاري صادقانه جامع در پيدايش نياز است و هزينه هاي عملكرد مداوم همراه شده مقياس گذاري نمايد. (ناپر و بينيتنسي و ۲۰۰۹، ريس ۲۰۰۹، ولت والنسن پتر، ۲۰۰۹) خدمات محاسباتي كلود به طور معمولي به ۳ مدل طبقه‌بندي مي‌شود:

(۱) پيدايش (زير سازه) به عنوان يك خدمت (Iaas) خدمت شامل تهيه‌ي نرم افزار و سخت افزار براي پردازش،‌ذخيره سازي داده ها، شبكه‌ها و هر زير ساخت مورد نياز براي پيشرفت سيستم‌هاي در حال اجرا مي‌شود و كاربردهايي كه به طور معمول در يك مركز داده توسط كاربر مديريت مي‌شود نيازمند است. (۲) پايگاهي به عنوان يك سرويس (Paas).سرويس

شامل: زبانها و ابزار برنامه‌ريزي فشرده مي‌شود و يك پايگاه تحول كاربردي كه توسط ارائه دهنده سرويس گروه بندي شده تا پيشرفت و تحويل كاربردي كه توسط ارائه دهنده سرويس گروه‌بندي شده تا پيشرفت و تحويل كاربردهاي كار بر نهايي را پشتيباني نمايد و (۳) نرم‌‌افزاري به عنوان يك سرويس (Saas). كاربردهاي نرم افزاري گروه‌بندي شده توسط ارائه‌دهنده سرويس براي جايگزيني كار به نهايي ارائه و مديريت مي‌شود تا اين كاربردها را با كاربردهاي براساس وب به كار اندازد (لنك، كليفر، نيميس، تاي و سندهولم ۲۰۰۹، مل و گرانس،

۲۰۰۹، واكيورو، رودرو، سرينفر، كاكرس و ليندنر، ۲۰۰۹، ويگا، ۲۰۰۹) كاربردهاي محاسباتي داده هاي فشرده با استفاده از مدل aas (اجراي شوند و به تهيه گروه‌هاي قابل مقايسه از پرداززش گره، براي محاسبات موازي داده‌ها اجازه‌ دهد تا از معماري نرم افزاري متنوع استفاده مايد يا مدل Paas يك پردازش كامل را ارائه دهد و محيط پيشرفت كاربردي شامل هر دو جزء پايگاه و زير ساخت‌هايي از قبيل برنامه ريزي زبانها و افزارهاي گسترش كاربردها مي شود. محاسبات داده‌هاي فشرده مي‌تواند يك كلود عمومي اجرا شود پايگاه و زير ساخت كلود به طور علوم از يك ارائه دهنده سرويس كلود موجود است از قبيل كلود محاسباتي الاستيك آمازون (EC2) و ريديوس مپ الاستيك يا به عنوان كلود خصوصي (پايگاه و زير ساخت كلود

منحصراً براي يك سازمان خاص اجرا مي‌شود و ممكن است به طور دروني يا ظاهري براي سازمان وجود داشته باشد) (مل و گرانس، ۲۰۰۹). اجراهاي aas و Paas براي محاسبات فشرده‌ي داده‌ها مي‌تواند به طور ديناميك در محيط‌ها پردازش مجازي شده براساس زمان بندي كاربرد و نياز‌منديها پردازش داده ما تهيه شوند يا مي‌توانند به عنوان پيكر بندي دسترسي پذيري بالاي پايدار اجرا شود. يك پيكربندي پايدار مزيت اجرايي دارد از آنجا كه آن از زير ساخت ما اختصاصي به جاي سيرورهاي مجازي شده مشترك با ديگر كاربردها استفاده مي‌كنند.

۱-۱-۵- كاربردهاي محاسباتي فشرده‌ي داده ها: روش‌هاي پردازش موازي مي‌تواند به طور كلي به عنوان يا محاسباتي فشرده يا داده‌هاي فشرده طبقه بندي شوند (اسكليكرن و تاليا ۱۹۹۸ و گورتن و گرينفيلد، اسزالاي و ويليامز ۲۰۰۸، جان استون، ۱۹۹۸) محاسبات فشرده قبلاً استفاده شد تا برنامه‌هاي كاربردي را كه كران محاسباتي هستند توصيف نمايد چنين كاربردهايي بسياري از زمان اجرايشان را براي نيازها محاسباتي در مقابل I⁄O وقف مي‌نمايند و به طور معمول به حجم‌هايي كوچكي از داده‌ها نياز دارند. پردازش موازي از كاربردهاي

محاسبات فشرده و به طور معمول شامل الگوريتم‌ها اختصاصي در حال موازي شدن با يك فرايند كاربردي و تجزيه فرآيندي كاربرد جامع درون كارها، جدا مي‌شود كه مي‌تواند پس بر روي پايگاه محاسباتي مناسب به طور موازي اجرا شود تا كارايي بالاتر جامعه را نسبت به پردازش سيري اجرا نمايد. در كابردهاي محاسباتي فشرده عملكرد ما چند گانه به طور همزمان با هر آدرس دهي عمليات يك مسقت خاص از مشكل انجام مي‌شود. اين اغلب به عنوان تطابق نقشي يا تطابق كنترل به كار مي‌رود. (Abbas,2004).

۵- تكنولوژي‌هاي داده فشرده براي محاسبات كلود
داده‌هاي فشرده استفاده مي شود تا كاربردهايي را كه گروه I⁄O يا با يك نياز براي پردازش حجم‌هاي بزرگ از داده هستند را توصيف نمايد (گورتون و همكاران ۲۰۰۸، ژان استون ۱۹۹۸، گوخاله و كوهن و يو و سيلر، ۲۰۰۸). چنين كاربردهايي بسياري از زمان پردازش را به I⁄O و حركت داده‌ها اختصاص مي‌دهد. پردازش موازي از كاربردهاي داده فشرده به طور معمول شامل قسمت بندي كردن يا بخش پذيري كردن داده ها درون بخش‌هاي چندگانه مي‌شود كه مي‌تواند به طور مستقل با استفاده از همان برنامه كاربردي قابل اجرا و موازي بروي يك پايگاه محاسباتي مناسب پرداش شود و پس دوباره نتايج توليد شده از داده‌هاي خروجي كامل شده از برانمه اصلي به زبمان سمبليك تبديل مي‌كند. (نيلند، پرنيس، گلوبرگ، ميلس، ۲۰۰۰).

توزيع انبوه بزرگتر از داده، بسيار مفيد در پرازش موازي از داده‌ها وجود دارد. گورتون و همكاران (۲۰۰۸) بيان كردند كه پردازش داده انبوه به طور معمول بر مقياس خطي بر طبق سايز داده نيازمند است و بسيار متمايل به موازي شدن مستقيم هستند. درگيري‌هاي اساسي براي محاسبه داده‌هاي فشرده بر طبق گورتون و همكاران (۲۰۰۸) در حال مديريت و پيشبرد حجم داده هاي در حال رشد به طور تشريحي هستند و به طور چشم‌گير چرخه‌هاي تحليلي داده هاي وابسته را كاهش مي‌دهند تا كاربردهاي به موقع و عملي را و نيز الگوريتم‌هاي جديد در حال توسعه را پشتيباني نمايد كه مي‌تواند مقياس گذاري نمايد تا مقادير عظيمي از داده‌ها را جستجو و پيش ببرد. محاسبات كلود مي‌تواند اين درگيري‌ها را با اين قابليت مورد خطاب قرار دهد كه منابع محاسباتي جديد را تهيه و يا منابع موجود را گسترش مي‌هند تا قابليت‌هاي محاسباتي موازي را ارائه دهد كه مقياس حجم‌هاي داده در حال رشد را هماهنگ مي نمايد.(گروس من، ۲۰۰۹).

۱۲-۵- تطابق داده‌ها
معماران سيستم كامپيوتر مي‌توانند كاربردهاي موازي داده‌ها را پشتيباني نمايند كه يك راه‌حل ذاتي براي مقياس ترابايت و پتابايت نيازهاي پرازش هستند (نيلند و همكاران ۲۰۰۰، راوي چاندران، پانتل و هووي ۲۰۰۴) بر طبق آگيچتين و گانتي (۲۰۰۴) موازي كردن يك تناوب جذاب براي پردازش مي‌باشد كه به شدت مجموعه‌هاي برگي از داده‌ها از قبيل بيليون‌ها اسناد بر روي وب را بررسي مي‌كند (آگيچتين ۲۰۰۴). نيلند و همكاران تطابق داده‌ها را به عنوان يك محاسبه به كار گرفته شده به طور مستقل براي هر آيتم داده از يك مجموعه داده معني مي‌كند كه اجازه درجه‌ايي از تطابق را مي‌دهد كه با حجمي از داده‌ها مقياس گذاري مي‌شود.

با توجه به عقيده نيلند و همكاران (۲۰۰۰) دليل بسيار مهم براي گسترش كاربردهاي موازي داده‌ها پتانسيلي براي اجراي قابل مقايسه است و ممكن است در چندين ترتيب از مقدار بهود اجرا ناشي شود. مسئله كليدي با كاربردهاي در حال توسعه و استفاده از تطابق داده ها انتخاب الگوريتم و استراتژي براي تجزيه داده‌ها،‌تراز بار بروي گره‌هاي پردازش، ارتباطات گذرنده بين گروه‌ها و دقت جامع از نتايج هستند. (نيلند و همكاران، ۲۰۰۰، رنكوزوگولاري و دواركاداس، ۲۰۰۱). نيلند و همكاران (۲۰۰۰) نيز متوجه شدند كه گسترش كاربر و موازي داده مي‌تواند شامل پيچيدگي برنامه نويسي اساسي شود تا مشكل را در زمينه ابزارهاي برنامه نويسي موجود معني كند و محدوديت‌هايي از معماري هدف را مورد خطاب قرار دهد. استخراج اطلاعات از و فهرست سازي از اسناد وب به طور معمول از پردازش داده‌هاي فشرده است كه مي‌تواند منافع كارايي مهم را از اجراهاي داده‌هاي موازي مشتق كند از آنجائيكه وب و ديگر انواع مجموعه‌هاي اسناد مي‌تواند به طور معمول به طور موازي پردازش شود (آگيچتين)

۳-۱-۵- شكاف داده‌ها
رشد سريع از اينترنت و شبكه وسيع جهاني منتهي به مقادير وسيع از اطلاعات موجود به صورت آنلاين مي‌شود. به علاوه سازمان‌هاي دولتي و بازرگاني مقادير زيادي از هر دو اطلاعات ساخته يافته و غير ساخت يافته ايجاد مي‌نمايد كه نياز دارد پردازش، تحليل و به هم مرتبط شود. ونيتون سرف (Vinton cerf) از گوگل اين را به عنوان يك نزول ناگهاني اطلاعات توصيف مي‌كند و بيان مي‌دارد كه ما بايد انرژي اينترنت را در حضور اطلاعات با كابل‌هاي مجزا به كامپيوتر وصل كنيمكه آن اطلاعات ذخيره شده ما را رها نسازد (كرف، ۲۰۰۷)
يك گزارش هيئت دولت به ضمانت EMC مقدار اطلاعات كه به طور رايج به شكل ديجيتال در سال۲۰۰۷ در ۲۸۱ بيليون‌ها بايت ذخيره شده و نيز رشد مركب كل در ۵۷% تا اطلاعاتي در سازمان‌هاي در حال رشد در يك سطح و سرعت سريعتر برآورد مي‌كند (گانتر و همكاران ۲۰۰۷).

در مطالعه ديگري از انفجار اطلاعات آن برآورد شده بود كه ۹۵% از همه اطلاعات جاري در شكل بدون ساخت با نيازهاي پردازش داده افزايش يافته وجود دارد كه با اطلاعات ساخت يافته مقايسه مي‌شود (ليمن و واريان۲۰۰۳). ذخيره سازي، مديريت، دسترسي و پردازش از اين مقدار وسيع از داده‌ها يك نياز اساسي را معرفي مي‌نمايد و يك درگيري پهناور به منظور اينكه نياها براي تحقيق، تحليل، استخراج و تجسم كردن اين داده ها به عنوان اطلاعات رضايت بخش نمايد. (برمن ۲۰۰۸). در سال ۲۰۰۳ ليكيس نيكسيس اين مسئله را به عنوان «شكاف داده» معين مي‌كند توانايي جمع كردن اطلاعات دور از گنجايش سازماندهي پيش پا افتاده است تا از آن به طور موثر استفاده نمايد. سازمان‌ها كاربردهايي را بنا كردند تا ذخيره سازي كه آنها در دسترس دارند پر نمايد و ذخيره سازي بسازد كه مناسب كاربردها و داده‌هايي است كه آنها دارند. اما آيا سازمان‌ها مي‌توانند چيزهاي مفيدي با اطلاعاتي انجام دهند كه آنها مجبورند استفاده كامل و نو از منابع داده بدون بهره‌برداري آنها داشته باشند بدست آورند؟

چنانچه داده هاي سازماني رشد كند چگونه آيا شكاف داده مورد خطاب قرار مي‌گيرد؟ محقيق در ليكسيز تكسيز معتقدند كه جواب معماري نرم افزاري و سخت افزاري سيستم‌هاي كامپيوتري قابل مقياس گذاري است كه براي كاربردهاي محاسباتي داده‌هاي فشرده طراحي شده كه بتواند بيليون‌ها پردازش از ثبت‌ها را در هر ثانيه مقياس گذاري كند. (BORPS) .
توجه: اصلاح BORPS توسط seisint در سال ۲۰۰۲ معرفي شد. سيسينت توسط Lexis Nexis پيدا شده بود). چه چيزي مشخصه‌هايي از سيستم‌هاي محاسباتي داده‌هاي فشرده و چه معماري‌هايي از زسيستم براي سازمان‌ها در دسترسند تا خطر و سرمايه گذاري صادقانه را در زير ساخت كاهش داد و به مدل توجه فوري اجازه داد؟ اين فصل اين مسائل را كاوش مي‌كند و يك مقايسه از معماري‌هاي سيستم موجود از نظر تجاري ارائه مي‌دهد.

۲-۵- مشخه‌هايي از سيستم‌هاي محاسباتي داده‌هاي فشرده
بنياد علوم علمي معتقد است كه محاسبات داده‌هاي فشرده نياز به يك مجموعه متفاوت بنيادي از اصول‌ها نسبت به روش‌هاي محاسباتي جاري دارد (NSF 2009). از طريق يك برنامه تأمين وجه در حوزه علم اطلاعات و كامپيوتر و مهندسي، NSF در حال جستجو افزايش فهم قابليت‌ها و محدوديت‌هايي از محاسبات داده‌هاي فشرده است حوزه‌هاي كليدي از كانون شامل:
روش‌هاي برنامه نويسي موازي براي مورد خطاب قرار دادن پردازش موازي از داده بر روي سيستم‌هاي داده‌هاي فشرده
چكيده‌هاي برنامه نويسي شامل مدل‌ها، زبان‌ها و الگوريتم‌ها كه اجازه يك بيان بديهي از پرازش موازي داده مي‌دهد.

طرحي از پايگاه‌هاي محاسباتي داده‌هاي فشرده كه سطح بالا از قابليت اطمينان، راندمان، دسترس پذيري، مقياس پذيري را ارائه مي‌دهد.
تشخيص كاربردهايي كه مي‌تواند اين مثال محاسباتي را بهره‌برداري كند و تعيين نمايد كه چگونه آن بايد استنتاج شود تا كاربردهاي داده‌هاي فشرده پديدار شده را حمايت نمايد.
پروژه‌هاي ملي شمال غرب اقيانوس آرام محاسبات داده‌هاي فشرده را به عنوان جمع آوري داده، مديريت، تحليل و فهم داده ها در حجم‌ها و سرعت‌هايي كه مرزهايي از تكنولوژي‌هاي جاري را به جلو هل مي‌دهد (كوزس و همكاران ۲۰۰۹، پنل ۲۰۰۸). آنها معتقدند كه حجم‌هاي داده در حال رشد به طور سريع را مورد خطاب قرار دهد و پيچيدگي نياز به پيشرفت‌هاي مهم در نرم افزار و سخت افزار و گسترش الگوريتم دارد كه بتواند به سهولت با سايز داده مقياس گذاري شود و تحليل‌هاي به موقع و قابل اجرا و نتايج پردازش را ارائه دهد. معماري HP cc توسط Lexis Nexis توسعه يافته تا چنين پيشروي در قابليت‌ها را معرفي نمايد.

۱-۲-۵- روش پردازش
پايگاه‌هاي محاسباتي داده‌هاي فشرده جاري از يك روش پردازش موازي «تقسيم و غلبه كردن» استفاده مي‌كند كه در حال تركيب پردازشگرهاي چند گانه و ديسك‌ها در گروه‌هاي محاسباتي بزرگ متصل شده با استفاده از شبكه ها و تعويض‌هاي ارتباطات سرعت بالا هستند كه به داده‌ها اجازه مي‌دهد در ميان منابع محاسباتي موجود جزءبندي شده باشد و به طور مستقل پيش رود تا كارائي و مقياس پذيري را براساس مقدار داده‌ها انجام دهند (شكل ۱-۵).

بويا، يئو، ونوگوپال، بروبرگ و برانديك (۲۰۰۹) گروهها را به عنوان يك نوع سيستم موازي شده و توزيع شده معين مي‌نمايد كه شامل يك مجموعه كامپيوترها مي‌شود كه به تنهايي متصل شدند و با يكديگر به عنوان يك منبع محاسباتي جامع تنها كار مي‌كند. اين روش براي پردازش موازي اغلب به عنوان يك روش «صفر به اشتراك گذاشته شده» برمي‌گردد از آنجائيكه هر گروه شامل پردازشگر، حافظه محلي و منابع ديسك صفر به اشتراك گذاشته با ديگر گره‌ها در گروه مي‌شود.

در محاسبه موازي اين روش به طور مناسب براي مشكلات پردازش داده‌ها بررسي مي‌شود كه به طور ناهماهنگ موازي هستند، به طور مثال جائيكه آن نسبتاً آسان است تا مشكل را درون يك تعدادكارهاي موازي جدا مي‌شود و هيچ وابستگي يا ارتباطي وجود ندارد كه بين كارها نسبت به مديريت جامع از كارها نياز باشد. اين انواع از مشكلات پردازش داده به طور ذاتي مناسب با شكل‌هاي متنوع از محاسبات توزيع شده هستند كه شامل گروهها و رشته‌هاي داده و محاسبات كلود مي‌شود.
۲-۲-۵- مشخصه‌هاي مشترك

چندين مشخصه مشترك مهم از سيستم‌هاي محاسباتي داده هاي فشرده وجود دارد كه آنها را از ديگر شكل هاي محاسبه تشخيص مي‌دهد. اولين اصول مجموعه از داده و برنامه‌ها يا الگوريتم‌ها است كه محاسبات را انجام مي‌دهد. براي انجام كارايي بالا در محاسبات داده فشرده، آن مهم است كه حركت داده را به حداقل برساند (گري، ۲۰۰۸). در تباين مستقيم با ديگر انواع از محاسبات و ابر محاسبات از داده ذخيره شده در يك مخزن جدا استفاده مي‌كند و يا به كار مي‌برد و داده‌ها را براي سيستم پردازش براي محاسبات انتقال مي‌دهد و محاسبات داده‌هاي فشرده از داده‌هاي توزيع شده و سيستم‌هاي فايل توزيع شده استفاده مي‌كندكه در آن داده‌ها در مقابل يك گروه از گره‌هاي پردازش قرار داشت و به جاي حركت

داده برنامه يا الگوريتم به گره‌هايي يا داده انتقال يافته كه نياز به پردازش داشته باشد. اين اصل «حركت كد به داده» كه درون معماري پردازش موازي داده‌ها طراحي شده بود توسط Seasint در سال ۲۰۰۳ اجرا شد و به شدت قابل اجرا است از آنجائيكه سايز برنامه معمولاً در مقايسه با مجموعه داده‌هاي بزرگ پردازش شده توسط سيستم‌هاي داده‌هاي فشرده كوچك است و در بيشتر شبكه‌هاي كم ترافيك ناشي مي‌شود از آنجائيكه داده‌ها مي‌تواند به طور محلي به جاي مقابل شبكه خوانده شود. اين مشخصه اجازه پردازش الگوريتم‌ها را مي‌دهد تا بروي گره‌ها اجرا شود آنجا كه اقامت داده‌ها در حال كاهش مازاد سيستم و افزايش اجرا هستند (گوركون و همكاران، ۲۰۰۸).

مشخصه مهم دوم از سيستم‌هاي محاسبه فشرده دروني مدل برنامه نويسي به كار گرفته شده است. سيستم‌هاي محاسبه فشرده داده‌ها يك روش مستقل ماشيني به كار مي‌برد كه در آن كاربردها برحسب عمليات سطح بالا بر روي داده‌ها بيان مي‌شود و سيستم زمان اجرا به طور شفاف زمان بندي، اجرا، تراز بار، ارتباطات و حركت برنامه‌ها و داده‌ها را در مقابل گروه محاسبه توزيع شده كنترل مي‌نمايد (بريانت ۲۰۰۸). چيكده برنامه نويسي و ابزارهاي زبان اجازه پردازش مي‌دهد تا برحسب جريان‌هاي داده بيان مي‌شود و تغيير شكل‌ها زبان‌هاي برنامه نويسي جريان داده جديد را هماهنگ مي‌كند و كتابخانه‌هاي متصل به شبكه از الگوريتم‌هاي دستكاريداده‌هاي مشترك از قبيل مرتب نمودن را هماهنگ مي‌:ند. ابر محاسبات

قراردادي و سيستم‌هاي محاسبه توزيع شده به طورمعمول مدل‌هاي برنامه نويسي وابسته ماشيني را استفاده مي‌كند كه مي‌تواند نيازمند كنترل برنامه نويس سطح پايين از پردازش باشد و ارتباطات گره از زبان‌هاي برنامه نويسي موثر قراردادي استفاده مي‌كند و نيز از پكيج‌هاي نرم افزاري اختصاص يافته استفاده مي نمايد كه پيچيدگي را به كار برنامه نويسي موازي اضافه نمايد و بهره‌وري برنامه نويس را كاهش مي‌دهد.

يك مدل برنامه نويسي وابسته ماشيني نيز نيازمند ميزان سازي مهم مي‌باشد و تا حد زيادي به نقاط تنها از نقص، حساس مي‌باشد. مشخصه سوم مهم از سيستم‌هاي محاسبات داده‌هاي فشرده تمركز بر روي قابليت اطمينان و دسترس‌پذيري است. سيستم‌هايي در مقياس بزرگ با صدها يا هزاران گره‌هاي پردازش به طور ذاتي نسبت به نقص‌هاي سخت افزار، خطاهاي ارتباطات و ويروس‌هاي نرم افزاري حساس هستند. سيستم‌هاي محاسبات داده‌هاي فشرده طراحي شدند تا نشان دهنده نقص باشند. اين شامل كپي‌هاي اضافي از تمامي فايل‌هاي داده‌ها بر روي ديسك و ذخيره سازي از نتايج پردازش ميانجي بر روي ديسك، كشف اتوماتيكي از گره‌ها يا نقص‌هاي پردازشگر و محاسبات درباره‌ي انتخابي از نتايج مي‌شود. يك گروه پردازش‌گر براي محاسبات فشرده دروني پيكربندي شده است و به طور معمول مي‌تواندعمليات را با يك تعداد كاهش يافته از گره‌ها ادامه دهد. يك نقص گره با

بازيافت ناپيدا و اتوماتيك از پردازش ناقص به دنبال مي‌آيد. مشخصه نهايي مهم از سيستم‌هاي محاسباتي فشرده دروني به طور ذاتي مقياس پذيري از معماري نرم افزار و سخت افزار اساسي است. سيستم‌هاي محاسباتي فشرده دروني مي‌تواند به طور معمول در يك روش خطي مدرج شود تا واقعاً هر مقدار از داده را اصلا حنمايد يا با نيازهاي كارايي زمان حساس توسط اضافه كردن گره‌هاي پردازش اضافي به يك پيكربندي سيستم برخورد نمايد به منظور اينكه بيليون‌ها ثبت در هر ثانيه از ميزان پردازش انجام شود. تعدادگره‌ها و كارهاي پردازش براي كاربرد خاص تعيين شده كه مي‌تواند بسته به سخت افزار، نرم افزار، ارتباطات و معماري سيستم فايل توزيع شده متغير باشد. اين مقياس پذيري اجازه بررسي را به مشكلات محاسبات مي‌دهد تا به دليل مقدار داده مورد نياز يا مقدار زمان پردازش موردن ياز رام نشدني باشد تا اكنون فرصت‌هاي پيش آمده براي پيشرفت‌هاي جديد درتحليل داده‌ها و پردازش اطلاعات عملي و امكان پذير باشد.

۳-۲-۵- محاسبات شبكه
يك مثال مشابه محاسبات به عنوان محاسبات شبكه شناخته شده كه به طور اوليه در محيط‌هاي تحقيق محبوبيت به دست آورده است (آباس، ۲۰۰۴). يك شبكه محاسبات به طور معمول در طبيعت نامتجانس است (گره‌ها مي‌تواند پردازشگر متفاوت، حافظه و منابع ديسك داشته باشد) و شامل كامپيوترهاي مختلف چندگانه در سراسر سازمان‌ها مي‌شود و اغلب از نظر جغرافيايي از ارتباطات شبكه حوزه وسيع كه معمولاً با پهناي باند نسبتاً كم است استفاده مي‌شود. شبكه‌ها به طور معمول استفاده مي‌شوند تا مشكلات محاسبه‌اي پيچيده را حل نمايند كه محاسبات فشرده هستند و تنها به مقدار كوچكي از داده ها براي هر گره پردازش نيازمندند. تغييرات شناخته شده به عنوان شبكه‌هاي داده به مخزن‌هاي مشترك داده اجازه مي‌دهد كه توسط يك شبكه در دسترس باشد و در پردازش كاربردي استفاده شود، هرچند پهناي باند كم از شبكه‌هاي داده تأثير آنها را براي كاربردهاي داده‌هاي فشرده مقياس بزرگ محدود مي‌كند.

در مقابل سيستم‌هاي محاسبات داده‌هاي فشرده به طور معمول در طبيعت نامتجانس هستند (گره‌ها در گروه محاسبات پرداززشگر يكسان، حافظه و منابع ديسگ وارد) و از ارتباطات پهناي باند بالا بين گره‌ها از قبيل سويچ‌هاي اترنت گيگابايت استفاده مي‌كند و در نزديكي در يك مركز داده با استفاده از سخت افزار چگالي عالي از قبيل سرورهاي تيغه‌اي كه به طور قفسه سوار شده بسته مي‌شود. سيستم فايل منطقي به طو رمعمول شامل تمامي ديسك‌هاي موجود بر روي گره‌ها در گروه و فايل هاي داده‌ها مي‌شود كه در سراسر گره‌ها در مقابل مخزن داده‌هاي مشترك جدا از قبيل يك شبكه حوزه مخزن توزيع مي‌شود كه نياز دارد داده‌ها براي پردازش به سمت گره‌ها حركت كنند. از نظر جغرافيايي سيستم‌هاي شبكه توزيع شده بسيار مشكلند كه مديريت شوند و نسبت به سيستم‌هاي محاسبات داده‌هاي مشترك كمتر معتبر و كمتر اين هستند كه به طور معمول در محيط‌هاي امن مركز داده ها قرار دارد.
۴-۲-۵- قابليت اجرا محاسبات كلود
محاسبات كلود مي‌تواند قالب‌هاي زيادي به كار گيرد. بسيار كلود را به عنوان اينترنت يا وب تصور مي كنند كه اغلب در اين حالت نمايش داده مي‌شوند، اما يك تعريف بسيار كلي اين است كه محاسبات كلود از محل منابع محاسبات تغيير مي‌كند و زير ساخت كاربردهاي محاسبات را براي شبكه ارائه مي‌دهد. (واكورو و همكاران، ۲۰۰۹).

دسترس پذيري نرم افزار از طريق كلود يك سرويس مي‌شود، پايگاههاي استفاده و دسترس پذيري از طريق كلود گسترش مي‌يابد و كاربردهاي جديدي را ارائه مي‌دهد تا يك خدمت شود و سخت افزار و نرم افزار زير ساخت و مركز داده‌هاي مجازي و محيط‌هاي قابل دسترس را ايجاد مي‌نمايد كه از طريق كلود يك خدمت مي‌شود (ويس، ۲۰۰۷).

ديگر مشخصه ها معمولاً با محاسبات كلود همراه است كه شامل كاهش در هزينه‌هاي همراه با مديريت منابع سخت افزار و نرم افزار است (هايس ۲۰۰۸) توجه فوري دسترسي به كاربردهاي نرم افزار و منابع محاسبات بنا به تقاضا مي‌باشد (واكورو و همكاران، ۲۰۰۹) تأمين ذخيره ديناميك از زيرساخت و مقياس پذيري از منابع سايز داده و نيازهاي محاسبات را هماهنگ مي‌كند كه به طور مستقيم براي مشخصه‌هايي از محاسبات داده‌هاي فشرده قابل اجرا است (گروس من وگو ۲۰۰۹). بويا و همكاران (۲۰۰۹) تعريف جامع از يك كلود را ارائه مي‌دهد: يك كلود يك نوع از سيستم توزيع شده و موازي است كه شامل يك مجموعه از كامپيوترهاي مجازي شده و اصتال شده دروني مي‌باشد كه به طور ديناميك تهيه شده و به عنوان يك يا چند منابع محاسبات متحد شده براساس توافقات سطح سرويس را معرفي مي نمايد كه از طريق مذاكره بين ارائه دهنده سرويس و مصرف كننده ايجاد مي‌شود.

مدل محاسبات كلود به طور مستقيم براي مشخصه‌هاي محاسبات داده‌هاي فشرده قابل اجرا است كه زير ساختي به عنوان يك خدمت (Iaas) و پايگاه به عنوان يك خدمت (paas) هستند.
Iaas (زير ساخت به عنوان يك خدمت) به طور معمول شامل يك مخزن بزرگي از منابع مجازي شده داراي توانايي پيكرسازي مي‌شود كه مي‌تواند شامل سخت افزار، سيستم عملكرد، ميان افزار و پايگاه‌هاي پيشرفت يا ديگر خدمات نرم افزار مي‌شود كه مي‌تواند درجه دار باشد تا بارهاي پردازش متنوع را تطبيق مي‌كند (واكورو و همكاران، ۲۰۰۹). گروه‌هاي محاسبات به طور معمول براي پردازش داده‌هاي دروني استفاده مي‌شود كه مي‌تواند در اين مدل ارائه شده باشد. محيط‌هاي پردازش از قبيل مپارديوس هوپ و Hpcc ليكيس نكسنير است كه شامل قابليت‌هاي پايگاه پيشرفت اجرايي به علاوه اجراي زير ساخت اساسي پايگاه به عنوان يك مدل خدمت (paas) مي‌شود.

كاربردها با يك درجه بالايي از تطابق داده‌ها و يك نياز كه مجموعه داده‌هاي بسيار بزرگ را پيش مي‌برد و مي‌تواند مزيت محاسبات كلود و صدها استفاده Iass و paas از كامپيوترهاي تهيه شده براي يك مدت كوتاه به جاي يك يا چند تعداد كوچك از كامپيوترها براي مدت طولاني به كار گرفته شود. (آرمبراست و همكاران، ۲۰۰۹)
برطبق آرمبرلست و همكاران در گزارش تحقيقاتي بر كلي دانشگاه كاليفرنيا (آرمبراست و همكاران، ۲۰۰۹)

اين مدل پردازش به طور ويژه به خوبي با تحليل‌هاي داده و ديگر كاربردها مناسب شده كه مي‌تواند از پردازش دسته‌اي موازي سود برد. هرچند تحليل منافع و هزينه كاربر بايد نيز شامل هزينه حركت مجموعه داده‌هاي بزرگ درون كلود به علاوه تسريع و هزينه پردازش كمتر ارائه شده توسط مدل‌هاي Iass و Paas مي‌شود.
۳-۵- معماري‌هاي سيستم داده‌هاي فشرده
يك تنوعي از معماري‌هاي سيستم براي كاربردهاي تحليل داده‌ها در مقياس بزرگ و داده‌هاي فشرده اجرا مي شود شامل سيستم‌هاي مديريتي پايگاه داده‌هاي رابطه‌اي توزيع شده و موازي مي‌شود كه به طور مهم پيوسته گروههاي بي ارزش مشترك از گره‌هاي پردازش براي بيش از دو دهه موجود مي‌باشد (پاولو و همكاران، ۲۰۰۹). اين‌ها شامل سيستم‌هاي پايگاه داده‌ها از ترادتيا، نتيزا، ورتيكا و اگزاديتار اوراسل و ديگران مي‌شود كه پايگاه‌هاي داده‌هاي موازي كارايي عالي را ارائه مي‌دهد. اگرچه اين سيستم‌ها اين توانايي را دارند تا كاربردهاي موازي به كار گرفته شود و سوالات در زبان SQL بيان شود، آنها به طور معمول پايگاه‌هاي پردازش همه منظوره نيستند و معمولاً به عنوان يك برنامه كارهاي زمينه‌ايي اجرا مي شود تا يك سيستم پردازش كاربردي نرم افزار نهايي را جدا نمايد. اگرچه اين روش منافعي را ارائه مي‌دهد هنگاميكه داده‌ها به كار گرفته مي‌شود به طور اوليه در طبيعت ساخته مي‌شود و به

آساني درون محدوديت‌هايي از يك پايگاه داده رابطه‌ايي آماده مي‌شود و اغلب براي كاربردهاي پردازش تراكنشها بهتر مي‌باشد، بيشترين رشد داده‌ها با داده‌هايي به شكل غير ساختار است (گانتز و همكاران ۲۰۰۷) و مثال‌هاي پردازش جديد يا مدل‌هاي داده‌هاي بسيار انعطاف پذير مورد نياز مي‌باشد. شركت‌هاي اينترنتي از قبيل گوگل، ياهو، مايكروسافت، فيس بوك و ديگران به يك روش پردازش جديد نياز دارند تا به طور كارآمد با مقدار عظيمي از داده‌هاي وب براي كاربردهايي از قبيل موتورهاي جستجو و شبكه اجتماعي برخورد نمايد. به علاوه بسياري از سازمان‌هاي دولتي و تجاري با داده‌هايي غوطه ور شدند كه نمي‌تواند به طور موثر پردازش،‌پيوند يافته و با روش‌هاي محاسبه سنتي تحليل يافته شود. چندين راه‌حل پديدار شد كه شامل پيشگام شدن معماري Map Reduce توسط گوگل مي‌شود و اكنون دسترسي به يك اجراي منشأ باز هادوپ ناميده مي‌شود كه توسط ياهو، فيس بوك و ديگران

استفاده مي‌شود. Lexis Nexis، رهبر صنعت تصديق شده در خدمات اطلاعاتي نيز يك پايگاه مقياس پذير را براي محاسبه داده‌هاي فشرده گسترش و اجرا كرد كه توسط ليكسيس نكسيس و ديگر سازمان‌هاي دولتي و تجاري استفاده مي‌شود تا حجم‌هاي زيادي از داده‌هاي ساختار شده و غير ساختار شده پيش ببرد. اين روش‌ها توضيح داده خواهد شد و برجسب ساختار كلي‌شان، مدل برنامه‌نويسي، سيستم‌هاي فايل و قابليت اجرا كه بتواند در بخش بعدي محاسبه شود مقايسه گردد. روش‌هاي مشابه با استفاده از گروه‌هاي

محاسبات كالا شامل بخش/ حوزه (گرونس من و گو ۲۰۰۸، گروس من وگو، سابالاوژانگ ۲۰۰۹،گو، گروس من ۲۰۰۹) دامنه/ گيتي (چايكن و همكاران، ۲۰۰۸) درياد لينك (يو، گوندا و ايسارد ۲۰۰۹) منيدر (لور و همكاران ۲۰۰۸) در دسته شبكه‌ايي (ليو و اوربان ۲۰۰۸) مي‌شود كه اخيراً در ادبيات توصيف شده و نيز براي كاربردهاي محاسبات كلود داده‌هاي فشرده مناسب است و تناوب‌هاي اضافي را معرفي مي‌نمايد.
۱-۳-۵- Map Reduce گوگل
معماري مپ رديوس و مدل برنامه‌نويسي پيشگام شده توسط گوگل يك مثالي از معماري سيستم‌هاي پيشرفته است كه براي پردازش و تحليل پايگاه داده هاي بزرگ طراحي شده و به طور موفقيت آميز توسط گوگل در بسياري از كاربردها استفاده مي‌شود تا مقدار عظيمي از داده‌هاي خام وب را پردازش نمايد (دين و گماوت ۲۰۰۴) معماري مپ رديوس به برنامه نويس‌ها اجازه مي‌دهد تا از يك سبك برناهم نويسي نقشي استفاده ننمايند تا يك كار نقشه را ايجاد نمايند كه جنت مقدار كليدي همراه شده با داده‌هاي ورودي را پردازش مي كند تا يك مجموعه از جفت مقدار كليدي ميانه با همان كليد ميانه توليد نمايد (دين و گماوت ۲۰۰۴) با توجه به دين و گماووت (۲۰۰۴) برنامه‌هاي مپ رديوس مي‌تواند استفاده شود تا داده‌هاي مشتق شده را از اسنادي از قبيل شاخص‌هاي وارونه استخراج نمايد و پردازش به طور خودكار توسط سيستم موازي مي‌شود كه بر روي گروههاي زيادي از ماشين‌هاي نوع مواد اوليه اجرا مي‌شود، كه تا حد زيادي با هزاران ماشين ميزان پذيري است. از آنجائيكه سيستم به طور خودكار به جزئيات جزء‌بندي داده‌هاي ورودي زمان بندي و كارهاي اجرايي در سراسر يك گروه پردازش توجه مي‌كند و مديريت ارتباطات بين گره‌ها، برنامه ‌نويس‌ها بدون تجربه در بنرامه نويسي موازي مي‌تواند به آساني از محيط پردازش توزيع شده استفاده نمايد.