کلان داده یا Big Data چیست ؟

کلان داده یا بیگ دیتا ، مجموعه داده هایی هستند که دارای تنوع گسترده به ویژه از منابع داده جدید  ، حجم فزاینده و با سرعت زیاد در حال افزایشند.کلان داده ها آنقدر حجیم هستند که نرم افزارهای سنتی پردازش داده نمی توانند آنها را مدیریت کنند. اما این حجم عظیم از داده ها را می توان برای رفع مشکلات تجاری که قبلاً نمی توانستید با آنها مقابله کنید، استفاده کرد.

کلان داده ترکیبی از داده‌های ساختار یافته، نیمه ساختار یافته، بدون ساختار و دربردارنده‌ی مجموعه اطلاعاتی است که دارای اندازه و پیچیدگی بسیار زیاد بوده و به طور معمول فراتر از حدی است که بتوان آن‌ها را در ابزارهای سنتی ذخیره، مدیریت و یا پردازش کرد. این داده‌ها با گذشت زمان به طور تصاعدی در حال رشد و افزایش هستند و به سرعت از چند ترابایت به چند پتابایت می‌رسند. در تعریفی دیگرکلان داده، مجموعه‌ای از تکنیک‌ها و فناوری‌هایی است که به شکل جدیدی از دسته‌بندی به منظور روشن کردن ارزش‌های پنهانی از پایگاه کلان داده که تغییر کرده، پیچیده شده و دارای مقیاس بالایی است، نیاز دارد.

از آنجا که حرف اول هر یک از ویژگی ها با حرف لاتین V آغاز می شود برخی از افراد در این حوزه آن را با مدل 3V یا 5V بیگ دیتا معرفی می کنند. از جمله ویژگی های مهم Big Data عبارتند از:

حجم داده ها (Volume)

حجم مقدار داده مهم است. با تولید و جمع آوری انبوهی از داده ها، مقیاس داده به طور قابل توجهی افزایش پیدا می کند.در واقع در مقیاس کلان داده ، باید حجم عظیمی از داده های کم تراکم و بدون ساختار  پردازش شوند.داده‌هایی مانند فیدهای توییتر و یا Clickstreams در یک صفحه وب یا یک برنامه تلفن همراه و حتی تجهیزات دارای حسگر که ارزش مشخصی ندارند ، برای برخی از سازمان ها، حجم این دادهها می تواند ده ها ترابایت و حتی  صدها پتابایت باشد.

Clickstreams رکوردی است که حاوی داده‌هایی درباره کلیک‌های کاربر وب‌سایت روی صفحه نمایش رایانه از طریق ماوس یا پد لمسی است. این نوع اطلاعات یک دنباله بصری از فعالیت کاربر را با بازخورد دقیق ارائه می دهد. 

تنوع داده ها (Variety)

تنوع دادهها ، به انواع مختلفی از داده های موجود اشاره دارد. همانطور که داده ها انواع مختلفی شامل دادههای سنتی ساختار یافته، نیمه ساختار یافته و غیر ساختار یافته دارند از این رو باید برای جمع آوری و ذخیره سازی آنها دسته بندی های مختلفی را در نظر گرفت.با ظهور کلان داده ها، داده ها به انواع داده های بدون ساختار جدید می آیند. انواع داده های غیرساختار یافته و نیمه ساختاریافته، مانند متن، صدا، و ویدئو، به پیش پردازش اضافی برای استخراج معنی و پشتیبانی از ابرداده نیاز دارند.

سرعت تولید داده ها (Velocity)

تولید داده ها با سرعت بسیار بالایی انجام می شود و بسیار مهم است که تحلیل اطلاعات با سرعت بالا و همچنین کمترین ضریب اشتباه صورت گرفت که برای این کار می توان از تکنولوژی هایی استفاده کرد.

راه‌حل‌های ذخیره‌سازی کلان داده کدامند؟

راه‌حل‌های ذخیره‌سازی کلان داده، فناوری‌ها و سیستم‌هایی هستند که برای ذخیره و مدیریت حجم زیادی از داده‌های ساختاریافته و بدون ساختار طراحی شده‌اند. این راه‌حل‌ها اغلب از معماری‌های ذخیره‌سازی توزیع‌شده، مانند سیستم‌های فایل توزیع‌شده یا پایگاه‌های داده NoSQL، برای مدیریت مقیاس عظیم و تنوع داده‌ها استفاده می‌کنند. آنها زیرساخت های ذخیره سازی قابل اعتماد و مقیاس پذیری را ارائه می دهند که می تواند رشد سریع داده ها را تطبیق دهد و از بازیابی و پردازش کارآمد داده برای تجزیه و تحلیل داده های بزرگ و سایر برنامه ها پشتیبانی کند.

چرا به ابزار ذخیره سازی کلان دیتا نیاز دارید؟

بیش از 150 زتابایت داده تا سال 2025 نیاز به تجزیه و تحلیل خواهد داشت. یک سازمان تنها در صورتی می تواند از قدرت Big Data استفاده کند که یک راه حل ذخیره سازی ایمن داشته باشد که بتواند به طور انبوه برای مقابله با چالش کلان داده ها مقیاس شود. ابزارهای ذخیره‌سازی کلان داده، داده‌های بزرگ را جمع‌آوری و مدیریت می‌کنند و تجزیه و تحلیل داده‌ها را در زمان واقعی فعال می‌کنند.

به طور کلی، معماری ذخیره سازی کلان داده به دسته های زیر تقسیم می شود:

  • نودهای سرور توزیع شده جغرافیایی مانند مدل Apache Hadoop
  • چارچوب های پایگاه داده مانند NoSQL
  • ذخیره سازهای Scale Out NAS متصل به شبکه

Scale Out NAS، نوعی File Level Storage است که به عنوان بخشی از فایل سیستم توسعه یافته کار می‌کند و می‌تواند یک تک Volume را با یک تک Namespace در تعدادی Node توسعه دهد. این راهکار می‌تواند برای کنترل هزاران کاربر، چندین پتابایت را فراهم کند و وقتی ظرفیت افزایش یابد، کارایی نیز افزایش خواهد یافت.

  • شبکه های ذخیره سازی SAN
  • درایو حالت جامد یا SSD

درایو حالت‌جامد (Solid State Drive) یا اس‌اس‌دی یا حافظهٔ پایدار تراشه‌ای که به درایو حالت‌جامد یا درایو الکترونیکی نیز شناخته می‌شود ابزار حافظه رایانه‌ای است که از تراشه برای ذخیره‌سازی دائم داده‌ها استفاده می‌کند.

  • ذخیره سازی مبتنی بر شی
  • دریاچه های داده (ذخیره اطلاعات خام)

دریاچه داده (Data Lake)، نوعی مخزن ذخیره سازی است که می‌تواند حجم زیادی از داده‌ها از منابع مختلف را به صورت خام نگهداری کند. این داده‌ها به صورت ساختار یافته، نیمه ساختار یافته و ساختار نیافته هستند. در واقع داده‌ها می‌توانند در قالبی انعطاف پذیر، برای استفاده در آینده، نگهداری شوند. یک Data Lake در هنگام ذخیره سازی داده‌ها، برای بازیابی سریع‌تر، آن‌ها را با شناسه‌ها و برچسب‌های فراداده، مرتبط می‌کند.

  • انبارهای داده (ذخیره داده های پردازش شده)