کلان داده یا Big Data چیست ؟
کلان داده یا بیگ دیتا ، مجموعه داده هایی هستند که دارای تنوع گسترده به ویژه از منابع داده جدید ، حجم فزاینده و با سرعت زیاد در حال افزایشند.کلان داده ها آنقدر حجیم هستند که نرم افزارهای سنتی پردازش داده نمی توانند آنها را مدیریت کنند. اما این حجم عظیم از داده ها را می توان برای رفع مشکلات تجاری که قبلاً نمی توانستید با آنها مقابله کنید، استفاده کرد.
از آنجا که حرف اول هر یک از ویژگی ها با حرف لاتین V آغاز می شود برخی از افراد در این حوزه آن را با مدل 3V یا 5V بیگ دیتا معرفی می کنند. از جمله ویژگی های مهم Big Data عبارتند از:
حجم داده ها (Volume)
حجم مقدار داده مهم است. با تولید و جمع آوری انبوهی از داده ها، مقیاس داده به طور قابل توجهی افزایش پیدا می کند.در واقع در مقیاس کلان داده ، باید حجم عظیمی از داده های کم تراکم و بدون ساختار پردازش شوند.دادههایی مانند فیدهای توییتر و یا Clickstreams در یک صفحه وب یا یک برنامه تلفن همراه و حتی تجهیزات دارای حسگر که ارزش مشخصی ندارند ، برای برخی از سازمان ها، حجم این دادهها می تواند ده ها ترابایت و حتی صدها پتابایت باشد.
Clickstreams رکوردی است که حاوی دادههایی درباره کلیکهای کاربر وبسایت روی صفحه نمایش رایانه از طریق ماوس یا پد لمسی است. این نوع اطلاعات یک دنباله بصری از فعالیت کاربر را با بازخورد دقیق ارائه می دهد.
تنوع داده ها (Variety)
تنوع دادهها ، به انواع مختلفی از داده های موجود اشاره دارد. همانطور که داده ها انواع مختلفی شامل دادههای سنتی ساختار یافته، نیمه ساختار یافته و غیر ساختار یافته دارند از این رو باید برای جمع آوری و ذخیره سازی آنها دسته بندی های مختلفی را در نظر گرفت.با ظهور کلان داده ها، داده ها به انواع داده های بدون ساختار جدید می آیند. انواع داده های غیرساختار یافته و نیمه ساختاریافته، مانند متن، صدا، و ویدئو، به پیش پردازش اضافی برای استخراج معنی و پشتیبانی از ابرداده نیاز دارند.
سرعت تولید داده ها (Velocity)
تولید داده ها با سرعت بسیار بالایی انجام می شود و بسیار مهم است که تحلیل اطلاعات با سرعت بالا و همچنین کمترین ضریب اشتباه صورت گرفت که برای این کار می توان از تکنولوژی هایی استفاده کرد.
راهحلهای ذخیرهسازی کلان داده کدامند؟
راهحلهای ذخیرهسازی کلان داده، فناوریها و سیستمهایی هستند که برای ذخیره و مدیریت حجم زیادی از دادههای ساختاریافته و بدون ساختار طراحی شدهاند. این راهحلها اغلب از معماریهای ذخیرهسازی توزیعشده، مانند سیستمهای فایل توزیعشده یا پایگاههای داده NoSQL، برای مدیریت مقیاس عظیم و تنوع دادهها استفاده میکنند. آنها زیرساخت های ذخیره سازی قابل اعتماد و مقیاس پذیری را ارائه می دهند که می تواند رشد سریع داده ها را تطبیق دهد و از بازیابی و پردازش کارآمد داده برای تجزیه و تحلیل داده های بزرگ و سایر برنامه ها پشتیبانی کند.
چرا به ابزار ذخیره سازی کلان دیتا نیاز دارید؟
بیش از 150 زتابایت داده تا سال 2025 نیاز به تجزیه و تحلیل خواهد داشت. یک سازمان تنها در صورتی می تواند از قدرت Big Data استفاده کند که یک راه حل ذخیره سازی ایمن داشته باشد که بتواند به طور انبوه برای مقابله با چالش کلان داده ها مقیاس شود. ابزارهای ذخیرهسازی کلان داده، دادههای بزرگ را جمعآوری و مدیریت میکنند و تجزیه و تحلیل دادهها را در زمان واقعی فعال میکنند.
به طور کلی، معماری ذخیره سازی کلان داده به دسته های زیر تقسیم می شود:
- نودهای سرور توزیع شده جغرافیایی مانند مدل Apache Hadoop
- چارچوب های پایگاه داده مانند NoSQL
- ذخیره سازهای Scale Out NAS متصل به شبکه
Scale Out NAS، نوعی File Level Storage است که به عنوان بخشی از فایل سیستم توسعه یافته کار میکند و میتواند یک تک Volume را با یک تک Namespace در تعدادی Node توسعه دهد. این راهکار میتواند برای کنترل هزاران کاربر، چندین پتابایت را فراهم کند و وقتی ظرفیت افزایش یابد، کارایی نیز افزایش خواهد یافت.
- شبکه های ذخیره سازی SAN
- درایو حالت جامد یا SSD
درایو حالتجامد (Solid State Drive) یا اساسدی یا حافظهٔ پایدار تراشهای که به درایو حالتجامد یا درایو الکترونیکی نیز شناخته میشود ابزار حافظه رایانهای است که از تراشه برای ذخیرهسازی دائم دادهها استفاده میکند.
- ذخیره سازی مبتنی بر شی
- دریاچه های داده (ذخیره اطلاعات خام)
دریاچه داده (Data Lake)، نوعی مخزن ذخیره سازی است که میتواند حجم زیادی از دادهها از منابع مختلف را به صورت خام نگهداری کند. این دادهها به صورت ساختار یافته، نیمه ساختار یافته و ساختار نیافته هستند. در واقع دادهها میتوانند در قالبی انعطاف پذیر، برای استفاده در آینده، نگهداری شوند. یک Data Lake در هنگام ذخیره سازی دادهها، برای بازیابی سریعتر، آنها را با شناسهها و برچسبهای فراداده، مرتبط میکند.
- انبارهای داده (ذخیره داده های پردازش شده)