کلان داده چیست؟
Big Data مجموعه ای از داده ها است که حجم آن بسیار زیاد است، اما با گذشت زمان به طور تصاعدی در حال رشد است. این یک داده با اندازه و پیچیدگی بسیار بزرگ است که هیچ یک از ابزارهای مدیریت داده سنتی نمی توانند آن را ذخیره یا پردازش کنند. کلان داده نیز یک داده است اما با اندازه بزرگ.
در این آموزش تجزیه و تحلیل داده های بزرگ، یاد خواهید گرفت،
- دیتا چیست؟
- کلان داده چیست؟
- نمونه ای از داده های بزرگ چیست؟
- انواع داده های بزرگ
- ویژگی های داده های بزرگ
- مزایای پردازش داده های بزرگ
نمونه ای از داده های بزرگ چیست؟
در زیر چند نمونه از داده های بزرگ آورده شده است:
بورس نیویورک نمونه ای از داده های بزرگ است که روزانه حدود یک ترابایت داده تجاری جدید تولید می کند.
رسانه های اجتماعی
این آمار نشان می دهد که روزانه 500+ ترابایت داده جدید به پایگاه داده های سایت رسانه اجتماعی فیس بوک وارد می شود. این داده ها عمدتاً از نظر آپلود عکس و ویدیو، تبادل پیام، گذاشتن نظرات و غیره تولید می شوند.
یک موتور جت می تواند 10+ ترابایت داده را در 30 دقیقه زمان پرواز تولید کند. با هزاران پرواز در روز، تولید داده ها به تعداد زیادی پتابایت می رسد.
انواع داده های بزرگ
در زیر انواع داده های بزرگ آورده شده است:
- ساختار یافته
- بدون ساختار
- نیمه ساختار یافته
ساختار یافته
هر داده ای که می تواند در قالب ثابت ذخیره، دسترسی و پردازش شود، داده "ساختار یافته" نامیده می شود. در طول مدت زمان، استعدادهای علوم کامپیوتر در توسعه تکنیکهای کار با این نوع دادهها (که قالب آن از قبل شناخته شده است) و همچنین استخراج ارزش از آن، موفقیت بیشتری کسب کرده است. با این حال، امروزه ما مشکلاتی را پیشبینی میکنیم که اندازه چنین دادههایی تا حد زیادی افزایش مییابد، اندازههای معمولی در خشم چندین زتابایت قرار دارند.
میدونی؟ 10 21 بایت برابر با 1 زتابایت یا یک میلیارد ترابایت یک زتابایت را تشکیل می دهد .
با نگاهی به این ارقام می توان به راحتی متوجه شد که چرا نام Big Data بر روی آن گذاشته شده است و چالش های موجود در ذخیره سازی و پردازش آن را تصور کنید.
میدونی؟ داده های ذخیره شده در یک سیستم مدیریت پایگاه داده رابطه ای نمونه ای از داده های ساختار یافته است .
نمونه هایی از داده های ساخت یافته
جدول «کارمند» در پایگاه داده نمونهای از دادههای ساختاریافته است
Employee_ID | نام کارمند | جنسیت | بخش | حقوق_حقوقی |
---|---|---|---|---|
2365 | راجش کولکارنی | نر | دارایی، مالیه، سرمایه گذاری | 650000 |
3398 | پراتیبا جوشی | مونث | مدیر | 650000 |
7465 | شوشیل روی | نر | مدیر | 500000 |
7500 | شوبوجیت داس | نر | دارایی، مالیه، سرمایه گذاری | 500000 |
7699 | پریا سانه | مونث | دارایی، مالیه، سرمایه گذاری | 550000 |
بدون ساختار
هر داده ای با شکل یا ساختار ناشناخته به عنوان داده های بدون ساختار طبقه بندی می شود. علاوه بر بزرگ بودن اندازه، داده های بدون ساختار چالش های متعددی را در زمینه پردازش آن برای استخراج ارزش از آن ایجاد می کند. یک مثال معمولی از دادههای بدون ساختار، یک منبع داده ناهمگن است که حاوی ترکیبی از فایلهای متنی ساده، تصاویر، ویدئوها و غیره است. امروزه سازمانهای امروزی دادههای زیادی را در اختیار دارند، اما متأسفانه، نمیدانند چگونه از آن ارزش استخراج کنند. این داده ها به صورت خام یا بدون ساختار هستند.
نمونه هایی از داده های بدون ساختار
خروجی برگردانده شده توسط «جستجوی Google»
نیمه ساختار یافته
داده های نیمه ساختاریافته می توانند شامل هر دو شکل داده باشند. ما میتوانیم دادههای نیمهساختیافته را به صورت ساختار یافته ببینیم، اما در واقع با تعریف جدولی در DBMS رابطهای تعریف نشده است. نمونه ای از داده های نیمه ساختار یافته، داده ای است که در یک فایل XML نشان داده شده است.
نمونه هایی از داده های نیمه ساختار یافته
داده های شخصی ذخیره شده در یک فایل XML:
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
رشد داده ها در طول سال ها
رشد داده ها در طول سال ها
لطفاً توجه داشته باشید که دادههای برنامه کاربردی وب، که ساختاری ندارند، شامل فایلهای گزارش، فایلهای سابقه تراکنش و غیره است. سیستمهای OLTP برای کار با دادههای ساختیافته ساخته شدهاند که در آن دادهها در روابط (جدول) ذخیره میشوند.
ویژگی های داده های بزرگ
کلان داده را می توان با ویژگی های زیر توصیف کرد:
- جلد
- تنوع
- سرعت
- تغییرپذیری
(i) حجم - نام Big Data به خودی خود مربوط به اندازه ای است که بسیار زیاد است. اندازه داده ها نقش بسیار مهمی در تعیین ارزش داده ها دارد. همچنین، اینکه آیا یک داده خاص واقعاً می تواند به عنوان یک داده بزرگ در نظر گرفته شود یا خیر، به حجم داده ها بستگی دارد. از این رو، "حجم" یکی از ویژگی هایی است که باید در هنگام برخورد با راه حل های کلان داده در نظر گرفته شود.
(ii) تنوع - جنبه بعدی کلان داده تنوع آن است .
تنوع به منابع ناهمگن و ماهیت داده ها، چه ساختار یافته و چه بدون ساختار اشاره دارد. در روزهای قبل، صفحات گسترده و پایگاه های داده تنها منابع داده ای بودند که توسط اکثر برنامه ها مورد توجه قرار می گرفت. امروزه داده هایی به صورت ایمیل، عکس، فیلم، دستگاه های مانیتورینگ، پی دی اف، صوت و ... نیز در برنامه های آنالیز مورد توجه قرار می گیرند. این تنوع داده های بدون ساختار مسائل خاصی را برای ذخیره سازی، استخراج و تجزیه و تحلیل داده ها ایجاد می کند.
(iii) سرعت - اصطلاح "سرعت" به سرعت تولید داده ها اشاره دارد. سرعت تولید و پردازش داده ها برای پاسخگویی به نیازها، پتانسیل واقعی در داده ها را تعیین می کند.
Big Data Velocity با سرعتی که در آن داده ها از منابعی مانند فرآیندهای تجاری، گزارش برنامه ها، شبکه ها و سایت های رسانه های اجتماعی، حسگرها، دستگاه های تلفن همراه و غیره وارد می شوند، سروکار دارد. جریان داده ها عظیم و پیوسته است.
(IV) تغییرپذیری - این به ناهماهنگی اشاره دارد که میتواند توسط دادهها در مواقعی نشان داده شود، بنابراین فرآیند توانایی مدیریت و مدیریت دادهها را به طور موثر مختل میکند.
مزایای پردازش داده های بزرگ
توانایی پردازش Big Data در DBMS مزایای متعددی را به همراه دارد، از جمله:
- کسب و کارها می توانند در هنگام تصمیم گیری از اطلاعات بیرونی استفاده کنند
دسترسی به دادههای اجتماعی از موتورهای جستجو و سایتهایی مانند فیسبوک، توییتر، سازمانها را قادر میسازد تا استراتژیهای تجاری خود را تنظیم کنند.
- بهبود خدمات مشتری
سیستمهای سنتی بازخورد مشتری با سیستمهای جدیدی که با فناوریهای Big Data طراحی شدهاند جایگزین میشوند. در این سیستمهای جدید، دادههای بزرگ و فناوریهای پردازش زبان طبیعی برای خواندن و ارزیابی پاسخهای مصرفکننده استفاده میشوند.
- شناسایی زود هنگام خطر برای محصول/خدمات، در صورت وجود
- بهره وری عملیاتی بهتر
فناوریهای Big Data را میتوان برای ایجاد یک منطقه مرحلهبندی یا منطقه فرود برای دادههای جدید قبل از شناسایی اینکه چه دادههایی باید به انبار داده منتقل شوند، استفاده کرد . علاوه بر این، چنین ادغامی از فناوریهای کلان داده و انبار داده به سازمان کمک میکند تا دادههایی را که بهندرت به آنها دسترسی پیدا میکند، بارگیری کند.
خلاصه
- تعریف کلان داده: Big Data به معنی داده ای است که اندازه آن بزرگ است. Bigdata اصطلاحی است که برای توصیف مجموعه ای از داده ها استفاده می شود که از نظر اندازه بزرگ هستند و در عین حال با گذشت زمان به طور تصاعدی در حال رشد هستند.
- نمونه های تجزیه و تحلیل داده های بزرگ شامل بورس ها، سایت های رسانه های اجتماعی، موتورهای جت و غیره است.
- کلان داده می تواند 1) ساختاریافته، 2) بدون ساختار، 3) نیمه ساختاریافته باشد.
- حجم، تنوع، سرعت و متغیر بودن چند ویژگی کلان داده هستند
- بهبود خدمات مشتری، بهره وری عملیاتی بهتر، تصمیم گیری بهتر از مزایای Bigdata هستند.