جزئیات وبلاگ

تصاویر
تصاویر
  • مدیر
  • علم داده

کلان داده یا BigData چیست؟

کلان داده چیست؟

Big Data مجموعه ای از داده ها است که حجم آن بسیار زیاد است، اما با گذشت زمان به طور تصاعدی در حال رشد است. این یک داده با اندازه و پیچیدگی بسیار بزرگ است که هیچ یک از ابزارهای مدیریت داده سنتی نمی توانند آن را ذخیره یا پردازش کنند. کلان داده نیز یک داده است اما با اندازه بزرگ.

در این آموزش تجزیه و تحلیل داده های بزرگ، یاد خواهید گرفت،

  • دیتا چیست؟
  • کلان داده چیست؟
  • نمونه ای از داده های بزرگ چیست؟
  • انواع داده های بزرگ
  • ویژگی های داده های بزرگ
  • مزایای پردازش داده های بزرگ

 

نمونه ای از داده های بزرگ چیست؟

در زیر چند نمونه از داده های بزرگ آورده شده است:

بورس  نیویورک نمونه ای از داده های بزرگ است که روزانه حدود  یک ترابایت  داده تجاری جدید تولید می کند.

نمونه ای از داده های بزرگ

رسانه های اجتماعی

این آمار نشان می دهد که  روزانه 500+ ترابایت  داده جدید به پایگاه داده های سایت رسانه اجتماعی  فیس بوک وارد می شود. این داده ها عمدتاً از نظر آپلود عکس و ویدیو، تبادل پیام، گذاشتن نظرات و غیره تولید می شوند.

نمونه ای از داده های بزرگ

یک  موتور جت  می تواند  10+ ترابایت  داده را در  30 دقیقه  زمان پرواز تولید کند. با هزاران پرواز در روز، تولید داده ها به تعداد زیادی  پتابایت می رسد.

نمونه ای از داده های بزرگ

 

انواع داده های بزرگ

در زیر انواع داده های بزرگ آورده شده است:

  1. ساختار یافته
  2. بدون ساختار
  3. نیمه ساختار یافته

ساختار یافته

هر داده ای که می تواند در قالب ثابت ذخیره، دسترسی و پردازش شود، داده "ساختار یافته" نامیده می شود. در طول مدت زمان، استعدادهای علوم کامپیوتر در توسعه تکنیک‌های کار با این نوع داده‌ها (که قالب آن از قبل شناخته شده است) و همچنین استخراج ارزش از آن، موفقیت بیشتری کسب کرده است. با این حال، امروزه ما مشکلاتی را پیش‌بینی می‌کنیم که اندازه چنین داده‌هایی تا حد زیادی افزایش می‌یابد، اندازه‌های معمولی در خشم چندین زتابایت قرار دارند.

میدونی؟ 10 21  بایت  برابر با  1 زتابایت  یا  یک میلیارد ترابایت یک زتابایت  را تشکیل می دهد .

با نگاهی به این ارقام می توان به راحتی متوجه شد که چرا نام Big Data بر روی آن گذاشته شده است و چالش های موجود در ذخیره سازی و پردازش آن را تصور کنید.

میدونی؟  داده های ذخیره شده در یک سیستم مدیریت پایگاه داده رابطه ای نمونه ای از  داده های ساختار یافته است  .

نمونه هایی از داده های ساخت یافته

جدول «کارمند» در پایگاه داده نمونه‌ای از داده‌های ساختاریافته است

Employee_ID نام کارمند جنسیت بخش حقوق_حقوقی
2365  راجش کولکارنی  نر  دارایی، مالیه، سرمایه گذاری 650000
3398  پراتیبا جوشی  مونث  مدیر  650000
7465  شوشیل روی  نر  مدیر  500000
7500  شوبوجیت داس  نر  دارایی، مالیه، سرمایه گذاری  500000
7699  پریا سانه  مونث  دارایی، مالیه، سرمایه گذاری  550000

بدون ساختار

هر داده ای با شکل یا ساختار ناشناخته به عنوان داده های بدون ساختار طبقه بندی می شود. علاوه بر بزرگ بودن اندازه، داده های بدون ساختار چالش های متعددی را در زمینه پردازش آن برای استخراج ارزش از آن ایجاد می کند. یک مثال معمولی از داده‌های بدون ساختار، یک منبع داده ناهمگن است که حاوی ترکیبی از فایل‌های متنی ساده، تصاویر، ویدئوها و غیره است. امروزه سازمان‌های امروزی داده‌های زیادی را در اختیار دارند، اما متأسفانه، نمی‌دانند چگونه از آن ارزش استخراج کنند. این داده ها به صورت خام یا بدون ساختار هستند.

نمونه هایی از داده های بدون ساختار

خروجی برگردانده شده توسط «جستجوی Google»

 

 

نمونه ای از داده های بدون ساختار

 

 

نیمه ساختار یافته

داده های نیمه ساختاریافته می توانند شامل هر دو شکل داده باشند. ما می‌توانیم داده‌های نیمه‌ساخت‌یافته را به صورت ساختار یافته ببینیم، اما در واقع با تعریف جدولی در DBMS رابطه‌ای تعریف نشده است. نمونه ای از داده های نیمه ساختار یافته، داده ای است که در یک فایل XML نشان داده شده است.

نمونه هایی از داده های نیمه ساختار یافته

داده های شخصی ذخیره شده در یک فایل XML:

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

رشد داده ها در طول سال ها

 

 

رشد داده ها

 

رشد داده ها در طول سال ها

 

 

 لطفاً توجه داشته باشید که داده‌های برنامه کاربردی وب، که ساختاری ندارند، شامل فایل‌های گزارش، فایل‌های سابقه تراکنش و غیره است. سیستم‌های OLTP برای کار با داده‌های ساخت‌یافته ساخته شده‌اند که در آن داده‌ها در روابط (جدول) ذخیره می‌شوند.

ویژگی های داده های بزرگ

کلان داده را می توان با ویژگی های زیر توصیف کرد:

  • جلد
  • تنوع
  • سرعت
  • تغییرپذیری

(i) حجم -  نام Big Data به خودی خود مربوط به اندازه ای است که بسیار زیاد است. اندازه داده ها نقش بسیار مهمی در تعیین ارزش داده ها دارد. همچنین، اینکه آیا یک داده خاص واقعاً می تواند به عنوان یک داده بزرگ در نظر گرفته شود یا خیر، به حجم داده ها بستگی دارد. از این رو،  "حجم"  یکی از ویژگی هایی است که باید در هنگام برخورد با راه حل های کلان داده در نظر گرفته شود.

(ii) تنوع -  جنبه بعدی کلان داده  تنوع آن است .

تنوع به منابع ناهمگن و ماهیت داده ها، چه ساختار یافته و چه بدون ساختار اشاره دارد. در روزهای قبل، صفحات گسترده و پایگاه های داده تنها منابع داده ای بودند که توسط اکثر برنامه ها مورد توجه قرار می گرفت. امروزه داده هایی به صورت ایمیل، عکس، فیلم، دستگاه های مانیتورینگ، پی دی اف، صوت و ... نیز در برنامه های آنالیز مورد توجه قرار می گیرند. این تنوع داده های بدون ساختار مسائل خاصی را برای ذخیره سازی، استخراج و تجزیه و تحلیل داده ها ایجاد می کند.

(iii) سرعت -  اصطلاح  "سرعت"  به سرعت تولید داده ها اشاره دارد. سرعت تولید و پردازش داده ها برای پاسخگویی به نیازها، پتانسیل واقعی در داده ها را تعیین می کند.

Big Data Velocity با سرعتی که در آن داده ها از منابعی مانند فرآیندهای تجاری، گزارش برنامه ها، شبکه ها و سایت های رسانه های اجتماعی، حسگرها، دستگاه های تلفن همراه و غیره وارد می شوند، سروکار دارد. جریان داده ها عظیم و پیوسته است.

(IV) تغییرپذیری -  این به ناهماهنگی اشاره دارد که می‌تواند توسط داده‌ها در مواقعی نشان داده شود، بنابراین فرآیند توانایی مدیریت و مدیریت داده‌ها را به طور موثر مختل می‌کند.

مزایای پردازش داده های بزرگ

توانایی پردازش Big Data در DBMS مزایای متعددی را به همراه دارد، از جمله:

  • کسب و کارها می توانند در هنگام تصمیم گیری از اطلاعات بیرونی استفاده کنند

دسترسی به داده‌های اجتماعی از موتورهای جستجو و سایت‌هایی مانند فیس‌بوک، توییتر، سازمان‌ها را قادر می‌سازد تا استراتژی‌های تجاری خود را تنظیم کنند.

  • بهبود خدمات مشتری

سیستم‌های سنتی بازخورد مشتری با سیستم‌های جدیدی که با فناوری‌های Big Data طراحی شده‌اند جایگزین می‌شوند. در این سیستم‌های جدید، داده‌های بزرگ و فناوری‌های پردازش زبان طبیعی برای خواندن و ارزیابی پاسخ‌های مصرف‌کننده استفاده می‌شوند.

  • شناسایی زود هنگام خطر برای محصول/خدمات، در صورت وجود
  • بهره وری عملیاتی بهتر

فناوری‌های Big Data را می‌توان برای ایجاد یک منطقه مرحله‌بندی یا منطقه فرود برای داده‌های جدید قبل از شناسایی اینکه چه داده‌هایی باید به انبار داده منتقل شوند، استفاده کرد . علاوه بر این، چنین ادغامی از فناوری‌های کلان داده و انبار داده به سازمان کمک می‌کند تا داده‌هایی را که به‌ندرت به آنها دسترسی پیدا می‌کند، بارگیری کند.

خلاصه

  • تعریف کلان داده: Big Data به معنی داده ای است که اندازه آن بزرگ است. Bigdata اصطلاحی است که برای توصیف مجموعه ای از داده ها استفاده می شود که از نظر اندازه بزرگ هستند و در عین حال با گذشت زمان به طور تصاعدی در حال رشد هستند.
  • نمونه های تجزیه و تحلیل داده های بزرگ شامل بورس ها، سایت های رسانه های اجتماعی، موتورهای جت و غیره است.
  • کلان داده می تواند 1) ساختاریافته، 2) بدون ساختار، 3) نیمه ساختاریافته باشد.
  • حجم، تنوع، سرعت و متغیر بودن چند ویژگی کلان داده هستند
  • بهبود خدمات مشتری، بهره وری عملیاتی بهتر، تصمیم گیری بهتر از مزایای Bigdata هستند.