Loading…

جزیره تحصیلات آکادمیک فناوری اطلاعات

امتیازات این مطلب
مقاله: Big Data یا داده های حجیم چه هستند ؟
Big Data یا داده های حجیم چه هستند

Big data اصطلاحی است برای مجموعه داده های حجیم که بزرگ ، متنوع ، با ساختار پیچیده و با دشواریهایی برای ذخیره سازی ، تحلیل و تصویرسازی (نمایش) ، پردازشهای بیشتر یا نتایج میباشد. پروسه تحقیق بر روی داده های حجیم جهت آشکارسازی الگوهای مخفی و راز همبستگی ها ، تجزیه و تحلیل big data نامیده میشود. این اطلاعات مفید برای سازمانها وشرکتها در جهت کسب بینش غنی تر و عمیق تر و موفقیت در رقابت کمک میکند. به همین دلیل اجراهای big data نیاز دارند تا در صورت امکان ، تحلیل شوند و به طور دقیق اجرا شوند. این گزارش خلاصه ای از محتوای big data ، هدف ، مثالها ، روشها ، منافع و چالش ها ارائه میدهد و در خصوص نگرانیهای حفظ حریم خصوصی در big data بحث میکند.

مقدمه


Big data و تجزیه و تحلیلش در مرکز علوم و تجارتهای مدرن هستند. این داده ها از تراکنشهای online ، email ها ، ویدئوها ، صوتها ، کلیک کردن ها ، log ها و ارسالها ، درخواستهای جستجو ، یادداشتهای درست ، تعاملات شبکه های اجتماعی ، داده های علمی ، سنسورها و تلفنهای همراه و برنامه های کاربردی آنها تولید میشوند. آنها بر روی پایگاه داده ها که به شکل حجیم رشد میکنند ، ذخیره میشوند و ضبط ، شکل دهی ، ذخیره سازی ، مدیریت ، به اشتراک گذاری ، تحلیل و نمایش آنها از طریق ابزارهای نوعی نرم افزار پایگاه داده ها ، دشوار میشود. پنج اگزا بایت (10 به توان 18 بایت) دیتا تا سال 2003 به وسیله انسان به وجود آمده است. امروزه این مقدار اطلاعات در دو روز تولید میشود. در سال 2012 داده های دنیای دیجیتال به 2.72 زتا بایت ( 10 به توان 21 بایت) توسعه پیدا کرد. پیش بینی میشود که این مقدار هر دو سال ، دو برابر شود وبه حدود 8 زتا بایت داده در سال 2015 میرسیم.

IBM نشان داد که هر روز 2.5 اگزا بایت داده تولید میشود و همچنین %90 از داده ها در 2 سال اخیر تولید شده است. یک کامپیوتر شخصی حدود 500 گیگا بایت (10 به توان 9 بایت) داده نگه میدارد ، بنابراین برای ذخیره سازی همه داده های دنیا به حدود 20 میلیارد PC نیاز است. در گذشته پروسه آشکارسازی ژنهای بشر تقریباً 10 سال وقت میگرفت ، هم اکنون بیشتر از یک هفته نمیشود. داده های چند رسانه ای وزن بزرگی در ترافیک اینترنت دارند و انتظار میرود به %70 در سال 2013 افزایش یابد. فقط google بیش از یک میلیون سرور در دور جهان دارد. 6 میلیارد اشتراک موبایل در دنیا وجود دارد و هر روز 10 میلیارد متن پیام (message) ارسال میشود. در سال 2020 ، 50 میلیارد دستگاه به شبکه ها و اینترنت متصل خواهند بود.

در سال 2012 مواجهه بشر با big data به عنوان یک پروژه جهانی انجام شد با مرکزیت مجموعه ای بلادرنگ که مقدار بزرگی از داده ها را نمایش میدهد و تحلیل میکند. بر اساس این پروژه خیلی آمارها نتیجه گرفته شد. Facebook ، نهصد و نود و پنج میلیون حساب کاربری فعال ماهانه با 70 زبان دارد ، 140 میلیارد تصویر آپلود شده است ، 125 میلیارد اتصالات دوستها و روزانه 30 میلیارد قطعه های با محتوا و 2.7 میلیارد like و comment ارسال میشود. هر دقیقه 48 ساعت ویدئو آپلود میشود و هر روز 4 میلیارد view در YouTube اجرا میشود. Google خدمات بسیاری را پشتیبانی میکند از جمله 7.2 میلیارد page را هر روز مونیتور میکند و همچنین 20 پتا بایت (10 به توان 15 بایت) داده را روزانه به 66 زبان ترجمه میکند. یک میلیارد Tweet هر 72 ساعت از بیشتر از 140 میلیون کاربر فعال در Twitter داریم. 571 وبسایت جدید در هر دقیقه ساخته میشود. در حدود دهه بعد ، تعداد اطلاعات 50 برابر افزایش پیدا خواهد کرد اما تعداد متخصصان تکنولوژی اطلاعات که همه آن اطلاعات را کنترل میکنند ، 1.5 برابر افزایش پیدا خواهد کرد.در قسمت 1 پیامدهای اساسی ، مزایا ، چالشها ، بررسی نتایج ، مثالها ، روشها و اکتشاف دانش از big data ارائه داده شده است و در قسمت 2 پیامدهای مهم در پیامدهای امنیتی بازبینی میشود و قسمت 3 مزایا ، موانع بالفعل ، چالشها و موانع big data را ارائه میدهد و قسمت 4شامل کارها میباشد.

Big Data چیست


1.BIG DATA


در این قسمت پیامدهای مهم بازبینی میشوند و در بخشهای مختلف شرح داده میشوند.
1-1.پیامد های مهم
Big Data به یک گام چرخشی رو به جلو از تحلیل داده های سنتی نیاز دارد که با سه مؤلفه اصلی اش توصیف میشود: variety (تنوع یا گوناگونی) ، volume (حجم) ، velocity (سرعت).
Image


  • Variety (تنوع وگوناگونی): تنوع ، Big Data را واقعاً بزرگ میکند. Big Data از یک تنوع بزرگ از منابع می آید و عموماً این سه نوع را دارد: structured (ساخت یافته) ، semi structured (نیمه ساخت یافته) ، unstructured (بدون ساخت) ، داده های ساخت یافته در یک انبار داده قبلاً برچسب زده شده insert میشود و به راحتی ذخیره میشود. اما داده های بدون ساخت ، رندوم هستند و تحلیل آنها دشوار است. داده های نیمه ساخت یافته ، با فیلدهای ثابت تطبیق داده نمیشوند اما شامل برچسبهایی جهت جداسازی عناصر داده میباشند.
  • Volume (حجم): حجم یا اندازه داده ، هم اکنون بزرگتر از ترا بایت(10 به توان 12 بایت) و پتا بایت(10 به توان 15بایت) است. مقیاس بزرگ و پیشرفت داده ها ، روشهای سنتی ذخیره سازی و تکنیک های تحلیل را پشت سر میگذارد.
  • Velocity (سرعت): سرعت نه تنها لازمه Big Data است ، بلکه لازمه همه پردازشها است. برای پردازشهای محدود به زمان ، Big Data باید مورد استفاده قرار بگیرد همانطور که در سازماندهی به منظور به حداکثر رساندن ارزش خود، جریان دارد.در کنار کثرت این اطلاعات ، مؤلفه دیگر ، تصدیق جریان داده است. کنترل داده بزرگ مشکل است ، بنابراین امنیت داده باید تأمین شود. بعلاوه پس از تولید و پردازش Big Data ، آن باید یک مقدار اضافه جهت سازماندهی ایجاد کند. برخی سؤال و جوابهای مهم وجود دارد که در زیر خلاصه شده است که توسط مؤسسه TDWI جهت مدیریت حرفه ای داده ، پرسیده شده و مورد بررسی قرار گرفته است.
    1. پس از سازماندهی نوعی از تجزیه و تحلیل Big Data که به کار برده شده ، این منافع اتفاق می افتد: بازاریابی هدفمندتر ، بینش های کاری صریح تر ، تقسیم بندی بر مبنای مشتری ، تشخیص فروشها و شانسهای بازار.
    2. در طول تکمیل شدن تحلیل Big Data ، این پیامدها موانع مستعد هستند: چیزهای بی تخصص ، هزینه ، محرومیت از ضمانت و حمایت از کار ، سختی طراحی سیستم های تحلیل ، فقدان نرم افزار پایگاه داده فعلی در زمینه تجزیه و تحلیل.
    3. از آنجاییکه جمعیت قابل توجهی Big Data را هم اکنون تعریف کرده اند و در آینده Big Data به دلیل تجزیه و تحلیل جامع یک فرصت است و برخی از آنها Big Data را به دلیل مدیریت کردن یک مشکل می بینند.
    4. انواع داده های حجیم که ذخیره میشوند و به وسیله تکنیک های پیشرفته امروزی استفاده میشوند ، عبارتند از : ساخت یافته ، نیمه ساخت یافته ، رویداد (event) و داده های بدون ساخت.
    5. در حین جابه جایی سکو (platform) ، این مشکلات اتفاق می افتد: نمیتواند با حجم بزرگی از داده ها تطبیق داده شود ، نمیتواند مدلهای تجزیه و تحلیل مورد نیاز را پشتیبانی کند ، نیاز به سکوی تجزیه و تحلیل پیشرفته و اینکه فناوری اطلاعات (IT) ، نمیتواند به تقاضاها و نیازها رسیدگی کند.

همانطور که از بررسی ها دیده میشود ، تجزیه و تحلیل داده های حجیم هنوز به توجه بیشتر نیاز دارد. تجزیه و تحلیل داده های حجیم متواند به صدها سرور نیاز داشته باشد که با نرم افزار موازی به شکل انبوه اجرا میشود. آن چیزی که داده های حجیم را جدا از تنوع و حجم و سرعت آن واقعاً متمایز میکند، پتانسیل تحلیل آن برای آشکارسازی بینش های جدید جهت بهینه سازی تصمیم گیری است.

2-1.نمونه هایی از داده های حجیم


نمونه های واقعاً در دسترس از داده های حجیم عبارتند از : در ستاره شناسی ، علوم جوی ، ژنومیک(علم تجزیه وتحلیل داده های ژنتیکی) ، بیوژئوشیمی (شیمی زیستی جغرافیایی) ، علوم و تحقیقات زیستی ، دولت ، حوادث طبیعی ، منابع مدیریت ، بخش خصوصی ، مراقبت نظامی ، خدمات مالی ، جزئیات ، شبکه های اجتماعی ، وبلاگها ، متون ، اسناد ، عکاسی ، صوت ، ویدئو ، جریان کلیک کردن ، جستجو ، اندیس گذاری ، سوابق جزئیات تماس ، اطلاعات اعتباری ، شناسایی فرکانس رادیویی(RFID) ، تلفنهای همراه ، شبکه های حسگر و ارتباطات از راه دور. سازمانها در هر صنعتی که دارای داده های حجیم هستند ، میتوانند از تحلیل های دقیق خود در کسب بینش و دقیق بینی جهت حل مشکلات واقعی نفع ببرند.مؤسسه جهانی McKinsey پتانسیل داده های حجیم را در 5 موضوع اصلی مشخص کرده است:
  1. بهداشت و درمان (healthcare): سیستمهای پشتیبانی تصمیم گیری بالینی ، تجزیه و تحلیل فردی به کار برده شده برای مشخصات بیمار ، پزشکی شخصی ، عملکرد مبتنی بر ارزشگذاری برای پرسنل ، تحلیل الگوهای بیماری ، بهبود سلامت عمومی.
  2. بخش عمومی (public sector): ایجاد شفافیت به واسطه داده های وابسته در دسترس ، کشف نیازها ، بهبود عملکرد ، اقدامات سفارشی برای محصولات مناسب و خدمات ،تصمیم گیری با سیستمهای اتوماتیک برای کاهش ریسکها ، نوآوری در محصولات جدید و خدمات.
  3. جزئی (retail): در تحلیل رفتار ذخیره سازی ، بهینه سازی قیمت و تنوع ، طراحی تبلیغ محصول ، توسعه عملکرد ، بهینه سازی ورودی کار ، بهینه سازی تدارکات و توزیع ، بازارهای مبتنی بر web .
  4. ساخت (manufacturing): توسعه پیش بینی تقاضا ، برنامه ریزی زنجیره تأمین(ذخیره) ، پشتیبانی فروش ، توسعه عملیات تولید ، برنامه های کاربردی مبتنی بر جستجو در web .
  5. داده های مکانهای شخصی(personal location data): مسیر یابی هوشمند ، تبلیغات جغرافیایی هدفمند یا واکنش های اضطراری ، برنامه ریزی شهری ، مدلهای کسب و کار جدید.
Web همچنین نوعی از فرصت ها را برای داده های حجیم فراهم میکند. به عنوان مثال ، تحلیل شبکه های اجتماعی جهت درک هوش کاربر برای تبلیغات هوشمندتر ، کمپینهای بازاریابی و برنامه ریزی ظرفیت ، رفتار مشتری و الگوهای خرید و همچنین تجزیه و تحلیل احساسات. بر اساس این استنتاجها، شرکتها محتوای خود را و تدبیر توصیه خود را بهینه سازی میکنند. برخی از شرکتها نظیر گوگل و آمازون، مقالات مربوط به کار خود را چاپ میکنند. با الهام از نوشته های چاپ شده ، توسعه دهندگان تکنولوژی های مشابهی نظیر نرم افزارهای open source از قبیل Lucene ، Solr ، Hadoop و HBase را توسعه دادند.

Facebook ، Twitter و LinkedIn یک قدم جلوتر رفتند بدین شکل که پروژه های open source را برای داده های حجیم را چاپ کردند. مثل Cassandra ، Hive ، Pig ، Voldemort ، Storm ، IndexTank.علاوه بر این ، تجزیه و تحلیل های پیش گویانه بر روی جریان ترافیک و یا شناسایی خلافکارها و تهدید کردن از طریق ویدئوهای مختف و صدا و بازخورد های داده از مزایای داده های حجیم هستند.در سال 2012 دولت اوباما اعلام کرد در طرحهای Big Data بیش از 200 میلیون دلار در تحقیق و توسعه برای بنیاد ملی علوم ، مؤسسه ملی بهداشت ، وزارت دفاع ، وزارت انرژی ، سازمان زمین شناسی ایالات متحده ، سرمایه گذاری شده است. این سرمایه گذاریها برای کسب یک گام رو به جلو در ابزارها و روشها برای دستیابی ، سازماندهی و جمع آوری یافته ها از حجم زیادی از داده های دیجیتال ، انجام شده است.

3-1.روشها(Methods)


اکثر شرکتها با مقدار زیادی داده های جدید که در اشکال مختلف بسیاری دریافت میشوند ، روبرو هستند. Big Data این پتانسیل را دارد که بینش هایی ایجاد کند که میتوند هر کسب و کاری را دگرگون کند. Big Data یک صنعت کاملاً جدید از معماری های پشتیبانی کننده نظیر MapReduce ایجادکرده است. MapReduce یک framework برنامه نویسی است برای محاسبات توزیع شده که به وسیله Google تولید شده و از روش تقسیم و غلبه استفاده میکند جهت درهم شکستن مسائل داده های حجیم مختلط به بخشهای کاری کوچک و پردازش موازی آنها. MapReduce میتواند به 2 مرحله تقسیم شود:
  1. Map Step (گام نگاشت): داده گره اصلی (master node) به تعدادی زیر مسئله کوچکتر خرد میشود. یک گره کارگر (worker node) تعدادی زیر مجموعه از مسئله های کوچکتر را تحت کنترل گره دنبال کننده کار (JobTracker node) پردازش میکند و نتایج را در سیستم فایل محلی ذخیره میکند. جائیکه یک کاهنده (reducer) قادر به دسترسی به آن باشد.
  2. گام کاهش (Reduce Step): این مرحله داده های ورودی از مراحل نگاشت را تحلیل و ادغام میکند. میتواند چندین وظیفه کاهش جهت موازی سازی اجتماع ، وجود داشته باشد و این وظایف(tasks) بر روی نودهای کارگر تحت کنترل دنبال کننده کار (JobTracker) انجام میشود.

Hadoop باالهام از جدول بزرگ(Big Table) که سیستم ذخیره سازی داده های google است ، سیستم فایل google و MapReduce به وجود آمد. Hadoop یک framework مبتنی بر جاوا و سکوی متن باز ناهمگون (heterogeneous open source platform) است. Hadoop جایگزینی برای database ، انبار (warehouse) یا استراتژی ( Extract , Transform , Load ) نیست. Hadoop شامل یک سیستم فایل توزیع شده ، تجزیه و تحلیل و سکوی ذخیره سازی داده میباشد و یک لایه ای که محاسبات موازی، گردش کار و مدیریت پیکربندی را اداره میکند. Hadoop برای پردازش رویدادهای مختلط بلادرنگ مثل رشته ها طراحی نشده است.( HDFS (Hadoop Distributed File System یا سیستم فایل توزیع شده Hadoop ، درمیان گره ها در یک خوشه Hadoop ، اجرا میشود و سیستمهای فایل تعدادی داده ورودی و خروجی را به هم متصل میکندتا آنها را به صورت یک سیستم فایل بزرگ درست کند.
همانطور که در شکل زیر می بینید ، Hadoop ارائه میدهد:
  1. HDFS: یک سیستم فایل توزیع شده بسیار تحمل کننده خطا است که مسئول ذخیره سازی داده ها در کلاسترها میباشد.
  2. MapReduce: یک تکنیک برنامه نویسی قدرتمند برای پردازش موازی کلاسترها است.
  3. HBase: یک پایگاه داده توزیع شده مقیاس پذیر برای دسترسی خواندن/نوشتن به طور تصادفی است.
  4. Pig: یک سیستم پردازش داده سطح بالا برای تحلیل مجموعه های داده که به وسیله یک زبان سطح بالا رخ میدهد.
  5. Hive: یک برنامه کاربردی ذخیره سازی داده است که یک رابط (interface) مشابه SQL و مدل رابطه ای را فراهم می آورد.
  6. Sqoop: یک پروژه برای انتقال داده بین پایگاه داده رابطه ای و Hadoop.
  7. Avro: یک سیستم از داده های مرتب.
  8. Oozie: یک جریان کار برای کارهای Hadoop وابسته.
  9. Chukwa: یک زیر پروژه Hadoop به عنوان سیستم جمع آوری داده برای نظارت سیستم های توزیع شده.
  10. Flume: مجموعه log های جاری توزیع شده و قابل اعتماد.
  11. Zookeeper: یک سرویس مرکزی است جهت فراهم آوردن همزمانی توزیع شده وسرویس های گروهی.

Image


سیتمهای HPCC)high performance computing cluster)


سیستم HPCC یا کلاسترهای محاسباتی با سرعت بالا ، سکوی محاسباتی متن باز متمرکز داده ها را توزیع میکند و خدمات مدیریتی جریان کار داده های حجیم را فراهم می آورد. بر خلاف Hadoop ، مدل داده ای HPCC به وسیله کاربر تعریف میشود. کلیدی برای مشکلات پیچیده که میتواند به راحتی توسط زبان ECL سطح بالا شرح داده شود. HPCC تضمین میکند که ECL در حداکثر زمان سپری شده ، انجام شود و نودها به شکل موازی پردازش شوند. بعلاوه سکوی HPCC به ابزارهای بخش ثالث نظیر GreenPulm ، Cassandra ، RDBMS ، Oozie و ... نیاز ندارد.سه مؤلفه اصلی HPCC:
  1. THOR(پالایشگاه داده HPCC): یک موتور ETL موازی به شکل انبوه است که ادغام داده ها براساس یک مقیاس را انجام میدهد و دستکاری داده ها به شکل دسته ای را فراهم می آورد.
  2. ROXIE(موتور تحلیل داده HPCC): یک موتور موازی انبوه ، با توان عملیاتی بالا ، فوق العاده سریع ، با زمان تأخیر کم که بازیابی چند کاربره مؤثر داده و موتور پاسخ جستجوی ساخت یافته را اجازه میدهد.
  3. ECL)Enterprise Control Language): یک جریان کاری توزیع شده بین گره ها بصورت خودکار است که الگوریتمهایی همگام و خودکار دارد و ماشین توسعه پذیر کتابخانه یادگیری را توسعه میدهد و زبان برنامه نویسی مفید و ساده ای دارد که برای عملگرهای Big Data و تراکنشهای جستجو ، بهینه سازی شده است.

شکل صفحه قبل مقایسه بین سکوی سیستمهای HPCC و Hadoop را از نظر معماری و استک نشان میدهد. بر اساس منابع ، تفاوتها در زیر خلاصه شده است:
  • کلاسترهای HPCC میتوانند در Thor و Roxie اعمال شوند. کلاسترهای Hadoop با پردازش MapReduce اجرا میشوند.
  • در محیط HPCC ، ECL زبان برنامه نویسی اولیه است در حالیکه پردازش MapReduce در Hadoop بر مبنای زبان جاوا است.
  • سکوی HPCC ، شاخص چند متغیره و چند کلیده بر روی سیستم فایل توزیع شده میسازد. HBase درHadoop ، پایگاه داده ستون گرا را فراهم می آورد.
  • قابلیتهای انبار داده (data warehouse) در HPCC Roxie جهت جستجوهای ساخت یافته و برنامه های کاربردی تحلیل کننده استفاده میشود. از طرف دیگر Hive در Hadoop قابلیتهای انبار داده را فراهم می آورد و اجازه میدهد داده ها در HDFS هادوپ ، Load شوند.
  • بر روی پیکر بندی سخت افزاری مشابه یک سیستم با 400 گره ، موفقیت HPCC در 6 دقیقه و 27 ثانیه است و موفقیت Hadoop در 25 دقیقه و 28 ثانیه است. این نتایج نشان میدهد که در این مقایسه HPCC سریعتر از Hadoop است.

4-1.کشف دانش از داده های حجیم(KDD)


کشف دانش از داده های حجیم عبارت است از تعدادی عملگر که برای دریافت اطلاعات از مجموعه های داده پیچیده ، طراحی شده اند.رئوس کلی اکتشاف دانش از داده های حجیم:
  1. دامنه برنامه کاربردی مقدم به اطلاعات و تعریف هدف از پردازش از دیدگاه مشتری.
  2. ایجاد زیر مجموعه ای از داده ها که به کشف دانش اشاره میکنند.
  3. از بین بردن noise ها، اداره کردن فیلدهای داده گمشده ، جمع آوری اطلاعات مورد نیاز جهت مدلسازی و محاسبه زمان اطلاعات و تغییرات اصلی.
  4. پیدا کردن خصوصیات مفید جهت نشان دادن وابستگی داده به هدف از کار.
  5. نگاشت اهداف به روشهای داده کاوی دقیق.
  6. انتخاب الگوریتم داده کاوی و تابع جهت جستجوی الگوهای داده.
  7. جستجوی الگوها به شکل گویا.
  8. بازگشت به هر مرحله 1 تا 7 جهت تکرار و بازگویی ، همچنین این مرحله میتواند شامل تصویرسازی از الگوها باشد.
  9. استفاده از اطلاعات به شکل مستقیم ، ترکیب اطلاعات در سیستم دیگر یا گزارش گیری و استفاده از اطلاعات به شکل ساده.

رفرنس 6 ، کشف دانش از داده های حجیم با استفاده از Hadoop را در 3 اصل تحلیل میکند که عبارتنداز:
1) کشف دانش از داده ها ، شامل روشهای تحلیلی متنوعی میباشد مانند برنامه نویسی توزیع شده، الگوشناسی ، داده کاوی ، پردازش زبان طبیعی ، تجزیه و تحلیل احساسات ، تجزیه و تحلیل آماری و تصویری و تعاملات کامپیوتری بشر. بنابراین معماری باید روشهای تحلیل ومتدهای متنوعی را پشتیبانی کند.
_ تجزیه و تحلیل آماری ، علاقه مند در خلاصه سازی مجموعه داده های حجیم ، فهم داده ها و تعریف مدلهایی جهت پیشگویی میباشد.
_ داده کاوی با کشف الگوهای مفید در مجموعه داده های حجیم از طریق خودشان در ارتباط است، آموخته های ماشین که با داده کاوی ترکیب میشود و روشهای آماری که ماشینها را قادر به فهم مجموعه های داده میسازد.
_ روشهای تجزیه و تحلیل بصری ، ناحیه ای را که در آن مجموعه داده های حجیم به کاربران سرویس میدهند را توسعه میدهند ، در راه های چالش برانگیز قادر به فهم روابط خواهند بود.
2) یک معماری KDD جامع باید نگهداری و به کار انداختن خط پردازش را تأمین کند.
_ آماده سازی داده ها تجزیه و تحلیل دسته ای جهت عیب یابی مناسب error ها ، مقادیر از دست رفته و فرمت های غیر قابل استفاده.
_ پردازش داده های ساخت یافته و داده های نیمه ساخت یافته.
3) این یک اصل است که نتایج ساده و در دسترس باشند. به همین دلیل ، روشهای زیر جهت رسیدن به این موضوع ، استفاده میشوند:
_ استفاده از استانداردهای رایج و متن باز.
_ استفاده از معماری های مبتنی بر web.
_ نتایج با قابلیت دسترسی عمومی

2. مسائل حفظ حریم خصوصی و امنیت


در May 2012 مرکز فناوری اطلاعات Intel ، 200 مدیر IT در شرکتهای بزرگ را بررسی کرد تا بفهمد آنها چگونه تجزیه وتحلیل Big Data را انجام میدهند. آنها پرسیدند که مدیران IT به چه استانداردهایی جهت تجزیه و تحلیل Big Data علاقه مند هستند و جوابها بودند: امنیت داده ها ، تکنولوژی نگهداری داده های خصوصی کاربران ، شفافیت داده ها ، تعیین معیار عملکرد ، داده ها و قابلیت همکاری سیستم. پاسخهایی وجود داشت که در مورد عرضه کنندگان ابر شخص ثالث ، نگران بودند. نگرانیهای امنیت داده ها وحریم خصوصی و خط مشئ شرکت ، از برون سپاری ذخیره سازی داده ها و تجزیه و تحلیلها جلوگیری میکند و در کل، هزینه ها و من تجزیه و تحلیل داده ها را درخانه انجام میدهم و در مورد برون سپاری ، برنامه ریزی نمیکنم. بر این اساس دغدغه های معمول درباره امنیت را بررسی میکنیم.

با توجه به خرابی های محیط های دفاعی سنتی به همراه توانایی های حمله کننده ها به نجات از سیستمهای امنیتی سنتی ، لازم است سازمانها ، یک مدل امنیتی هوشمند اتخاذ کنند که دورتر از خطر، متنی و سریع باشد . امنیت هوشمندی که مبتنی بر تجزیه و تحلیل داده های حجیم است. داده های حجیم ، شامل هر دو مورد وسعت منابع و عمق اطلاعات میباشد که مورد نیاز برنامه هاست جهت مشخص کردن خطرات، به طور دقیق و حمایت کردن در مقابل فعالیتهای غیر مجاز و تهدیدات سایبری پیشرفته. یک مدل امنیتی مبتنی بر داده های حجیم ، دارای مشخصه های زیر میباشد:
  • منابع داده داخلی و خارجی که در مقدار ضرب میشود و یک تأثیر آموزشی همکاری کننده ایجاد میکنند.
  • ابزارهای خودکار که انواع داده های مختلف را جمع آوری کرده و آنها را نرمال میکنند.
  • مدیریت موتورهای تجزیه و تحلیل جهت پردازش حجم بزرگی از داده هایی که در زمان واقعی به سرعت در حال تغییر هستند.
  • سیستمهای نظارت پیشرفته که بطور مداوم ، سیستمهای با ارزش بالا و منابع را تجزیه و تحلیل میکنند و بر مبنای رفتار و مدلهای خطا رسیدگی میکنند.
  • کنترلهای فعال از قبیل نیاز تصدیق هویت کاربر سنتی ، مسدود کردن انتقال داده ها یا ساده سازی تصمیم گیری تحلیلگران.
  • متمرکز سازی انبار بطوریکه همه داده های وابسته امنیتی برای تحلیلگران امنیتی جهت پرس و جو در دسترس باشند.
  • استاندارد سازی دیدگاه ها به نمایشهای سازگار که به شکل قابل خواندن برای ماشین ایجاد شده اند و میتوانند در مقیاس منابع قابل اعتماد ، به اشتراک گذاشته شوند.
  • زیرساختهای n-لایه که در تمام جهات مقیاس پذیری را ایجاد میکنند و قادر به پردازش پرس و جوها و جستجوهای بزرگ و پیچیده هستند.
  • درجه بالایی از یکپارچگی از طریق امنیت و ابزارهای مدیریت خطا جهت تسهیل بررسی مفصل مشکلات بالقوه.

با توجه به رفرنس 5 ، چگونگی توسعه یک روش جامع و مطمئن برای داده های حجیم عبارت است از:

  • برای شروع یک مدیریت پروژه ، شرکتها نیاز به جای دادن و شرح منشأ منابع داده ، ایجاد کردن و مجوز دسترسی ، دارند.
  • دسته بندی کشف بر اساس اهمیت آن.
  • تضمین اینکه سوابق بایگانی شوند و بر اساس استانداردها و مقررات محافظت شوند.
  • توسعه دادن سیاست پردازش داده های وابسته ، از قبیل تعریف انواع داده های ذخیره شده ، زمان ذخیره سازی ، انبار و انواع دسترسی ها.

از طریق نگهداری داده ها در یک مکان ، یک هدف برای حمله کننده ها جهت خرابکاری در سازمان ایجاد میشود. این نیاز دارد که انبارهای داده های حجیم به درستی کنترل شوند. جهت تضمین تصدیق ، یک framework ارتباط امن رمز شده اجرا میشود. کنترلها باید اصل امتیاز کاهش را استفاده کنند مخصوصاً برای قوانین دسترسی به جز برای یک مدیر (administrator) که اجازه دسترسی فیزیکی به داده ها را دارد. برای کنترلهای دسترسی مؤثر ، آنها باید به طور ممتد مشاهده شوند و تغییر داده شوند. مانند تغییر نقشهای کارمندان سازمان. بنابراین کارمندان ، حقوق افراطی که میتواند مورد سوء استفاده قرار گیرد ، جمع نمیکنند. دیگر روشهای امنیتی ، نیاز به ضبط و تجزیه و تحلیل ترافیک شبکه دارند.

از قبیل فرا داده ، گرفتن بسته ، جریان و ورود اطلاعات به سستم. سازمانها باید سرمایه گذاری در محصولات امنیتی را با استفاده از تکنولوژی های سریع مبتنی بر تجزیه و تحلیل تجهیزات غیر ایستا ، تضمین کنند. مشکل دیگر مربوط به سازماندهی منطبق با قوانین حفاظت از داده ها میباشد. سازمانها باید برای ذخیره سازی داده ها ، انشعابات حقوقی را در نظر داشته باشند.به هر جهت ، داده های حجیم ، مزایای امنیتی دارند. زمانیکه سازمانها دانش را طبقه بندی میکنند، آنها داده را بطور خاص از طریق مقررات کنترل میکنند. نظیر تحمیل دوره های ذخیره سازی. این به سازمانها اجازه انتخاب داده ای را میدهد که نه مقدار کوچک دارد و نه هیچ نیازی به نگهداری. بطوریکه به طور طولانی جهت سرقت در دسترس نیست. مزیت دیگر این است که داده های حجیم میتواند از تهدیدهایی نظیر شواهدی از نرم افزارهای مخرب ، ناهنجاریها یا دزدی های اینترنتی درامان باشد.


3- ارزیابی کلی


حجم داده ها افزایش پیدا کرده است وتجزیه و تحلیل مجموعه داده ها ، رقابتی تر شده است. چالش فقط جمع آوری و مدیریت حجم وسیعی از انواع مختلفی از داده نیست ، بلکه استخراج ارزش معنادار از داده است. همچنین نیاز است به مدیران و تحلیلگرانی با بینش عالی از اینکه چگونه میتوان داده های حجیم را به کار برد. شرکتها باید در بکارگیری برنامه ها شتاب کنند درحین اینکه سرمایه گذاری های قابل توحهی در آموزش و پرورش پرسنل کلیدی انجام دهند.با توجه به نتایج تجزیه وتحلیل داده های بزرگ توسط TDWI ، مزایای داده های حجیم عبارتند از: بازاریابی هدفمندتر ، بینش درون بینی کسب و کار بطور صریح تر ، تقسیم بندی مبتنی بر مشتری ، تشخیص فروشها و شانس بازار ، خود کاری سازی تصمیم گیری ، تعریف رفتارهای مشتری ، بازگشت بیشتر سرمایه گذاری ، تعریف خطرها و روند بازار ، فهم تغییر تجارت و کسب و کار ، برنامه ریزی و پیش بینی بهتر ، شناسایی رفتار مصرف کننده از جریان کلیک و گسترش عملکرد تولید.

بعلاوه ، TDWI موانع بالقوه تجزیه وتحلیل داده های حجیم را ارائه داده است. مانند چیزهای غیر متخصص و عدم توانایی در یافتن کارشناسان داده های حجیم جهت بکارگیری ، هزینه ، محرومیت از ضمانت و حمایت از کسب و کار ، سختی طراحی سیستمهای تجزیه و تحلیل ، فقدان نرم افزار پایگاه داده فعلی در زمینه تجزیه و تحلیل و زمان پردازش سریع ، مشکلات مقیاس پذیری ، ناتوانی در ساخت داده های حجیم قابل استفاده برای کاربران نهایی ، بارگذاری داده ها در نرم افزار پایگاه داده فعلی سریع نیست ، فقدان مورد کسب وکار قانع کننده.بر اساس نتایج مرکز فناوری اطلاعات تجزیه و تحلیل داده های حجیم Intel ، چالش های متعددی برای داده های حجیم وجود دارد: رشد داده ها ، زیرساخت های داده ، سیاست داده ها ، اجتماع داده ها ، سرعت داده ها ، تنوع داده ها ، مقررات یا انطباق داده ها ، تجسم داده ها(تصویرسازی).بعلاوه ، مرکز فناوری اطلاعات Intel ، موانع داده های حجیم را مشخص کرده است: نگرانیهای امنیتی ، هزینه های عملیاتی ، افزایش گلوگاه های شبکه ای ، کمبود متخصصان ماهر علم اطلاعات ، نرخ داده غیر قابل کنترل و مدیریت ، قابلیت تکرار داده ها ، نبود قابلیت های متراکم سازی رکود شبکه ای بزرگتر و نارسایی قدرت پردازنده. با وجود موانع بالقوه و چالشهای داده های حجیم ، Big Data هم اکنون و همچنین در آینده از اهمیت زیادی برخوردار خواهد بود.


5- نتیجه گیری


در این بازبینی ، یک نمای کلی از محتوای داده های حجیم ، حوزه ، نمونه ها ، روشها ، مزایا ، چالشها و بحث های نگرانی های حریم خصوصی مرور شده است .نتایج نشان دادند که حتی اگر داده ها و ابزارها و تکنیکها واقعاً در دسترس باشند ، نکات بسیاری جهت رسیدگی ، بحث ، بهبود ، توسعه ، تجزیه و تحلیل و ... وجود دارند.گذشته از این ، موضوع فهم حفظ حریم خصوصی و امنیت داده های حجیم ، پیامد بزرگی است که در آینده بیشتر بحث خواهد شد.

منابع:
[1] A. Vailaya, "What’s All the Buzz Around “Big Data?”", IEEE Women 
in Engineering Magazine,  December 2012, pp. 24-31,  
[2] B. Brown, M. Chui and J. Manyika, "Are you Ready for the era of ‘Big 
Data’? " McKinsey Quarterly, McKinsey Global Institute, October 2011  
[3] B.Gerhardt, K. Griffin and R. Klemann, "Unlocking Value in the 
Fragmented World of Big Data Analytics", Cisco Internet Business 
Solutions Group, June 2012,  
http://www.cisco.com/web/about/ac79/docs/sp/Information-
Infomediaries.pdf 
[4] C. Eaton, D. Deroos, T. Deutsch, G. Lapis and P.C. Zikopoulos, 
Understanding Big Data: Analytics for Enterprise Class Hadoop and 
Streaming Data, Mc Graw-Hill Companies, 978-0-07-179053-6, 2012 
[5] C. Tankard, "Big Data Security", Network Security Newsletter, Elsevier, 
ISSN 1353-4858, July 2012 
[6] E. Begoli and J. Horey, "Design Principles for Effective Knowledge 
Discovery from Big Data", Software Architecture (WICSA) and 
European Conference on Software Architecture (ECSA) Joint Working 
IEEE/IFIP Conference on, Helsinki, August 2012 
[7] Intel IT Center, "Peer Research: Big Data Analytics", Intel’s IT Manager 
Survey on How Organizations Are Using Big Data, August 2012, 
http://www.intel.com/content/dam/www/public/us/en/documents/reports
/data-insights-peer-research-report.pdf
[8] Intel IT Center, "Planning Guide: Getting Started with Hadoop", Steps 
IT Managers Can Take to Move Forward with Big Data Analytics, June 
2012 
http://www.intel.com/content/dam/www/public/us/en/documents/guides/
getting-started-with-hadoop-planning-guide.pdf 
[9] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh and 
A.H. Byers, "Big data: The next frontier for innovation, competition, 
and productivity", McKinsey Global Institute, 2011, 
http://www.mckinsey.com/~/media/McKinsey/dotcom/Insights%20and
%20pubs/MGI/Research/Technology%20and%20Innovation/Big%20Da
ta/MGI_big_data_full_report.ashx 
[10] K. Bakshi, "Considerations for Big Data: Architecture and Approach", 
Aerospace Conference IEEE, Big Sky Montana, March 2012 
[11] M. Smith, C. Szongott, B. Henne and G. Voigt , "Big Data Privacy 
Issues in Public Social Media", Digital Ecosystems Technologies 
(DEST), 6th IEEE International Conference on, Campione d'Italia, June 
2012 
[12] P. Russom, "Big Data Analytics ", TDWI Best Practices Report, TDWI 
Research, Fourth Quarter 2011,  
http://tdwi.org/research/2011/09/best-practices-report-q4-big-data-
analytics/asset.aspx 
[13] R.D. Schneider, Hadoop for Dummies Special Edition, John 
Wiley&Sons Canada, 978-1-118-25051-8, 2012 
[14] R. Weiss and L.J. Zgorski, "Obama Administration Unveils “Big Data” 
Initiative:Announces $200 Million in new R&D Investments", Office of 
Science and Technology Policy Executive Office of the President, 
March 2012 
[15] S. Curry, E. Kirda, E. Schwartz, W.H. Stewart and A. Yoran, "Big Data 
Fuels Intelligence Driven Security", RSA Security Brief, January 2013 
http://www.emc.com/collateral/industry-overview/big-data-fuels-
intelligence-driven-security-io.pdf 
[16] S. Madden, "From Databases to Big Data", IEEE Internet Computing, 
June 2012, v.16, pp.4-6 
[17] S. Singh and N. Singh, "Big Data Analytics", 2012 International 
Conference on Communication, Information & Computing Technology  
Mumbai India, IEEE, October 2011  
[18] U. Fayyad, G. Piatetsky-Shapiro and P. Smyth, "From Data Mining to 
Knowledge Discovery in Databases", American Association for 
Artificial Intelligence, AI Magazine, Fall 1996, pp. 37- 54 
[19] V. Borkar, M.J. Carey and C. Li, "Inside “Big Data Management”: 
Ogres, Onions, or Parfaits?", EDBT/ICDT 2012 Joint Conference Berlin 
Germany, 2012  
[20] http://en.wikipedia.org/wiki/Big_data ,  last access 11.03.2013 
[21] http://hadoop.apache.org/ , last access 11.03.2013 
[22] http://hpccsystems.com/ , last access 11.03.2013 
[23] http://www.humanfaceofbigdata.com/ , last access 11.03.2013
دیدگاه ها

هیچ دیدگاهی برای این مطلب ارسال نشده است

برای ارسال نظر وارد شوید.