تاریخچه
در گذشته عبارت Big Data و تحلیل کلان داده برای اشاره به حجمهای عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل میشدند.اما امروزه، این عبارت بیشتر برای اشاره به مجموعههای دادهای بزرگی استفاده میشود که بهقدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههای داده سنتی و معمولی قابل مدیریت نیستند. مشکلات اصلی در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است.
این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا میکند که با استفاده از تحلیل حجمهای بیشتری از دادهها، میتوان تحلیلهای بهتر و پیشرفتهتری را برای مقاصد مختلف: از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد.بیشتر تحلیلهای مورد نیاز در پردازش دادههای عظیم، توسط دانشمندان در علومی مانند:
- هواشناسی
- ژنتیک
- شبیهسازیهای پیچیده فیزیک
- تحقیقات زیستشناسی و محیطی
- جستوجوی اینترنت
- تحلیلهای اقتصادی و مالی و تجاری
مورد استفاده قرار میگیرد. حجم دادههای ذخیرهشده در مجموعههای دادهای Big Data، عموماً به خاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند:
- گوشیهای موبایل
- حسگرهای محیطی
- لاگ نرمافزارهای مختلف
- دوربینها
- میکروفونها
- دستگاههای تشخیص RFID
- شبکههای حسگر بیسیم
- و غیره
با سرعت خیرهکنندهای در حال افزایش است.
چالشهای حوزه تحلیل کلان داده
تاکنون چالشهای زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان میکنند. این چالشها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع بهعنوان 3V’s مطرح شدند.اما در ادامه چالشهای بیشتری در ادبیات موضوع توسط محققان مطرح شده است:
- حجم داده (Volume) : حجم دادهها بهصورت نمایی در حال رشد است. منابع مختلفی نظیر:
- شبکههای اجتماعی
- لاگ سرورهای وب
- جریانهای ترافیک
- تصاویر ماهوارهای
- جریانهای صوتی
- تراکنشهای بانکی
- محتوای صفحات وب
- اسناد دولتی و …
- نرخ تولید (Velocity) : دادهها از طریق برنامههای کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و بهصورت بلادرنگ تولید میشوند. بسیاری از کاربردها نیاز دارند بهمحض ورود داده به درخواست کاربر پاسخ دهند. ممکن است در برخی موارد نتوانیم به اندازه کافی صبر کنیم تا مثلاً یک گزارش در سیستم برای مدت طولانی پردازش شود.
- تنوع (Variety) : انواع منابع داده و تنوع در نوع داده بسیار زیاد است که در نتیجه ساختارهای دادهای بسیار زیادی وجود دارد. مثلاً در وب، افراد از نرمافزارها و مرورگرهای مختلفی برای ارسال اطلاعات استفاده میکنند. بسیاری از اطلاعات مستقیماً از انسان دریافت میشود و بنابراین وجود خطا اجتنابناپذیر است. این تنوع سبب میشود جامعیت داده تحت تأثیر قرار بگیرد؛ زیرا هرچه تنوع بیشتری وجود داشته باشد، احتمال بروز خطای بیشتری نیز وجود خواهد داشت.
- صحت (Veracity) : با توجه به اینکه دادهها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلاً در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمیتوان بهسادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشت. البته بعضی از تحقیقات این چالش را به معنای حفظ همه مشخصههای داده اصلی بیان کردهاند که باید حفظ شود تا بتوان کیفیت و صحت داده را تضمین کرد. البته تعریف دوم در مولدهای کلان داده صدق میکند تا بتوان دادهای تولید کرد که نشاندهنده ویژگیهای داده اصلی باشد.
برخی از چالش های جدید در تحلیل کلان داده:
- اعتبار (Validity) : با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا بهعبارتدیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.
- نوسان (Volatility) : سرعت تغییر ارزش دادههای مختلف در طول زمان میتواند متفاوت باشد. در یک سیستم معمولی تجارت الکترونیک، سرعت نوسان دادهها زیاد نیست و ممکن است دادههای موجود مثلاً برای یک سال ارزش خود را حفظ کنند، اما در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و دادهها به سرعت ارزش خود را از دست میدهند و مقادیر جدیدی به خود میگیرند. اگرچه نگهداری اطلاعات در زمان طولانی بهمنظور تحلیل تغییرات و نوسان دادهها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلماً هزینههای پیادهسازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.
- نمایش (Visualization) : یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، بهخوبی قابل فهم و قابل مطالعه باشد از طریق روشهای تحلیلی و بصری سازی مناسب اطلاعات امکانپذیری است.
- ارزش (Value) : این موضوع دلالت بر این دارد که از نظر اطلاعاتی برای تصمیمگیری چقدر داده حائز ارزش است. بهعبارتدیگر آیا هزینهای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیمگیری دارد یا نه. معمولاً دادهها میتوانند در لایههای مختلف جابجا شوند. لایههای بالاتر به معنای ارزش بیشتر داده میباشند. بنابراین برخی از سازمانها میتوانند هزینه بالای نگهداری مربوط به لایههای بالاتر را قبول کنند.
بطور خلاصه میتوان اعلام نمود، در هر Business Problemی که مقیاس پذیری، پردازش و ذخیرهسازی سریع و به لحظه برای انبوهی از دادهها یا منابع اطلاعاتی، تحمل خطا، قدرت محاسبات بالا، و انعطافپذیری، مشکلزا یا (به اندازه غیرمتعارف) هزینهزایی نمود، سازمان با یکی از انواع Big Data Problem برخورد کرده است.
خدمات تحلیل کلان داده گروه فرابر
هرگاه سازمانها و یا بنگاههای تجاری در یکی موضوعات: ذخیرهسازی و تجمیع و تلفیق دادهها یا سرعت و کارایی سیستمها با چالشِ کمبود منابع یا کاستیهای Performance، برخورد میکنند و این کاستیها با Scale Up قابلیت مدیریتِ بهینه ندارند، زیرساختهای تکنولوژیک Big Data، امکان Scale Out برای توزیع ذخیرهسازیها یا توزیع پردازشها را به ارمغان خواهند آورد. اینجاست که کارشناسان خبره شرکت مهندسی مشاور عصر فناوری دانش ضمن بررسی Business Problems وBusiness Needsهای مطرح شده، بهترین Big Data Solution را طراحی و ارائه مینمایند. در نهایت پیادهسازی راهکارهای کلان داده فرابر، منجر به تولید ارزشهای مبتنی بر داده در سازمانها و یا بنگاههای اقتصادی خواهد شد.
گستره خدمات کلان دادهها (مه داده) گروه بیگ دیتا فرابر عبارتاند از:
- نصب، راهاندازی و تنظیمات زیرساختهای بیگ دیتا (Hadoop و YARN)
- طراحی و مدیریت انواع پایگاههای دادهای Key Value، Graph، Columnar، Document Store و in Memory از قبیل: Redis، mongoDB، Cassandra،HBase ، Neo4j، Riak و ….
- پردازش جریاني و بلادرنگ دادهها با Apache Storm، Apache samza، Apache Spark، Apache Flink و ….
- انجام محاسبات و یادگیری ماشین با TensorFlow، Apache Hama، Apache Mahout، MLLib، GraphX و ….
- بهکارگیری انواع واسط SQL از قبیلHive، Impala، Spark SQL، Drill و ….
- انتقال دادهها با Apache Flume ، Apache sqoop و ….
- مديريت صف جرياني با Apache Kafka، ZeroMQ و ….
- طراحی و مدیریت جستجو و Index گذاری با Elasticserach، SolR و ….
- مدیریت Log File ها با Fluentd، Logstash، ELK و ….
کاربردهای مه داده و تحلیل کلان داده
یکی از مهمترین کارکردهای فناوری های Big Data، افزایش ضریب هوشمندی بنگاههای اقتصادی است. این فناوریها بعد از تغذیه، گردآوری و پردازش دادهها، اقدام به تحلیلهای هوشمند دادهها با هدف بهرهبرداری در هوش تجاری (هوشمندی کسبوکار) سازمان، دادهکاوی و یادگیری ماشین، میکنند. این موارد میتوانند سازمانها، سیستمهای اطلاعاتی و تصمیمات آن را با شرایط پیرامونی تطبیقپذیر (Adaptive) و پیشدستانه (Proactive) نماید.
چه صنایعی از بیگ دیتا استفاده میکنند؟
بنگاههای اقتصادی و صنایعی که بهطور گسترده، از دادههای عظیم (بیگ دیتا) استفاده میکنند عبارتاند از:
- صنعت بانکداری، بورس و اوراق بهادار
- صنعت بیمه
- تجارت خردهفروشی و عمدهفروشی
- بنگاههای خدماتی
- ارائهدهندگان خدمات بهداشتی، درمانی و سلامت
- صنایع مخابرات، ارتباطات و اپراتورهای مخابراتی
- صنعت رسانهها و سرگرمی
- بنگاههای آموزشی
- صنایع تولیدی و پخش
- دولت و خدمات دولتی
- صنعت حملونقل
- صنایع انرژی، آب، برق و گاز
معمولاً بنگاههای اقتصادی و سازمانهای دولتی و خصوصی از Big Dataبرای اهداف زیر استفاده میکنند:
- متمایز شدن از رقبا
- به دست آوردن سهم بازار بیشتر
- افزایش درآمد
- درک بهتر مشتریان
- سودآوری از طریق سرویسهای جدید نوآورانه
بهرهگیری از مزایای Big Data، معمولاً به سازمانها، میتواند برای تحقق سه هدف حیاتی زیر مورد استفاده قرار گیرد:
- تحویل سرویسهای هوشمندتری که منابع درآمدی جدیدی را تولید میکنند
- تحول در عملیات برای دستیابی به برتری تجاری و سرویسدهی
- ساخت زیرساختهای هوشمندتر برای هدایت و تقویت سازگاری و کیفیت تجربه مشتری
برخی از کاربردهای تحلیل کلان داده در صنایع:
- بانکداری و خدمات مالی: تمرکز ویژه بر هر مشتری و خصوصیسازی خدمات هر مشتری، تحلیل ریسک اعتباری، تشخیص تقلب، تحلیل پورتفولیو، تحلیل ریزش مشتریان، تحلیلهای سودآوری، تحلیل احساسات مشتریان، سیستمهای پیشنهاد خدمات و محصولات و…
- صنعت بیمه: طراحی و تحلیل پورتفلیو، تحلیل ریسک ، اعتبارسنجی مشتریان و تحلیل ریزش مشتریان و…
- خردهفروشی: پیشبینی رفتار مشتریان، پیشبینی الگوهایی خرید و مصرف، اعتبارسنجی مشتریان، تحلیل ریزش مشتریان، تحلیلهای سودآوری، سیستمهای پیشنهاد خدمات و محصولات و …
- صنایع مخابرات، ارتباطات و اپراتورهای مخابراتی : ارائه مرکز تماس پیشدستانه (Pro-active Call Center)، کمپینهای هوشمندتر (Smarter Campaigns)، تحلیل گراف محور شبکه (Network Graph Analytics)، سرویسهای تحليلي مبتنی بر مکان (Location-based Analytics) ، تحلیل ریسک اعتباری، تشخیص تقلب، تحلیل ریزش مشتریان، تحلیلهای سودآوری، تحلیل احساسات مشتریان، سیستمهای پیشنهاد خدمات و محصولات و…
- صنعت حملونقل: مکانیابی و برنامهریزی دقیق سیر و سفر، ردیابی و بهینهسازی مسیرها، تعمیرات پیشگویانه، بهینهسازی مصرف سوخت، مصورسازی مسیرها و عملیات، کاهش آلودگی و پاکسازی محیط زیست، خدمات ارزش افزوده و…
- ارائهدهندگان خدمات بهداشتی، درمانی و سلامت: تعیین نوع رفتاردرمانی با بیماران، پیشگویی میزان موفقیت اعمال جراحی، تعیین میزان موفقیت روشهای درمانی در برخورد با بیماریهای سخت و خاص، تشخیص بیماریها بر اساس انواع اطلاعات (تصاویر پزشکی، مشخصات بیمار احتمالی)، تأثیر داروها بر روند بهبودی بیماران و بررسی الگوهای مختلف ایجادکننده امراض در افراد، کشف تقلب و تخلفات پزشکی، تحلیل سودآوری و…
تحلیل کلان داده، سامانه ها و راهکارهای تحلیلی قابل ارائه بر روی این بستر
- امکان پردازش داده های سری زمانی با استفاده از شبکه های بازگشتی عمیق LSTM
- امکان پیش بینی رفتار دادهها با استفاده از شبکه های یادگیری عمیق
- امکان دستهبندی داینامیک دادهها با استفاده از روش های یادگیری غیرنظارتی
- امکان پیادهسازی سیستمهای توصیهگر با استفاده از روش های یادگیری عمیق Auto-Encoder
- امکان پياده سازی سيستم های Anomaly Detection با استفاده از روش های يادگيری Auto-Encoder
- امکان دسترسی به انواع داده ها به دو صورت دسته ای( Batch) و جریانی(Stream)، با تاخیر بسيار کم
- طراحی قابلیت های کنترل دسترسی، احراز هویت و حفاظت از داده در سطوح مختلف
- دارای قابلیت مدیریت و مانیتورینگ سرویس های مختلف
- امکان بکارگیری الگوریتم های یادگیری مبتنی بر شبکه های عصبی عمیق(DNN) با دقت و سرعت بالا
- امکان ارایه همزمان سرویس در بستر ابری(خصوصی یا عمومی) با قابلیت مقیاس پذیری و دسترسی پذیری بالا
- امکان مدیریت و تحلیل داده ها با حجم و تنوع در ساختار و سرعت تولید زیاد
- طراحی زیرساخت یکپارچه برای ذخیره سازی، مدیریت و حفاظت از داده ها و اطلاعات
- طراحی زیر ساخت مناسب برای ذخيره سازی و پردازش رويکرد های تحليلی مکان محور، گراف محور و خدمات اينترنت اشياء (IOT) بصورت کاملا منعطف در برابر حجم پردازش هاي حجيم و در توپولوژی جغرافیایی توزیع شده
- امکان ذخیره سازی داده به صورت توزیع شده، مقیاس پذیر، تحمل پذیر نسبت به خطا
- طراحی موتور پردازشی توزیع شده و In-Memory جهت تحلیل داده ها بصورت بلادرنگ و در لحظه
- طراحی یکپارچگی و مدیریت جریان داده های ورودی و خروجی به زیر ساخت، با قابلیت اطمینان پذیری بالا، متناوب و به صورت خودکار