کلان داده‌ها

در گذشته عبارت Big Data برای اشاره به حجم‌های عظیمی از داده‌‌ها که توسط سازمان‌های بزرگی مانند گوگل یا ناسا ذخیره و تحلیل می‌شدند مورد استفاده قرار می‌گرفتند؛ اما امروزه، این عبارت بیشتر برای اشاره به مجموعه‌های  داده‌ای بزرگی استفاده می‌شود که به‌قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاه‌های داده سنتی و معمولی قابل مدیریت نیستند. مشکلات اصلی در کار با این نوع داده‌‌ها مربوط به برداشت و جمع‌آوری، ذخیره‌سازی، جست‌وجو، اشتراک‌گذاری، تحلیل و نمایش آن‌ها است.

 این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا می‌کند که با استفاده از تحلیل حجم‌های بیشتری از داده‌ها، می‌توان تحلیل‌های بهتر و پیشرفته‌تری را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی‌ و امنیتی، انجام داد و نتایج مناسب‌تری را دریافت کرد. بیشتر تحلیل‌های مورد نیاز در پردازش داده‌های عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، شبیه‌سازی‌های پیچیده فیزیک، تحقیقات زیست‌شناسی و محیطی، جست‌وجوی اینترنت، تحلیل‌های اقتصادی و مالی و تجاری مورد استفاده قرار می‌گیرد. حجم داده‌های ذخیره‌شده در مجموعه‌های داده‌ای Big Data، عموماً به خاطر تولید و جمع‌آوری داده‌‌ها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشی‌های موبایل، حسگرهای محیطی، لاگ نرم‌افزارهای مختلف، دوربین‌ها، میکروفون‌ها، دستگاه‌های تشخیص RFID، شبکه‌های حسگر بی‌سیم و غیره با سرعت خیره‌کننده‌ای در حال افزایش است.

چالش‌های حوزه کلان داده

تاکنون چالش‌های زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری ابعاد مختلفی از مشکلات این حوزه را بیان می‌کنند. این چالش‌ها در ابتدا سه بعد اصلی حجم داده، نرخ تولید و تنوع به‌عنوان 3V’s مطرح شدند ولی در ادامه چالش‌های بیشتری در ادبیات موضوع توسط محققان مطرح شده است:

  • حجم داده (Volume) : حجم داده‌ها به‌صورت نمایی در حال رشد است. منابع مختلفی نظیر شبکه‌های اجتماعی، لاگ سرورهای وب، جریان‌های ترافیک، تصاویر ماهواره‌ای، جریان‌های صوتی، تراکنش‌های بانکی، محتوای صفحات وب،  اسناد دولتی و … وجود دارد که حجم داده بسیار زیادی تولید می‌کنند.
  • نرخ تولید (Velocity) : داده‌ها از طریق برنامه‌های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به‌صورت بلادرنگ تولید می‌شوند. بسیاری از کاربردها نیاز دارند به‌محض ورود داده به درخواست کاربر پاسخ دهند. ممکن است در برخی موارد نتوانیم به اندازه کافی صبر کنیم تا مثلاً یک گزارش در سیستم برای مدت طولانی پردازش شود.
  • تنوع (Variety) : انواع منابع داده و تنوع در نوع داده بسیار زیاد است که در نتیجه ساختارهای داده‌ای بسیار زیادی وجود دارد. مثلاً در وب، افراد از نرم‌افزارها و مرورگرهای مختلفی برای ارسال اطلاعات استفاده می‌کنند. بسیاری از اطلاعات مستقیماً از انسان دریافت می‌شود و بنابراین وجود خطا اجتناب‌ناپذیر است. این تنوع سبب می‌شود جامعیت داده تحت تأثیر قرار بگیرد؛ زیرا هرچه تنوع بیشتری وجود داشته باشد، احتمال بروز خطای بیشتری نیز وجود خواهد داشت.
  • صحت (Veracity) : با توجه به اینکه داده‌ها از منابع مختلف دریافت می‌شوند، ممکن است نتوان به همه آن‌ها اعتماد کرد. مثلاً در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آن‌ها صحیح و قابل اطمینان هستند، موضوعی است که نمی‌توان به‌سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشت. البته بعضی از تحقیقات این چالش را به معنای حفظ همه مشخصه‌های داده اصلی بیان کرده‌اند که باید حفظ شود تا بتوان کیفیت و صحت داده را تضمین کرد. البته تعریف دوم در مولدهای کلان داده صدق می‌کند تا بتوان داده‌ای تولید کرد که نشان‌دهنده ویژگی‌های داده اصلی باشد.
  • اعتبار (Validity) : با فرض اینکه دیتا صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به‌عبارت‌دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.
  • نوسان (Volatility) : سرعت تغییر ارزش داده‌های مختلف در طول زمان می‌تواند متفاوت باشد. در یک سیستم معمولی تجارت الکترونیک، سرعت نوسان داده‌ها زیاد نیست و ممکن است داده‌های موجود مثلاً برای یک سال ارزش  خود را حفظ کنند، اما در کاربردهایی نظیر تحلیل ارز و بورس، داده با نوسان زیادی مواجه هستند و داده‌ها به سرعت ارزش خود را از دست می‌دهند و مقادیر جدیدی به خود می‌گیرند. اگرچه نگهداری اطلاعات در زمان طولانی به‌منظور تحلیل تغییرات و نوسان داده‌ها حائز اهمیت است. افزایش دوره نگهداری اطلاعات، مسلماً هزینه‌های پیاده‌سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.
  • نمایش (Visualization) : یکی از کارهای مشکل در حوزه کلان داده، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به‌خوبی قابل فهم و قابل مطالعه باشد از طریق روش‌های تحلیلی و  بصری سازی مناسب اطلاعات امکان‌پذیری است.
  • ارزش (Value) : این موضوع دلالت بر این دارد که از نظر اطلاعاتی برای تصمیم‌گیری چقدر داده حائز ارزش است. به‌عبارت‌دیگر آیا هزینه‌ای که برای نگهداری داده و پردازش آن‌ها می‌شود، ارزش آن را از نظر تصمیم‌گیری دارد یا نه. معمولاً داده‌ها می‌توانند در لایه‌های مختلف جابجا شوند. لایه‌های بالاتر به معنای ارزش بیشتر داده می‌باشند. بنابراین برخی از سازمان‌ها می‌توانند هزینه بالای نگهداری مربوط به لایه‌های بالاتر را قبول کنند.

بطور خلاصه می‌توان اعلام نمود، در هر Business Problem‌ی که مقیاس پذیری، پردازش و ذخیره‌سازی سریع و به لحظه برای انبوهی از داده‌ها یا منابع اطلاعاتی، تحمل خطا، قدرت محاسبات بالا، و انعطاف‌پذیری، مشکل‌زا یا (به اندازه غیرمتعارف) هزینه‌زایی نمود، سازمان با یکی از انواع Big Data Problem برخورد کرده است.

خدمات کلان داده‌های گروه فرابر

هرگاه سازمان‌ها و یا بنگاه‌های تجاری در یکی موضوعات:  ذخیره‌سازی و تجمیع و تلفیق داده‌ها یا سرعت و کارایی سیستم‌ها با چالشِ کمبود منابع یا کاستی‌های Performance، برخورد می‌کنند و این کاستی‌ها با Scale Up قابلیت مدیریتِ بهینه ندارند، زیرساخت‌های تکنولوژیک Big Data، امکان Scale Out برای توزیع ذخیره‌سازی‌ها یا توزیع پردازش‌ها را به ارمغان خواهند آورد. اینجاست که کارشناسان خبره شرکت مهندسی مشاور عصر فناوری دانش ضمن بررسی Business Problems وBusiness Needs‌های مطرح شده، بهترین Big Data Solution را طراحی و ارائه می‌نمایند. در نهایت پیاده‌سازی راهکارهای کلان داده فرابر، منجر به تولید ارزش‌های مبتنی بر داده در سازمان‌ها و یا بنگاه‌های اقتصادی خواهد شد.

گستره خدمات کلان داده‌ها (مه داده) گروه بیگ دیتا فرابر عبارت‌اند از:

  • نصب، راه‌اندازی و تنظیمات زیرساخت‌های بیگ دیتا (Hadoop و YARN)
  • طراحی و مدیریت انواع پایگاه‌های داده‌ای Key Value، Graph، Columnar، Document Store و in Memory از قبیل: Redis، mongoDB، Cassandra،HBase ، Neo4j، Riak و ….
  • پردازش جریاني و بلادرنگ داده‌ها با Apache Storm، Apache samza، Apache Spark، Apache Flink و ….
  • انجام محاسبات و یادگیری ماشین با TensorFlow، Apache Hama، Apache Mahout، MLLib، GraphX و ….
  • به‌کارگیری انواع واسط SQL از قبیلHive، Impala، Spark SQL، Drill و ….
  • انتقال داده‌ها با Apache Flume ، Apache sqoop و ….
  • مديريت صف جرياني با Apache Kafka، ZeroMQ و ….
  • طراحی و مدیریت جستجو و Index گذاری با Elasticserach، SolR و ….
  • مدیریت Log File ها با Fluentd، Logstash، ELK و ….

کاربردهای مه داده

یکی از مهم‌ترین کارکردهای فناوری های Big Data، افزایش ضریب هوشمندی بنگاه‌های اقتصادی است. این فناوری‌ها بعد از تغذیه، گردآوری و پردازش داده‌ها، اقدام به تحلیل‌های هوشمند داده‌­ها با هدف بهره‌برداری در هوش تجاری (هوشمندی کسب‌وکار) سازمان، داده‌کاوی و یادگیری ماشین، می‌کنند. این موارد می‌توانند سازمان‌ها، سیستم‌های اطلاعاتی و تصمیمات آن را با شرایط پیرامونی تطبیق‌پذیر (Adaptive) و پیشدستانه (Proactive) نماید.

چه صنایعی از بیگ دیتا استفاده می‌کنند؟

بنگاه‌های اقتصادی و صنایعی که به‌طور گسترده، از داده‌های عظیم (بیگ دیتا) استفاده می‌کنند عبارت‌اند از:

  • صنعت بانکداری، بورس و اوراق بهادار
  • صنعت بیمه
  • تجارت خرده‌فروشی و عمده‌فروشی
  • بنگاه‌های خدماتی
  • ارائه‌دهندگان خدمات بهداشتی، درمانی و سلامت
  • صنایع مخابرات، ارتباطات و اپراتورهای مخابراتی
  • صنعت رسانه‌ها و سرگرمی
  • بنگاه‌های آموزشی
  • صنایع تولیدی و پخش
  • دولت و خدمات دولتی
  • صنعت حمل‌ونقل
  • صنایع انرژی، آب، برق و گاز

معمولاً بنگاه‌های اقتصادی و سازمان‌های دولتی و خصوصی از Big Dataبرای اهداف زیر استفاده می­‌کنند:

  • متمایز شدن از رقبا
  • به دست آوردن سهم بازار بیشتر
  • افزایش درآمد
  • درک بهتر مشتریان
  • سودآوری از طریق سرویس‌های جدید نوآورانه

بهره‌گیری از مزایای Big Data، معمولاً به سازمان‌ها، می‌تواند برای تحقق سه هدف حیاتی زیر مورد استفاده قرار گیرد:

  • تحویل سرویس‌های هوشمندتری که منابع درآمدی جدیدی را تولید می‌کنند
  • تحول در عملیات برای دستیابی به برتری تجاری و سرویس‌دهی
  • ساخت زیرساخت‌های هوشمندتر برای هدایت و تقویت سازگاری و کیفیت تجربه مشتری

برخی از کاربردهای داده‌های عظیم در صنایع:

  • بانکداری و خدمات مالی: تمرکز ویژه بر هر مشتری و خصوصی‌سازی خدمات هر مشتری، تحلیل ریسک اعتباری، تشخیص تقلب، تحلیل پورتفولیو، تحلیل ریزش مشتریان، تحلیل‌های سودآوری، تحلیل احساسات مشتریان، سیستم‌های پیشنهاد خدمات و محصولات و…
  • صنعت بیمه: طراحی و تحلیل پورتفلیو، تحلیل ریسک ، اعتبارسنجی مشتریان و تحلیل ریزش مشتریان و…
  • خرده‌فروشی: پیش‌بینی رفتار مشتریان، پیش‌بینی الگوهایی خرید و مصرف، اعتبارسنجی مشتریان، تحلیل ریزش مشتریان، تحلیل‌های سودآوری، سیستم‌های پیشنهاد خدمات و محصولات و …
  • صنایع مخابرات، ارتباطات و اپراتورهای مخابراتی : ارائه مرکز تماس پیشدستانه (Pro-active Call Center)، کمپین‌های هوشمندتر (Smarter Campaigns)، تحلیل گراف محور شبکه (Network Graph Analytics)، سرویس‌های تحليلي مبتنی بر مکان (Location-based Analytics) ، تحلیل ریسک اعتباری، تشخیص تقلب، تحلیل ریزش مشتریان، تحلیل‌های سودآوری، تحلیل احساسات مشتریان، سیستم‌های پیشنهاد خدمات و محصولات و…
  • صنعت حمل‌ونقل: مکان‌یابی و برنامه‌ریزی دقیق سیر و سفر، ردیابی و بهینه‌سازی مسیرها، تعمیرات پیش‌گویانه، بهینه‌سازی مصرف سوخت، مصورسازی مسیرها و عملیات، کاهش آلودگی و پاک‌سازی محیط زیست، خدمات ارزش افزوده و…
  • ارائه‌دهندگان خدمات بهداشتی، درمانی و سلامت: تعیین نوع رفتاردرمانی با بیماران، پیشگویی میزان موفقیت اعمال جراحی، تعیین میزان موفقیت روش‌های درمانی در برخورد با بیماری‌های سخت و خاص، تشخیص بیماری‌ها بر اساس انواع اطلاعات (تصاویر پزشکی، مشخصات بیمار احتمالی)، تأثیر داروها بر روند بهبودی بیماران و بررسی الگوهای مختلف ایجادکننده امراض در افراد، کشف تقلب و تخلفات پزشکی، تحلیل سودآوری و…

در طراحی و ارائه راهکارهای کلان داده ها، موارد زير قابل ارائه خواهد بود:

  • امکان پردازش داده های سری زمانی با استفاده از شبکه های بازگشتی عمیق  LSTM
  • امکان پیش بینی رفتار داده‌ها با استفاده از شبکه های یادگیری عمیق
  • امکان دسته‌بندی داینامیک داده‌ها با استفاده از روش های یادگیری غیرنظارتی
  • امکان پیاده‌سازی سیستم‌های توصیه‌گر با استفاده از روش های یادگیری عمیق Auto-Encoder
  • امکان پياده سازی سيستم های Anomaly Detection با استفاده از روی های يادگيری Auto-Encoder
  • امکان دسترسی به انواع داده ها به دو صورت دسته ای( Batch) و جریانی(Stream)، با تاخیر بسيار کم
  • طراحي قابلیت های کنترل دسترسی، احراز هویت و حفاظت از داده در سطوح مختلف
  • دارای قابلیت مدیریت و مانیتورینگ سرویس های مختلف
  • امکان بکارگیری الگوریتم های یادگیری مبتنی بر شبکه های عصبی عمیق(DNN) با دقت و سرعت بالا
  • امکان ارایه همزمان سرویس در بستر ابری(خصوصی یا عمومی) با قابلیت مقیاس پذیری و دسترسی پذیری بالا
  • امکان مدیریت و تحلیل داده ها با حجم و تنوع در ساختار و سرعت تولید زیاد
  • طراحي زیرساخت یکپارچه برای ذخیره سازی، مدیریت و حفاظت از داده ها و اطلاعات
  • طراحي زیر ساخت مناسب برای ذخيره سازی و پردازش رويکرد های تحليلی مکان محور، گراف محور و خدمات اينترنت اشياء (IOT) بصورت کاملا منعطف در برابر حجم پردازش هاي حجيم و در توپولوژی جغرافیایی توزیع شده
  • امکان ذخیره سازی داده به صورت توزیع شده، مقیاس پذیر، تحمل پذیر نسبت به خطا
  • طراحي موتور پردازشی توزیع شده و In-Memory جهت تحلیل داده ها بصورت بلادرنگ و در لحظه
  • طراحي یکپارچگی و مدیریت جریان داده های ورودی و خروجی به زیر ساخت، با قابلیت اطمینان پذیری بالا، متناوب و به صورت خودکار