پلتفرم داده و علوم داده

علم داده، بر مطالعه، استخراج داده‌ها، تحلیل آن‌ها، فراداده‌ها (Metadata)، بازیابی سریع، آرشیو داده‌ها، تبادل داده‌ها، جستجو برای یافتن روابط بین داده‌ها، بصری سازی داده‌ها متمرکز است.

علم داده، امروزه به ابزاری قدرتمند برای تصمیم سازان و تصمیم گیران در سازمان‌ها تبدیل‌شده است، تا بتوانند مشکلات و مسائل سازمانی خود را مبتنی بر داده‌های موجود، ساماندهی و مدیریت نمایند. همچنین استفاده از داده‌ها به‌عنوان دارایی‌های مهم هر سازمان، اثر فراوانی بر رسیدن به اهداف و استراتژی‌های سازمانی دارد. به این موضوعات، وجود فضای رقابتی، کمبود سرمایه و بودجه، مشکلات نیروی انسانی و … نیز افزوده می‌شود. در اینجاست که کارشناسان خبره علم داده‌ها، به‌عنوان تصمیم سازان، سازمان را در مدیریت بهتر منابع یاری می‌رسانند.

در علم داده‌ها، کارشناسان علوم داده یا دانشمند داده‌ها، باید مهارت‌های زیر را دارا باشند:

  • فرموله کردن مسئله
  • تجمیع، پاک‌سازی، ذخیره‌سازی و یکپارچه‌سازی داده‌ها
  • تبدیل داده‌ها، داده‌کاوی و تحلیلگری (ایجاد مدل‌های تحلیلی توصیفی (Descriptive Analytics)، پیش بینانه (Predictive Analytics) و تجویزی (Prescriptive Analytics))
  • مهارت‌های برنامه‌نویسی
  • مهارت‌های نمونه‌سازی
  • مهارت‌های استقرار سامانه‌های داده‌های عظیم (Big Data)
  • مهارت‌های ریاضیات و علم آمار
  • مهارت‌های نوشتاری و بصری‌سازی داده‌ها

کاربرد های علوم داده (Data Science) 

علوم داده‌ها، کاربردهای فراوانی در سازمان‌ها دارد که می‌توان به‌عنوان نمونه، خدمات و کاربردهای زیر را در این حوزه معرفی نمود:

  • تولید تصویر برای فهم داده‌ها (تولید اینفوگراف)
  • تجمیع داده‌های درون و برون سازمانی و پاک‌سازی داده‌ها جهت تصاحب دارایی‌های اطلاعاتی سازمان
  • استفاده شایسته از دانش و مهارت‌های نیروی انسانی
  • تشخیص به‌موقع نیازهای اطلاعاتی جهت اخذ تصمیم‌های مهم مدیریتی
  • نهادینه نمودن استفاده صحیح از داده‌ها و اطلاعات در سازمان
  • افزایش بلوغ تحلیلی سازمان با تمرکز بر نتایج عملکرد سازمانی
  • ساخت مدل‌های ریاضی و منطقی با استفاده از داده
  • تضمین پایداری مجموعه‌های داده
  • سازگاری اطلاعاتی میان ارکان مختلف سازمان جهت ایجاد درک یکپارچه از داده
  • شفافیت حداکثری عملکردها
  • شناسایی و خلق محصولات، خدمات و مدل‌های جدید کسب‌وکار

پلتفرم داده راهکار استقرار علوم داده

پلتفرم داده (Data Platform)، یک راهکارِ فناورانهِ یکپارچه است که اجازه می دهد داده های موجود در بانک های اطلاعاتی متعدد یک سازمان، به صورت متمرکز، حکمرانی و مدیریت شود.این حکمرانی و مدیریت شامل امور:

  • مانیتورینگ انتقال (خودکار) داده ها و فرآیندها
  • انجام فرآیندهای (خودکار) پیش پردازش داده ها
  • انجام فرآیندهای (خودکار) پاکسازی و یکپارچگی داده ها
  • انجام فرآیندهای پردازش کلان داده،
  • انجام فرآیندهای پردازش جریانی و بلادرنگ
  • انجام فرآیندهای (خودکار) پردازش تحلیلی (ML و DL)
  • ارتباطات داده ای شامل:
    • دسترسی دهی
    • تحویل دهی داده ها به کاربران دارای مجوزهای مناسب
    • تحویل دهی داده به برنامه های داده پذیر
    • تحویل دهی داده یه سایر فناوری ها و تحویل گیری داده های پردازش شده از API ها
  • بصری سازی داده ها در قالب داشبوردهای زمانبندی شده
  • هشدار دهی ها

برای اهداف راهبردی و استراتژیک می باشد.

 

پلتفرم داده، زیرساختی برای حکمرانی “دارایی داده ای” سازمان

برای بهره برداری از داده ها بعنوان “دارایی های راهبردی سازمان” پلتفرم داده ای نقش زیرساختی و حاکمیتی دارد. با پلتفرم داده سازمانی می توان:

  • از تمامی منابع داده‌ای سازمان، به طور همزمان و یکپارچه استفاده کرد.
  • فرآیندهای غنی سازی، رایانش، دریافت، پالایش و فرآوری داده را اتوماتیک کرد.
  • داده ها را مدلسازی و کشف دانش کرد.
  • اطلاعات را در داشبوردهای مدیریتی و مدل‌های بصری کاربردی نمایش داد.
  • انواع اطلاعات، گزارشات و نتایج تحلیل ها را در ساختاری منسجم، یکپارچه و سازگار با مدل ذهنی کارکنان و تحلیلگران ذخیره کرد.
  • بدون آشنایی با Query نویسی، پاسخ پرسش‌های پیچیده‌ خود را جستجو کرد.
  • اطلاعات، نتایج تحلیل‌ها و روش های تحلیل را با کارکنان مرتبط به اشتراک گذاشت.

 

ابزار ها و راهکارها

در تيم علوم داده فرابر با توجه به نوع نياز، ميزان بار مصرفی و مورد نياز، زير ساختهای پردازشی و …از ابزارها و نرم افزاری Open Source زير استفاده می شود:

  •  Spark -Apex -Flink -Ignite -Beam over Spark/Flink- Storm
  • Elastic Stack
  • Elasticsearch -Solr
  • HBase -Cassandra -MongoDB -PostgreSQL
  • Redis -AeroSpike
  • Neo4j -OrientDB -Titan
  • Hue -Hive -DBeaver
  • Kafka -RabbitMQ -Pulsar
  • NiFi
  • Airflow
  • KONG
  • Scrapy -BeautifulSoup
  • Druid -Clickhouse -Kylin -Pinot
  • RKE(Rancher Kubernetes Engine) -OpenShift -Kubeflow
  • HAProxy -Nginx
  • OpenStack
  • Zabbix
  • Prometheus -Grafana -Kibana
  • ThingsBoard
  • Node-RED
  • Jupyter
  • Swagger -Postman
  • و …

همچنين با توجه به نيازهای پردازشی و تحليلی، امکان توليد انواع مدلها و الگوريتم های داده کاوی در بستر سامانه های تحت وب و ابری (Cloaud Based) و در اشکال مختلف از قبيل Rest API، Web-Socket و  MicroService ها ميسر می باشد.

اين سامانه های تحليلی، مبتنی بر  Statistical Learning ، Machine Learning ، Deep Learning،  Graph Learrning و … جهت انجام امور Data Science و Data Engineering (و با عنايت ويژه به مراحل مختلف Dev-Ops و ML-Ops و AI-Ops) و در بستر ابزارهای رايج از قبيل Flaskو Django و … توليد و ارائه می شوند.

در انتها ذکر اين مطلب لازم می باشد که در طراحی معماری سامانه های مذکور، همواره پيشنهاد می شود که از تکنولوژی داکر و kubernetes برای ساخت VM ها در محیطی ایزوله بهره برداری شود. اين نوع تکنولوژی و معماری، برخورداری از ساختار شبکه مجزا، فضای ذخیره سازی مشخص شده و سیاست های امنیتی خاص را فراهم می کند و قابلیت مقیاس پذیری، دسترس پذيری بالا و تحمل پذيری خطا در برنامه در حال اجرا را در صورت نیاز برای مشتری فراهم می کند.

© کپی رایت - هوشمندی کسب و کار، انبار داده، دریاچه داده، پلتفرم داده، تحلیل کلان داده، رهیافت های داده محور، علم داده، هوش مصنوعی | Power by kte.ir