پلتفرم داده و علوم داده، بر مطالعه، استخراج دادهها، تحلیل آنها، فرادادهها (Metadata)، بازیابی سریع، آرشیو دادهها، تبادل دادهها، جستجو برای یافتن روابط بین دادهها، بصری سازی دادهها متمرکز است.
پلتفرم داده (Data Platform) و علم داده، امروزه به ابزاری قدرتمند برای تصمیم سازان و تصمیم گیران در سازمانها تبدیلشده است، تا بتوانند مشکلات و مسائل سازمانی خود را مبتنی بر دادههای موجود، ساماندهی و مدیریت نمایند. همچنین استفاده از دادهها بهعنوان داراییهای مهم هر سازمان، اثر فراوانی بر رسیدن به اهداف و استراتژیهای سازمانی دارد. به این موضوعات، وجود فضای رقابتی، کمبود سرمایه و بودجه، مشکلات نیروی انسانی و … نیز افزوده میشود. در اینجاست که کارشناسان خبره علم دادهها، بهعنوان تصمیم سازان، سازمان را در مدیریت بهتر منابع یاری میرسانند.
در علم دادهها، کارشناسان علوم داده یا دانشمند دادهها، باید مهارتهای زیر را دارا باشند:
- فرموله کردن مسئله
- تجمیع، پاکسازی، ذخیرهسازی و یکپارچهسازی دادهها
- تبدیل دادهها، دادهکاوی و تحلیلگری (ایجاد مدلهای تحلیلی توصیفی (Descriptive Analytics)، پیش بینانه (Predictive Analytics) و تجویزی (Prescriptive Analytics))
- مهارتهای برنامهنویسی
- مهارتهای نمونهسازی
- مهارتهای استقرار سامانههای دادههای عظیم (Big Data)
- مهارتهای ریاضیات و علم آمار
- مهارتهای نوشتاری و بصریسازی دادهها
کاربرد های پلتفرم داده(Data Platform) و علوم داده (Data Science)
پلتفرم داده(Data Platform) و علوم داده، کاربردهای فراوانی در سازمانها دارد که میتوان بهعنوان نمونه، خدمات و کاربردهای زیر را در این حوزه معرفی نمود:
- تولید تصویر برای فهم دادهها (تولید اینفوگراف)
- تجمیع دادههای درون و برون سازمانی و پاکسازی دادهها جهت تصاحب داراییهای اطلاعاتی سازمان
- استفاده شایسته از دانش و مهارتهای نیروی انسانی
- تشخیص بهموقع نیازهای اطلاعاتی جهت اخذ تصمیمهای مهم مدیریتی
- نهادینه نمودن استفاده صحیح از دادهها و اطلاعات در سازمان
- افزایش بلوغ تحلیلی سازمان با تمرکز بر نتایج عملکرد سازمانی
- ساخت مدلهای ریاضی و منطقی با استفاده از داده
- تضمین پایداری مجموعههای داده
- سازگاری اطلاعاتی میان ارکان مختلف سازمان جهت ایجاد درک یکپارچه از داده
- شفافیت حداکثری عملکردها
- شناسایی و خلق محصولات، خدمات و مدلهای جدید کسبوکار
پلتفرم داده راهکار استقرار علوم داده
پلتفرم داده(Data Platform) یک راهکارِ فناورانهِ یکپارچه است که اجازه می دهد داده های موجود در بانک های اطلاعاتی متعدد یک سازمان، به صورت متمرکز، حکمرانی و مدیریت شود.این حکمرانی و مدیریت شامل امور:
- مانیتورینگ انتقال (خودکار) داده ها و فرآیندها
- انجام فرآیندهای (خودکار) پیش پردازش داده ها
- انجام فرآیندهای (خودکار) پاکسازی و یکپارچگی داده ها
- انجام فرآیندهای پردازش کلان داده،
- انجام فرآیندهای پردازش جریانی و بلادرنگ
- انجام فرآیندهای (خودکار) پردازش تحلیلی (ML و DL)
- ارتباطات داده ای شامل:
- دسترسی دهی
- تحویل دهی داده ها به کاربران دارای مجوزهای مناسب
- تحویل دهی داده به برنامه های داده پذیر
- تحویل دهی داده یه سایر فناوری ها و تحویل گیری داده های پردازش شده از API ها
- بصری سازی داده ها در قالب داشبوردهای زمانبندی شده
- هشدار دهی ها
برای اهداف راهبردی و استراتژیک می باشد.
پلتفرم داده، زیرساختی برای حکمرانی “دارایی داده ای” سازمان
برای بهره برداری از داده ها بعنوان “دارایی های راهبردی سازمان” پلتفرم داده ای نقش زیرساختی و حاکمیتی دارد. با پلتفرم داده سازمانی می توان:
- از تمامی منابع دادهای سازمان، به طور همزمان و یکپارچه استفاده کرد.
- فرآیندهای غنی سازی، رایانش، دریافت، پالایش و فرآوری داده را اتوماتیک کرد.
- داده ها را مدلسازی و کشف دانش کرد.
- اطلاعات را در داشبوردهای مدیریتی و مدلهای بصری کاربردی نمایش داد.
- انواع اطلاعات، گزارشات و نتایج تحلیل ها را در ساختاری منسجم، یکپارچه و سازگار با مدل ذهنی کارکنان و تحلیلگران ذخیره کرد.
- بدون آشنایی با Query نویسی، پاسخ پرسشهای پیچیده خود را جستجو کرد.
- اطلاعات، نتایج تحلیلها و روش های تحلیل را با کارکنان مرتبط به اشتراک گذاشت.
ابزار ها و راهکارها
در تيم پلتفرم داده(Data Platform) و علوم داده فرابر با توجه به نوع نياز، ميزان بار مصرفی و مورد نياز، زير ساختهای پردازشی و …از ابزارها و نرم افزاری Open Source زير استفاده می شود:
- Spark -Apex -Flink -Ignite -Beam over Spark/Flink- Storm
- Elastic Stack
- Elasticsearch -Solr
- HBase -Cassandra -MongoDB -PostgreSQL
- Redis -AeroSpike
- Neo4j -OrientDB -Titan
- Hue -Hive -DBeaver
- Kafka -RabbitMQ -Pulsar
- NiFi
- Airflow
- KONG
- Scrapy -BeautifulSoup
- Druid -Clickhouse -Kylin -Pinot
- RKE(Rancher Kubernetes Engine) -OpenShift -Kubeflow
- HAProxy -Nginx
- OpenStack
- Zabbix
- Prometheus -Grafana -Kibana
- ThingsBoard
- Node-RED
- Jupyter
- Swagger -Postman
- و …
همچنين با توجه به نيازهای پردازشی و تحليلی، امکان توليد انواع مدلها و الگوريتم های داده کاوی در بستر سامانه های تحت وب و ابری (Cloaud Based) و در اشکال مختلف از قبيل Rest API، Web-Socket و MicroService ها ميسر می باشد.
اين سامانه های تحليلی، مبتنی بر Statistical Learning ، Machine Learning ، Deep Learning، Graph Learrning و … جهت انجام امور Data Science و Data Engineering (و با عنايت ويژه به مراحل مختلف Dev-Ops و ML-Ops و AI-Ops) و در بستر ابزارهای رايج از قبيل Flaskو Django و … توليد و ارائه می شوند.
در انتها ذکر اين مطلب لازم می باشد که در طراحی معماری سامانه های مذکور، همواره پيشنهاد می شود که از تکنولوژی داکر و kubernetes برای ساخت VM ها در محیطی ایزوله بهره برداری شود. اين نوع تکنولوژی و معماری، برخورداری از ساختار شبکه مجزا، فضای ذخیره سازی مشخص شده و سیاست های امنیتی خاص را فراهم می کند و قابلیت مقیاس پذیری، دسترس پذيری بالا و تحمل پذيری خطا در برنامه در حال اجرا را در صورت نیاز برای مشتری فراهم می کند.