پردازش جریانی داده ها

پردازش جریانی داده ها 

امروزه، افزایش سرعت تولید اطلاعات و نیاز به پردازش سریع و اتخاذ تصمیمات لحظه‌ای باعث شده است یکی از نیاز اصلی در حوزه مدیریت و پردازش داده، پردازش جریان یا پردازش داده در حال حرکت (Data in Motion) باشد.

در کنار رواج زیرساخت های کلان داده و ثبات نسبی الگوریتم ها و مدل های پردازشی مقیاس پذیر، مبحث پردازش جریان(Stream Processing)، به دلیل رواج روزافزون اینترنت اشیاء و دستگاه­‌های هوشمند و لزوم پردازش سریع و لحظه­‌ای حجم عظیم داده­‌های ورودی، به یک موضوع شایع در چند سال اخیر تبدیل شده است، به گونه‌­ای که حتی سامانه­‌های کلاسیک پردازش بسته ای داده­‌ (Batch Processing) مانند Hadoop را به عنوان بخشی از یک سامانه پردازش جریان تعریف می­کنند.

از منظری دیگر، برخی از داده‌ها به سرعت می آیند و می‌روند. به این معنی که اگر آن‌ها را در هنگام رسیدن پردازش نکنیم از دست رفته و دیگر نمی‌توان آن‌ها را برای کارهایی مانند محاسبات فراخوانی کرد. در واقع داده‌هایی که باید به محض دریافت سریعاً پردازش شوند و اگر این کار انجام نشود، این داده‌ها از دست خواهند رفت. این گونه داده‌ها به دلیل سرعت تولید بسیار بالا و به طبع آن حجم زیادشان، قادر به ذخیره سازی در پایگاه داده‌ها نیستند و نمی‌توان آن‌ها را به صورت یک data set بر روی دیسک سخت ذخیره کرد.

به پلتفرم های داده ای که با حجم داده نامحدود مرتبط هستند و باید بتوانند در زمان مناسب، پردازش و تحلیل لازم را روی این داده­‌های در جریان، انجام دهند، سامانه های پردازش جریانی اطلاق می شود.

خدمات پردازش جریان داده در بستر کلان داده با استفاده Storm، Samza،Apex ،Flink و Spark قابل انجام  میباشد و در صورت تمایل می توان از Kafka و RabbitMQو … بصورت مستقل استفاده نمود.

© کپی رایت - هوشمندی کسب و کار، انبار داده، دریاچه داده، پلتفرم داده، تحلیل کلان داده، رهیافت های داده محور، علم داده، هوش مصنوعی | Power by kte.ir