مطالب توسط

داده پژوهی در بانکداری

امروزه، تکنولوژی های جدید و پيشرفته با حجم وسيعی از داده های ساختاریافته و غيرساختاریافته مواجه هستند. که در این ميان صنعت برق و الکترونيک نيز از این مساله مستثنی نبوده و در جهت پيشرفت و بهينه سازی خدمات خود می بایستی وارد گستره داده های بزرگ شده و از طریق راه حل های موجود از جمله داده پژوهی و داده کاوی به اهداف بزرگ خود نائل گردد. مقاله پيش رو مروری است بر علم داده پژوهی و استفاده از آن در راستای نيل به بسترهای جدید علم فناوری اطلاعات.

مروری بر ابزارهای SQL بر روی هدوپ و کلان داده

اس کیو ال به عنوان روش استاندارد کار با داده های رابطه ای، سالهاست که در تمام تار و پود دنیای فناوری اطلاعات نفوذ کرده است و بنابراین دور از انتظار نیست که برای داده های بدون ساختار یا نیمه ساخت یافته در حوزه کلان داده هم به فکر استفاده از این زبان رایج باشیم تا توسعه گران و تحلیل گران حوزه داده به راحتی و با حداقل آموزش بتوانند به پردازش داده ها بپردازند. از اولین تلاش هایی که در این حوزه انجام شد، هایو (Hive)بود که از فیس بوک نشات گرفت و برای اجرای پرس و جوهای شبه اس کیو ال روی داده های ذخیره شده در هدوپ طراحی شده بود . هایو این دستورات شبه اس کیو ال را تبدیل به دستورات نگاشت و تجمیع  (Reduce Map)می کند و آنها را روی کلاستری از گره های محاسبانی اجرا و نتیجه را برمی گرداند.

معیارهای انتخاب یک بانک اطلاعاتی غیررابطه‌ای (NoSQL)

بانکهای اطلاعاتی رابطه ای دارای جایگاهی برجسته و دیرینه در اکثر سازمان ها می باشند. مهمترین مسئولیت بانک های اطلاعاتی رابطه ای، تأمین زیربنای لازم جهت ذخیره سازی و مدیریت داده برنامه هایی است که مأموریت اصلی آن ها پاسخگویی به نیازهای کسب وکار است. بانکهای اطلاعاتی رابطه ای توسط اکوسیستم گسترده ای از ابزارها حمایت می شوند و نیروی انسانی ماهر فراوانی جهت پیاده سازی و نگهداری آنها وجود دارد. با توجه به تحولات شگرف در حوزه داده که از آن به عنوان انقلاب داده یاد می شود و تأثیر مستقیم و غیرمستقیم آن بر فضای کاری اکثر بنگاه های اقتصادی، اغلب سازمان ها به دنبال گزینه های جایگزین دیگری برای زیرساخت رابطه ای سنتی خود می باشند. انگیزه های متعددی در پس این تصمیم وجود دارد که میتوان آنها را به دو گروه فنی و غیرفنی تقسیم کرد. به عنوان مثال نیاز به مدیریت داده هایی از نوع غیر ساختیافته و یا شبه ساختیافته را می توان از انگیزه های فنی این تصمیم تلقی کرد. از انگیزه های غیرفنی میتوان به هزینه بالایی مالکیت نرم افزار و سخت افزار بانک اطلاعاتی و همچنین چالاکی و یا سرعت در پیاده سازی اشاره کرد. بنگاه های کسب وکار در تلاش برای تطبیق خود با نیازهای بازار به دنبال به کارگیری روشهای چالاک پیاده سازی می باشند تا بتوانند ضمن مدیریت صحیح هزینه ها، زمان ارائه محصول و یا خدمات جدید به بازار را نیز کاهش دهند.

کیودو (Kudu)، لایه ذخیره ساز Hadoop

کیودو (Kudu)به عنوان یک لایه ذخیره ساز جدید و جایگزین HDFS توسط شرکت کلودارا (Cloudera) بعد از سه سال تحقیق و توسعه، به عنوان یک پروژه متن بازبه بنیاد آپاچی پیشنهاد و توسط آپاچی به عنوان یک پروژه نوپا (در حال رشد ( incubating  پذیرفته شده است.

همانطور که میدانید، HDFS  به عنوان لایه اصلی ذخیره سازی داده ها در هدوپ، یک مکانیزم ترتیبی در خواندن اطلاعات دارد و بازیابی یک داده خاص در یک کلاستر از رایانه ها، عملی زمان بر است. برای رفع این مشکل، از HBASE به عنوان یک رهیافت جایگزین ذخیره سازی داده ها در هدوپ استفاده میکنیم که به ما اجازه دسترسی تصادفی و سریع به یک رکورد اطلاعاتی را میدهد. اما HBASE هم به عنوان یک بانک اطلاعاتی سطر گسترده توزیع شده، امکان پردازش دسته ای داده ها را با سرعت بالا فراهم نمی کند و معمولا ترکیب این دو روش برای یک راه حل کامل تحلیل و بازیابی اطلاعات در سازمان ها و شرکت ها استفاده می شود.

Kudu  در این بین، برای ایجاد یک راه حل میانه، ایجاد و توسعه داده شده است و روشی را برای ذخیره داده ها پیشنهاد میکند که هم به سرعت می تواند یک رکورد را در بین میلیون ها رکورد پیدا کند و هم پردازش دسته ای و گروهی داده ها را برای ما با سرعت و کارآیی بالا به ارمغان می آورد و از سرورهای امروزی که رم بالایی دارند هم حداکثر استفاده را انجام میدهد. (تا حد امکان پردازشها را در حافظه انجام میدهد(.

دریاچه داده : معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات

در دنیای Big Data ،مدتی است که عبارت دریاچه داده به یک اصطلاح فراگیر در حوزه معماری های پیشنهادی برای پردازش داده ها تبدیل شده است. دریاچه داده از دید مفهومی، یک مکان مشترک برای ذخیره انواع داده های یک سازمان به صورت خام و پردازش نشده است. برخالف انباره های داده که به صورت خاص برای مقاصد تحلیل و گزارش گیری های مدیریتی طراحی می شوند و شکل داده های ورودی را به قالب مورد نیاز خود تبدیل و ذخیره می کنند، دریاچه های داده، اطلاعات و داده ها را به صورت خام ذخیره می کنند تا در آینده، ابزارهای پردازشی و تحلیل گران، خود تصمیم بگیرند که چه تبدیلی و چه پردازشی را روی آنها انجام بدهند. از طرفی، انباره های داده دارای قالب و ساختار از پیش تعیین شده هستند و این موضوع، انواع داده های نوینی که روزانه در سازمان ها تولید می شود را برای ذخیره به منظور مقاصد تحلیلی به چالش دچار می کند چون یکسره نیاز به تیمی برای مدیریت و طراحی ساختار و تبدیل داده ها خواهیم بود. در صورتیکه در دریاچه داده ، داده ها به همان شکلی که هستند (مثلا داده های خام شبکه، حسگرها، متون استخراج شده از شبکه های اجتماعی و …) ذخیره می شوند و نیاز مداوم به پالایش ندارند.

مقدمه‌ای بر کلان داده (مه داده) و فناوری‌های مرتبط

اگر بخواهیم تعریفی از کلان داده ارائه کنیم می توانیم آنرا مجموعه داده هایی بدانیم که اندازه آنها فراتر از حدی است که با نرم افزارها و روش های معمول بتوان آنها را در یک زمان قابل قبول، دریافت، ذخیره، مدیریت و پردازش کرد. دراین تعریف، حجم داده مشخص نشده است چون میزان کلان بودن داده همزمان با پیشرفت فناوری های ذخیره سازی و پردازش اطلاعات روز به روز و عموماً به خاطر تولید داده توسط تجهیزات و ابزارها ی مختلف دیجیتال در حال افزا یش است. گوشی های موبایل، حس گرهای  محیطی، لاگ نرم افزارهای مختلف، دوربین ها، میکروفونها، دستگاه های تشخیصRFID ، شبکه های حسگر بیسیم، ایستگاه های هواشناسی، سامانه های امواج رادیویی، مبادلات شبکه های اجتماعی آنلاین، متون و اسناد اینترنتی، داده های نجوم، اطلاعات پزشکی و سلامت بیماران، اطلاعات سامانه های خرید از فروشگاه ها، پژوهشهای زمین شناسی و غیره نمونه هایی از داده ها در مقیاس کلان هستند. مقیاسی که امروزه از گیگابایت و ترابایت به پتا بایت و اگزا بایت و زتا بایت در حال حرکت است.

نسل سوم هوش کسب‌وکار (BI-3)

کاربران امروزی هوش کسب و کار نیازی به داشتن درجه پیشرفته ای از دانش رایانه و داده ندارند. حتی نیازی به داشتن علاقه به حرکت در مسیر کشف داده هم ندارند. نسل سوم هوش کسب وکار در کاربران خود تجدیدنظر میکند و همه توانایی ها از انواع پس زمینه های عملکردی را مخاطب خود قرار میدهد. از حسابداران و مدیران سطح C تا سرپرستان انبار، مدیران خرید، فروش و کارکنان بازاریابی، و فراتر از آن، کل تیم می تواند اطلاعات مورد نیاز خود را برای حرکت رو به جلو پیدا کند.  نسل سوم هوش کسب و کار معطوف به کارگروهی ، همکاری و مشارکتی است و برای کارگروه های اجتماعی بسیار ایده ال است. بجای تولید گزارشات ماهانه، هفتگی یا روزانه، قادر به تولید گزاشات لحظه ای روی هر تعداد فرآیند است.

شناسایی تقلب در کارت‌های بانکی با استفاده از شبکه‌های عصبی مصنوعی

هرچند آمار دقیقی از تقلب در كارتهای بانكی معتبـرِ كشـور وجـود نـدارد، بـه نظـر میرسد تقلب در كارتهای بانكی روند رو به رشدی دارد و میتواند در آیندة نـه چنـدان دور بـه یكی از معضلات سیستم بانكی كشور تبدیل شود. متأسفانه هنوز در كشورمان تحقیقات مناسبی در این خصوص صورت نگرفته و سیستم بانكی مدل یا مدل هایی كارا نیاز دارد كه بتواند امنیت استفاده از كارتهای بانكی را تضمین كند. لذا در این پژوهش، پس از شناسایی انواع تقلبهای رایج در زمینة كارتهای بانكی و شبیه سازی تراكنشهای متقلبانه، با بهره گیری از شـبكه هـای عصبی مصنوعی، مدلی برای طبقه بندی تراكنش ها به تراكنش های سالم و متقلبانـه (مشـكوك به تقلب) ایجاد شد. این مدل كه از نوع شبكه عصبی پرسپترون چندلایه است، علاوه بـر اینكـه مبتنی بر سیستم بانكی داخلی كشور است، توانسته است با دقت 99درصد، عملكرد نسبتاً خـوبی در طبقه بندی مزبور داشته باشد. با مقایسة معیارهای ارزیابی عملكرد محاسبه شده این پـژوهش و نتایج مدلهای ارائه شده در مطالعات دیگر، مشخص شد معیارهای ارزیابی عملكـرد پـژوهش حاضر از روایی و پایایی مناسبی برخوردارند.

ارائه رویكردی نوین در صدور گزارش حسابرسی با استفاده از داده‌كاوی

با توجه به فرایند خصوصی سازی در كشور، افزایش تعداد سرمایه گذاران و تدوین قانون بازار اوراق بهادار،تمركز بر سرمایه گذاری و به تبع آن گزارشگری مالی هر روز در حال افزایش است. با شدت گرفتن رقابت در عرصه های مختلف از جمله حسابرسی، موسسه های حسابرسی به دنبال به كارگیری راهكارهایی برای افزایش كارایی خود هستند. در جهت دستیابی به این مقصود باید عوامل تاثیرگذار بر افزایش كارایی را شناسایی و در جهت رفع یا کاهش عوامل بازدارنده آن تلاش شود. بنابراین حسابرس نیاز به ابزاری دارد تا وی را از وجود احتمال خطر و تحریف آگاه سازد. در این پژوهش پس از بررسی گزارش های حسابرسی موجود در بازه زمانی1390 -1385، به منظور شناسایی مهم ترین عوامل تاثیرگذار بر اظهار نظر حسابرس، دو نمونه از گزارش استاندارد و غیر استاندارد انتخاب و پس از بررسی تحقیقات پیشین، 41 متـغیر انتخاب شد. در نهایت با مقایسه روش های مختلف داده کاوی، شامل شبکه عصبی تابع پایه شعاعی، نیوبیز، درخت تصمیم گیری، پارت و رگرسیون لجستیک، نوع اظهارنظر حسابرس قابل پیش بینی می باشد.

تحلیل ارزش مشتری در بانک با استفاده از تکنیک داده‌کاوی و تحلیل سلسله مراتبی فازی

ارزش مشتری به تعامل بالقوه مشتریان با شركت در طول دوره های زمانی مشخص اشاره میكند . هنگامی كه شرکت ها ارزش مشتری را درك كنند و به این موضوع پی ببرند كه ارزش مشتری میتواند خدمات سفارشی سازی شده را برای مشتریان مختلف ارائه كند، آنگاه به مدیریت روابط مشتری مؤثر دست می یابند. این پژوهش بر صنعت بانكداری متمركز بوده و به طور سیستماتیك تكنیك كاوی و داده مباحث مدیریتی را جهت تجزیه و تحلیل ارزش مشتریان، یكپارچه سازی میكند. در گام نخست روش تحلیل سلسله مراتبی فازی برای وزن دهی به متغیرهای موجود مورد بررسی قرار میگیرد تا میزان تأثیر هر یك از معیارهای مدل DFMT در فرآیند ارزش گذاری مشتریان مشخص گردد. سپس مدل DFMT به عنوان ورودی به تكنیك داده كاوی  K- means اعمال می گردد. با استفاده از مدل امتیازدهی پیشنهادی، هرم ارزش مشتری تشكیل می شود كه مشتریان را در 4 طیف ارزشی دسته بندی می کند. در هرم ارزش مشتری بدست آمده از جامعه آماری 285 مشتری شعب بانك تجارت زنجان، طیف اول؛ مشتریان پلاتینیومی هستند كه ردیفهای ارزشی H1,H2 را شامل میشوند كه از سطح سودآوری بالایی، برخوردار هستند. طیف دوم؛ مشتریان طلایی كه ردیفهای ارزشی H3,H4,H5 را شامل می شود. طیف سوم؛ مشتریان نقرهای هستند كه ردیفهای ارزشی H6,H7,H8 را شامل می شود. طیف چهارم؛ مشتریان سربی كه ردیفهای ارزشی H9,H10 را شامل می شود. در واقع این طیف منابع دریافتی از بانك را به هدر داده و بانك باید برای كار با آنها میزان ریسك بالایی را بپذیرد.