کلانداده میتواند با تمام محدودیتهای بانکی موجود در کشور، سرویس را برای بانکهای ایرانی به ارمغان بیاورد و نحوه تفکر و رویکرد به کسبوکار را عوض کند.
به گزارش افتانا (پایگاه خبری امنیت فناوری اطلاعات)، این روزها تولید دادهها درنتیجه تراکنشهای خرد و کلان مشتریان بانک با چنان سرعتی در حال رشد است که سازمان فناوری اطلاعات را دچار یک چالش جدی کرده است. شوق و ذوق الکترونیکی شدن اکنون با یک چالش جدی مواجه شده است.
با توجه به اهمیت این موضوع، یک میزگرد تخصصی با حضور دکتر سینا سوهانگیر، فارغالتحصیل دانشگاه استنفورد با پیشینه فعالیت با دادههای بزرگ در توییتر، دکتر صادق علیاکبری، مدرس دانشگاه صنعتی شریف و عضو هیئت مدیره شرکت مشاوره اعوان، مهدی نصیری، مدرس دانشگاه علموصنعت و دکتر فرزاد خندان، مدیرعامل شرکت دادهپردازی سیمیاگران و مهندس عبدالرضا شریفیحسینی، معاون بانکداری الکترونیکی بانک آینده در مرکز فابا برگزار شد.
در ادامه آنچه را که در این میزگرد گذشت، در ساختار گفتگوی چندجانبه پیش روی علاقهمندان میگذاریم:
دکتر بیات: موضوع کلانداده (Big data) در حوزه کسبوکارها و بهویژه شبکه بانکی کشور موضوع چندان شناختهشدهای نیست. لذا ضرورت دارد روی مفهوم و کاربردهای آن در کسبوکارها صحبت کنیم تا مخاطبان ما با آن بیشتر آشنا شوند و در کار خود از آن بهره ببرند. لذا از دوستان خواهش میکنیم طرح بحث کنند.
مفهومشناسی
دکتر خندان: خوب است در ابتدا بررسی کنیم وقتی صحبت از Big data میکنیم، منظورمان چه چیزی است و این روند از چه زمانی در دنیا مطرح شده است و اساساً وقتی هوش تجاری وجود داشت چه ضرورتی داشت که وارد حوزه کلانداده شویم؟
دکتر سوهانگیر: بحث Big data در ابتدا با تبلیغات شروع شده است. در هوش تجاری ما یک سری داده داریم که هدف از کنکاش در آن مشخص است و بعد از تحلیل به یک سری نتایجی میرسیم اما در موضوع تبلیغات، هوش تجاری چندان جایگاه ندارد. برای یک تبلیغکننده چندان مهم نیست که بینندگان چه کسانی هستند و روی آنها تحقیق کند. هدف این است که تبلیغات با کارایی بیشتری به بیننده نشان داده شود و برایشان جذابتر باشد.
دکتر خندان: پس میتوان گفت مسئله این نیست که کلانداده یک امر تبلیغاتی است بلکه اولین کاربرد آن صنعت تبلیغات بود.
دکتر سوهانگیر: بله، همینطور است و دلیلش هم این بود که در صنعت تبلیغات هر وقت کاربری در مقابل یک مرورگری قرار میگیرد، تعاملی انجام میَشود و دادههایی تولید میَشوند. کار کلانداده این است که آن دادهها را بگیرد و آنالیز کند.
حجم این دادهها در مقایسه با مثلاً تعاملات بانکی خیلی بیشتر است، بنابراین شرکتهای تبلیغات دیجیتال اولین کاربران آن بودند. البته گوگل علاوه بر استفاده تبلیغاتی، آنالیز وب را هم با آن انجام داد و اینکه چگونه جستجو کند، اما موقعی این کار باب شد که تبلیغات آنلاین خیلی مرسوم شده بود. چون حجم تعامل کاربران با وب و موبایلشان آنقدر زیاد بود که برای انجام هر کار معناداری، یکجور Big data اتفاق میافتد، لذا انجام محاسبات با یک کامپیوتر شدنی نیست و مجبور هستید آن را روی گروهی از کامپیوترها پخشکنید و محاسبات را انجام دهید.
دکتر خندان: بالاخره فرق کلانداده (Big Data) با دادههای خرد (Small Data) چیست؟
دکتر سوهانگیر: فرق آنها در این است که هرچیزی را نتوان روی یک کامپیوتر انجام داد و تعدادی کامپیوتر را باید در خدمت گرفت که آن محاسبات را انجام دهد، کار Big data میشود. البته در بحث تبلیغات هیچ کار دیگری نمیشد انجام داد و واقعاً مجبور به انجام این کار بودند، اما بعد از شروع کلانداده و ایجاد زیرساخت، یک سری کارهایی که بهطور سنتی در جای دیگر انجام میشد با این روش پیش رفت. مثلاً یک زمانی آمریکن اکسپرس تعداد زیادی متخصص داده استخدام کرده بود که فقط دادههای بانک را آنالیز میکردند و نمیدانستند دنبال چه چیزی هستند. با زیرساخت کلانداده، میتوان محاسبات بیشتر و دقیقتر و بزرگتری بر روی دادهها انجام داد و میتوان آدمها را باهم همبسته کرد که چه کسانی با هم رفتار مشابه دارند. این کار شاید قبل از ایجاد آن زیرساخت نه در فکر کسی بود و نه لازم بود، ولی با این زیرساخت، قابل انجام شد.
دکتر علیاکبری: چند نکته را در این زمینه که کلانداده چیست، از کجا آمده و با مدلهای قبلی مثل هوش تجاری چه فرقی دارد، عرض میکنم:
در بحث کلانداده، مدل ساختمان دادههایی که با آنها کار میکنیم، مقداری متفاوت شده است. دادههای قبلی معمولاً ساختارمند و از پیش قابل توصیف بودند مثلاً میگوییم داده یک کاربر در بانک چنین ساختاری دارد و با همان دادهها کار میشد و تغییر در ساختار دادهها خیلی کم بود.
در کلانداده، تغییرات ساختاری هم خیلی زیاد است. یعنی هم دادهها زیادند، هم زیاد تغییر میکنند، هم ساختمان آنها تغییر میکند. امروز برای کاربر یک گونه اطلاعات را نگه میداریم، روز دیگر اطلاعات دیگر و ساختمان دادهای که این دادهها استفاده میشوند نیز بهصورت پویا تغییر میکند. این مسئله باعث میشود که مدلهای سنتی مورداستفاده مخصوصاً دیتابیسهای رابطهای، کمکم ناکارآمد شوند.
یک دوره خیلی طولانی کل بازار در دست دیتابیسهای رابطهای مثل اوراکل، SQL SERVER و مانند آنها بود ولی این دیتابیسها از پس کاربردهای جدید برنمیآیند.
یک نکته دیگر، در کاربردهای جدید، خیلی اوقات نیازهایی را که در دیتابیسهای قدیم داشتیم دیگر نداریم. مثلاً بحث تراکنش، بهروز شدن لحظهای در همه پایگاهها یا سازگاری لحظهای، اینها مربوط به پایگاه دادههای رابطهای است و در کاربردهای جدید خیلی اوقات لازم نیستند. به همین خاطر نیازمندیها را سادهتر میکنند تا با کارایی بالاتری کار کنند. ضمن اینکه کاربردهای سنتی دیتابیسها، سرجای خود باقی است. احتمالاً تا چند سال آینده بخش زیادی از دادهها روی دیتابیسهای رابطهای باقی میمانند و هوش تجاری همچنان مهم باقی میماند. درواقع هوش تجاری و کلانداده هرکدام یک موضوع مجزا هستند که در جاهایی به هم تنه میزنند. اگر حجم دادهها زیاد شود و تغییرات در آنها زیاد باشد هوش تجاری باید از یک زیرساخت کلانداده استفاده کند. لذا کاربردهای سنتی سرجای خود است و برای برخی نیازهای جدید، کلانداده به وجود آمده است و اینها همدیگر را نفی نمیکنند.
پلتفرمها
دکتر خندان: تکنولوژیهایی (پلت فرم) که در این زمینه به وجود آمدهاند کداماند و آینده آن به چه سمتی خواهد رفت؟
دکتر سوهانگیر: کلانداده عملاً با گوگل شروع شد. گوگل در سال ۲۰۰۴ مقالهای منتشر کرد و بدون دادن اطلاعات بیشتر از سورس کد، اعلام کرد پلت فرمی به نام MapReduce ایجاد کردیم و محاسباتمان را اینگونه انجام میدهیم.
در آن موقع تعدادی از استادان دانشگاهها و متخصصان با آن مخالفت کردند و این شیوه را ناکارآمد دانستند اما گروهی دیگر تلاش کردند معادل متنباز آن را ایجاد کنند که به Hadoop منجر شد که الان شناخته شده است.
این کار در حدود سالهای ۲۰۰۷ خیلی باب شد و هنوز هم هادوپ در مؤسسات و حتی بانکها مورداستفاده قرار میگیرد. دو شرکت نیز شکل گرفت که این پلت فرم متنباز را بهعنوان خدمات به کسبوکارهایی میفروشند که دقت و صحت دادهها برایشان مهم است مثل بانکها که میخواهند مطمئن باشند آیا این پلتفرم آمادگی محاسبات و عملیات مدنظر آنها را دارد یا نه؟ شرکتی مثل cloudera این پلت فرم را آماده میکند و نیازهای آنها را تضمین میکند.
در ادامه ماجرا، گوگل از تکنولوژیهای جدیدتری استفاده کرد. یکی از مشکلات هادوپ و MapReduce این است که ذاتاً از روشهایی استفاده میکنند که کند است. هر بار که بخواهید روی یک pc، محاسباتی انجام دهید، دادهها روی هارد نوشته میشود، هرکدام از کامپیوترها از روی هارددیسک خودشان خوانده و محاسباتی انجام میدهند و دوباره روی هارددیسک خودشان مینویسند. این دادهها بین هارددیسکها تقسیم و جابهجا میشود و فرایند از نو انجام میگیرد؛ بنابراین هر مرحله از این عملیات یک مرحله خواندن و نوشتن روی هارد دارد. این باعث میشد که فرایند خیلی کند باشد که با فلسفه Big data برای انجام محاسبات سریع تعارض دارد. به همین خاطر گوگل پلتفرم جدیدی به نام dremel تولید کرد. بهطور موازی در دانشگاه برکلی پروژهای به نام spark راه افتاد که اینها نسلهای جدید کلانداده هستند ولی محدودیتهای قبلی را ندارند.
برای اسپارک هم شرکتی تأسیس شده که آمارهای ارائهشده نشان میدهد تا الان هم بیش از ۴۰ میلیون دلار سرمایه جذب کرده است و گفته میشود ۱۰ تا ۱۰۰ برابر از هادوپ سریعتر است ولی هنوز یک پروژه تحقیقاتی محسوب میَشود و برای مثال Bank of America یا آمریکن اکسپرس از آن استفاده نمیکنند با در مقیاس خیلی کوچک بهره میبرند. حتی در توییتر هم که بودم با وجود شناخت از این تکنولوژی و زبان مشترک برنامهنویسی اسکالا (scala) از آن استفاده نمیکردند.
در حال حاضر، نسخه ۳/۱ اسپارک درآمده است و شرکتهایی که با آن کار میکنند معتقدند به یک تکنولوژی بالغ تبدیل شده است.
نسل بعدی چیزی شبیه اسپارک است و به نظر میرسد اسپارک برنده بازی کلانداده خواهد بود. بیشترین فعالیتها هماکنون روی اسپارک و اسکالا