تجارت الکترونیکی تلفیقی و فرآیند تعیین الگوهای سودمند تجاری (DataMining )

تجارت الکترونیکی تلفیقی و فرآیند تعیین الگوهای سودمند تجاری (DataMining ) :
معماری و چالش ها
(سهیل انصاری ، ران کوهاری ، لیلو می سن و زیجیان زنگ )
شرکت نرم افزارهای Blue Martini

چکیده :
ما نشان می دهیم که حوزه تجارت الکترونیکی می نواند همه اجزا مورد نیاز برای یک فرآیند موفق تعیین الگوهای سودمند تجاری را فراهم سازد و در عین حال عقیده داریم که این یک حوزه موثر برای فرآیند ذکر شده است . ما بر اساس تجاربمان در شرکت نرم افزاری بلو مارتینی (Blue Martini ) در ارتباط با معماری تلفیقی توضیح خواهیم داد تا نشان دهیم که این امر بر اساس تجربه صورت گرفته است .
معماری به طور قابل توجهی می تواند زمان انجام پیش پردازش ، پاک سازی و اقدامات شناخت داده ها را کاهش دهد که معمولاً این کارها حدود ۸۰% زمان پروژه های کشف اطلاعات را در بر می گیرد . به منظور پشتیبانی از ثبت داده ها و فوق داده ها که برای فرآیند کشف مفید است ، ما تاکید می کنیم که جمع آوری داده ها در لایه سرویس دهنده کاربردی صورت بگیرد نه در سرویس دهنده وب.
توضیح داده خواهد شد که پل های انتقال داده بین سیستم های پردازش گردش کار یا جریانهای رخدادی خریدار ( به طور مثال : جریان کیلیک) و محل انبار داده ها مورد نیاز است همچنین به تفصیل در ارتباط با استخراج اطلاعات ، کاری که نیاز مند داشتن چندین دیدگاه از داده ها از طریق گزارش، الگوریتم های data mining تجسم و OLAP می باشد ، توضیح خواهیم داد . و با بیان چندین چالش در این زمینه مقاله خود را به پایان خواهیم برد .

OLAP : یک سیستم بانک اطلاعاتی رابطه ای ، با قابلیت پردازش پرس وجوهای پیچیده تری نسبت به بانکهای رابطه ای استاندارد که از طریق دسترسی چند بعدی به داده ها ( که در آن داده ها با معیارهای مختلفی مورد توجه قرار می گیرند) قابلیت محاسبه زیاد و روشهای ویژه اندیس گذاری انجام می شود .

مقدمه :
تجارت الکترونیکی در حال پیشرفت است و همگام با این پیشرفت ، شرکت ها علاقه بیشتری دارند تا در زمینه پیشرفت تجارت آن لاین (ONLINE) سرمایه گذاری کنند . در کتاب COMMERCE SOFTWARE TAKESOFF ، نویسندگان تحقیق forrester نوشتند که در سال ۱۹۹۹ تجارت آن لاین در زمینه خرده فروشی مصرف کننده حدود ۳/۲۰ میلیارد دلار بوده است و پیش بینی شده است

که تا سال ۲۰۰۳ به بیش از ۱۴۴ میلیارد دلار برسد . حدود ۲۵۰۰ شرکت جهانی در سال ۲۰۰۰ میلادی نسبت به سال ۱۹۹۹ بیش از ۷۲% در زمینه تجارت الکرونیکی سرمایه گذاری خواهند کرد . سایت های موجود از اندازه گیرهای اولیه همچون تعداد بازدید صفحات استفاده می کنند اما نیاز برای تحلیل و خصوصی سازی با توجه به نیاز های متفاوت روز به روز افزایش می یابد . در

کتابMeasuring websuccess نویسندگان ادعا می کنند که افراد پیشرو از واحدهای متدی برای ایجاد خصوصی سازی استفاده می کنند و اینکه شرکت ها به هوش شبکه نیاز دارند نه به تحلیل موارد ثبت شده .
ابزار data mining به کشف الگوهای داده ها کمک می کنند . تاکنون شرکتها یی که بر روی ساختار افقی وسایل الگو ساز data mining متمرکز شده بودند ، پیشرفت تجارت کمی داشتند . میزان خرید بسیاری از شرکت ها بدین قرار است : دریافت علوم فشرده توسط Gentia در حدود ۳

میلیارد دلار ، هماهنگی بسیار بالا توسط yahoo در حدود ۳/۲ میلیون دلار ، معتدل سازی به وسیله spss در حدود ۷ میلیون دلار و ماشین های متفکر بوسیله oracle در حدود چیزی کمتر از ۲۵ میلیون دلار افزایش یافته اند . KD1 توسط Net Perception در حدود ۱۱۶ میلیون دلار به دست امد . right point که قبلاً نام data mind داشت توسط E.Piphany برای حدود ۴۰۰ میلیون دلار و Nero vista

توسط Acro برای حدود ۱۴۰ میلیون دلار به دست آمده است . تغییر این ارزیابی ها تاکید می کند که باید توجه بیشتری را بر ارزش تکنیک های الگو سازیdata mining در زمینه تجارت الکترونیکی داشته باشیم .

تجارت الکترونیکی یک حوزه موثر برای data mining است. این روش ایده ال است زیرا بسیاری از مواد مورد نیاز برای data mining موفق به راحتی به دست می آید : ثبت داده ها بسیار متعدد است، مجموعه الکترونیک داده های قابل اطمینان را فراهم سازد، افکار به راحتی به مرحله اجرا در می آید و بازگشت سرمایه اندازه گیری می شود. اگر چه برای پیشرفت در این حوزه، باید data mining در سیستم های تجارت الکترونیکی با پل های انتقال داده ها از سیستم پردازش گردش

کار به محل انبار داده ها و بر عکس مجتمع شود. چنین ترکیبی به طور قابل توجهی زمان آماده سازی داده ها را کاهش می دهد که طی تحقیقات بدست آمده حدود ۸۰ درصد زمان تکمیل یک تحلیل را بر عهده می گیرد. یک راه حل تلفیقی همچنین می تواند برای کاربران یک رابطه مستقیم بین کاربر و پردازش کامل فوق داده ها را ایجاد کند.

این تحقیق بر اساس مواردی که بعدا ذکر خواهد شد، شکل گرفته است. بخش ۲ معماری تلفیقی را توصیف می کند و در مورد اجزای سازنده مهم و پل هایی که آنها را به هم وصل می کنند توضیح می دهد. بخش ۳ به تفصیل در مورد جمع آوری داده ها صحبت می کند. یعنی باید داده های بیشتری را نسبت به فایل های ثبتی سرویس دهنده شبکه تاکنون مورد استفاده بوده اند، جمع

آوری کرد. بخش ۴ در مورد اجزای تحلیل گر صحبت می کند که باید طیف وسیعی از وسایل انتقال داده ها و وسایل آنالیز کردن را فراهم کرد. و در ارتباط با بعضی از مشکلات چالش انگیز در بخش ۵ صحبت خواهیم کرد. و در بخش ۶ با یک جمع بندی مطلب را به پایان خواهیم برد.
معماری تلفیقی :
در این بخش ما در مورد معماری مورد نظر یک بازبینی کلی در زمینه سیستم تجارت الکترونیکی با استفاده از data mining تلفیقی خواهیم داشت. از جزئیات بخش های بسیار مهم معماری و سودمندی آنها در بخش های بعدی بحث خواهیم کرد. این سیستم که در مورد آن شرح دادیم یک معماری ایده آل است که براساس تجارب ما در شرکت نرم افزاری Blue martini بدست آمده

است. اگر چه ما هیچ گونه ادعایی نداریم که هر آنچه در اینجا توضیح داده می شود آنرا در شرکت خود اجرا کرده ایم. در معماری مورد نظر ما سه جزء بسیار مهم وجود دارد : تعریف داده تجاری، تاثیر متقابل خریدار و آنالیز. برای اتصال چنین اجزایی سه پل انتقال داده وجود دارد : stage data, deploy Results و customer Interaction. رابطه بین شرکت ها و پل های انتقال داده ها در شکل ۱ نشان داده شده است. سپس هر یک از اجزای معماری و پل هایی که این اجزا را به هم متصل می کنند در موردشان توضیح می دهیم.
در جزء تعریف داده تجاری، کاربر تجاری داده ها و فوق داده ها مرتبط با تجارتشان را تعریف می کند. این داده شامل اطلاعات تجاری (بطور مثال : تولیدات، لیست های قیمت و طبقه بندی ) اطلاعات مفهومی (بطور مثال : الگوهای صفحه وب، تصویرها و چند رسانه ای و کالاها) و قوانین تجاری (بطور مثال : قوانین مفاهیم خصوصی شده، قوانین تبلیغ و قوانین چندفروشی و فروش زیاد) است.

با استفاده از data mining دورنمایی به دست می آید که کلید جزء تعریف داده تجاری در واقع توانایی در تعریف یک مجموعه قوی از خصوصیات (فوق داده) برای هر نوع از داده می باشد.
بطور مثال تولیدات می توانند خصوصیاتی همچون سایز، رنگ و در نظر گرفتن آن برای یک سن خاص و طبقه بندی شدن در یک مجموعه سلسله مراتبی همچون مردان و زنان و زیر مجموعه هایی که مثل کفش ها و لباس ها را داشته باشد. به عنوان یک نمونه دیگر الگوهای یک صفحه وب می توانند ویژگی هایی داشته باشند. که نشان دهد که آیا آنها تولیداتشان را نشان می دهند نتایج را جستجو می کنند، یا به عنوان قسمتی از فرایند بررسی (تسویه حساب کردن) مورد استفاده قرار می گیرند. داشتن مجموعه متغیری از ویژگی های موجود نه تنها برای data mining مفید است بلکه برای خصوصی سازی تجربه خریدار مفید است. عامل تاثیر متقابل خریدار بین خریداران و شرکت تجارت الکترونیکی رابطه برقرار میکند. اگر چه ما از نمونه یک وب سایت در طول این تحقیق استفاده کرده ایم، اصطلاح تاثیر متقابل خریدار بیشتر با هرگونه تاثیر بر خریداران در ارتباط است، این تاثیر متقابل می تواند دریک وب سایت رخ دهد (بطور مثال از طریق تلفن یا ایمیل)، کاربردهای بی سیمی یا حتی ساده ترین بخش شبکه فروش. برای تحلیل موثرتر همه این منابع داده ها، یک جمع کننده داده مورد نیازاست که جزء تلفیقی از اجزای تاثیر خریدار باشد. برای هماهنگی بیشتر،

جمع کننده داده نه تنها باید مطالعات فروش داده را ثبت کند بلکه باید انواع دیگر تاثیرات متقابل خریدار از جمله تعداد بازدیدکنندگان صفحه وب را برای یک وب سایت ثبت کند. جزئیات بیشتر از معماری تلفیقی به منظور ایجاد یک وب سایت در بخش سوم توصیف شده است. برای اشاره کردن به سودمندی (خدمات رفاهی) این جمع کننده داده، بیایید یک نمونه از یک شرکت تجاری که میزان تاثیر تبلیغات بانر شبکه خود را با دیگر سایتها انجام می دهد تا خریداران را به سمت سایت خودش جذب بکند، در نظر بگیریم. قیمت یک آگهی بانر شبکه معمولا بر اساس دفعاتی که بازدیدکنندگان وب سایت بر روی یک بانر تبلیغاتی و در طی دوره خاصی از زمان کلیک می کنند تعیین می شود یعنی هر بار که یک بازدیدکننده صفحه بر روی بانر تبلیغات کلیک می کند باید هزینه ای پرداخت شود. بسیاری از شرکتهای تجارت الکترونیکی میزان تاثیر تبلیغات بانر شبکه شان را با همین واحد اندازه گیری یعنی تعداد دفعات کلیک اندازه گیری می کنند و بنابراین در محاسبه میزان خرید هر فرد دچار مشکل می شوند. اگر هدف فروش بیشتر محصولات است پس سایت نیاز دارد که بیشتر خریداران را جذب کند تا اینکه دنبال جستجوگرها باشد. گزارش اخیر forrester نشان می دهد که « استفاده کردن از تعداد بازدیدهای صفحه به منظور قضاوت در مورد موفقیت یک سایت همانند

ارزیابی یک اجرای موسیقی براساس بلندی صدای آن است.» در عمل ما می بینیم که نسبت خریدهای صورت گرفته به تعداد دفعات کلیک در حدود ۲۰ فاکتور در تبلیغات بانر شبکه ای یک شرکت متغیر است. یک تبلیغ پنج مرتبه تولید می شود همچون دیگر تبلیغات در زمینه فروش، بنابراین تعداد دفعات کلیک در تبلیغات پیشین حدود جریان کلیک بعدی نیست. توانایی اندازه گیری این نوع ارتباط نیازمند استفاده از ترکیب منابع چندگانه داده می باشد.

جزء تحلیلی یک محیط تلفیقی برای حمایت تصمیم سودمندسازی انتقال داده ها، گزارش کردن، الگوریتم های data mining تجسم وسایل OLAP است. در دسترس بودن (غنی بودن) فوق داده های موجود داد های باعث شده است که جزء تحلیل گر دارای فواید قابل توجهی در وسایل حامی تصمیمات افقی باشد، هم در زمینه قدرت و هم استفاده از آن. بطور مثال به طور خودکار سیستم، نوع هر یک از ویژگی ها را می داند که شامل ارزش ویژگی مجزا سفارش داده شده است یا

مجموعه ای از ویژگی های دامنه دار روانه شده و توضیحات متنی. برای یک وب سایت سیستم می داند که هر خریداری نوبت های شبکه ای دارد و هر کدام از این نوبت های شبکه ای شامل تعداد بازدیدهای صفحه و سفارشات خواهد بود. این مسأله را راحت تر می کند تا بطور اتوماتیک بتواند آمارهای مربوط به خریداران، نوبت ها و تعداد بازدیدهای صفحه وب سفارش ها را محاسبه کند. ما تحلیل جزء تلفیقی را در بخش ۴ بطور کامل شرح خواهیم داد.

 

پل data stage جزء تعریف داده تجاری را به جزء تاثیر متقابل خریدار وصل می کند. این پل داده و فوق داده را در جزء تاثیر متقابل خریدار منتقل می کند (سفارش می دهد). داشتن یک فرایند اجرایی چندین مزایا دارد، داشتن توانایی برای آزمایش تغییرات قبل از آنکه آنها را در محصولات اجرا کنیم، تغییرات بین فرمتهای داده ها را باعث می شود و بین دو جزء کپی کردن را برای سودمندی بیشتر سبب می شود، معاملات تجارت الکترونیکی را قادر می سازد تا فرمت های طلایی داشته باشند.
پل انبار داده ها جزء تاثیر متقابل خریدار را با جزء تحلیل گر بهم متصل می کند. این پل، اطلاعات جمع آوری شده در جزء تاثیر متقابل خریدار را به جزء تحلیل گر منتقل می کند و یک محل انبار اطلاعات جدید را برای اهداف تحلیلی ایجاد می کند. پل انبار داده ها همچنین همه داده های تجاری تعریف شده در جزء تعریف داده های تجاری (که به جزء تاثیر خریدار منتقل شده بود با استفاده از پل data stage ). جمع کننده داده در جزء تاثیر خریدار معمولادر یک سیستم پردازشگر معاملات on line یا OLTP که معمولا طراحی شده است برای استفاده از روابط تکنیک های مدل سازی سیستم های OLTP تنظیم شده اند برای جا به جایی مناسب تعداد زیادی از update های کوچک و پرس و جو های کوتاه. برای اجرای یک معامله یک تجارت الکترونیکی این امر منتقدانه است اما برای تحلیل کردن [ ۴ و ۵ ] که معمولا نیامند، اسکن های کاملی از چندین میز بسیار بزرگ و یک طرح ستاره مانند که کاربران تجاری بتوانند آنرا بفهمند، مناسب نیست. برای data minig ما نیاز داریم که یک انبار ذخیره داده بسازیم و از تکنیک های مدل سازی چند بعدی استفاده کنیم. هم

طرح انبار ذخیره داده ها و هم انتقال داده ها از سیستم OLTP به سیستم انبار ذخیره داده ها کاری بسیار پیچیده و وقت گیر می باشد. ساختن یک سازه از انبار ذخیره داده ها به عنوان یک بخش سازنده معماری بطور قابل توجهی پیچیدگی این وظایف (کارها) را کاهش می دهد. علاوه بر ETL معمولی (به عنوان، گزیده، انتقال و ذخیره) از لحاظ عملی پل واردات و تلفیق داده ها از سیستم های خروجی و تامین کنندگان تشکلی داده ها حمایت می کند(بطور مثال Acxiom ). از آنجائیکه طرح سیستم OLTP توسط معمار کنترل می شود ما می توانیم بصورت خودکار طرح OLTP را به یک طرح ستاره ای چند بعدی تبدیل بکنیم که به منظور بهینه سازی تحلیل صورت گرفته است.آخرین پل deploy Result است که کلیدی را برای بستن حلقه و نتایج تحلیلی به کار می اندازد. این پل توانایی انتقال الگوها، امتیازها، نتایج و ویژگی های تازه ساخت را دارد. بازگشت انتقال داده ها را به Business Data Definition تعریف داده های تجاری و اجزای coustomer Interaction (عامل تاثیر متقابل خریدار را به کار می گیرد تا در قوانین تجاری برای خصوصی سازی استفاده کند بطور مثال خریداران بر اساس تمایل در قبول فروش چند گانه ) امتیاز داده می شوند و سایت می تواند بر اساس این امتیازها شخصیت پیدا کند. این مرحله سخت ترین بخش از فرایند کشف آگاهی برای اجرا در یک سیستم غیر مجتمع می باشد. اگر چه فوق داده مشترک در کنار این سه جزء به این معنی است که نتایج مستقیما می توانند در داده منعکس شوند در داده ای که کمپانی های تجارت الکترونیکی آنرا تعریف می کند.

جمع کننده داده :
این بخش اجزاء جمع آوری داده معماری مورد نظر را توصیف می کند این جزء معاملات خریداران را ثبت می کند (بطور مثال خریدها و پس دادن کالاها) و جریانهای (بطور مثال، جریانهای کلیک). از آنجائیکه جزء جمع کننده داده بخشی از تماس هر خریداری است (بطور مثال، وب سایت کاربردهای خدماتی خریدار و وسایل بی سیم) در این بخش ما به تفصیل جمع آوری داده ها در وب سایت خواهیم پرداخت. اغلب مفاهیم و تکنیک های ذکر شده در این بخش براحتی قابل تعمیم دادن در دیگر تماسهای خریداران می باشد.

ثبت جریان کلیک :
اغلب معماری های تجارت الکترونیک براساس ثبت های وب سرور (خدمات وب) یا وارسی کننده بسته اطلاعاتی به عنوان یک منبع برای داده های جریان کلیک قابل تکیه کردن می باشد، از آنجائیکه این دو سیستم هر دو به دلیل غیر مزاحم بودن، مزیتی دارندکه سبب می شود تا از آنها

برای قفل کردن هر کاربردی استفاده شود. در ثبت رویدادهای سطح بالا و کمبود توانایی در بهره برداری از فوق داده های موجود در این کاربرد عاجز است. یک ثبت شبکه معمولی شامل داده هایی نظیر صفحه در خواستی، زمان درخواست، آدرس HTTP (پروتکل انتقال ابر متن) خریدار و غیره برای هر درخواست خدمات شبکه می باشد. برای هر صفحه از طریق خدمات شبکه

درخواست میشود، تعداد زیادی از درخواستها برای تصاویر و سایر مطالب روی صفحه. از آنجاییکه تمامی اینها در web server log ثبت شده اند، اغلب داده ها در log مربوط می شود به درخواستهای فایلهای تصویری که اغلب برای تحلیل مفید هستند و معمولا Filter out شده اند