تبلیغات
مدیریت دانش - تحلیل سبد خرید: داده کاوی در خصوص مجموعه اقلام تکرار شونده

مدیریت دانش
با توجه ویژه به پیشرفت این رشته در ایران و معادل یابی فارسی برای واژگان

به وبلاگ  مدیریت دانش  خوش آمدید. چنانچه علاقه مند به همكاری هستید با ما تماس بگیرید.


¿تحلیل سبد خرید: داده کاوی در خصوص مجموعه اقلام تکرار شونده
جمعه 18 آذر 1384

سلام دوباره خدمت دوستان عزیز! از اونجا که مریم توی کامنت شون نوشته بودن که دوستمون ظاهرا دنبال مثال های عملی در خصوص داده کاوی هستن، من از ذکر مطالب تئوری و پایه صرف نظر کرده و یکی از مثال های بسیار متداول در بحث داده کاوی، یعنی «شمارش هم پیشامد ها » رو مطرح می کنم. امیدوارم که دوستمون بتونن استفاده کنن و همچنین ما رو هم از یافته ها و ترجمه های خودشون بی نصیب نگذارن.

بحث را با طرح مساله ی شمارش اقلام هم پیشامد که منشا آن مسائلی نظیر تحلیل سبد خرید می باشد، آغاز می کنیم. یک سبد خرید مجموعه اقلامی می باشد که توسط یک مشتری و در یک «تراکنش مشتری» خریداری شده اند. یک تراکنش مشتری شامل یک بار بازدید از فروشگاه، یک سفارش از طریق کاتالوگ پست شده، یا یک سفارش در یک فروشگاه مجازی روی وب می باشد. (من در این پست معمولا عبارت «تراکنش» را به جای «تراکنش مشتری» به کار خواهم برد. البته در مواقعی که تداخلی با معنای متداول تراکنش در DBMS وجود نداشته باشد). یکی از اهداف متداول فروشندگان، تشخیص کالاهایی است که با یکدیگر خریداری شده اند. این اطلاعات برای چینش بهتر کالاها در قفسه های فروشگاه و یا طراحی صفحات کاتالوگ مورد استفاده قرار می گیرند.

                        transid            cutid             date               item             qty

                        -------------------------------------------------------------------

                        111                  201              5/1/99           pen               2
                        111                  201              5/1/99           ink                 1
                        111                  201              5/1/99           milk               3
                        111                  201              5/1/99           juice              6

                        -------------------------------------------------------------------
                        112                  105              6/3/99           pen               1 
                        112                  105              6/3/99           ink                 1
                        112                  105              6/3/99           milk               1

                        -------------------------------------------------------------------
                        113                  106              5/10/99         pen               1
                        113                  106              5/10/99         milk               1

                        --------- ----------------------------------------------------------
                        114                  201              6/1/99           pen               2
                        114                  201              6/1/99           ink                 2
                        114                  201              6/1/99           juice              4

مجموعه اقلام تکرار شونده

از روابط خرید نشان داده شده در شکل برای کشف مجموعه اقلام تکرار شونده استفاده خواهد شد. رکوردهای جدول به صورت گروه بندی شده بر اساس فیلد مرتب شده اند. تمامی تاپل های یک گروه دارای یک TransID می باشند. یک تراکنش در تاریخ مشخصی رخ می دهد و نام هر جنس خریداری شده به همراه تعداد آن نیز ثبت می گردد. همان طور که مشاهده می شود در جدول فوق افزونگی وجود دارد. با ذخیره کردن جداگانه ی TransID_CustID و حذف CustID از جدول اولیه، این افزونگی از بین خواهد رفت؛ که احتمالا داده ها عملا به همین فرم ذخیره می شوند. اما به هر حال بهتر است که روابط خرید را به صورت نشان داده شده در شکل بیان کنیم تا بتوانیم مجموعه اقلام تکرار شونده را راحت تر تشخیص دهیم. ساخت چنین جدول های غیر نرمال شده ای برای سهولت داده کاوی معمولا در مرحله ی «تمیز کردن داده» از فرایند KDD انجام می شود. با بررسی مجموعه گروههای تراکنش در جدول خرید, می توان دریافت که: « در 75% از تراکنشها Pen  و Ink  با یکدیگر خریداری شده اند». این گزاره ای است که تراکنشهای موجود در پایگاه داده را توصیف می کند. تعمیم به تراکنشهای بیشتر می بایست با احتیاط صورت گیرد که در این باره در پست های بعدی صحبت خواهم کرد. اجازه دهید تا با معرفی واژه شناسی تحلیل سبد خرید بحث را ادامه دهیم. یک « مجموعه اقلام» از تعدادی کالا تشکیل شده است. « Support » ا هر مجموعه اقلام, عبارت است از نسبت تعداد تراکنش هایی که شامل تمامی کالا های موجود در مجموعه اقلام هستند به تعداد کل تراکنش های پایگاه داده. در مثال فوق مجموعه اقلام {pen, ink} در نظر گرفته شد و دیدیم که Support این مجموعه اقلام 75% بود. بنابر این می توانیم نتیجه بگیریم که Pen  و ink عمدتا با هم خریداری می شوند. اگر مجموعه اقلام {milk, juice} را در نظر بگیریم مشاهدا می شود که Support  آن تنها 25% است. بنابر این milk  و ink  معمولا باهم خریداری نمی شوند. در بیشتر اوقات مجموعه هایی از اجناس که عمدتا با یکدیگر خریداری می شوند, کم هستند. به خصوص زمانی که اندازه ی مجموعه اقلام افزایش یابد. اما آنچه برای ما اهمیت دارد کشف تمامی مجموعه اقلامی است که Support  آنها از یک Support حداقل که توسط کاربر مشخص می شود بیشتر باشد. (واسهSupport  اگه معادل خوبی سراغ دارین پیشنهاد بدین). این Support حداقل, minsup خوانده می شود و چنین مجموعه اقلامی «مجموعه اقلام تکرار شونده». برای مثال اگه minsup رو 70% در نظر بگیریم, آنگاه مجموعه اقلام تکرار شونده به شرح زیر خواهند بود: {pen}, {milk}, {ink}, {pen, ink}, {pen, milk}. توجه داشته باشین که مجموعه اقلامی که تنها شامل یک کالا می باشند نیز برای ما اهمیت دارند, چرا که نشان دهنده ی اقلامی می باشند که متناوبا خریداری شده اند. الگوریتمی که برای شناسایی مجموعه اقلام تکرار شونده مورد استفاده قرار می گیرد رو در پست های بعدی می فرستم. این الگوریتم بر مبنای یک ویژگی ساده و در عین حال اساسی مجموعه اقلام تکرار شونده استوار است: «هر زیرمجموعه از یک مجموعه اقلام تکرار شونده خود نیز باید یک مجموعه اقلام تکرار شونده باشد».

 

نوشته شده در جمعه 18 آذر 1384 و ساعت 02:12 ق.ظ توسط : محمد حسین هراتیان
ویرایش شده در شنبه 19 آذر 1384 و ساعت 05:12 ق.ظ