خلاصه

داده کاوی می تواند جهت مدل سازی جرایم مورد استفاده قرار گیرد. ما در اینجا نگاهی به الگوریتم خوشه بندی درخصوص یک روش از داده کاوی داریم تا بتوانیم الگوی جرایم را شناسایی نماییم و فرایند رفع آن را تسهیل نماییم. دراین خصوص نگاهی بر روش خوشه بندی k-means می اندازیم و همچنین از تکنیک یادگیری Semi-Supervised نیز استفاده شد تا درمورد اسناد موجود جرایم، دانشی به دست آید و ضریب پیش بینی صحیح را افزایش دهیم.هم چنین از طرح وزن دهی نیز کمک گرفته شد تا محدودیت های موجود در تکنیک ها و ابزارهای خوشه بندی جبران شوند.

کلمات کلیدی: داده کاوی ، خوشه بندی ، جرم ، k-means ، Semi-Supervised

۱٫ مقدمه

حل و پیگیری جرایم درگذشته صرفا درحوزه اختیارات جرم شناسان و حقوقدانان بوده است. با افزایش استفاده از سیستم های کامپیوتری جهت تشخیص جرایم، تحلیل گران داده های کامپیوتری، شروع به همکاری و کمک به افسران و حقوقدانان نمودند تا هرچه سریعتر مشکلات مربوط به جرایم رخ داده کشف و حل شوند. در اینجا ما از روشی میانه بین علم کامپیوتر و قانون استفاده می نماییم تا یک نمونه داده کاوی را معرفی نماییم که به هرچه سریعتر حل شدن چنین مسائلی کمک می نماید. به ویژه، از مدل های خوشه ای استفاده خواهد شد تا بتوان الگوی جرایم را شناسایی نمود.]۱[

همین طور درمورد برخی مفاهیم و کلمات بحث خواهد شد که در قانون جرم شناسی و ادارات پلیس از آن ها استفاده می شود و آن ها را با سیستم های مربوط داده کاوی مقایسه خواهیم نمود. مضنون اشاره به فردی دارد که باور داریم مرتکب جرم شده است. این شخص می تواند شناخته شده و یا مجهول باشد. او متهم نیست تا زمانی که ثابت شود گناهکار است. قربانی به فردی گفته می شود که هدف جرم رخ داده بوده است. دراکثر مواقع قربانی شناخته شده است و بیشتر مواقع کسی است که گزارش ارتکاب جرم را به اداره پلیس می دهد. به علاوه، جرم ممکن است چندین شاهد نیز داشته باشد. از عبارات عمومی دیگری نیز استفاده می شود مانند قتل که به معنی آدمکشی و قتل نفس می باشد. قتل می تواند شامل انواعی متفاوت از جمله کودک کشی، بالغ کشی، کشتن خانواده و یا افسران قانونی باشد. برای مدل سازی، نیازی به بررسی جزئیات قانون جرم نمی باشد بلکه ما دراینجا مطالعه خود را محدود به انواع عمده جرم می نماییم.

خوشه بندی جرایم معنی ویژه ای دارد و اشاره می کند به گروهی از جرایم جغرافیایی یعنی تعدادی از جرایم که در یک منطقه جغرافیایی خاص اتفتق افتاده اند. چنین خوشه هایی می توانند به صورت بصری نشان داده شوند که این کار توسط طرحی جغرافیایی فضایی صورت می گیرد. این طرح روی نقشه اداره پلیس پوشش و نمایش داده خواهد شد. فضاهایی که بالاترین چگالی جرایم را دارند به عنوان “نقاط حساس” جرم نامیده خواهند شد. اما هنگامی که درمورد خوشه بندی از دیدگاه داده کاوی صحبت می کنیم، اشاره به جرایم مشابهی داریم که در یک منطقه جغرافیایی خاص اتفاق افتاده اند. چنین خوشه هایی برای تشخیص روند و الگوی جرم مفید می باشند. بعضی از مثال های معروف در زمینه الگوی جرم، تیرانداز DC می باشد

که وی قاتل و متجاوزی زنجیره ای بود. چنین جرایمی می توانند فقط توسط یک مضنون یا گروهی از مضنونین به وقوع پیوسته باشند. تصویر پایین نمایی از طرح جغرافیایی فضایی جرم را نشان می دهد.

شکل شماره :۱ طرح جغرافیایی فضایی جرم، هر نقطه قرمز یک ارتکاب جرم را نشان می دهد

۲٫ سیستم گزارش جرم

داده های مربوط به جرایم اغلب ایجاد سردرگمی می نمایند. درحالی که بخشی از داده ها محرمانه می ماند، بخشی دیگر تبدیل به اطلاعات عمومی می شود. داده های مربوط به زندانیان اغلب می تواند در وب سایت اداره پلیس در دسترس باشد. به هر حال، داده های مربوط به جرایم نوجوانان و یا مواد مخدر معمولا محرمانه خواهد ماند. هم چنین اطلاعات درمورد جرایم جنسی عمومی می شود تا دیگران در آن منطقه آگاهی یابند اما هویت مجرم مجهول خواهد ماند. پس به عنوان یک کاوشگر داده، تحلیل گر باید با تمامی این مسائل مربوط به داده های عمومی و خصوصی هماهنگ باشد تا فرایند مدل سازی داده کاوی مطابق با محدودیت های قانونی صورت پذیرد.اکثر ادارات پلیس از سیستم های الکترونیک استفاده می نمایند تا جرایم را گزارش دهند. این روش جایگزین روش های سنتی بروکراسی جهت ارائه گزارش شده است. چنین گزارشاتی شامل طبقه های اطلاعاتی به این صورت می باشند: -۱نوع جرم، -۲ تاریخ/زمان، -۳ مکان و …