مقدمه

امروزه به دلیل رشد اطلاعات، کاربرد کامپیوتر در زندگی بشر ابعاد گستردهای پیدا کرده است. در بخشهایی که حتی روزی فکرش هم به ذهن خطور نمیکرد، امروزه تحلیل و محاسبات بدون استفاده از روشهای کامپیوتری امکانپذیر نیست. از اینگونه موارد میتوان به مسئله جرمشناسی و کشف جرم اشاره نمود. پارامترهای بسیار متنوع و گوناگون دخیل در بحث تحلیل جرم و جنایت، استفاده از تکنیکهای مطرح در علوم مختلف را میطلبد. ویژگی-های بزهکار، نحوه انجام عمل مجرمانه، ویژگیهای بزهدیده و رابطه بین بزهکار و بزهدیده همگی در مطالعه یک عمل مجرمانه و شناخت آن موثر هستند. اما چگونه رابطه بین این پارامترها قابل تشخیص است؟ چگونه میتوان از اطلاعات موجود جرائم ارتکابی مدلی برای پیشبینی و به دنبال آن پیشگیری ارائه نمود؟ اطلاعات گردآوری شده از ویژگیهای جرم و جنایت در یک پایگاهداده به مانند یک معدن طلا ارزشمند هستند. کشف دانش پنهان در این پایگاههای داده کلید حل مسئله است. روشهای و تکنیکهای دادهکاوی به عنوان ابزارهای کاوش مخازن داده به استخراج دانش

نهفته در دل آنها میپردازد. در حال حاضر مطالعات خوبی در امر دادهکاوی اطلاعات اعمال مجرمانه در دنیا انجام شده است اما متاسفانه در داخل کشور فعالیت چندانی به چشم نمیخورد. استفاده از روشهای دادهکاوی در شناسایی، پیشبینی و پیشگیری جرم و جنایت در کشور مینواند ثمرات نوآورانهای به همراه داشته باشد. در این مقاله سعی شده در ابتدا با بیان مطالعات مرتبط و کارهای انجام شده در این زمینه اهمیت موضوع را روشن سازد تا زمینهساز حرکتهای جدی در این حوزه شود. سپس به صورت موردی در بخش پنج روی اطلاعات جرائم شهرستان رشت که با مطالعهی پروندههای جنایی افراد گردآوری شد و همچنین اطلاعات جرائم شهر لندن به صورت مجزا با استفاده از الگوریتم-های دادهکاوی مختلف برای رسیدن به مدلهایی مطلوبتر جهت پیشبینی و شناسایی جرائم کار شد که در نهایت مدلهایی که با استفاده از تکنیکها و الگوریتمهای دادهکاوی Bayesnet،

LogitBoost، LMT، IBK، RandomSubSpace، EM و SimpleKMeans بدست آمد به عنوان مدلهای بهینه گزارش گردید.

۵

جامعیت بخشی به مجموعه داده جرائم به منظور پیشبینی و شناسایی جرائم با استفاده از تکنیکهای داده کاوی

Archive of SID

کارهای پیشین

توانایی پیشبینی زمان، مکان و یا نوع جرم بعدی یا مجموعه جرائمی که در آینده رخ خواهند داد یک مفهوم جامع بوده که در حال حاضر امکانپذیر نیست. البته تلاشهای بسیاری در عرصه پیشبینی جرائم انجام شده که هر یک از آنها موفقیتهای محدودی داشتند. بسیاری از تلاشهای صورت گرفته مربوط به یافتن ارتباط بین جرائم با مجرمین یا یک نوع جرم معین است. تکنیکهای تحلیل و پیشبینی جرم و جنایت که در طول زمان پالایش شده و موفقیتهای محدودی را در زمینههای مختلف بدست آورده در سه دسته قابل تمرکز هستند: (۱ تکنیکهای سیستم اطلاعات جغرافیایی (GIS)، (۲ روشهای آماری، (۳ تکنیکهای کشف دانش و دادهکاوی .[۲] تشخیص، پیشبینی و پیشگیری از وقوع جرائم با دادهکاوی یک ایده جدید و هیجانانگیز است که به وسیله روشهای آماری، یادگیری ماشین، هوش مصنوعی، جرمشناسی، روانشناسی و فناوریهای پایگاه داده به ارمغان میآید. در تحقیقی توسعه ابزارهای پژوهشی که از قدرت محاسباتی به عنوان یک مکانیزم برای کمک به حل مسائل عظیم و حجیم جرم و جنایت بهترین استفاده را میکنند و نیازمند استراتژیهای مختلفی برای تحقیقات هستند مصور ساخته شده است .[۳] تکنیکهای خوشهبندی دادهها را براساس شباهتشان در یک کلاس قرار میدهند از این رو میتوان مظنونانی که دارای حالت و ویژگیهای مشابه هستند شناسایی نمود یا نوع جنایت ارتکابی را از میان گروههای مختلف جرائم تشخیص داد. به منظور شناسایی و گروهبندی انواع جرائم مدلی براساس تکنیکهای خوشهبندی توسط کارلیس۱ و همکارانش ارائه گردید که یک مدل ترکیبی پواسون چند متغییره محدود با ساختار کواریانسی دو طرفه بود .[۴]

قوانین انجمنی الگوهای مکرر موجود در دادهها هستند که میتوانند هرگونه اختلاف را به عنوان یک نفوذ تشخیص دهند. برای اولین بار از تکنیکهای کشف قوانین انجمنی فازی۲ توسط بوکزاک و همکارانش در تحلیل دادههای جنایی استفاده شد .[۵] استخراج قوانین انجمنی فازی در مطالعه جرم و جنایت بسیار مفید ارزیابی گردید. هزاران قانون کشف شده اولیه نیاز به غربال کردن در جهت پیدا کردن الگوهای جالب و معنیدار توسط پرسنل اجرای احکام دارند. نتایج نهایی بدست آمده نشاندهنده سازگاری الگوهای کشف شده جرم و جنایت در سطوح مختلف جامعه است. طبقهبندی اغلب برای پیشبینی روند جرم و جنایت استفاده میشود که زمان شناسایی اشخاص بزهکار را کاهش میدهد. این امر نیاز به آموزش و بررسی کامل پایگاه داده دارد تا با حداقل رسانی مقادیر گمشده بتواند دقت پیشبینی را بهبود

۱ – Karlis 2 – Fuzzy Association Rules

دهد. جرائم کامپیوتری به یک مسئله جهانی تبدیل شده است. مطالعهای که با استفاده از رگرسیون روی اطلاعات مربوط به استفاده از اینترنت برای پیشبینی جرائم رایانهای صورت گرفته، دو عامل میزان استفاده از کامپیوتر و عضویت در شبکههای اجتماعی را به عنوان متغییرهای اصلی پیشبینی کننده میزان جرائم کامپیوتری معرفی کرده است. این عوامل فرصتی را به وجود میآورند که جوانان با بحث و گفتگو و تبادل نظر در فضای مجازی دانش خود را افزایش داده و نحوه انجام دانلودهای غیر قانونی و همچنین بدست آوردن شناسههای شخصی افراد را یاد بگیرند. علاوه بر این مشخص گردید که میزان جرائم کامپیوتری در مردان بیشتر از زنان و با افزایش تحصیلات دانشگاهی و کسب مهارتهای کامپیوتری احتمال اینگونه جرائم در افراد افزایش مییابد . [۶]

به طور کلی کاربرد تکنیکهای دادهکاوی در شناخت جرائم را می-توان در قالب دو دسته اقدامات در نظر گرفت. اولین دسته شامل اقداماتی میشوند که قبل از وقوع جرائم به منظور پیشبینی و پیشگیری از ارتکاب جرم انجام میگیرند و دسته دوم پیرامون اقدامات انجام شده بعد از وقوع جرم به منظور بررسی و کشف مدارک و شواهد جرم پس از وقوع آن است .[۷] به طور کلی در این چارچوب میتوان یک دستهبندی کاربردی از کارهای انجام-شده در زمینه شناسایی جرائم، پیشبینی جرائم و پیشگیری جرائم به تفکیک کاربرد تکنیکهای دادهکاوی در این موارد داشت که در جدول ۱ قابل مشاهده است. اما هیچ تفاهمی در مورد چگونگی کنترل مردم به عنوان عاملان جرائم و منبع اطلاعاتی پژوهشها وجود ندارد. همچنین انتخاب روش مناسب براساس نوع جرم و جنایت صورت می گیرد و هیچ اجماعی در مورد استفاده از یک روش خاص مدنظر نیست. در نهایت تفسیر نتایج به نظر آمارشناسان، جامعهشناسان و محققان جرم وجنایت بستگی دارد.

۶

Archive of SID
مجیب ابراهیمی
جدول .۱ چارچوب کاربرد تکنیکهای دادهکاوی در مدلسازی جرم و جنایت
حوزههای کاربرد تکنیکهای مورد استفاده مرجع

خوشهبندی کارلیس و همکاران [۴]

شناسایی جرائم خوشهبندی آدلری و همکاران [۳]

خوشهبندی مورتاق و همکاران [۸]

خوشهبندی باینری ماند و همکاران [۹]

پیشبینی- رگرسیون کراپسیوگلو و همکاران [۱۰]

پیشبینی – رگرسیون مون و همکاران [۱۱]

پیشبینی لیو و همکاران [۱۲]

پیشبینی-رگرسیون دالسیو و همکاران [۱۳]

پیشبینی مبتنی بر نقاط جرم خیز لیو و همکاران [۱۱]
پیشبینی جرائم
پیشبینی – سریهای زمانی دیدمن [۱۳]

پیشبینی – رگرسیون فریلیچ و همکاران [۱۴]

خوشهبندی – پیشبینی ایکسیوای و همکاران [۱۵]

خوشهبندی – پیشبینی هادجیدی [۱۶]

خوشهبندی – قوانین انجمنی مالاتی و همکاران [۱۷]

قوانین انجمنی فازی بوکزاک و همکاران [۵]

فازی سام لی و همکاران [۱۸]

پیشگیری جرائم ترکیبی از تکنیکهای رگرسیون، شبکه عصبی و اُتلی و همکاران [۱۹]
شبکه بیزین

رگرسیون لجستیک دالسیو و همکارانش [۲۰]

پیکرههای دادهای پیشنهادی

دستیابی به یک نتیجه و مدل مطلوب و کارآمد در کشف دانش و دادهکاوی نیازمند دسترسی به پایگاه دادهها و مجموعه دادههای معتبر است. امروزه پیشرفتهای زیادی در ابزارهای گردآوری اطلاعات به صورت کامپیوتری فراهم گردیده است. اطلاعات جمع-آوری شده ویژگیهایی از محیط مورد مطالعه در اختیار افراد قرار میدهد که هر چقدر دقیقتر و جامعتر باشد میتوان ارزیابی کارامدتری از آن محیط داشت. اطلاعات مربوط به جرم وجنایت ماهیتاً بدلیل داشتن پارامترهای مختلفی از ویژگیهای جمعیت-

شناختی، جغرافیایی، اجتماعی، فرهنگی و حاکمیتی بسیار پیچیده هستند که در هر مطالعه باید مورد توجه قرار گیرند. مجموعه داده پیشنهادی شامل اطلاعاتی از جرائم سالهای ۸۹، ۹۰ و ۹۱ در سطح شهر رشت و حومه آن است که از روی پروندههای قضایی مجرمان موجود در اجرای احکام شهرستان رشت فیشبرداری و به صورت بک پیکره دادهای منحصر به فرد در آمد. شهرستان رشت با مساحت ۱۳۷ کیلومتر مربع و جمعیتی بالغ بر ۵۱۹۴۸۱ (برآورد سال (۸۴ مرکز استان گیلان و یکی از کلان شهرهای ایران

محسوب میگردد .[۲۱] محدودیتهای زمانی، دسترسی و اطلاعاتی اعمال شده موجب گردید که در کار جمعآوری اطلاعات به نمونهگیری محدود کفایت شود. مسلم است که در اختیار داشتن یک نمونه آماری جامع در تحلیل درست و رسیدن به یک مدل واقعیتر از محیط بسیار تاثیر گذار است. مجموعه داده گردآوری شده دارای ویژگیهای زیر است

۷

City Of

City Of London Police

جامعیت بخشی به مجموعه داده جرائم به منظور پیشبینی و شناسایی جرائم با استفاده از تکنیکهای داده کاوی

Archive of SID

نوع جرم

سن مجرمان

نام شهر یا روستای محل زندگی مجرم

میزان سواد مجرم

ماه وقوع جرم وضعیت تاهل مجرم سن همدستان مجرم جنسیت بزهدیده

شغل اصلی بزهدیده

نام شهر یا روستای محل زندگی بزهدیده

وضعیت تاهل بزهدیده

موقعیت جغرافیایی محل وقوع جرم
نوع ارتباط مجرم باهمدستانش

شهرنشین یا روستایی بودن مجرم
وضعیت مصرف مواد مخدر و مشروبات الکلی
روز وقوع جرم وضعیت سوء پیشینه مجرم

جنسیت همدستان مجرم سن بزهدید شهرنشین یا روستایی بودن

بزهدیده نوع رابطه بین بزهکاران و

بزهدیدگان

محل تولد مجرم
جنسیت مجرم
وضعیت بومی بودن مجرم
سال وقوع جرم
ساعت وقوع جرم شغل مجرم
شریک داشتن مجرم تعداد شرکاء
احکام صادره برای مجرمان وضعیت مالی مجرم
محل تولد بزهدیده سطح سواد بزهدیده
وضعیت بومی بودن بزهدیده
وضعیت مالی بزهدیده

علاوه بر این از یک پیکره دادهای خارجی تهیه شده از یک مجموعه داده خارجی نیز استفاده گردید. این مجموعه داده با عنوان City Of London شامل اطلاعاتی از ویژگیهای جرائم خیابانی شهر لندن و حومه آن طی سالهای ۲۰۱۱ و ۲۰۱۲ است که به پلیس شهر لندن گزارش شدند .[۲۲] در تهیه این مجموعه داده مشورتهای شدید دراز مدتی با دفتر کمیساریای اطلاعات و متخصصان حفاظت اطلاعات در وزارت کشور به منظور حفظ حریم خصوصی افراد صورت گرفته تا خطرات احتمالی به حداقل برسد در حالی که هنوز هم بتوان به اهداف روشن و مفیدی از مجرمان دست یافت. دادههای نیروی پلیس در دفترخانه و وزارت دادگستری از طریق یک فرایند کنترل کیفیت دقیق شامل اعتبارسنجی فرمت، تست خودکار، تایید دستی و تایید توسط دو

فرد خبره به صورت مجزا انجام شد. پیکره دادهای London شامل شش ویژگی زیر است:

سال وقوع جرم ماه وقوع جرم نوع جرم
موقعیت شهری محل وقوع جرم مرزهای برداری دیجیتال
مرجع گزارشات و حوزه استحفاظی محل وقوع جرم

پیشپردازش

در مورد پیکره دادهای داخلی ابتداً یک پیشپردازش اولیه به صورت دستی روی ویژگیها به منظور بالا بردن کیفیت فهم صورت گرفت. در ادامه فایل CSV مجموعه داده مورد نظر با نرمافزار Weka 3.7 باز گردید. از فیلتر ۳ Numeric to Nominal برای تبدیل ویژگیهایی مثل Year. که مقادیر عددی دارند و به صورت یک ویژگی عددی شناخته میشوند به یک متغییر اسمی استفاده میشود. در مرحله پیشپردازش مشخصات آماری مثل وزن و فراوانی ارزشهای هر ویژگی مشخص میگردد. به همین
صورت روی پیکره دادهای نیز عملیات

پیشپردازش انجام شد.