مقايسه ويژگي هاي مبتني بر فيلترهاي گابور و ارايه روشي جديد براي تعيين هويت نويسنده بر اساس دست نوشته فارسي

چكيده
اغلب تحقيقات انجام شده در زمينه تعيين هويت نويسنده بر روي زبان انگليسي متمركز بوده و تاكنون مطالعاتي در زمينه متون دستنويس فارسي گزارش نشده است. بنابراين در اين مقاله روشي براي تعيين هويت نويسنده بر اساس متن دست نويس فارسي پيشنهاد شده كه به صورت برون خط و مستقل از متن انجام مي شود. بر اساس ايده مطرح شده در مطالعات قبلي، در روش پيشنهادي تصوير متن دست نويس به صورت يك بافت در نظر گرفته شده و پس از مرحله نرمال سازي، با كمك فيلترهاي گابور ويژگي هاي متن استخراج مي شود. ويژگي روش پيشنهادي

استفاده از بانك فيلتري است كه با ساختار متون دستنويس فارسي و همچنين سيستم بينايي تناسب بيشتري دارد. علاوه بر اين روش جديدي جهت استخراج ويژگيها از خروجي فيلترهاي گابور پيشنهاد شده كه مبتني بر ويژگي انرژي گابور و گشتاورهاي هندسي است. همچنين براي اولين بار، روشهاي مختلف استخراج ويژگي از خروجي فيلترهاي گابور را براي مسئله تعيين هويت نويسنده مورد بررسي كامل قرار داده ايم. تمامي اين روشها به همراه دو روش ماتريس هم وقوعي و روش Said كه مبتني بر فيلترهاي گابور مي باشد و براي متون انگليسي پيشنهاد شده است، را پياده سازي نموده ايم. نتايج اجراي روشها بر روي تصاوير دستخط ۴۰ نفر كه هيچ محدوديتي در نوع دستخط آنها وجود ندارد، نشان مي دهد كه روش پيشنهادي از كارايي بالاتري براي متون دستنويس فارسي برخوردار است.
واژه هاي كليدي: تعيين هويت نويسنده، دست نوشته، فيلتر گابور چند كانالي، ماتريس هم وقوعي
۱- مقدمه
در بين ويژگي هاي رفتاري دستخط افراد به راحتي قابل حصول است و علاوه بر اين مطالعات نشان مي دهند كه افراد مختلف داراي دستخط هاي متفاوتي نيز مي باشند. به همين دليل تعيين هويت افراد به كمك متون دست نويس آنها، به عنوان يك موضوع تحقيقاتي در طي سالهاي اخير مورد توجه قرار گرفته و كاربرد آن در زمينه مسائل امنيتي، حقوقي، كنترل دسترسي به سيستمها و فعاليتهاي مالي مي باشد. هرچند كه تعيين هويت بر اساس دستخط در مقايسه با ويژگيهاي فيزيولوژيكي مثل الگوي عنبيه و اثر انگشت از دقت كمتري برخوردار است، اما اين مسئله در جاهايي كه اطلاعاتي بجز دستخط در دسترس نمي باشد و يا بعنوان مكملي جهت كارايي سيستمهاي

امنيتي و ياري رساندن به افراد خط شناس، كاربرد مشهودتري دارد. در مسئله تعيين هويت هدف اين است كه با داشتن يك متن دستنويس، هويت نويسنده آن را مشخص كنيم. هدف اين مقاله اين است كه با تركيب روشهاي پردازش تصوير و شناسايي الگو راه حلي ماشيني براي تعيين هويت نويسنده ارايه دهد. اين روشها را مي توان به دو دسته كلي زير تقسيم كرد:
۱- روشهاي برون خط (off line): در اين روشها فقط تصوير متن دستنويس در دسترس است و

ويژگيها با توجه به كل تصوير يا ساختار كلمه ها و نويسه ها استخراج مي شوند. در اين روشها بسياري از اطلاعات ديناميكي كه مربوط به طرز نوشتن افراد است، از دست مي رود و اين امر كار را نسبت به روشهاي برخط مشكلتر مي سازد. روشهاي برون خط را مي توان به دو گروه كلي وابسته به متن و مستقل از متن نيز دسته بندي كرد. در روشهاي وابسته به متن، بايد متن ثابتي توسط نويسنده نوشته شود تا بتوان هويت وي را مشخص نمود اما در روشهاي مستقل از متن، با استفاده از هر نوع متني هويت نويسنده آن مشخص مي گردد.
۲- روشهاي برخط (on line): در اين روشها علاوه بر ويژگيهاي برون خط از اطلاعات ديناميكي مثل فشار قلم، ترتيب نوشتن، سرعت نوشتن، فرم ضربه هاي قلم و غيره نيز استفاده مي شود. بنابراين بدليل داشتن اطلاعات بيشتر، تعيين هويت با دقت بيشتري انجام مي شود اما اين روشها كاربردهاي محدودتري را شامل مي شوند.
فرض منحصر به فرد بودن دستخط افراد، بصورت علمي توسط Srihari بررسي شده است [۲و۱]. در اين مطالعه ۱۰۰۰ نفر از بين جمعيت چندين ايالت مختلف آمريكا و بر اساس تفاوت سن، نژاد، تحصيلات و جنسيت انتخاب شدند و از آنها خواسته شد كه متن مشخصي را سه مرتبه و بر روي يك كاغذ بدون خط و با خودكار مشكي بنويسند. سپس ويژگيهايي در سطح كل متن، پاراگراف، خط و كلمه از متون دست نويس استخراج شده و با كمك فاصله اقليدسي تعيين هويت انجام مي شود. از جمله كارهاي انجام شده در زمينه تعيين هويت نويسنده، مي توان به مواردي چون روش مبتني بر ارزيابي اطلاعات [۳]، استفاده از ويژگي كانتور اجزاء متصل [۴]، روش مبتني بر ويژگيهاي لبه [۵]، كدگذاري هيستوگرام نماي عمودي با كمك مورفولوژي (۶) و روش مبتني بر مدل مخفي

مي باشند. چون هدف ما ارايه روشي خودكار جهت تعيين هويت نويسنده بوده و محدوديتي براي نوع دستخط هاي مورد بررسي قرار نداده ايم، بنابراين استفاده از روشهايي كه نيازمند تقطيع خودكار و كامل متن به كلمات و حروف مي باشند، مورد نظر نيست. بنابراين در اين مقاله با استفاده از يك روش مبتني بر بافت، متن دستنويس را به صورت تصوير بافت در نظر گرفته و مسئله تعيين هويت نويسنده به مسئله طبقه بندي بافت تبديل مي گردد.
۲- روش پيشنهادي
در اين روش از ايده مطرح شده در [۸] استفاده شده و تصوير متن دست نويس بصورت يك بافت در نظر گرفته شده است. براي اين منظور ابتدا مراحل نرمال سازي بر روي تصوير متن انجام شده و سپس ويژگيهاي متن به كمك بانكي از فيلترهاي گابور استخراج مي شوند. با كمك اين ويژگيها و يك طبقه بندي كننده هويت متن دست نويس ورودي تعيين مي گردد. در ادامه به شرح هر يك از اين مراحل خواهيم پرداخت.
۲-۱- نرمال سازي تصوير
روشهاي تحليل بافت را نمي توان مستقيماً براي تصوير متن دست نويس به كار گرفت و ابتدا بايد تصوير را نسبت به تأثير عواملي مثل فاصله خطوط، كلمات و غيره نرمال سازي نمود تا بلوكي يكنواخت از متن دست نويس مورد نظر حاصل شود. مراحل نرمال سازي تصوير متن عبارتند از:
(الف) به منظور استخراج خطوط و كلمات موجود در متن، معمولاً از منحني نماي نيم رخ تصوير باينري استفاده مي شود [۹]. در اين مقاله ما نسخه اي تغيير يافته از اين الگوريتم كه براي تصاوير سطوح خاكستري پيشنهاد شده [۱۰]، را استفاده نموده ايم. ابتدا نماي نيم رخ افقي تصوير محاسبه شده و سپس با يك فيلتر پايين گذر گاسين هموارسازي مي شود. هموارسازي ماكزيمم هاي محلي را حذف نموده و حساسيت به نويز را كاهش مي دهد. در شكل ۱ تصوير متن دستنويس، منحني نيم رخ افقي و منحني هموارسازي شده متناظر با آن را مشاهده مي كنيم. در اين منحني قله ها متناظر با فاصله بين خطوط و دره ها متناظر با مركز خطوط متن هستند كه براي يافتن قله ها يا خطوط در متن مي توان نقاط صفر در مشتق منحني را محاسبه نمود. به دليل خطي بودن كانولوشن، هموارسازي و مشتق گيري را مي توان در يك مرحله انجام داد. پس براي يافتن خطوط متن كافي است منحني نماي نيم رخ افقي را با مشتق تابع گاسين فيلتر نماييم.
***********
شكل ۱: استخراج خطوط متن الف) تصوير متن ب) منحني نيم رخ افقي ج) منحني نيم رخ افقي پس از هموارسازي

(ب) هر يك از خطوط متن كه در مرحله قبل پيدا شدند، باينري شده و سپس نماي نيم رخ عمودي مربوط به آن محاسبه مي شود. با كمك اين منحني فاصله هاي بين كلمات را پيدا مي كنيم و فاصله هايي كه اندازه آنها از ۵ نقطه بيشتر باشد را با مقدار ۵ نقطه نرمال مي كنيم. بنابراين فاصله كلمات حداكثر ۵ نقطه خواهد بود و فاصله هاي كمتر از ۵ نقطه نيز بعنوان فاصله هاي بين حروف در نظر گرفته مي شوند. همچنين در صورتي كه انتهاي خط خالي باشد، با تكرار مجد فاصله بين خطوط و پر كردن خطوط در شكل ۲-الف ارايه شده است.
(ج) در صورت خالي بودن بخش انتهايي تصوير، آنرا با تكرار مجدد خطوط ابتدايي تصوير به نحوي پر مي كنيم كه طول تصوير به اندازه مشخصي (در اين مقاله ۳۸۴ نقطه) برسد. در شكل ۲-ب تصوير نرمال سازي شده نهايي ارايه شده است.
*******************
شكل ۲: الف) نرمال سازي بين كلمات، فاصله خطوط و پركردن انتهاي خطوط ب) پركردن بخش انتهايي (تصوير نهايي)
۲-۲- استخراج ويژگي
به منظور ارايه روشي كارا جهت تعيين هويت نويسنده، بايد ويژگي هايي را در نظر گرفت كه بيانگر تفاوت دستخط هاي مختلف مي باشند. بنابراين در اين مقوله استفاده از ويژگي هاي معرفي شده در مطالعات OCR مناسب به نظر نمي رسد زيرا هدف طراحي اين ويژگي ها، تشخيص كلمات و حروف مستقل از تفاوت دستخطهاي مختلف مي باشد. به دليل كارايي خوب فيلتر گابور در بحث تحليل بافت و كاربردهاي مشابه [۱۲و۱۱و۸]، محاسبه ويژگيها را بر اين اساس انجام داديم. براي اين منظور طراحي بانك فيلتر گابور را بر اساس نتايج تجربي و مطالعات انجام شده در زمينه نحوه

عملكرد سيستم بينايي انجام داده ايم وبراي استخراج ويژگي، يك روش جديد بر اساس گشتاورهاي هندسي و انرژي گابور پيشنهاد كرده ايم. همچنين با استفاده از بانك فيلتر طراحي شده، ساير روشهاي موجود براي استخراج ويژگي مبتني بر فيلترهاي گابور را بررسي و مقايسه نموده ايم. علاوه بر اين ويژگي هاي مبتني بر ماتريس هم وقوعي و روش ارائه شده توسط Said را به عنوان دو روش مقايسه اي ديگر مورد بررس قرار داده ايم.
۲-۲-۱- استخراج ويژگي روش پيشنهادي
تحقيقات علم فيزيولوژي نشان مي دهد كه پردازش اطلاعات تصويري در سيستم بينايي، توسط مجموعه اي از مكانيسم هاي موازي به نام كانالها انجام مي شود به طوريكه هر كانال براي يك

باند فركانسي كم پهنا و با جهت مشخص تنظيم مي گردد. به لحاظ رياضي هر يك از اين كانالها با يك جفت فيلتر ميان گذر گابور مدل سازي مي شوند. ما در روش پيشنهادي از فيلترهاي گابور چند كانالي كه در [۱۳] معرفي شده اند، استفاده كرده ايم. ويژگي اين فيلترها در نظرگرفتن يافته هاي تجربي در طراحي آنهاست و با رابطه زير تعريف مي شوند:
(۱)

در اين رابطه زوج مركز فيلتر را مشخص مي كند و پارامتر نيز انحراف معيار تابع گاسين است كه اندازه محدوده پذيرش فيلتر را تعيين مي كند. مقدار شكل كشيدگي توابع يا محدوده پذيرش را مشخص مي كند و مثلاً براي مقدار ۱= شكل توابع گابور در حوزه فركانس بصورت دايره و براي مقادير ۱< به صورت بيضي خواهد بود. پارامتر طول موج تابع cos و مشخص كننده فركانس مكاني /۱ مربوط به كانال مورد نظر مي باشد. پارامتر كه مقداري بين ۰ و را انتخاب مي كند، جهت مربوط به كانال را تعيين مي نمايد. در واقع دو پارامتر و مشخص كننده مكان كانال مورد نظر در نقشه فركانسي و پارامتر نيز تعيين كننده فاز است. پاسخ فيلتر گابور از كانولوشن تابع معرفي شده در رابطه (۱) با تصوير بلوك مورد نظر به دست خواهد آمد:
(۲)
در اين رابطه پاسخ فيلتر گابور و f(x,y) نيز تصوير بلوك مورد نظر مي باشد. بر همين اساس مقدار انرژي گابور كه از تركيب پاسخ يك جفت سلول ساده با اختلاف فاز ۲/ بدست مي آيد، با رابطه زير تعريف مي شود:
(۳)
انرژي گابور رفتار سلولهاي پيچيده سيستم بينايي را مدل سازي مي كند و به عنوان ويژگي مؤثر در بسياري از روشهاي تحليل بافت مورد استفاده قرار مي گيرد [۱۳و۸]. بر اساس نتايج تجربي، پهناي باند فركانسي براي سلولهاي ساده ي قشر بينايي در حدود ۱ اكتاو است [۱۴]، بنابراين ن

سبت كه تعيين كننده پهناي باند فركانسي است با مقدار ثابت ۰/۵۶ مقداردهي مي شود به نحوي كه براساس رابطه زير پهناي باند كانال برابر ۱ اكتاو شود:
(۴)
بر اساس مطالعاتي كه Wiesel , Hubel [15] انجام داده اند، سلولهاي ساده در راستاي جهت هاي خاصي با پهناي باند تقريبي ْ۳۰ حساس هستند. بنابراين در روش پيشنهادي براي هشت جهت و همچنين سه فركانس مكاني مقدار انرژي گابور را محاسبه نموده و ۲۴ تصوير پاسخ بدست مي آيد. انتخاب فركانسها و جهت ها بايد به نحوي باشد كه دامنه فركانسي پوشش داده شود (شكل ۳).

***********
شكل ۳: دامنه فركانس پوشش داده شده با ۲۴ فيلتر انتخابي
در هر كانال، پاسخ هاي فيلترهاي گابور ارايه كننده نواحي است كه در راستاي جهت و فركانس كانال مي باشند. يك معيار مهم براي تفكيك نمودن بافت هاي مختلف اين است كه ويژگيهاي مربوط به شكل هر يك از اين نواحي را استخراج نماييم. در اين مقاله استخراج ويژگي از خروجي فيلترهاي گابور را با استفاده از گشتاورهاي هندسي انجام داده ايم. گشتاور مرتبه (p+q) براي ناحيه ي R از تصوير فيلتر شده ي E1 با رابطه زير محاسبه مي شود:
(۵)
از پنج ماسك ارايه شده در شكل ۴ براي محاسبه گشتاورها و استخراج ويژگي استفاده نموده ايم. اين ماسك ها به هر ۲۴ تصوير فيلتر شده اعمال مي شوند و به ازاي هر تصوير فيلتر شده E1، پنج تصوير گشتاور Mik (k=1,2,3,4,5) بدست خواهد آمد.

شكل ۴: ماسكهاي استفاده شده جهت محاسبه تصاوير گشتاورها
براي اينكه تصاوير گشتاوري كه داراي آمارگان مرتبه دو يا شدت روشنايي يكسان مي باشند، از يكديگر متمايز شوند، يك تبديل غيرخطي به تصاويرگشتاورها اعمال شده و سپس بردار ويژگي نهايي بر اساس قدرمطلق انحراف از ميانگين تصوير حاصل به دست مي آيد:
(۶)
Fik به عنوان kامين ويژگي است كه از تصوير فيلتر شده E1 با اندازه n*m محاسبه مي شود. نيز مقدار ميانگين مربوط به تصوير گشتاور Mik است. تابع تانژانت هايپربوليك كه براي تبديل غيرخطي مورد استفاده قرار گرفته، شكلي لگاريتمي دارد و در مطالعات Farrokhnia , Jain نيز بعنوان آشكارساز حباب ها مورد استفاده قرار گرفته است [۱۶]. پارامتر شكل لگاريتمي تابع tanh را كنترل مي كند و بر اساس نتايج تجربي مقدار ۰/۲۵ را اختيار مي كند.
۲-۲-۲- انرژي گابور

انرژي گابور بعنوان يك ويژگي مفيد در روشهاي مبتني بر فيلترهاي گابور مورد استفاده قرار مي گيرد. همچنين فيلترهاي گابور چند كانالي و ويژگي انرژي گابور در [۱۱]، براي تعيين نوع زبانِ متون چاپي به كار رفته اند. Zhu از انرژي گابور براي شناسايي نوع قلم در زبان انگليسي و چيني استفاده كرد [۱۲]. در اين مقاله مقدار انرژي گابور را براي بانك فيلتر طراحي شده محاسبه نموده و چون شكل هيستوگرام تصاوير پاسخ اغلب شبيه به يك تابع گاسين است [۱۱]، بنابراين ميانگين و انحراف معيار هر ۲۴ تصوير انرژي گابور محاسبه شده و بردار ويژگي نهايي را تشكيل مي دهند. براي هر تصوير بلوك ورودي يك بردار ويژگي ۴۸ تايي بدست خواهد آمد.

۲-۲-۳- تبديل فوريه انرژي گابور
Tan [17] مجموعه اي از ويژگي هايي را پيشنهاد نمود كه بر اساس تبديل فوريه انرژي گابور محاسبه شه و نسبت به چرخش نيز حساس نمي باشند. با كمك اين ويژگيها، نوع زبان در متون چاپي تشخيص داده مي شود. در اين روش ابتدا انرژي گابور محاسبه شده و سپس مقدار متوسط براي تصوير انرژي گابور با رابطه زير محاسبه مي گردد:
(۷)
تصوير انرژي گابور و مساحت تصوير انرژي گابور است. براي يك فركانس ثابت ، تبديل فوريه يا بسادگي محاسبه شده و ضرايب فوريه به عنوان ويژگي بكار مي روند. اگر تعداد جهت ها در يك فركانس مشخص برابر M باشد، آنگاه حداكثر تعداد ويژگيهاي مستقل با توجه به گسسته بودن تابع ، برابر M/2+1 خواهد بود. اين ويژگيها براي بانك فيلتر پيشنهادي محاسبه شده و براي هر تصوير بلوك ورودي ۱۵)۵*۳) ويژگي بدست خواهد آمد.