چکیده

امروزه، استفاده از الگوریتمهای خوشه بندی در گروهبندی مستندات متنی از جایگاه بالایی، خصوصا در سیستمهای بازیابی اطلاعات برخوردار است. با استفاده از این الگوریتمها مستندات بازیابی شده، گروهبندی می شوند تا مستندات مشابه، در یک خوشه قرار گیرند. از میان روشهای مختلف خوشهبندی ، مدل عصبی SOM برای دادههای با حجم بالا و مدل فازی ۱KHM برای دادههای خارج از محدوده عملکرد بهتری دارد.

در این پژوهش، با تلفیق دو روش KHM وSOM، الگوریتم نگاشت خودسازمانده هارمونیک HSOM پیشنهاد شده است. نتایج آزمایشات خوشهبندی مستندات بازیابی شده توسط سیستمSMART برای مجموعه OHSUMED ، براساس دو روش SOM و HSOM نشان میدهند که HSOM برخلاف SOM، به مقداردهی اولیه حساسیت ندارد و همانند KHM دادههای خارج از محدوده تاثیری بر نتیجه خوشهبندی نمیگذارند.

کلمات کلیدی

SOM, Document Clustering، HSOM , K-Harmonic Means

۱ K-Harmonic Means

.۱ مقدمه

خوشهبندی یکی از ابزارهای اساسی برای کشف ساختار زیرین مجموعه دادهها است. هدف اصلی خوشهبندی، تقسیم یک مجموعه داده مشخص به تعدادی خوشه همگن است بطوریکه شباهت عناصر درون یک خوشه با هم، بیش از شباهت آنها با عناصر دیگر خوشهها باشد.
موتورهای جستجو مستندات را بر اساس شباهتشان به سوال کاربر بازیابی و رتبهبندی میکنند. با توجه به اینکه رتبهبندی فقط نزدیکی مستندات به سوال کاربر را در نظر میگیرد. لزوما مستندات مربوط در رتبه بندی، کنار یکدیگر قرار نمیگیرند .
ایده استفاده از خوشهبندی در بازیابی متون بر این اساس است که اگر مستندات مشابه در یک خوشه و کنار یکدیگر قرار گیرند در صورتیکه یکی از آنها به سوال کاربر مربوط باشد با احتمال زیاد بقیه اعضاء خوشه نیز به سوال کاربر مربوط خواهند بود. بدین ترتیب مستندات مربوط ونامربوط راحتتر از یکدیگر جدا میشوند.

ابتدا محققین روش خوشهبندی کل مجموعه مستندات را بررسی کردهاند و اثرات آنرا در بهبود و بازیابی اطلاعات با روشهای مرسوم بازیابی اطلاعات مقایسه نمودهاند.[۱] در حال حاضر محققین بیشتر علاقمند به بررسی اثرات خوشهبندی پس از بازیابی اطلاعات و پاسخ به سوال کاربر هستند. دو نوع از خوشهبندی که نتایج آنها در بازیابی اطلاعات قابل قبول بوده عبارتند از جستجوی خوشه۱ و پیمایش خوشه۲

مراکز ثقل خوشه یا نمایندههای خوشه محتوای یک خوشه را برای بازیابی نشان میدهند. پرس و جو با نمایندههای خوشه تطبیق داده میشود و خوشهای که بیشترین شباهت را به پرس و جو دارد بازیابی میشود. در جستجوی خوشه، مستندات داخل خوشه بازیابی شده در رابطه با پرس وجو مرتب نمیشود بلکه کل خوشه به عنوان یک موجودیت بازیابی میشود.[۱] سه نوع متفاوت از جستجوی خوشه در بازیابی اطلاعات بررسی شده است: جستجوی بالا به پایین۳ و جستجوی پایین به بالا۴ و جستجوی خوشه بهینه۵

در این پژوهش ما از جستجوی خوشه بهینه استفاده کردهایم.

پیمایش خوشه برای دسترسی به اطلاعات با هدف غیر مشخص به کار میرود. در این تکنیک مستندات به گروههایی خوشهبندی میشود سپس با استفاده از خلاصهها کاربر خوشههایی را انتخاب میکند. مجموعه مستندات این خوشهها زیر مجموعه جدیدی را تشکیل میدهد. سیستم، الگوریتم خوشهبندی را دوباره برای پراکندن زیر مجموعه جدید بکار میبرد و دوباره خلاصهها را به کاربر نشان میدهد. با هر تکرار موفق خوشهها کوچکتر میشوند و بنابراین جزئیات بیشتری را بیان میکند.[۲][۴]

اخیرا روشهای مختلفی بر اساس شبکه عصبی برای خوشهبندی مستندات پیشنهاد شده است[۹ ] [۱۲] که هر کدام مزایا و معایب خود را دارا هستند. در این مقاله، مدل جدیدی از شبکههای فازی عصبی خود سازمانده ارائه شده است که میتواند دادههایی با ابعاد بالا را در دو بعد تصویر کند. این مدل تلفیقی از دو روش KHM و SOM میباشد.

روش خوشهبندی SOM برای کاربردهای مختلفی قابل استفاده است. به همین دلیل نسبت به دیگر روشهای موجود توجه بیشتری را به خود جلب کرده است. با این وجود، SOM به مقداردهی اولیه حساس میباشد و دادههای خارج از محدوده، خوشهبندی را دچار مشکل میسازد. در این پژوهش، برای حل این مشکل از ایده K-Harmonic Means استفاده شده است.

۱ Cluster based search 2 cluster based browsing 3 Top-down 4 Bottom-up 5 Optimal cluster

KHM یک روش خوشهبندی فازی است. مشخصه مهم آن عدم حساسیت به دادههای خارج از محدوده میباشد. در این روش، برای نمایش خوشهها، ماکزیمم مقدار عضویت دادهها نسبت به خوشهها در نظر گرفته میشود. هدف از این پژوهش، ارائه روش جدیدی است که مزایای روشهای خوشهبندی SOM و KHM را همزمان در بر داشته باشد. در روش جدید HSOM، بجای بکارگیری استراتژی رقابتی از روش میانگین هارمونیک برای بروزآوری وزن نرونها استفاده شده است.

بخش بعدی به روش پیشنهادی HSOM اختصاص یافته است. بخش ۳ به روشهای ارزیابی خوشه و بخش ۴ به آزمایش روش

HSOM و ارزیابی نتایج اختصاص یافته است و بخش پایانی نتیجهگیری میباشد.

.۲ روش پیشنهادی HSOM

در این روش جدید فازی عصبی که ما آن را HSOM نامیدیم، توپولوژی شبکه مشابه SOM دوبعدی است با این تفاوت که هنگام بروزآوری، وزن تمام نرونها تغییر میکند و این عمل تنها مختص نرون برنده نمیباشد. بدین ترتیب، امکان بکارگیری ایده فازی در شبکه عصبی فراهم میگردد. برای بروزآوری وزنها در فاز یادگیری، از تابع هزینه میانگین هارمونیک استفاده شده است . در ادامه نحوه بروز آوری وزنها و نیز چگونگی نمایش خوشهها شرح داده شده است.