سایر روش های طبقه بندی

همانطور که در فصل ۲ بحث شد، نمایه سازی نوعی طبقه بندی به شمار می آید: تخصیصں یک اصطلاح به یک مدرک باعث می شود تا آن مدرک، همراه با سایر مدارکی مشابه، در طبقه مربوط به آن اصطلاح قرار گیرند. وقتی اطلاعات کتاب شناختی مدارک در قالب الکترونیکی وجود داشته باشند می توان از انواع دیگری از طبقه بندی ها نیز استفاده کرد. برای تولید طبقه های مدارک یا طبقه های اصطلاحات، میتوان از فرآیندهای خودکار بهره گرفت. به کمکي روابطی که ذهن بشری در بین اصطلاحات ایجاد میکند، و شاید از طریق روابطی که یک اصطلاح نامه با سایر انواع واژگان کنترل شده فرآهم میآورند، جستجو در نظام های بازیابی أمرسوم” انجام می شود.

برای افزایش کارایی جستجوها در یک روش بازیابی خودکارتر – مثلاً روشی که به انطباقي درخواست های زبان طبیعی با متن کامل مدارک، با چکیده ها یا با بازنمودهای ایجادشده از طریق رایانه نیاز دارد – اگر فرآیندهای خودکاری را تعبیه کنیم که روابط بین اصطلاحات را به طور خودکار برقرار سازند بسیار مفید خواهد بود. هم ظهوری ساده ترین رابطه ای است که رایانه می تواند تشخیص دهد. هرچه دو اصطلاح بیشتر با هم (در متن یک مدرک یا در فهرست اصطلاحات تخصیصی به مدارک) تکرار شوند، احتمال اینکه آنها با محتوای موضوعی مشابهی سروکار داشته باشند بیشتر خواهد بود. برای دستیابی به نتیجه ای منطقی، اگر اصطلاح الف هرگز بدون اصطلاح اب و اصطلاح به هرگز بدون اصطلاح الف (که شرایط بسیار نادری است) در مدارک ظاهر نشوند، دو اصطلاح کاملاً به هم وابسته اند و در جستجو می توان آنها به جای هم به کار برد.

علاوه بر رابطه مستقیم (که اصطلاحات الف و ب با یکدیگر رخ میدهند)، میتوان براساس داده های هم ظهوری، روابط غیرمستقیمی نیز بین اصطلاحات برقرار کرد. مثلاً فرض کنید که در یک پایگاه خاص، اصطلاح د تقریباً هرگز بدون اصطلاح از ظاهر نمیشود و فرض کنید که اصطلاح س نیز بدون  اصطلاح ز در مدرک رخ نمی دهد، و نیز اصطلاحات د و س هرگز با هم در مدارک ظاهر نمی شوند. از این رابطه فرد می تواند نتیجه بگیرد که بین اصطلاح د و سی نوعی رابطه وجود دارد. آنها از این نظر که هرگز بدون اصطلاح ز ظاهر نمیشوند به یکدیگر وابسته اند. در این بافت اصطلاحات د و سی – با هر احتمالی – دقیقاً با هم مترادف هستند: مترادفها به هم ظهوری گرایش ندارند اما اصطلاحات هم ظهور بسیار به هم شبیه خواهند بود. در این مثال فرضی، د یعنی دلتا، سی یعنی سه ضلعی و از یعنی زاویه .

درحقیقت، مقدار رابطهٔ بین دو اصطلاح را نباید فقط براساس بسامد هم ظهوری محاسبه کرد بلکه باید بسامد هم ظهوری را در رابطه با بسامد رخداد هر اصطلاح سنجید. مثلاً اگر اصطلاحات الف وب ۲۰ بار باهم در یک پایگاه تکرار شده باشند، درحالی که اصطلاح “الف” ۱۰٫۰۰۰ بار و اصطلاح با ۵۰٫۰۰۰ بار رخ داده باشد، عامل رابطه بین اصطلاح “الف” و “ب” بسیار ضعیف خواهد بود. از سوی دیگر، فرض کنید که اصطلاح “الف : ۵۰ بار و اصطلاح “ب” ۲۵ بار، و ۲۰ بار نیز با هم رخ داده باشند. در این نمونه عامل رابطه بالا خواهد بود زیرا احتمال رخداو اصطلاح به بدون اصطلاح “الف بسیار کم است و تقریباً در نیمی از رخدادهای الف، اصطلاح ب نیز حضور دارد. بنابراین، با معادله ساده زیر می توان رابطه بین دو اصطلاح را به دست آورد:
وقتی رابطه (R) بیشتر از یک آستانهٔ انیش تعیین شده باشد، دو اصطلاح را مرتبط درنظر میگیرند.