چكيده:
بازيابي اطلاعات مي‌تواند به ساخت آنتولوژيها و كاربرد مؤثر و مفيد آنها، كمك كند. ما از استخراج واژة اصلي مبتني بر تركيب و تجانس (Collocation)، جهت ارائه مفاهيم جديد، استفاده و در مورد ارائة ارتباط وسيع جهت اتوماتيك سازي جمعيت آنتولوژي با مثال، مطالعه مي‌كنيم. ما، متدهاي خود را در تنظيم پروژة كتابخانة ديجيتال، با استفاده از متدولوژي ارزيابي اطلاعات، ارزيابي مي‌كنيم. در يك تنظيم مشابه، در مورد متدهاي بازيابي مطالعه مي‌كنيم كه ساپورت جهت‌يابي ارائه شده توسط روابط معنايي و لغوي موجود در اغلب آنتولوژيها را جهت كمك به كاربران در بررسي آنتولوژي تكميل مي‌كنند.

مقدمه:
متدهاي جستجو، جهت يابي و سازماندهي اطلاعات اينترنت رايج امروز، دهه‌هاي تحقيق دوره بازيابي اطلاعات را پايه و مبنا قرار مي‌دهند. اين متدها مبني بر قوانين آماري كنترل كنندة استفاده انسان از زبان، نه تنها در بازيابي سند و مدرك، بلكه در امورغني‌تر به لحاظ معنايي مثل پاسخگويي به پرسش، مورد استفاده قرار مي‌گيرند. يك شكل Semantic Web اين است كه بسيار شبيه به Web است كه ما امروزه مي‌شناسيم و انتظار داريم كه اسناد مدارك، سرشار از منافع قابل فهم باشند. اين تفسيرها را در مورد اسناد وعبارات قابل توجيهي كه در جستجوي معاني مضمون اسناد ومدارك هستند، ارائه خواهند داد. ما توضيح مي‌دهيم كه صورتهاي صرفي IR چگونه مي‌توانند در اين امر، با كمك آرشيتكت‌هاي آنتولوژي غيرمعمولي، مؤثر باشند. تكنيكهاي IR مي‌توانند به تعريف، تشخيص و بررسي ثبات و تداوم آنتولوژي كمك كنند. هشت مرحله مي‌توانند در پروسه ايجاد آنتولوژي متمايز شوند.

۱- تعيين محدودة آنتولوژي
۲- توجه به استفادة مجدد از قسمتهاي مربوط به آنتولوژي موجود
۳- بر شماري و ذكر كلية مفاهيمي كه مي‌خواهيد
۴- تعريف و تشخيص تاكونومي اين مفاهيم
۵- تعريف و تشخيص ويژگيهاي مفاهيم
۶- تعريف و تشخيص جنبه‌هايي از مفاهيم مثل اصول و ارزش‌هاي مورد نياز وغيره
۷- تعريف و تشخيص نمونه‌ها
۸- بررسي ثبات و تداوم آنتولوژي

ما، از ميان اين مراحل، مراحل ۳ و۷ را با تكنيكهاي مبتني بر IR بررسي كرده و معتقديم كه اين مراحل مي‌توانند به طور مفيدي با استفاده از تكنولوژي بازيابي قابل دسترس امروزي، انجام شوند. مرحلة ۴ براي اتوماتيك سازي، مناسب است، در عين حال، مسئله حل‌شده‌اي به شمار نمي رود و مرحله ۸ در مورد متدهاي استدلال سمبوليك به گونه‌اي كه مثلاً در PACER و FACT اجرا مي‌شوند، بهترين گزينه است. تكنيكهاي IR ، علاوه بر اينكه جهت كمك به سازندگان آنتولوژي مورد استفاده قرار مي‌گيرند، مي‌توانند در جستجو، مرورگري و ارائه موارد غيرمترقبه نيز به كاربران كمك كنند. مردم تمايل دارند كه از Semantic Web شركتها جهت جستجوي اسناد و مدارك، بلكه جهت جستجوي اطلاعاتي در مورد روابط معنايي خاص، مثلاً در تنظيم كتابخانه هاي ديجيتال، استفاده كنند.

بنابراين، روش‌هايي را جهت «بازيابي در يك سلسله مراتب مفهومي» ارائه مي‌دهيم، كه در آن‌ها به جستجوي واقعي هماهنگي به نحوييكه توسط اغلب ابزارهاي جهت‌يابي و ويراستارهاي آنتولوژي ارائه مي‌شود. ممكن است مناسب و كافي نباشد. پيشرفتهاي گذشته، با ايجاد آلگوريتم‌هاي بازيابي سند و مدرك مفيد امروزي جهت ايجاد و به‌كارگيري زيرساختار Semantic web، مستقيماً منجر به ايجاد پيشرفتهايي در آينده مي‌شوند. اما دليل متدولوژيكي بيشتري براي نزديك تر كه من اقدامات Semantic web در IR به هم داريم، جامعه IR بر اهميت ارزيابي، تأكيد كرده است. با ظهور كنفرانس‌هاي بازيافت متن (IRC)، ارزيابي آزمايشي امور مربوطه به بازيابي، به پيشرفت چشمگيري رسيده كه منجر به پيشرفت سريع در امور ارزيابي شده، شده است. منافع مشابهي با اقدامات ارزيابي مربوط به بازيايب و اقدامات مربوط به امور پردازش زبان غني‌تر به لحاظ معنايي، وجود دارند. جامعه Semantic web، از تأكيد شديدتر بر ارزيابي و اموري كه مي‌توانند ارزيابي شوند، سود مي‌برد. با خوردن غذاي سگ خود، ارزيابي تجربي در مورد كليه امور مورد بررسي در اين مقاله انجام مي‌دهيم.

بخش ۲، تنظيمي را بررسي مي‌كند كه كلية امور در آن رخ مي‌دهند. پروژه Language Links و (Lolali )Logic ، به هدف فراهم آوري امكان دستيابي مبتني بر آنتولوژي به يك كتاب راهنماي الكترونيكي در فصل مشترك و واسط زبانشناسي و منطق. در بخش ۳، اتوماتيك سازي مرحله ۳ و ارزيابي آنرا، توصيف مي‌كنيم. در بخش ۴، در مورد اتوماتيك سازي مرحله ۷ و ارزيابي آن، صحبت مي‌كنيم در بخش ۵، جستجو در سلسله مراتب مفهوم LaLaLi را ارزيابي مي‌كنيم. در بخش ۶، نتيجه گيري مي‌كنيم.
۲- LoLaLi:
كارما، و آزمايشات مربوط به آن، در تنظيم پرونده كتابخانه ديجيتال، انجام شدند. پروژه LoLaLi ، متدهايي را جهت گسترش مزمت قديمي كتابهاي راهنمايي علمي با ابزارهاي الكترونيكي ، ارائه مي‌دهد. اين ابزارها به خوانندگان كمك مي كنند كه به مضمون و محتواي كتاب راهنما دست يابند و اين ابزارها، يافتن اطلاعات مربوطه را آسانتر مي‌سازند.

طبق اين مطالعه ، پروژه Handbook of Logic and Language در فصل ۲۰ ص ۱۲۰۰ تمركز دارد، مانند آزمايشات از منابع Latex استفاده كرديم. پروژه LoLaLi، از سلسله مراتب مهم word net جهت فراهم آوري امكان دستيابي به كتاب راهنما استفاده مي‌كند. سلسله مراتب مفهوم، غالباً جهت جهت يابي از طريق تركيب‌ها و تجانس‌ها اسناد در مدارك، مورد استفاده قرار مي‌گيرند. آنها براي سازماندهي، نمايش دهي و ارائه اطلاعات متعدد،مفيد واقع مي‌شوند، و كاربراني در جستجوي يك hypertext هستند و داراي الگوهاي مرورگري سلسله مراتبي هستند، بهتر از كاربران داراي مسيرهاي مرورگري متوالي، اين كار را انجام مي‌دهند. از اينرو، معماريهاي مربوط به كتاب‌هاي راهنماي الكترونيكي بايد الگوهاي سلسله مراتبي را توجيه كننده يك سلسله مراتب مفهومي، روش مناسبي براي انجام اين كار باشد.

سلسله مراتب مهم LoLaLi با دست و توسط متخصصين اين رشته كه اخيراً حدود ۶۰۰ مفهوم را جمع آوري، سازماندهي و مرتبط ساخته‌اند، ايجاد مي‌شود و يك سرويس دهنده مبتني بر secame ، اطلاعات سلسله مراتبي را ذخيره مي‌كند كه از طريق يك مجموعه از نوشته‌جات و Protégé هدفمند، ويرايش و به روز رساني مي‌شود. ما در بخش ۳، توضيح مي‌دهيم كه تكنيكهاي اصلي IR، چگونه مي‌توانند به نويسندگان در تعيين و انتخاب مفاهيمي جهت تحول در سلسله مراتب، كمك كنند.
هر مفهوم در سلسله مراتب LoLaLi، با يك توضيح و تفسير، حاشيه نويسي مي‌شود كه به طور خلاصه، آنرا توصيف مي‌كنند.

بعلاوه، مفاهيم داراي توصيفات طولاني‌تري هستند و آنها هم توسط نويسندگان، ارائه مي‌شوند. سلسله مراتب، از يك مفهوم TOP با چهار شعبة اصلي در زير آن تشكيل مي‌شود : علم كامپيوتر، رياضيات، زبانشناسي و فلسفه كه توسط روابط زير موضوع، فوق موضوع (Subtopic-supertopic) ، سازماندهي و تنظيم مي‌شوند. اين روابط، تايپ مي شوند و تايپها عبارتند از “per-of”,”is-a” هستند. سلسله مراتب در LoLaLi، بيشتر يك نمودار است يا يك قالب دقيق و واضح شكل ۱ . روابط غيرسلسله مراتبي نيز در نظر گرفته شده و به منظور اهداف جهت يابي مورد استفاده قرار مي‌گيرند؛ اين روابط مشتمل بر Sibing(همشيره و خواهر)، “معاني ديگر” و “مفاهيم مربوطه” مي باشند. مفاهيم موجود در سلسله مراتب LoLaLi نيز به منابع خارجي ارتباط دارند. مورد اصلي در ميان اين روابطHand book of Logicians lenguage مي‌باشد، مثال‌هاي ديگر مشتمل بر روابط با ابزارهاي مستقيم (on line) مربوطه مي‌باشند روابط با Handbook ، مفهومي را در سلسله مراتب، به عنوان منبع وبخش‌هاي مربوطه موجود در Hand bookرا به عنوان هدف، اتخاذ مي‌كنند. در بخش ۴، ما توضيح‌مي‌دهيم كه چگونه تكنيكهاي IR به بررسي اين امر كمك مي‌كنند.

در حال حاضر ، كابران مي‌توانند به شكل “آساني”سلسله مراتب دست يابند از نتايج مطالعة يك كاربر، جهت يابي در راستاي روابط معنايي فوق اينكه، با تسهيلات جستجوي كامل شده است كه كاربران را مجاز مي‌سازد مفاهيم موجود در سلسله مراتب را به شيوه‌اي اختياري، بيابند. دربخش ۵، ما تكنيكهاي اصلي IR را ارزيابي و توصيف
مي‌كنيم.
۳- كمك به سازندگان آنتولوژي
طبق پروژه LoLaLi، درزمان ساختن يك آنتولوژي براي يك رشته علمي خاص، آثار ادبي ارزشمندي وجود دارند كه محتوا و معانيشان بايد تحت پوشش آنتولوژي قرار گيرند. ما در مورد ساپورت IR جهت بررسي سوال زير، گزارش مي‌دهيم: كدام مفاهيم بايد در آنتولوژي قرارگيرند؟ ما به جاي اينكه به صورت دستي و غيراتوماتيك به جستجوي آثار ادبي بپردازيم، متدهاي شناسائي مفاهيم مورد نظر را از يك متن خاص، با استفاده از استخراج واژه توضيح مي‌دهيم. اسامي مفاهيم، معمولاً عبارات اسمي (noun phrase) هستند. از اينرو، تشخيص عبارات اسمي، احتمالاً اولين مرحله براي تشخيص مفاهيم مورد نظر به شمار مي‌رود. ما دو مورد را در عين به كارگيري تكنيكهاي مختلف، متمايز مي‌كنيم: كانديداهاي تك واژه‌اي و كانديداهاي چندواژه‌اي.

۱-۳- مفاهيم يك اسمي
با جهت يافتن اسامي جالب، ابتدا ‍POS را به دنبال متن Hand book اضافه كرده و سپس كلية اسم ها را انتخاب مي‌كنيم. ما از دو روش براي طبقه بندي آنها استفاده مي كنيم. توسط تواتر و تعداد خام و توسط تواتر يا تعدد نسبي، يعني توسط تعداد وقايع تقسيم بر تعداد وقايع در مجموعه اسناد ومدارك با هدف كلي. ليستهاي حاصله، توسط سه ارزيابي، ارزيابي شدند كه از آنها در مورد هر اسم در فهرستهاي حاصله پرسيده مي‌شد كه آيا آنها در فهرست جامعي از نظريات مفيد يا مهم كه به مبتديان و متخصصين كمك مي‌كند، قرار دارند يا خير. در مورد “استاندارد طلائي” ما، يك اسم در صورتي در نظر گرفته مي‌شد كه اكثر ارزياب‌ها، آنرا وابسته به آن فهرست بدانند.

ما، با اين استاندارد طلايي، امتيازات دقيق a(n) را جهت افزايش ارزش‌هاي n ، محاسبه كرديم در جدول۱، دومين رديف، فهرست حاصله تنظيم شده توسط تواتر و تعدد خام و سومين فهرست تنظيمي توسط تعدد وتواتر نسبي را نشان مي‌دهد. نمايانگر كننده است كه حتي فهرست حاصلة تعدد خام از كيفيت بالايي برخوردار بوده وداراي اسم‌هاي نامربوط به تعدد و تواتر و تكرار زياد در راس، مي‌باشد و با احتساب ويژگيهاي اين حيطه خاص، امتيازات دقيق بسيار بالا مي‌توانند حاصل شوند. در مورد يادآوري چطور؟ گردآوري وت دوين فهرست كاملي از اسم‌هاي مفيد يا مهم محدوده Hand book، كار مشكلي است، البته اگر غيرممكن نباشد، در عوض، ما تصميم داريم كه با استفاده از يادآوري مفهوم به يادآوري تقريبي بپردازيم(CK): چه تعدادي از مفاهيم تك اسمي در سلسله مراتب LoLaLi را ما شناسايي كرده ايم، و آنها كدام قسمت فهرستهاي حاصله قرار دارند؟ از ۵۲۲ مفهوم در سلسله مراتب مفهومي، ۱۵۸مفهوم، تك اسمي هستند؛ از اينرو، CR در برابر آن ۱۵۸ مفهوم ، ارزيابي شد. آلگوريتم استخراج اسم، ۷۷% از مفاهيم تك اسمي موجوددر سلسله مراتب LoLaLi را شناسايي كرد؛ و ۷۰% اين مفاهيم در ۷۵۰ مورد از ۱ به بعد قرار دارند. در حاليكه اين، امتياز يادآوري كاملي نيست، سازندگان آنتولوژي ما، به موارد بسيار مهمي در ارائه سلسله مراتب پي برده و به ما مي‌گويند كه اين موارد غالباً آنها را به تفكر در مورد مفاهيم ديگر و بررسي غيرمستقيم مسئله يادآوري وا مي‌دارند.

۲-۳- عبارات اسمي چند واژه اي
بيائيد به استخراج عبارات اسمي چند واژه‌اي بپردازيم، ما متد مفيدي را ارائه مي‌دهيم كه مبتني بر تركيبها و تجانس ها بوده و مي‌تواند به مرحله تقسيم شود. Parsel سطحي متن، ۲ ارائه توالي هاي واژه‌اي با الگوهاي جالب pos-tag براي ارزيابي و بررسي دقيق‌تر،۳/ تصميم‌گيري در مورد اينكه هر توالي واژه، يك تجانس يا تركيب اسمي هست يا خير. مرحله ۱/ با Schmid Tree-Tagger pos-tagger انجام مي شود. مرحله ۲، با متدي كه توسط Katz,Justeson ارائه شده، انجام مي شود و از الگوهاي pos-tag جدول ۲ استفاده مي‌كند. ما متن ضميمه شده يا اضافه شده را بررسي كرده و هر چيزي را كه بايكي از الگوهاي pos-tag فهرستي، هماهنگ نيست، كنار مي‌گذاريم. مرحله ۳ ، با آزمايش اينكه آيا واژه‌هاي موجود در توالي، بيشتر از موقعي ايجاد مي‌شوند كه كليه واژه هاي موجود در متن به صورت تصادفي، تنظيم شده باشند. طبق نظريه Krenn , Evert كه آشكارسازي تركيبها و تجانس‌هاي pp-Verb را بررسي كرده اند، از t-test جهت بررسي مرحله ۳ استفاده مي‌كنيم. فرضيه بي اعتبار ما اين است كه در متن، واژه‌هايي كه توالي را مي‌سازند، كاملاً مستقل از يكديگر هستند.

زمانيكه از متد چند واژه‌اي خود در مورد Handbook of logic and lansuage استفاده مي‌كنيم، به نتايج اميدوار كننده اي مي‌رسيم. مثلاً ، ۱۰ تركيب يا تجانس اسمي با بالاترين امتيازات t در جدول ۳ نشان داده مي‌شوند. در واقع، ما چگونه اين كار را انجام مي‌دهيم؟ مثل عبارات تك اسمي، ما از يادآوري مفهوم (CR) و دقت (P) جهت پاسخگويي به اين سوال، استفاده مي‌كنيم از ۵۲۲ مفهوم موجود در اين شكل سلسله مراتب مفهومي مورد استفاده، ۳۶۴ مفهوم، چند واژه‌اي هستند؛ از اينرو، CR در برابر آن ۳۶۴ مفهووم، ارزيابي شد. آلگوريتم ما با كار در مورد Hand book،۳۸۹۶ تركيب و تجانس را ارائه داد، ۹۹ مورد، مفاهيم مربوط به سلسله مراتب هستند. مثلا، با ۲۸% از مفاهيم چند واژه‌اي را يافتيم؛ ۷۳% آنها در ۷۵۰ هستند. با توجه به P، ما از سه ارزياب جهت ارزيابي مفاهيم كانديداي مورد نظر، استفاده كرديم. جدول ۳، نمونه‌اي از نتايج را بهمراه ارزيابي‌هاي انساني، ارائه مي‌دهد. جدول ۴، داراي امتيازات دقت حاصله در درجات مختلف مي‌باشد؛ دقت با حركت به سمت پائين فهرست، كاهش مي‌يابد.
در حاليكه وقت در سطح قابل قبولي است، يادآوري مفهووم، در حد مطلوبي باقي ماند. چند راه براي افزايش يادآوري وجود دارد: توسعة الگوهاي استخراج بيشتر، واضح سازي كمتر الگوها، يا افزايش اطلاعات و داده‌هايي كه بر روي آنها كار مي شود. ممكن است در بين گزينه به دقت لطمه بزند، و اولين گزينه الگوهاي بسيار خاصي را ايجاد كرده و هيچ تفاوتي در دوره‌هاي يادآوري مفهوم ايجاد نكند. به سومين گزينه مي‌پردازيم. عبارت اسمي جالب بسياري، تنها در اhand book ايجاد مي‌شوند؟ زمانيكه متد تشخيص ما، از طريق افزونگي عمل مي‌كند، تا در به يافتن آن واژه ها نخواهيم برد.

جهت ايجاد يك مجموعه اطلاعاتي وسيع‌تر بايد به شرح زير عمل كنيم. هر يك از ۵۲۲ مفهوم موجود در سلسله مراتب LoLaLi به موتور تحقيق وب دارد شدند.كه در عين حال، خروجي فايل‌هاي PDF را محدود كردند. ۲۰ نتيجه بالايي، حفظ شدند؛ متن، با استفاده از pstotext، استخراج شد و MB385 از متن قابل استفاده ايجاد كرد. ما ۴۷۵/۲۰۶ تركيب و تجانس را استخراج كرديم،كل ۱۹۷ مفهوم يافت شده و مهمتر اينكه ۴۴% آنها در ميان ۷۵۰ نتيجه بالايي بودند. بنابراين، CR مشخصاً در زمان مقايسه با نتايج اجرا كننده آلگوريتم ما در برابر متن Handbook، ايجاد شده است. در جدول ۵، اعداد دقيق مربوط به مجموعه Web را در رابطه با مجموعه CLEF فهرست مي‌كنيم. تخصيص و تصريح اين امر، به خلاص شدن از دست عباراتي مثل “other hand” كمك مي‌كند، اما عباراتي مثل “next section” (بخش بد) را به درجات بالا مي برد و امتياز p@10 پائين را در رديف ۳، توجيه مي‌كند.