چکیده:
در عصر حاضر حرکتی سریع به سمت ارائه دانش به گونه ای که توسط ماشین ها قابل فهم گردد در حال انجام است. در همین راستا فضای وب به عنوان یکی از بزرگترین منابع ارائه محتوا برای ایجاد محتواهای معنایی با مشکلات و چالش های متعددی از جمله وجود انوع داده های بدون ساختار و روش های مختلف ارائه دانش در پس زمینه روبروست.

ویکی ها (دانش نامه ها) یکی از مهمترین ابزارهای ارائه محتوا در وب می باشند. این نوشتار سعی می کند تا با ارائه یک سیستم پیشنهادی برای ایجاد ویکی های معنایی به زبان فارسی تا ح ممکن متادیتاها را در مرحله تولید محتوا با استفاده از یک آنتولوژی الگو که از قبل آماده است، ساختارمند سازد. ارزیابی های گوناگونی با استفاده از موتورهای جستجوی معنایی بر روی این سیستم انجام شده که نتایج این ارزیابی ها با تکنیک های موجود مقایسه شده و حاصل آن نمایش داده شده است. نتایج بدست آمده از ارزیابی ها نشان می دهد که در سیستم پیشنهادی کاربران توسط موتورهایی جستجوی معنایی با دقت بیشتری به محتوای مورد نظر خود هدایت می شوند.

کلمات کلیدی: ویکی معنایی، معماری سیستم، مدل های داده ای، زبان هستی شناسی وب، میکرو دیتا .

فصل اول

کلیات تحقیق

.۱,۱ مقدمه ویکی ها بزرگترین و جامعترین دایره المعارف های موجود در فضای

مجازی هستند. این دایره المعارف ها دارای انبوهی از اطلاعات هستند که کاربران را برای پیشبرد اهداف مرتبط با فعالیت هایشان یاری میرسانند. امروزه کاربرد اینگونه دایره المعارف ها یکی از احتیاجات اصلی افراد در سرتاسر جهان است. بگونه ای که در برخی موارد این دایره المعارف ها، خود راهنمایی برای رجوع کاربران به کتابهای دایره المعارف در فضای غیر مجازی می باشند. با این حال محتوای اینگونه ابزارها به ندرت توسط ماشین قابل تفسیر است و روش استفاده از آنها هنوز مبتنی بر عملکرد کاربر در نحوه ی مراجعه به مطالب و فهم و استفاده از ارتباطات موجود در اسناد ویکی ها می باشد.

مسئله دیگر این است که ویکی های موجود در فضای مجازی هرکدام به روش خاص خود اصلی سریع و آسان بودن را اجرا کرده اند و الزاما

۱

استفاده از دستور زبانی خاص با نحو خاص و یکسان آنها را تبدیل به ویکی نمی کند و این فرض که همه ی ویکی ها باید مانند سایت هایی همچون ویکی پدیا باشند اشتباه می باشد.

.۱,۲ ویکی معنایی ویکی معنایی یک نوع ویکی است که در پس زمینه هر یک از صفحات

آن یک مدل دانشی وجود دارد که آن صفحه را توصیف می کند. معمولا ویکی ها ترکیبی از متون به همراه لینک ها هستند. ولی ویکی های معنایی علاوه بر ترکیبی از متن و لینک ها قابلیتی را به وجود میآورند که با استفاده از آن و با کمک سیستم های استنتاج معنایی امکان شناسایی اطلاعات پیرامون داده های موجود در صفحات و نیز ارتباطات بین آنها و ارتباطات بین صفحات امکان پذیر خواهد بود.[۱]

.۱,۲,۱ تاریخچه ویکی معنایی در ژوئن سال ۲۰۰۱ عبارت وب معنایی توسط اندی دینگلی۲ برا ی

اولین بار در مقاله ای پیرامون یوزنت۳ بکار رفت. بعدها در سال ۲۰۰۳ یک محقق استرالیایی بنام لئو شورمن۴ در یک مقاله ی علمی به موضوع وب معنایی پرداخت. البته بیشتر فعالیت های کاربردی پیرامون ویکی معنایی، در سالهای ۲۰۰۴ تا ۲۰۰۶ انجام شده است که از این

ارائه دهنده ۱٫
Andy Dingley 2.
UseNet 3.
Leo Sauermann 4.

موارد می توان به Artificial Memory در سال ۲۰۰۴ ، Semantic MediaWiki در سال ۲۰۰۵ ، Free Base در سال ۲۰۰۵ و Onto Wiki

در سال ۲۰۰۶ اشاره کرد. در سال ۲۰۰۶ اولین کنفرانس پیرامون ویکی معنایی در شهر مونتنگرو برگزار شد. این کنفرانس تا سال ۲۰۱۰، هرساله برگزار می شد. در سال ۲۰۰۷ سایت DBpedia راه اندازی گردید که البته یک ویکی معنایی نبود و فقط اسناد موجود در سایت ویکی پدیا را به صورت سه تایی های RDF ارائه می نمود با این حال این سایت با ارائه محتوا به روش امکان ایجاد پرس و جو های معنایی بر روی داده های ویکی پدیا را فراهم می کرد.در مارس سال ۲۰۰۸ شرکت wikia که یک ارائه دهنده خدمات هاستینگ برای پیاده سازی ویکی ها به صورت مستقل است، امکان استفاده از نسخه معنایی MediaWiki را برای تمامی کاربران خود فراهم نمود تا از این طریق امکان ایجاد ویکی های معنایی به صورت گسترده فراهم گردد.شرکت گوگل نز برای آنکه از فعالیت در این عرصه عقب نماند در سال ۲۰۱۰ اقدام به خرید شرکت Metaweb نمود. شرکت Metaweb تولید کننده Freebase است Freebase یک پایگاه دانش مبتنی بر ذخیره اطلاعات بر مبنای متا داده می باشد. Freebase اطلاعات خود را به صورت آنلاین جمع آوری می کند و بسیاری از اطلاعات موجود در آن از ویکی های مستقل و سایر منابع در جهان بدست آمده است. در سال ۲۰۱۲ نیز فعالیت ها پیرامون پیاده سازی ویکی معنایی توسط برخی نهادها و شرکت ها مانند گوگل انجام شده که تاکنون ادامه دارد. یکی از مهمترین این فعالیت کار بر روی Wikidata می باشد که یک پروژه بر مبنای Wikimedia معنایی است . در این طرح امکان وجود چندین زبان مختلف در ذخیره و بازیابی اطلاعات وجود دارد از این رو امکان استفاده گسترده از مطالب آن به صورت معنایی در سایر زبان به راحتی وجود دارد.لازم به ذکر است که در زبان هایی که اکنون عملیاتی شده اند زبان فارسی وجود ندارد.[۹]

.۱,۲,۲ چالش های ایجاد ویکی معنایی فارسی از مجموعه ی آن چه تا کنون بیان شد می توان چالش های زیر را به

عنوان مهمترین موانع ایجاد یک ویکی معنایی به زبان فارسی بیان نمود:

۲

.۱ چالش های موجود زبان فارسی مانند:

.I وجود حرکات در حروف که معنای آنها را تغییر می دهد.

.II نبود ویرایشگر معنایی به زبان فارسی

.III نبود نرم افزاری های متن بازی معنایی برای زبان فارسی

.IV نبود نرم افزارهای آنتولوژی ساز مانند ontoligue

۲٫ مدل داده ای برای نمایش ساختار معنایی: یا به عبارت دیگر درج متا داده ها و انجام عمل سریال سازی۱ برای نمایش معنایی محتواهاست که ما در موراد تخصصی از میکرو دیتا۲ و RDFa استفاده می کنیم.

۳٫ آنتولوژی فارسی که هسته اصلی ایجاد ویک فارسی است.

۴٫ نرم افزار ویکی که بتوان با استفاده از آن ویکی فارسی را پیاده سازی نمود.

فصل دوم

ارائه یک سیستم پیشنهادی

.۲,۱ مقدمه همانطور که می دانیم برای ایجاد یک سند معنایی به یک مدل داده

ای،آنتولوژی، امکانی برای سریال سازی مدل داده ای می باشیم. بنا بر این در این فصل قصد داریم، برمبنای مفاهیم و دانش وب معنایی و نیز نوع دوم ویکی هایی که در ایران استفاده می شود ابتدا به معرفی یک سیستم پیشنهادی برای نمایش اسناد معنایی به زبان فارسی بپردازیم سپس در بخش دوم از همین فصل هر یک از اجزاء این سیستم پیشنهادی را تشریح خواهیم نمود؛ در ادامه و در بخش سوم با ارائه یک نمودار “مورد کاربرد” نحوه ی تعامل کاربران با سیستم را بیان خواهیم کرد.

در بخش چهارم نیز پس از بیان سناریویی که برای ارزیابی این سیستم پیشنهادی انتخاب شده است، ابتدا به معرفی پارامترهای ارزیابی این سیستم می پردازیم و پس از آن متریک هایی که در سناریوی انتخابی مورد ارزیابی قرار می گیرند تشریح خواهند شد؛ در ادامه نیز نتایج هر یک از ارزیابی ها به صورت نمودارهایی ارائه خواهد شد که به تحلیل نتایج آن ها خواهیم پرداخت.

۱٫ Serialization 2. MicroData

.۲,۲ معماری سیستم پیشنهادی همانطور که در شکل زیر مشاهده می کنید سیستم مذکور از ۶ قسمت

تشکیل شده است. هسته ی اصلی این سیستم بخش حاشیه نویس۱ که با استفاده از اطلاعات ارائه شده توسط آنتولوژی اقدام به درج متادیتاها در اسناد غیر معنایی و تبدیل آنها به صورتی می کند که از یک سو توسط کاربر به راحتی قابل خواندن است و از سوی دیگر در پس زمینه حاوی دانشی است که توسط عامل۲ هایی که امکان تحلیل ساختارهای معنایی را دارند قابل تحیل و پردازش می باشند.

در تمام ویکی های معنایی موجود سند نهایی که به کاربر نمایش داده می شود بدون متادیتا و حاشیه نویسی می باشد و تنها سورس اصلی اطلاعات حاوی حاشیه نویسی معنایی است که البته این حاشیه نویسی نیز در هر کدام بر مبنای الگوی استفاده شده در آن ویکی جهت ایجاد سه تایی معنایی متفاوت می باشد. از سوی دیگر هر برنامه معنایی برای استفاده از این محتوا ها علاوه بر آنکه باید به سورس های اصلی دسترسی داشته باشد، الگوی سه تایی آن ویکی را نیز باید بشناسد.

Annotato Article

Database
Anthology
Semantic
Search Articles
تصویر ۱ معماری سیستم پیشنهادی Visualization

در سیستم پیشنهادی، با استفاده از مدل داده ای میکرودیتا علاوه بر حل مشکل تنوع الگو های نمایش سه تایی معنایی اقدامه به ارائه متادیتاها در سند نهایی که به کاربر نمایش داده می شود نموده ایم؛ همچنین به دلیل آنکه مدل مذکور به صورت یک تفاهم مشترک توسط موتورهای جست و جوی مشهوری مانند گوگل، یاهو و بینگ مورد

استفاده قرار می گیرد مسئله طراحی برنامه ای که بتواند اطلاعات معنایی اسناد تولید شده را شناسایی کند برطرف کرده ایم.

همانطور که در تصویر ۱ مشاهده می کنید بخش دیگر معماری پیشنهادی آنتولوژی ساز است که با استفاده از آن می توان کلاس ها و ویژگی های مربوط به هر کلاس موجود در آنتولوژی را به سیستم معرفی کرد. علاوه بره تعریف کلاس ها و اجزاء آن امکان ارث بری کلاس ها از یکدیگر نیز در این بخش دیده شده است. حاشیه نویس با استفاده از اطلاعات ارائه شده در این بخش اقدام به نمونه سازی هر کدام از کلاس ها برای اسناد ویکی می نماید. اطلاعات خام پس از درج متادیتا ها باتوجه به ساختاری که در معماری سیستم وجود دارد ذخیره می گردند. نکته قابل توجه این است که امکان استفاده از این اطلاعات تا زمانی که نمایش داده نشده اند وجود ندارد. ایده اصلی در سیستم پیشنهادی این است که اطلاعات و داده های معنایی از مدل داده ای مستقل نگاه داشته شوند چرا که در آینده ممکن است مدل داده ای که برای سریال سازی آنتولوژی مورد استفاده قرار می گیرد تغییر یابد و اسناد نهایی که به کاربر نمایش داده می شوند در پس زمینه از مدل متفاوتی استفاده کنند؛ این مدل داده ای می تواند RDFa یا هر مدل دیگری باشد که از روش ۳EAV استفاده می کند.

.۲,۲,۱ آنتولوژی در علم کامپیوتر و علوم اطلاعات، آنتولوژی به معنی نامگذاری و تعریف

انواع، ویژگی ها و روابط موجودیت ها با یکدیگر در یک دامنه ی خاص می باشد. یک آنتولوژی کلمات و ترمینولوژی (اصطلاحات یا واژگان) مناسب را برای توصیف دانش در حوزه ی خاص فراهم می سازد.[۲]

آنتولوژیها نقش های مختلفی در سیستمهای اطلاعاتی، فهم زبان طبیعی و سیستمهای مبتنی بر دانش دارند. البته باید در نظر داشت تمرکز تحقیقات اخیر حول محور آنتولوژی، ارائهی دانش واقعی۴ در حوزهای خاص است، چرا که از این نوع دانش میتوان در فهم زبان طبیعی استفاده نمود. با این حال دستهی دیگری از کاربردهای آنتولوژی هستند که برای به اشتراکگذاری دانش در سیستمهای مبتنی بر دانش استفاده میشوند.[۲]