چکیده نویسی ماشینی

تعریف

حری، چکیده نویسی ماشینی را، چکیده ای میداند که ماشین براساس یک سلسله الگوریتم های تعریف شده از متن دریافتی چکیده تهیه می کند (حری، ۱۳۸۱). اگر براساس معیار بسامد (تکرار) می توان رایانه ها را برای انتخاب اصطلاحات از مدارک برنامه ریزی کرد، پس باید بتوان آنها را طوری برنامه ریزی نمود که جملات را نیز از مدارک انتخاب کنند. این نکته مبنای آن چیزی است که چکیده نویسی ماشینی نامیده می شود.

مراحل اجرای چکیده نویسی

 ماشینی لوان (۱۹۵۸)، ابداع کننده چکیده نویسی ماشینی، فرایندهای زیر را برای چکیده نویسی ماشینی در نظر گرفته است:

یک سیاهه واژگان غیر مجاز، همه کلمات غیر اسمی را از پردازش های بعدی حذف می کند•

  • رخداد همه کلمات باقی مانده، شمارش شده و براساس بسامد رخداد (به جای کلمات می توان از ریشه ها استفاده کرد) ردیف می شوند
  • همه کلماتی که بیش از x بار رخ میدهند به عنوان کلمات پربسامد یا مهم تعریف می شوند.
  • جملاتی بازیابی می شوند که تجمع این کلمات پربسامد را در بردارند. زمانی دو کلمه را مرتبط در نظر میگیرند که بیش از چهار کلمه بین آنها فاصله نباشد.
  • به روش زیر برای هر جمله یک عامل اعتباری برآورده می شود:

الف. تعداد خوشه های جملات تعیین می شوند (یک خوشه، طولانی ترین گروه از کلمات است که از کلمات مهم تشکیل شده اند و در آنها فاصله کلمات مهم از یکدیگر بیش از چهار کلمه نیست.

ب. تعداد کلمات مهم در خوشه تعیین شده و مربع این رقم بر کل کلمات موجود در خوشه تقسیم می شود.

ج. همچنین میتوان عامل اعتباری جمله را به عنوان ارزش بالاترین خوشه یا جمع ارزشهای همه خوشه ها در جمله تعریف کرد.

این شیوه پیچیده تر از ان است که عملی و کاربردی به نظر اید. با مثالی ساده میتوان آن را نشان داد. جمله زیر را در نظر بگیرید:

الف ب پ ت ”ث ج چ ح خ د “ ر ز ژ س ش ص ض هر حرف بیانگر یک کلمه است و کلمات ستاره دارانهایی هستند که مهم ارزیابی شده اند. خوشه ای که با کلمات  ت -د   شکل گرفته چهار کلمه مهم را در بردارد. بنابراین عامل اعتباری برای این خوشه برابر است با ۴/۷ یا ۲/۳. این عامل اعتباری را میتوان عامل اعتباری جمله نیز به شمار اورد، زیرا فقط از یک خوشه تشکیل شده است.  

براساس فرایندهای لوان، جملاتی که بالاترین عامل های اعتباری را در بردارند، انتخاب شده و براساس توالی رخداد آنها در متن چاپ می شوند؛ در نتیجه این عمل چکیده شکل می گیرد. برای کنترل تعداد جملات انتخابی میتوان نقطه برشی تعیین کرد.

در جایی که با مدارک بسیار طولانی سروکار داریم، ضروری است تا برنامه ای را در اختیار داشته باشیم که بتواند جملات مهم را برای هر بخشی از اثر انتخاب کرده و چاپ نماید. از آنجا که در تهیه چکیده، برای سازمانی که چکیده برای آن تهیه می شود، باید بر بخش های مهم و خاصی از مدرک تأکید شود، در نتیجه باید برای طبقه یا فهرست کلماتی معین، وزن نیز تعیین کرد تا اطمینان حاصل شود که جملات انتخابی برای چکیده نویسی، یک یا چند رخداد از این کلمات را دربر دارند.

بدیهی است، چکیده ای که به این روش شکل می گیرد، چندان به چکیده هایی که نیروی انسانی آنها را تهیه می کند، شباهت ندارند. از آنجا که ممکن است بعضی از جملات از اولین و برخی از آخرین پاراگراف و شاید جملات دیگری از میانه اثر انتخاب شوند، ممکن است جملات کاملاً بی ارتباط با هم به نظر آیند. در حقیقت، در قبال انتخاب جملاتی که در مجموع میتوانند تصویر درستی از محتوای مدرک را ارائه دهند، این مسأله چندان مهم به نظر نمیآید. به هر حال، برخی از پژوهشگران با این مسأله موافق نیستند و اصرار دارند، چکیدههایی که به طور خودکار تهیه می شوند، باید پیوستگی بیشتری داشته باشند. گرچه لوان (۱۹۵۸) و آسوالد و دیگران (۱۹۵۹) از بسامد کلمه یا عبارت برای انتخاب جملات استفاده کردند، اما سایر محققین معیار جایگزینی را پیشنهاد کرده یا مورد استفاده قرار دادند. ادموندسون” (۱۹۶۹) چهار روش را شناسایی کرده است:

روش راهنما

این روش به معیار بسامد کلمه، که لوان مورد استفاده قرار داده بود، شباهت دارد. براساس مجموع وزنهای کلمات سازنده، به جملات وزنی تعلق می گیرد.

روش نشانه

حضور کلماتی خاصی در یک جمله نشانگر این حقیقت است که این جمله احتمالا همان جمله ای است که محتوای متن را به خوبی نشان خواهد داد. یک واژنامه نشانه ، فهرستی از کلماتی که وزن دریافت کردهاند و فهرستی از کلمات با وزن مثبت و منفی را در بردارد. ارزش اعتباری یک جمله عبارت است از جمع جبری وزنهای مثبت و منفی کلمات سازنده آن.

روش عنوان

دراین روش فرض براین است که کلمات موجود در عناوین وعناوین فرعی نشانه گر های مناسبی ازمحتوی مدرکی هستند.جملات براساس تعداد کلماتی از عنوان و عنوان فرعی که در بردارند,ارزش اعتباری دریافت میکنند.

روش محل

زدر این روش به جملات براساس محلی که در آن رخ میدهند، وزن داده میشود. جملاتی که در بخشهای خاصی ظاهر می شوند (اولین و آخرین جملات پاراگرافها، اولین و آخرین پاراگرافها، جملاتی که پس از سرعنوان هایی مثل مقدمه و نتایج می آیند)، به نسبت سایر بخش ها، معرف بهتری از محتوای متن هستند.

مشخص شد که در روشیهای نشانه، عنوان و محلی، احتمال توافقی بر روی جملات انتخابی بیشتر از هر نوع روش دیگری است که از ترکیب این روش ها با روش راهنما حاصل آمده باشد. این مسأله باعث شد تا ادموندسون نتیجه گیری کند

که روشی راهنما که فقط بر معیار بسامد (تکرار) تکیه دارد، نسبت به سایر روشی ها اهمیت کمتری دارد (لنکستر، ۱۳۸۲: ۴۰۰ – ۴۰۲).

فوم و دیگران (۱۹۸۲) روشی را برای چکیده نویسی خودکار توصیف کردهاند که – به ادعای آنان – از طریق فرایندهای وزن دهی  حذف عناصر غیرضروری و ساختار بندی دوباره باقی متن در یک خلاصه موجز و معنادار، مهمترین اطلاعات متن را شناسایی میکند. انها این جمله را مثال اورده اند:

ضرورت تولید مقدار بسیار زیادی از قدرت الکتریسیته و نیز حفظ محیط زیست، یکی از مشکلات فنی و اجتماعی است که در آیندهای نزدیک جامعه ما باید آن را حل کند.

که به این صورت چکیده شده است:

در آینده، جامعه باید در عین حفظ محیط زیست، مشکل نیاز به تولید برق را حل کند. هر چند این پیشرفت در سطح جمله تحسین برانگیز است، اما آنها مشخص نکردهاند که آیا فرایندهای توصیفی آنها میتواند خلاصه ای معنادار و سودمند از کل یک مقاله را ارائه دهد یا خیر (لنکستر، ۴۰۶:۱۳۸۲).

نکته ظریف در چکیده نویسی خودکار، توجه به بحث نحو است که برای حفظ آن روش های مختلفی مانند روش راهنما، نشانه و عنوان مطرح شده اند (حری، ۱۳۸۱).