چکیده نویسی خودکار

اگر براساس معیار بسامد میتوان رایانه ها را برای انتخاب اصطلاحات از مدارک برنامه ریزی کرد، پس باید بتوان آن را طوری برنامه ریزی نمود که جملات را نیز از مدارک انتخاب کنند. این نکته مبنای آن چیزی است که چکیده نویسی خودکار نامیده می شود هرچند اخیراً آن را استخراج خودکار” مینامند. لوان (۱۹۵۸)، چکیده نویسی خودکار ابداع کننده این روش، فرآیندهای زیر را برای چکیده نویسی خودکار در نظر گرفته است:

۱. یک سیاهه واژگان غیرمجاز، همهٔ کلمات غیراسمی را از پردازش های بعدی حذف می کند. ۲. رخداور همهٔ کلمات باقیمانده، شمارش شده و براساس بسامد رخداد (به جای کلمات میتوان از ریشه ها استفاده کرد) ردیف می شوند.

۳. همهٔ کلماتی که بیش از x بار رخ میدهند به عنوان کلمات ” پر بسامد یا “مهم تعریف می شوند.

۴. جملاتی بازیابی می شوند که تجمع این کلمات پر بسامد را دربر دارند. زمانی دو کلمه را مرتبط در نظر میگیرند که بیش از چهار کلمه بین آنها فاصله نباشد.

۵. به روش زیر برای هر جمله یک عامل اعتباری” برآورد میشود:

الف. تعداد خوشه های جملات تعیین می شوند (یک خوشه، طولانی ترین گروه از کلمات است که از کلمات مهم تشکیل شده اند و در آنها فاصله کلمات مهم از یکدیگر بیش از چهار کلمه نیست). ب. تعداد کلمات مهم در خوشه تعیین شده و مربع این رقم بر کل کلمات موجود در خوشه تقسیم میشود.

ج. همچنین می توان عامل اعتباری جمله را به عنوان ارزش بالاترین خوشه یا جمع ارزش های همهٔ خوشه ها در جمله تعریف کرد. این شیوه پیچیده تر از ان است که در عمل به نظر میآید. با مثالی ساده می توان آن را نشان داد. جمله زیر را درنظر بگیرید:

الف ب بپت“ث ج”چ” ح خ د * ذ ر ز ژ س ش ص ض

هر حرف بیانگر یک کلمه است و کلمات ستاره دار آنهایی هستند که مهم ارزیابی شده اند. خوشهای که با کلماتی تی-ر شکل گرفته چهار کلمه مهم را در بر دارد، بنابراین عامل اعتباری برای این -خوشه برابر است  یا ۲/۳. این عامل اعتباری رامی توان عامل اعتباری جمله شمار اورد زیرا فقط از یک خوشه تشکیل شده است.

براساس فرایندهای لوان، جملاتی که بالاترین عامل های اعتباری را دربر دارند انتخاب شده و براساس توالي رخداد آنها در متن چاپ میشوند؛ در نتیجهٔ این عمل چکیده شکل میگیرد. برای کنترل تعداد جملات انتخابی می توان نقطهٔ برشی تعیین کرد. شکل ۱۰۹ نمونه ای از یک چکیده خودکار است که از طریق فرآیندهای تعریفی لوان ایجاد شده است.