فرآیندهای نوین پردازش متن ادعا دارند از فنونی استفاده می کنند که از تحقیقات در زمینهٔ هوش مصنوعی حاصل آمده اند؛ گاهی از اصطلاح پردازش هوشمند متن” برای اشاره به این نوع از پردازش ها استفاده می شود (برای مثال به اثر جاکوبز ، ۱۹۹۲c نگاه کنید).

این فصل، با بررسي امتیازات بازیابی متنی (زبان طبیعی) و روش های واژگان کنترل شده در بازیابی اطلاعات آغاز می شود. سپس، پیشرفت ها در زمینهٔ جستجوی متن از دهه ۱۹۵۰تاکنون را بررسی میکند. این فصل، با بحثی دربارهٔ توانایی های فعلی این حوزه پایان خواهد یافت.

فصل های ۱۴، ۱۵ و ۱۶ بسیار به هم وابسته اند چراکه همهٔ آنها با جنبه های مختلفی پردازش متن از طریق رایانه سروکار دارند و هر جنبه از آن به خوبی در قالب یک فصل جداگانه بررسی شده اند.

می توان اصطلاح زبان طبیعی را با “گفتار روزمره مترادف دانست؛ یعنی، زبانی که به طور مشترک برای نگارش و مکالمه مورد استفاده قرار میگیرد و متضاد اصطلاح واژگان کنترل شده است. در بافت بازیابی اطلاعات، این اصطلاح به کلماتی اشاره دارد که در متون چاپی ارائه شده اند. در نتیجه، اصطلاح متن آزاد” را می توان به عنوان مترادفی برای آن در نظر گرفت. متن آزاد می تواند از موارد زیر تشکیل شده باشد:

۱. عنوان،

۲. یک چکیده،

۳. یک استخراج متن،

۴. همهٔ متن یکی انتشارات.

گرچه اصطلاح متن آزاد عموماً به بخش های دست نخورده ای از یک متن اشاره دارد، اما می توان از آن برای اشاره به کلمات یا عباراتی استفاده کرد که نمایه سازان انسانی (یا از طریق برنامه های رایانه ای) از متن استخراج کرده و به یک رکورد کتاب شناختی متنی افزوده اند. در بعضی از موارد، این اصطلاحات استخراج شده به عنوان های مدارکی که نمایه شده اند افزوده می شود و در نتیجه، عناوین توسعه یافته ” یا غنی شده ” را شکل می دهند.