جستجو در یک پایگاه تصویری با سطح متوسطی از تلخیص، مستلزم بازیابی تصویری محتوی پایه خواهد بود. مهروترا نیازمندی ها را اینگونه دسته بندی میکند:

۱٫٫ پرسش هایی که به پردازش / تحلیل تصویری نیاز ندارند. این پرسشها، به هیچ پردازش با تحلیلی از پایگاه تصاویر نیاز ندارند و هیچ پرسش تصویری نیز ارائه نمیشود. مثال ها عبارتند از: ۱) بازیابی همهٔ تصاویری که در آنها حداقل یک ماشین در مقابل خانه ها پارک شده باشند۲-بازیابی تصاویری که یک مرد خندان را نشان میدهد در اینجا، از توصیفگرهای نمادینی (به صورت خودکار استخراج شده و / یا بهره گیر آن را تعیین میکند) که ضمیمهٔ پایگاه تصاویر است برای انتخاب تصویر مورد نظر استفاده می شود. با استفاده از روش های سنتی نیز می توان این نوع پرسش ها را پاسخ گفت.

۲. پرسش هایی که به پردازش/تحلیل  تصویری نیاز دارند. برای استخراج نمادهای اطلاعاتی موجود در این پرسش ها، باید یک یا چند تصویر پردازش شوند. برای انتخاب تصاویر و تحفق محدودیت های تعیین شده،توصیفگر استخراج شده با توصیفگر پایگاه تصاویر مقایسه میشود. مثالی از این نوع پرسش عبارت     است از  بازیابی همه تصاویری که یک با چند موجودیت شبیه به پرسش تصویری – از لحاظ رنگ تصویر و ویژگی های متنی – دربر داشته باشند. (ص. ۶۲)

بدیهی است که در سطوح مختلف تلخیص که در شکل ۹۸ نشان داده شده است، از بالا به اشکال تصویری را ارائه کرده است، و هوانگ و دیگران (۱۹۹۷) دربارهٔ شکل، رنگ، و بافت به عنوان مشکلات نمایه سازی و بازیابی بحث کرده اند. تحلیلگر رنگ که آنها توصیف کرده اند میتواند نمودار ستونی و مقدار درشتی، کنتراست و جهت یک تصویر را محاسبه کند. از طریق يک روشي خوش های “، تفکیکی تصویری ” حاصل می آید. این مسئله به کاوشگران پایگاه اجازه می دهد تا رنگ و ویژگی های فضایی (مثلاً یک منطقه قرمز در بالا و یک منطقه آبی در سمت راست) را در جستجو اعمال کنند.

فورسایت ” و دیگران (۱۹۹۷) دیدگاهی کلی را دربارهٔ استفاده از رنگ، بافت، و ویژگی های هندسی در بازیابی از پایگاه های بزرگ تصویری ارائه داده اند. به هرحال، بهتر است بدانیم که اکثریت بهره گیران پایگاه های تصویری احتمالاً بر روی ویژگی های جزئی تری مثل رنگ، شکل، و بافت جستجو نمی کنند، هرچند ممکن است از این ویژگی ها محدود کردن جستجو استفاده کنند. هوانگ و دیگران (۱۹۹۷) این نکته را به شکل زیر بیان کرده اند:

در استفاده از بسیاری از نظام هاي بازیابی چندرسانه ای، بهره گیران به ندرت از ویژگی های سطح پا و تصویر (یعنی، شکل، رنگ و بافت) برای جستجو در پایگاه استفاده میکنند.درعوض، گیر از طریق مفاهیم سطح بالا (مثل، یک ساحل، جنگل، گل های زرد، یک غروب خورشید) محتوای یک تصویر خاصی را تعیین میکند. ( ص. ۱۱۵)