سری هاری به مسائل دشوارتری اشاره کرده است. تحقیق او بسیار پیچیده تر است زیرا از تشخیص گفتار “، پردازش های زبان طبیعی و درک تصویر کمک گرفته است. در یکی از برنامه ها، برای شناسایی افرادی که در تصاویر روزنامه نشان داده شده اند از شرح زیر تصویر استفاده شده است. وقتی برای شناسایی افراد بتوان از شرح استفاده کرد، با استفاده از متن شرح نیز می توان تصویر را به طور خودکار نمایه شازی کرد. در یک نظام پیش نمونه، شاو ” و بَل” (سری هارا، ۱۹۹۷) تصویری از یک چشم انداز در یک ایستگاه کاری را مشاهده کرده و با استفاده از ترکیبی از ورودی موشواره ای” و زبان گفتار آن را نمایه کردند. یک نظام تشخیص گفتار، ورودی ها را آوانویسی کرده و آن را با ورودی موشوارهای هماهنگ میکند. این نوع “گزارمانِ ویدیویی  به یک سیستم، که برای گزار مان نویسی قاب های ویدیویی طراحی شده، افزوده گشته و به نمایه سازی و جستجوی تصاویر ویدیویی در کاربری های جنگ هوشمند نیز ارجاع داده شده است.

کاریک  و واترز (۱۹۹۷) روشی را برای یک مشکل وابسته ارائه می دهند؛ تشخیص خودکار پیوندها در بین رسانه های مختلف؛ مثل تشخیص اینکه یک تصویر خاص به یک گزارش خبری جدید وابسته است.

چنین به نظر میرسد که بعضی از کاربردهای پایگاه های تصویری به قدری مبهم هستند که در فقط مرور کردن یا روشهای جستجوی تعاملی امکانپذیر است. جستجو برای تصویری از یک صورت، درجایی که فقط ویژگی های کلی آن مشخص بوده یا به خاطر مانده  است، مثالی برجسته از این نوع است . چین )NAAW( ! مشکل روش جستجوی تکراری را مورد بحث قرار داده است:

یک بهره گیر به دنبال اطلاعات معینی است: مثلا، برای یافتن فردی که چهره او راکم و بیش او در به خاطر می آورد با برای مشخص کردن و  ویژگی های مهمی که از یک فرد به خاطر دارد (به شکل۱۰۰مراجعه کنید.

این مشخصات ممکن است به این صورت باشد که شخص مورد نظر مؤنث است، چشمان درشتی دارد، دهانش گشاد است، موهایی بلند دارد و پیشانیش کوتاه است. براساس این اطلاعات، تصاویر افرادی بازیابی میشود. سپس بهره گیر می تواند شبیه ترین فرد با مشخصات ارائه شده را انتخاب کرده و از طریق مشخص کردن ویژگی هایی  دیگر یا استفاده از ابزارهای ویرایش تصویری، درخواست خود را اصلاح نماید. این کار،تصویری را پالایش میکند که برای بازیابی تصاویرمرتبط بعدی به سیستم ارسال خواهد شد در نتیجه باایده مبهم اولیه یک درخواست به طور رشد یابنده ای شکل میگیرد.باجلب رضایت بهره کیر این فرایند پایان خواهدیافت (ص۷۱)

پرایس و دیگران (۱۹۹۲) از یک روش جستجوی تکراری (بازخورد مرتبط) برای بازیابی تصاویر استفاده کردند اما در روش آنها، به جای وابستگی به انطباق الگویی جستجوها با خود و تصاویر، بر توصیفات متنی تصاویر تکیه شده بود. گیودی وادا” و دیگران (۱۹۹۶) روش جستجوی تکراری را در شرایطی دیگر مورد بررسی قرار داده اند. شرکت ژو؟و همکاران در دانشکده دریایی آمریکا، یک گروه تحقیق تشکیل دادند که بر روی نمایه سازی عکس ها انواع دیگر تصاویر میکردند. در روش آنها، از ترکیبی از متن (شرح های تصویری) و پردازش های پیکسلی استفاده شده پورد. برای اعمال طبقه بندی محلی بر روی عکس ها از یک الگوی شبکه عصبی استفاده شده بود. از فرآیندهای تجزیهٔ خودکار نیز بر روی شرح های تصاویر استفاده شده بود.

تحقیق آنها که بر داده های چندرسانه ای در سیستم های سلاح های جنگی تکیه داشت، نمایه سازی عکس هایی که بخشی از صفحات وب را شکل میدادند را نیز در بر می گرفت (ژو و گیوگ لیلمو، ۱۹۹۳؛ ژو ۱۹۹۴، ۱۹۹۶؛ ژو و فرو”، ۱۹۹۶، ۱۹۹۷؛ گیوگلیلمو و ژو ۱۹۹۶).  گروه های تحقیق مختلفی بر روی روش های نمایه سازی مجموعه های نقاشی و سایر اشیای هنری کار کرده اند. مثلاً آزاکی” و دیگران (۱۹۹۶) روشی را شرح دادهاند که اطلاعاتی دربارهٔ آنچه که تصویر شده، روش توصیف و نیز جنبه های زیباشناختی آن را دربر دارد.