تاريخچه موتورهاي جستجو
موتورهاي جست و جو وب، تاريخچه مختصري دارند، به طوري كه عمر آن ها كمتر از يك دهه است. تاريخچه موتورهاي جست و جو در اين بخش بررسي مي كنيم.
قبل از اين كه موتورهاي جست و جو به وجود آيند ، آشفتگي حاصي در وب وجود داشت. براي يافتن چيزي در اينترنت مي بايست آدرس دقيق آن مشخص بود. با ايجاد گوفر آشفتگي تا حدي بر طرف شد و محتويات اينترنت سازمان يافته شد. گوفر در دانشگاه ماينسو تا ايجاد شد. گوفر بر اسسا HTML طراحي نشده بود و استفاده از عناوين فايل با توصيف هاي جزئي در آن موسوم بود. اما اگر طريقه استفاده از گوفر را بدانيد به راحتي مي توانيد فايل ها را از اينترنت برداريد. گوفر در دهه ۱۹۸۰ در دانشگاه ماينسوتا به وجود آمده تا مشكلات كامپيوتري آن را حل كند. در اين دانشگاه دپارتمامن هاي زيادي با فايل هاي متعددي وجود داشت كه افراد زيادي مي خواستند به آنها دسترسي داشته باشند. لازم بود اين اطلاعات به راحتي در هر دپارتمان قابل دسترسي باشند. دانشگاه ماينوستا گوفر را به عنوان نرم افزاري تعريف كرد كه از قرار داد TCP/IP در شبكه بندي استفاده كرده است. سايت گوفر حاوي منويي است كه از طريق آن مي توان به اطلاعات مورد نظر دست يافت.

توسعه سريع وب جهاني گوفر را از دور خارج كرد. در وب جهاني مي توان ابر پيوندها را دنبال كرد. متن ها را جست و جو نمود، از مرورگرهاي گرافيكي استفاده كرد، و بسياري از تكنيك هاي محاوريه اي را به كاربرد و موتورهاي جست و جوي وب را ايجاد نمود.
اولين موتور جستجو موفق، WebCrawler بود كه در دانشگاه واشيتگتون طراحي و ساخته شد و در سال ۱۹۹۴ به كار گرفته شد. در مدت يك سال، سه رقيب براي آن پيدا شدند: Lycos, infoseek و open text در اواخر ۱۹۹۵ موتورهاي جستجوي Alta vista, excite بوجود آمدند. جالب است كه بدانيد اغلب فناوري هاي جست و جو كه امروزه توسط جست و جو كنندگان مورد استفاده قرار مي گيرند با درجات مختلفي در اين موتورهاي جستجوي موجوددر خدمات online مثل Dialog و lexisnexis را ندارند. علاوه بر اين نه موتورهاي جستجو و نه امكاناتي مثل داير كتوري هاي وب از نظريه دسته بندي موضوعي جامعه و شيوه هاي كاري نوين استفاده نمي كنند. اين نكات از نظر عملي مطرح اند، به طوري كه جست و جوگر جدي بايد تشخيص دهد كه اغلب موتورهاي جست و جو براي جست و جو گرهاي مبتندي طراحي شدند، نه براي كسني كه مايل هستند از روشها و تكنيك هاي پيشرفته تري استفاده كنند.

موتور جست و جوي hot Bot در سال ۱۹۹۶ و موتور جستو جوي Northern light در سال ۱۹۹۷ به وجودآمد. Hot bot داراي واسط پيشرفته با كاربردي ساده بود كه به بانك اطلاعاتي بزرگي وصل بود ( در اواخر سال ۱۹۹۷ ، بزرگترين بانك اطلاعاتي بود).
Notrhern light جستجوي وب را با جست و جوي اطلاعاتي خصوصي تركيب كرده است . Google در سال ۱۹۹۸ به وجود آمد و دو ويژگي مهم آن يعني واسط بسيار ساده وچيدن ركوردها بر اساس محبوبيت باعث شده است كه به سرعت بين جست و جو گرهاي مبتدي و حرفه اي ( يا موردي و دائمي) محبوبيت پيدا كند. به هر حال مسابقه براي توليد بزرگترين موتور جستجو تا حدي فروكش كرد تا اين كه در سال ۱۹۹۹ موتور جستجو fast search به وجود آمد و بانك اطلاعاتي آن ۲۰۰ ميليون ركورد داشت. اين عامل به همراه ساير عوامل رقابتي منجر به مسابقه و انگيزه ديگري شده است و به اين ترتيب در ژوئن ۲۰۰ چهار موتور جستجو از بانك اطلاعاتي ۲۰۰ ميليون ركوردي استفاده كردند.

از بين موتورهاي جست و جوي اوليه open text اولين موتوري بود كه از بين رفت. از اوايل ۱۹۹۸ تا كنون دگير موجود نيست. به نظر مي رسد در دو يا سه سال آينده موتورهاي جستجوي بيشتري از بين بروند و موتور جستجو جيديد به وجود آيند. موتور جستجوي موجود نيز تغيير مي كنند، گرچه بسياري از اين ها به صورت كم يا زياد به عنوان بخشي از ماهيت دروازه اي خدمات هستند نه بخش اصلي جنبه جست و جو. اميدواريم توليد كنندگان اين ابزارها دائما به فكر پيشرفت امكانات جستجو باشند و به نظر مي رسد كه جنبه هاي رقابتي اين قضيه ادامه دارد.
شركت هاي توليد كنننده

موتور جستجو همانند ساير بخشهاي تجارت مستعد رشد هستند و سال هاي ۱۹۹۶ و ۱۹۹۷ موتور داراي نسخه پيشرفته اي بود.، صرف نظر از اين كه آيا نسخه پيشرفته واقعا پيشرفته بود يا همانند ساير چيزهايي بود كه نمي توانست در صفحه اول گنجانده شود.
در سال ۱۹۹۸ دروازه و شخصي سازي در وب شدت يافت. دروازه وب به صورت ايستگاه هاي هواشناسي، گروه هاي خبري، رديابي اوراق بهادار، تقويم هاي شخصي و غيره در صفحه اول ظاهر شدند. به اين ترتيب، همه چيز در صفحه اصلي وب در دسترس است.

در سال هاي ۱۹۹۹ و ۲۰۰۰ مفهوم دروازه قوت بيشتري پيدا كرد. ابزارهايي كه به دروازه هاي اوليه اضافه شدند (مثل دايركتوري ها و غيره)، در صفحه اول قرار گرفتند تا افراد از آن ها استفاده كنند. در سال ۱۹۹۹ به اين صورت عمل شد كه محتويات اين ابزارها به طور خود كار در صفحات نتيجه (صفحاتي كه در اثر جست و جو پيدا شدند)، ظاهر شدند. يعني همزمان بانك اطلاعاتي موتور جست و جو مورد جستجو به طور منظم به نمايش در مي آيند. اين نوع تركيب منابع، كيفيت نتايج جست و جو را بهبود داد، به طوري كه خروجي ها به طور پيوسته به جست و جوگر نشان داده مي شود و نياز به اجراي جست و جوي جداگانه در ابزارهاي مختلف نيست. توجه كنيد كه جست و جو فقط يك شاخص وب نيست بلكه جست وجوي داركتوري يك شركت، جست و جو دايركتوري و غيره است.

مرحله بعدي به كاربران موتور جست و جو مربوط مي شود ابزارهايي كه مورد توجه كاربر قرار مي گيرند نگهكداري شده بهبود مي يابند كپي كپي مي شوند و از نظر آن ها ارزشمند هستند. مسئله اين است كه كسي كه اين كتاب را مطالعه مي كند و كسي كه به ويژگي ها ابزارهاي معرفي شده در اين كتاب مياز دارد يك كاربر عادي موتور جست و جو نيست. كاربر عادي به ويژگي ها يپيشرفته و مربوط به پژوهش توجهي ندارد. اگر به جست و جو هاي عادي توجه كنيد درجه درستي اين مطلب مشخص مي شود.lycos ليستي از جست جو هاي محبوب را آماده مي كند. در يك هفته آزمايشي، ۵۰ جستجوي بهتر، حاوي ۴۶ جستجو در مورد سرگرمي، ورزش ها يا بازي ها بوده است. معنايش اين است كه اغلب جستجوهايي كه در وب انجام ميگيرند اهداف پژوهشي ندارند. اما خوشبختانه تعداد كل افرادي كه از اينترنت استفاده مي كنند در حا لاف است و افرادي كه از موتور جستجو براي اهداف حرفه اي مثل سرمايه گذاري و كسب اطلاعاتي راجع به علوم، بشريت تجارت و پزشكي استفاده مي كنند به سرعت در حال افزايش است به همين دليل موتورهاي جست و جو بايد توجه بيشتري به اين موضوعات داشته باشند.

ساختار موتورهاي جستجو
پرداختن به جزئيات موتور جستجو تا حدي ضروري است هر چند كه بدون پرد اختن به جزئيات نيز مي توان از آنها استفاده كرد. به عنوان مثال راننده اتومبيل بدون اطلاعات از عملكرد موتور اتومبيل مي تواند از آن استفاده كند، اما بهتر است همين راننده چگونگي تست سطح روغن وسوخت را بداند. به همين دليل پژوهشگران بايد مطالب بيشتري در مورد موتور جست و جو داشته باشند تا كارايي جست وجوي خود را بهبود بخشند. براي اين كار بايد با ساختار موتور جستجو تا حدي آشنا باشد.

۲۱۵
ابزارهاي مافوق جست و جو
با توجه به اين كه هشت موتور جستجوي عمده وجود دارد، جالب است وسيله وجود داشته باشد كه تعدادي از آنها را به طور همزمان جست و جو كند. اين ايده بسيار خوب است. خوشبختانه اين كار امكان پذير است و مي توان چندين موتور جستجو را به طور همزمان جست و جو نود.
براي جست و جو چندين موتور جستجو به طور همزمان دو روش وجود دارد. يكي از آنها سايت هاي ماوفوق جست و جو است كه به طور رايگان در وب وجوددارند. روش ديگر استفاده از برنامه مافوق جست و جو مشتري است اين بنرامه در كامپيوترتان قرار مي گيرد و به جستجو رايگان بوده استفاده از آن ها آسان است، اما ضعف آن ها در كامل كردن كار است.برنامه هاي سمت مشتري كار را به خوبي انجام مي دهند، ولي برنامه بايد اينترنت از اينترنت برداشته شود و براي دريافت نتيجه نياز به چندين مرحله است. نمونه هايي از هر روش را بررسي خواهيم كرد.

سايت هاي مافوق جست و جو
امتياز اين وب سايت هاي رايگان، سهولت استفاده از آن ها است و نياز به برداشتن برنامه اي از اينترنت نيست، ولي معايب مهمي دارند.
عيب آن ها را بامثالي شرح مي دهيم. در جدول ۱-۱۱ واژه Hilgreave در چند موتور جست و جو، و سپس در چند موتور مافوق جست و جو شده است.اگر اين جدول را بررسي كنيد، مي توانيد به دو يا سه نتيجه مهم برسيد كه هنگام جست و جو در آن موتورها بايد در نظر داشته باشيد.
جدول ۱-۱۱

اگر بيش از نيمي از سايت هاي مرتبط بايد درموتورهاي جست و جو پيدا شوند موتورهاي مافوق جست و جو اغلب آن ها را پيدا نمي كنند. اين كار به عوامل زيادي بستگي دارد،مثل: محدوديت هايي كه خدمات جست و جو به تعداد ركودهاي بازيابي شده از هر موتور جست و جو اعمال مي كند، مهلت زماني كه خدمات جست و جو براي جست و جو در يك موتور در نظر مي گيرد، شكست در ترجمه تقاضا به نحو خاصي كه مورد نياز موتور جست و جو است و عوامل ديگر. خوشبختانه، بعضي از موتورهاي مافوق جست و جو تمام ركورد هايي را بر مي گردانند كه واقعا و جود دارند.
سه ضعف عمده موتورهاي مافوق جست و جو عبارت اند از:
۱- معمولا تعداد ركوردهايي را كه بايد از يك موتور جست و جو بازيابي شوند محدود مي كند (گاهي كمتر از ۱۰ ركورد).
۲- معمولا تقاضا هاي پيچيده تر را به موتورهاي جست و جو منتقل نمي كنند.
۳- در بسياري از موارد، بيش از ۲ تا ۳ موتور جست و جو را جست و جو نمي كنند.

ايجاد يكي از اين سايت ها دشوار نيست. طبقه هاي Yahoo! براي اين موتورها، بيش از ۱۰۰ عدد را نشان مي دهد. بعضي از آنها مجموعه از كادر هاي جست و جو هستند كه از موتورهاي جست و جوي ديگر كپي شده اند. بعضي از آنها نيز طوري هستند كه يك يا دو ضعف فوق را بر طرف مي سازند.
موتورهاي مافوق جست و جو در موارد زير با يكديگر فرق مي كنند:
o موتورهاي جست و جوي ويژه اي كه تحت پوشش قرار مي دهند.
o تعداد موتورهاي جست و جويي كه در هر زمان مي توانند جست و جو كنند.
o توانايي آنها در انتقال تقاضاهاي پيجيده تر به موتور جست و جو، مثل آنهايي كه شامل عبارات، دستورات بولي و غيره هستند.
o محدوديت آنها در تعداد ركوردهايي كه بايد از هر موتور جست و جو بازيابي شود (مي تواند كمتر از ۱۰ ركورد باشد)
o مدت زماني كه براي جست و جو در هر موتور جست و جو تخصيص مي يابد.
o چگونگي نمايش خروجي و اين كه آيا ركوردهاي تكراري ناشي از موتورهاي مختلف را حذف مي كنند يا خير.

موتورهاي مافوق جست و جو معمولا وقتي مفيد و مؤثر هستند كه دنبال اطلاعات قديمي مي گرديد و فكر مي كنيد كه تعداد آنها خيلي كم است.ركوردهاي زيادي وجود دارند كه در بعضي از موتورهاي جست و جوي كوچكتر پيدا مي شوند ولي از طريق سه يا چهار موتور جست و جوي بزرگتر پيدا نمي شوند و در نتيجه، جست و جوي آن ها وقت را به هدر مي دهد. موتورهاي مافوق جست و جو به شما اجازه مي دهند سريعا چندين موتور جست و جو را بررسي كنيد و واژه ها يا عباراتي را بيابيد.
نمي توان تمام موتورهيا مافوق جست و جو را در اين جا بررسي كرد، بلكه پنج موتور مافوق جست و جو معروف را بررسي خواهيم كرد. اين پنج موتور مافوق جست و جو، قابليت هاي فراواني دارند و عبارات اند از:

Dogpile:www.dogpile.com
Ixquick:ixquick.com
Metacrawler:www.metacrawler.com
Profusion:www.profusion.com
Search.com:search

براي مشاهده ليست گسترده اي از سايت هاي مافوق جست و جو، مسير زير را در yahoo! ببينيد:
Computers and Internet>Internet>Worldwideweb>searching the web>search Engines and Directories>ALI-in-one search pages
در ادامه چند موتور مافوق جست و جو را شرح مي دهيم تاهنگام استفاده از آنها، از ويژگي هاي مفيديبهره ببريد.منظور از”More engines covered”اين است كه چه تعدادي از ۹ موتور جست و جو با بيش از۲۰۰ ميليون ركود، توسط موتور مافوق جست و جو، جست وجو مي شود.total engines/directories searched تعداد كل موتور جستجو يا دايركتوري هاي وب را مشخص مي كند كه جست و جو شده اند. Boolean option مشخص مي كند آيا كاربرد مي تواند از هر موتور جستجو چند ركورد بازيابي شود.

 

قبل از اينكه د رمورد ساختار موتورهاي جست و جو بحث نيم، بهتر است به زمينه فعاليت آنها بپردازيم: آنها به عنوان دروازه عمل مي‌كنند. ايده وراي دروازه اين است كه، ممكن است يك صفحه (سايت) اوليه در وب باشد كه كاربر به طور خودكار ابتدا به آن صفحه مي‌رود و آن صفحه به عنوان دروازه‌اي براي نيازهاي كاربر عمل مي‌كند. اين دروازه، مجموعه‌اي از اطلاعات و ابزارهاي مورد نياز را در اختيار كاربر قرار مي‌دهد و لازم نيست كاربر براي يافتن آنها به چند محل مراجعه كند.
به عنوان مثال، با استفاده از صفحه شخصي Excite به عنوان صفحه شروع مرورگر، مي‌توان گروههاي انتخابي رئوس اخبار، پيش‌بيني وضع هواي محلي، اوراق بهادار، و تاريخ تعهدات آينده را ديد.

از همه مهمتر اين كه در اين كتاب، كادر تقاضاي موتور جست و جو نشان داده مي‌شود. در اين كادر مي‌توان تقاضايي را در يك بانك اطلاعاتي با بيش از ۲۰۰ ميليون سايت مطرح كرد. ابتدا به اين بخش از سايت‌ها، يعني خودموتور جست و جو مي‌پردازيم. ولي ساير ويژگيهاي دروازه را نيز ناديده نخواهيم گرفت.
به خصوص، به چگونگي دريافت نتايج بهتر خواهيم پرداخت.

متأسفانه در كاربردهاي متداول منظور از موتور جست و جو، هم كل خدمات سايت و هم بخشي از سايت كه تقاضاها را مي‌پذيرد و هم جست و جوي با نك اطلاعاتي بزرگ است. در اغلب موارد، اصطلاح موتور جست و جو به جست و جوي بانك اطلاعاتي اطلاق مي‌شود و خدمات يا دروازه به كل سايت اطلاق مي‌گردد. منظور از ويژگيهاي دروازه، ساير ابزارها و اطلاعاتي است كه تدارك ديده مي‌شود. (دايركتوري‌ها، هواشناسي و غيره) اما به اين نكته نيز توجه كنيد كه خدمات Alta Vista دروازه‌اي را آماده مي‌كند كه حاوي موتور جست و جو و ساير ويژگيهاي دروازه مثل اخبار، دايركتوري وب و ابزارهاي ديگر است.

خود موتور جست و جو داراي پنج بخش عملياتي است:
۱ ـ خزنده موتور كه صفحات و سايت‌هاي وب را مي يابد.
۲ ـ بانك اطلاعاتي كه حاوي اطلاعاتي راجع به صفحات پيدا شده توسط خزنده و ساير صفحاتي است كه از منابع ديگري جمع آوري شده‌اند.
۳ ـ برنامه شاخص بندي كه محتويات بانك اطلاعاتي را مرتب مي كند.
۴ ـ موتوربازياب يكه شامل الگوريتم و برنامه‌نويسي‌هاي مربوط به آن، دستگاهها و غيره است كه اطلاعات تقاضاشده را از بانك اطلاعاتي / شاخص بازيابي مي‌كند.
۵ ـ واسط گرافيكي (HTML) كه داده ‌هاي تقاضا را از كاربر جمع‌آوري مي‌كند و به موتور بازيابي تحويل مي‌دهد.

خزنده‌ها
خزنده‌ها يا عنكبوت‌ها برنامه‌هايي هستند كه براي موارد زير در وب حركت مي‌كنند:
۱ ـ شناسايي سايتهاي جديدي كه بايد به موتور جست و جو اضافه شوند.
۲ـ شناسايي سايت‌هايي كه قبلا پيدا شدند و اكنون تغيير كرده‌اند.

خزنده ها اطلاعات مربوط به صفحات را از سايتها پيدا مي‌كنند و آنها را در بانك اطلاعاتي موتور جست و جوگر قرار مي‌دهند. مطالب زيادي در اين مورد مي توان بيان كرد ولي فقط بخشي از مطالب به جست و جوگر مربوط مي شود و جست و جوگر به اين مسئله پي مي برد كه چرا بعضي از صفحات در بعضي از موتورها پيدا مي‌شوند ولي در موتورهاي ديگر پيدا نمي‌شوند. براي بسياري از موتورها. سايت‌هاي معروفتر (مثل انهايي كه اغلب توسط كاربران كليك مي‌شوند تا آنهايي كه پيوند به آنها لغو شده است)، نسبت به سايت‌هاي ديگر بيشتر در دسترس هستند. خزنده‌ها مي‌توانند به صورت عمقي يا عرضي يا هر دو برنامه‌نويسي شوند.آنهايي كه به صورت عرضي برنامه نويسي مي‌شوند نه تنها سايتهاي اصلي را مي يابند بلكه صفحات فرعي آن صفحات و صفحات فرعي اين صفحات فرعي را مي يابند و اين روند ادامه مي‌يابد.

خزنده هايي كه به صورت عرضي برنامه‌نويسي شده‌اند، صفحات اصلي تر را مي‌يابند و الزاماً تمام صفحات فرعي آنها را پيدا نمي‌كنند. هر چه موتورهاي حست و جو رشد كردند و بازار رقابت را به وجود آوردند، جست و جوي همزمان عرضي و عمقي مورد توجه قرار گرفتند.

بانك اطلاعاتي موتور جست و جو
كل اطلاعاتي كه راجع به تمام صفحات وب به دست مي‌آيد، بانك اطلاعاتي موتور جست و جو را تشكيل مي‌دهد. اين اطلاعات شامل صفحاتي است كه توسط خزنده شناخته شدند، اما صفحات پيدا شده توسط منابع يا تكنيكهاي ديگر را نيز دربر مي‌گيرد. تعداد زيادي از سايتهايي كه در بانك اطلاعاتي موتور جست و جو ذخيره مي‌شود، توسط ناشرين صفحات وب به آن تحويل داده مي‌شوند. اگر صفحه اول هر موتور جستجويي را نگاه كنيد، احتمالا پيوندي را مي‌بينيد كه به شما اجازه مي دهد تا صفحه‌اي را به اين موتورهاي جست و جو تحويل دهيد. اگر اين صفحات سپام نباشند در بانك اطلاعاتي ذخيره مي‌شوند. سپام ها مزاحمتهاي پستي‌اند كه توجه موتورهاي جست و جو را به خود جلب مي‌كنند. تمام يا اغلب توليدكنندگان موتورهاي جست و جو، صفحات تحويل شده را كنترل مي‌كنند تا سپام نباشند.

منابع ديگر نيز ممكن است در بانك اطلاعاتي موتور جست و جو قرار گيرند. به عنوان مثال بانك اطلاعاتي ممكن است حاوي عناوين صفحه و يا موضوعي از يك دايركتوري مثل Open Directory يا Yahoo! باشد.
وقتي از موتور جست و جو استفاده مي‌كنيم، مستقيما با جست و جوي وب سروكار نداريم، بلكه با بانك اطلاعاتي سروكار داريم كه ركوردهاي آن، بخشي از صفحات موجود در وب را توصيف مي‌كنند. با توجه به اين حقيقت، نبايد انتظارات غيرمنتظره‌اي از موتورهاي جست و جو داشته باشيم.

برنامه شاخص بندي و شاخص
باتوجه به صفحاتي كه در اثر يك تقاضا بازيابي مي‌شوند، شاخص‌بندي مي‌تواند حياتي تر از فرانيد خزنده باشد. برنامه شاخص بندي، اطلاعات موجود در بانك اطلاعاتي را بررسي كرده ورودي‌هاي مناسبي را درشاخص قرار مي‌دهد. وقتي تقاضايي انجام مي‌شود، اين شاخص براي شناسايي ركوردهاي موردنظر به كار گرفته مي‌شود.

اغلب موتورهاي جست و جو ادعا مي‌كنند كه تمام واژه‌هاي هر صفحه را شاخص بندي مي كنند. مسئله اين است كه موتورهاي جست‌وجو چه چيزي را به عنوان واژه مي‌شناسند. بعضي از انها داراي واژه‌هاي توقف هستند(واژ۹‌هاي كوچك و متداولي كه اهميت چنداني ندارند) و شاخص بندي نمي‌شوند. بعضي از آنها از حروف تعريف و ربط صرف نظر مي‌كنند. بعضي ديگر از واژه‌هاي پراستفاده ولي بالقوه ارزشمند، مثل وب و اينترنت صرف نظر مي‌نمايند. گاهي از اعداد صرف نظر مي‌شود، زيرا جست‌وجوي واژه‌اي مثل Troop 13 دشوار است. اما در طول چند سال گذشته، موتورهاي جست‌وجو واژه‌هاي كمتري را به عنوان واژه‌هاي توقف در نظر گرفتند و جست‌وجوي Troop13 در بسياري از موتورهاي جست‌وجو صورت مي‌گيرد.

تمام موتورهاي اصلي، فيلدهاي ارزشمندي مثل عناوين و URL را شاخص بندي مي‌كنند. اغلب شبه دستورات HTML نيز شاخص‌بندي مي‌شوند. شبه دستورات شامل واژه‌ها، عبارات يا جملاتي كه در بخش خاصي ا زكد زبان HTML قرار مي گيرند تا محتويات صفحه را توصيف كنند. شبه دستورات هنگام مشاهده صفحه ديده نمي شوند، گرچه مي توانيد به مرورگر بگوييد كه مد منبع را نمايش دهد. كد منبع، كد سازنده صفحه است. براي كساني كه با HTML آشنايي ندارند، مشاهده كد منبع ارزش چنداني ندارد.
محتويات شبه دستورات براي بازيابي اطلاعات مناسب‌اند. اما بعضي از موتورها بعضي از شبه دستورات را شاخص بندي نمي كنند، زيرا شبه دستورات بخشي از صفحه‌اند كه تحت تأثير سپام‌ها قرار مي‌گيرند. از اين رو حجم زيادي از اطلاعات شاخص‌بندي ارزشمند، ناديده گرفته مي‌شود.

آنهايي كه با HTML اشنايي دارند، مي‌دانند كه فريم‌ةا در ميليونها سايت استفاده مي‌شوند.
فريم‌ها دستگاههايي از HTML هستند كه بخشهاي مختلف صفحه را به عنوان پنجره‌هايي درنظر مي‌گيرند. بعضي از مووتورهاي جست و جو فريم‌ةار ا شاخص بندي نمي‌كنند و در نتيجه بسياري از سايتها از دست مي‌روند. اين ضعف به اين صورت برطرف مي‌شود كه توسعه دهندگان هوشمند صفحات وب، نسخه‌هايي از وب سايت بدون فريم را ايجاد مي‌كنند كه معادل سايت با فريم است. علاوه بر اين با تكامل ساخت صفحات وب از فريم‌ها به ندرت استفاده مي‌شود.
بعضي از موتورهاي جست و جو، واژه‌هاي موجود در پيوندهاي آبرمتن (مثل Click Here) اسامي اپلت هاي جاوا، پيوندهاي موجود در نقشه‌هاي تصوير يو غيره را با شاخص‌بندي نمي‌كنند. باتوچه به اين مطالب مشخص مي‌شود كه چرا بعضي از صفحات در تعدادي از جست‌و جوها بازيابي نمي‌شوند.

موتور بازيابي
موتور بازيابي برنامه‌اي است كه تقاضاي شما را دريافت مي‌كند و سپس شاخص را جست و جو مي‌كند تا ركوردهاي مطابق با تقاضاي شما را شناسايي كند و تحويل دهد. در واقع، در اين فرآيند دو مسئله اتفاق مي‌آفتد:
۱ ـ موتور بازيابي با استفاده از الگوريتم بازيابي ركوردهاي مطابق با تقاضاي شما را شناسايي مي‌كند.
۲ ـ سپس اين موتور ركوردهاي بازيابي شده را به ترتيب خاصي تنظيم مي‌كند و به كاربر تحويل مي‌إهد. اين دو عمليات ممكن است به طور همزمان يا به طور مجزا انجام شوند.
الگوريتم‌هاي بازيابي را در ادامه شرح مي‌إهيم. فعلا به اين نكته اكتفا مي‌:نيم كه اين برنامه‌ها با استفاده از معيارهاي تطبيق تعيين مي‌كنند كه چه ركوردهايي حاوي واژه‌ها عبارات يا تركيبي از آنها است.

ممكن است ساير معيارهاي تعريف شده توسط كاربر را نيز تطبيق كنند، مثل آيا صفحه خاصي حاوي فايلهاي صوتي و تصويري هست يا خير.
بخشي از موتور جست و جو كه ارتباط ركوردها را مشخص مي‌كند، ممكن است با الگوريتم بازيابي تركيب شده باشد يا فرآيند جداگانه‌اي باشد. حتي اگر به صورت فرآيند جداگانه‌اي باشد. اين تفكيك ممكن است از نظر كاربو مشخص نباشد و معمولا لازم نيست مشخص باشد. در بعضي موارد ممكن است تفكيك اين دو فرآيند روشن باشد. به عنوان مثال، در جست و جوي پيشرفته در Alta Vista كاربر بايد در كادر جداگانه‌اي به نام Sort by مشخص كند مرتب سازي چگونه بايد صورت گيرد.

واسط HTML
آنچه كه كاربران هنگام اتصال با موتور جست و جو مي‌بينند، واسط HTML است. اين واسط، داده هاي تقاضا را از كاربر مي‌گيرد و آن داده ها را به موتور جست و جو مي‌فرستد تا بازيابي را انجام دهد. بديهي ترين عمل آن، تهيه ابزاري براي كاربر است تا كاربر بتواند تقاضايش را مشخص كند. اما اين واسط اعمال ديگري را نيز انجام مي‌دهد، مثل فضايي براي تبليغات كه درآمدي براي شركت موتور جست و جو محسوب مي‌شود، امكان دستيابي به ويژگيهاي مختلف دروازه، و فراهم كردن پيوندهايي به صفحات كمكي و اطلاعات ديگري راجع به خدمات.

بانك اطلاعاتي در وراي بانك اطلاعاتي
دقت كنيد كه تمام موتورهاي جست‌وجو، بانكهاي اطلاعاتي مخصوص به خود را ايجاد نمي‌كنند. بعضي از موتورهاي جست‌و جو از بانك اطلاعاتي كه توسط ديگران ايجاد شد استفاده مي‌كنند و سپس محتويات، ويژگيها و الگورتيم‌هاي مرتب‌سازي خاص خودشان را اضافه مي‌كنند. بعضي از موتورهاي جست‌و جو مثل HotBot و MSN از بانك اطلاعاتي Inktomi استفاده مي‌كنند. Inktomi (با ۵۰۰ ميليون ركورد) با عمل خزنده اطلاعات را جمع آوري كرد و آن را شاخص بندي نمودو سپس اين بانك اطلاعاتي را به HotBot و سايرين فروخت. از اين پس، اين موتورهاي جست و جو مي‌توانند بانك اطلاعاتي را دستكاري كنند. نقاط دستيابي مختلفي را ايجاد كنند(جست و جوي فيلدها) و در صورت لزوم نتايج حاصل از جست و جوي بانك اطلاعاتي Inktomi را با نتايج حاصل از ساير منابع تركيب نمايند. در نتيجه جست و جوي دو موتور جست و جو كه هر دو از Inktomi استفاده مي‌كنند. ممكن است نتايج مختلفي را توليد نمايد.

موتور جست و جوي Fast Search بانك اطلاعاتي خودش را در اختيار ديگران قرار مي دهد و از طريق سايت خودش نيز مستقيما ميتوان به بانك اطلاعاتي آن دست يافت (برخلاف Inktomi) Lycos اولين موتور جست و جويي بود كه از بانك اطلاعاتي Fast Search استفاده كرد.

ويژگيهاي دروازه
منظور از ويژگي دروازه، ابزارها و اقلام اطلاعاتي‌اند كه در واسط خدمات ظاهر مي‌شوند و الزاما بخشي از عمليات جست و جوي وب نيستند. دايركتوريهاي وب، اخبار، دايركتوريهاي شركت، اطلاعات سهام، نقشه‌ها، هواشناسي و غيره. براي اهدافي كه فعلا داريم، عمل جست و جو را به عنوان فرآيندي تعريف مي‌كنيم كه كاربر معيار خاصي را وارد مي‌كند و بانك اطلاعاتي جست و جو مي‌شود تا صفحاتي از وب شناسايي شوند كه با آن معيار جور درآيند.
وقتي مفهوم دروازه ابتدا توسط خدمات جست و جو توسعه يافتند، اغلب ويژگيهاي غيرجست‌وجو به عنوان امكاناتي اضافي بودند. اينها با عمليات جست و جو تركيب نشدند و فوايد ناشي از آنها را مي‌توان به شكل بهتري از جاي ديگر به دست آورد.

احتمال اولين مثال از جامعيت (تركيب) جست و چوي بانك اطلاعاتي وب با يكي از اين ابزارها، سايت ياهو است. در ياهو، عمل جست و جو و عمليات دايركتوري با هم تركيب شدند. ياهو معمولا به صورت يك دايركتوري نگريسته مي‌شود(يك مجموعه قابل مرور، دسته بندي شده و انتخابي) نه يك موتور جست و جوي عمومي وب. اما چون اين دو عمليات باهم تركيب شده‌اند، در هر دو رده مي‌گنجد.

ياهو عمل مرور كردن را به خوبي جامعيت مي‌بخشد، زيرا هنگام جست و جو در ياهو عناوين دسته‌بندي ياهو جست و جو مي‌شوند و هنگام مرور در هرسطحي در الگوي دسته بندي جست و جوگر مي‌تواند دسته يا گروه موردنظر خودش را انتخاب نمايد. ياهو نه تنها در بانك اطلاعاتي خودش، بلكه در بانك اطلاعاتي ساير موتورهاي جست و جو نيز جست و جو مي‌كند(اوايل از بانك اطلاعاتي AltaVista استفاده مي‌كرد و فعلا از بانك اطلاعاتي Google استفاده مي‌نمايد). باتوجه به اين كه خدمات جست و جوي وب به صورت دروازه درآمدند، اغلب خدمات به اين نوع جامعيت ابزار روي آوردند. همان طور كه خواهيم ديد اين جامعيت نه تنها به جامعيت جست و جو و منابع دايركتوري وب مربوط مي‌شود به جامعيت ابزارهاي ديگر نيز مربوط خواهد شد.

نكته مهم در بررسي فوايد دروازه اين است كه كاربرد توانايي دارد تا صفحه اول سايت را شخصي‌سازي نمايد. اغلب خدمات جست‌وجوي وب كه ويژگيهاي دروازه‌اي را تدارك مي‌بنند، به جست و جوي وب نيز صادق است. سايتهاي جديدي مثل MSNBC و CNN اطلاعاتي بيش از اخبار خودشان را ارائه مي‌كنند. و اجازه مي دهند كه سايتهاي آنها شخصي سازي شوند.
اگر تاكنون صفحه اول هيچ سايتي را سفارشي نكرده باشيد، حتما اين كار را انجام دهيد. با انجام اين كار وقتي به آن سايت مي‌رويد تمام عناوين موردنظرتان را خواهيد ديد.
از اينكه با جنبه دروازه‌آي اين خدمات به عنوان مكمل عمليات جست ؤ جو نگريسته مي‌شود به معناي اين نيست كه جنبه دروازه‌اي اهميت كمتري دارد به اين علت با دروازه به اين صورت رفتار مي‌شود كه هدف اين كتاب بررسي جست و جو در وب است و آنچه كه در مورد دروازه گفته مي‌شود، به جست و جو مربوط مي‌گردد و برعكس، درواقع، هر جست و جوگربايد با مفهوم دروازه و امكان آن آشنا باشد. فقط به خاطر جست و جو به وب نمي‌رويم. براي بسياري از افراد، انتخاب، سفارشي كردن، و استفاده از دروازه در وب، بيشتر از استفاده از تلفن اتفاق مي‌افتد.

اجزاي صفحه اول موتور جست و جو
بسته به اين كه خدمات جست و جوي وب، مبتني بر دروازه يا مبتني بر جست و جو مي‌باشد، نماي صفحه اول آنها بسيار متفاوت است. خوب است كه جست و جوگران يك تصوير ذهني از خدمات مختلف داشته باشند اما تا زماني كه افراد با چند موتور جست و جو آشنا نشوند، عدم سازگاري بين آنها منجر به تضادهايي مي‌شود. به همين دليل خوب است كه نگاهي به صفحه اول خدمات موتور جست و جو داشته باشيم تا محتويات و ويژگيهايي را كه اين خدمات دارند، شناسايي كنيم. وقتي شباهتها پيدا شدندبه راحتي مي توان تشخيص داد كه چه كارهايي با آن موتور جست و جو مي‌توان انجام داد. عناصر موجود در صفحه اول Alta Vista بسيار زياد است و در شكل ۱-۱ آمده است.

گزينه‌هاي بانك اطلاعاتي
بعضي از موتورهاي جست و جو مشخص مي‌كنند كه چه مجموعه‌اي از منابع بايد جست و جو شود. اين گزينه ها ممكن است شامل جست و جوي بانك اطلاعاتي اصلي موتور جست‌وجو يا جست‌و جوي مجموعه‌هاي ديگري از بانك اطلاعاتي مثل تصاوير، صوت و فيلم، مقالات خصوصي و گروههاي بحث باشد.
مهمترين گزينه و گزينه پيش فرض، واژه the web است كه تمام صفحاتي از وب را دربرمي‌گيرد كه در بانك اطلاعاتي آن خدمات جست و جو وجود دارد. معمولا براي گزينه‌هاي جست و جو از كادر متني يا دكمه‌هاي راديويي استفاده مي‌شود.

اغلب، در جاهايي از صفحه، پيوندهايي براي جست و جو در ساير بانكهاي اطلاعاتي وجود دارد (مثل بانكهاي اطلاعاتي مربوط به اطلاعات سهام)، اما موتور جست و جويي كه براي اين پيوندها به كار مي‌رود متفاوت است و معمولا شركت ديگري آن را تهيه كرده است. به عنوان مثال Excite چنين پيوندري را براي مظنه سهام و هواشناسي تدارك مي‌بيند كه هر كدام از آنها صفحات واسط پيچيده‌اي دارند.

كادر تقاضا
اين كادرها قلب موتور جست و جو هستند زيرا تقاضاها در اين وارد مي‌شوند. آنچه كه مي‌توان در اين كادر وارد كرد (عبارت منطق بولي و غيره) بسته به نوع موتور جست‌وجو دارد.

گزينه‌هاي اصلاح كننده تقاضا
تقريبا نيمي از موتورهاي جست‌و جو گزينه‌هايي را در صفحه اول فراهم مي‌كنند تا بتوان تقاضا را اصلاح كرد. اين گزينه‌ها اغلب به صورت پنجره بازشونده، دكمه‌هاي راديويي، يا كادرهاي كنترلي نمايش داده مي‌شوند. اينها گزينه‌هايي را فراهم مي‌كنند تا بتوان جست‌و جو را برحسب زبان، تاريخ، محتويات خاص، به كارگيري عملگرهاي منطقي و غيره به نحو بهتري انجام داد.

پيوند به نسخه‌هاي پيشرفته‌تر
براي تمام موتورهايي كه گزينه نسخه پيشرفته را تدارك مي‌بينند، پيوندهايي در صفحه اول وجود دارد كه به نسخه پيشرفته‌تري هدايت مي‌شوند. اغلب، خود پيوند بسيار كوچك است، به طوري كه گويي نمي‌توانيد آن را ببينيد. به ياد داشته باشيد كه اگر نسخه پيشرفته را ترجيح مي‌دهيد مي‌توانيد آن را به جاي صفحه اول موتور جست وجو علامت گذاري كنيد.

آگهي تبليغاتي
اگهي تبليغاتي در موتورهاي جست و جو تقريبا اجتناب‌ناپذير است. براي اغلب شركتهايي كه موتورهاي جست‌وجو را تهيه مي‌كنند، آگهي تبليغاتي و فروش نرم‌افزار، عمده‌ترين موضوعات سودآور هستند. دقت داشته باشيد كه آگهي ها معمولا در رابطه با جست‌وجويي كه انجام مي دهيد بخش مي‌شوند. به عنوان مثال، اگر جست‌وجويي را انجام دهيد كه حاوي واژه furniture باشد، آگهي تبليغاتي مربوط به اثاثيه (معناي واژهfurniture) ظاهر مي‌شود. كسي كه اين آگهي را داده است، اين طور خواسته است كه در مواقع مناسبي پخش گردد. اگر اين موضوع را از ديدگاه مثبت نگاه كنيد، اين آگهي مي‌تواند براي مشتري و آگهي دهنده سود داشته باشد.

دايركتوري (موضوعات كانالها و دسته‌بندي)
براي موتورهاي بزرگ، معمولا ليستهاي وسيعي از منابع اطلاعات وب به يكي از فرمتهاي زير ظاهر مي‌شود:
دايركتوري يا ليست دسته بندي شده‌اي از سايت‌ها. به ياد داشته باشيد كه در هر موتور، اين سايتهاي انتخاب شده فقط بخش كوچكي از سايتهاي موجود در بانك اطلاعاتي موتور جست‌وجو را تشكيل مي دهند، بعضي از موتورهاي جست‌و جو، دايركتوري هايي را ايجاد و نگهداري مي‌كنند، در حالي كه بعضي ديگر از موتورها از يك دايركتوري‌ استفاده مي كنند كه در اختيار چندين موتور جست‌و جو قرار دارند. فعلا Open Directory (كه شكل عادي آن در سايت www.domz.org قرار دارد) و (LookSmart.com) LookSmart دايركتوري‌هايي هستند كه چندين موتور جست‌و جو از آنها استفاده مي‌كنند.

چون Open Directory بيشتر به امور پژوهشي مربوط است، خوب است كه در اينجا توضيحي راجع به آن مطرح شود. Open Directory بزرگترين دايركتوري‌هاي وب است كه بيش از ۲ ميليون ركورد دارد. برخلاف ياهو، كه صدها ويراستار دساتخدام دارد و به آنها مبالغي را پرداخت مي‌كند، Open Directory در حدود ۳۰۰۰۰۰ ويراستار داوطلب دارد. از يك طرف، اين موضوع مي‌تواند به معناي كيفيت متغيري در انتخاب سايت‌ها باشد، ولي از طرف ديگر به معناي اين است كه بسياري از ويراستارها در زمينه تخصصي خود نسبت به ويراستارهاي ياهو باتحربه‌تراند. به طوري كلي به نظر مي‌رسد كيفيت محتويات خوب است و يك صفحه خوب با احتمال و سرعت بيشتري وارد Open Directory مي‌شود تا ياهو. Open Directory داراي ۱۵ دسته سطح بالا است و اغلب طبقه يا طبقه‌هاي فرعي داراي چهار يا پنج سطح پايين تر هستند. حاوي ارجاعات متقابل و توصيف‌هايي براي دسته‌ها است و جست و جو در هر سطح همانند سطح بالا انجام مي‌گيرد.

هر موتور جست‌وجو، Open Directory را تقريبا متفاوت از ديگري پياده‌سازي مي‌كند.
ـ كانالها يا صفحات اختصاصي در مورد موضوعاتي مثل تجارت، سرگرمي يا ورزش، هر يك از اين صفحات، ممكن است حاوي ليست دايركتوري در مورد ان موضوع سايتهاي قابل جست‌وجو و غيره باشد. به عنوان مثال در Excite در زير طبقه Bussiness پيوندي به بخش Bussiness دايركتوري مربوط به Excite حست‌وجوي مظنه سهام، دايركتوري هاي شركت، مجموعه‌اي از ابزارهاي تجارت Online و بسياري از پيوندهاي تجاري مرتبط دارد.

ارتقاي سايت
جايي است كه توليدكننده موتور جست‌وجو ويژگيهاي بارز خود را نشان مي‌دهد. معمولا ويژگيها يا محتويات بارز در ان برجسته مي‌شوند. موتورهاي جست‌و جو معمولا خدماتي را در اين جا مطرح مي‌كنند كه ممكن است در سايتهاي ديگر نباشد.

ساير ويژگيهاي دروازه
اين طبقه شامل ويژگيهاي مختلف و متعددي است كه در جدول ۱-۱ آمده‌اند.

پيوندهاي Help
اين پيوند شما را به صفحات بيشتري هدايت مي‌كند كه چگونگي عملكرد موتور جست و جو را براي شما تشريح مي‌كند. گرچه اغلب چيزهايي كه در صفحه كمكي مي‌خوانيد درست هستند، ولي بعضي از موتورهاي جست‌وجو چيزهايي را مطرح مي‌كنند كه به انها عمل نمي‌كنند. در بعضي از موارد اين خدمات ويژگيهايي را ارائه مي‌كنند كه در صفحات كمكي آنها گنجانده نشده است. بعضي از خدمات ممكن است در طول عمر خود تغيير كنند ولي اين تغييرات به صفحات كمكي آنها اعمال نشود. به طور كلي، صفحات كمكي خوب هستند و كيفيت آنها رو به افزايش است.

چه انتظاري از اين خدمات داريد
براي كساني كه جست‌وجوهاي زيادي را با خدمات Online مثل DIALOG و LEXIS – NEXIS انجام دادند، انتظارات مربوط به موتورهاي جست‌وجوي وب بايد تعديل شود. تنوع ويژگيها، پيچيدگيها و قابليت اعتماد ويژگيها و در بعضي از موارد قابليت اعتماد نتايج حاصل از موتورهاي جست‌وجو، برابر با آن خدمات تجاري نيست. ماهيت عمومي بودن موتورهاي جست‌و جو، به خصوص تمايل به جذب ميليونها كاربر موجب شده است تا سطح پشتيباني آنها از مشتريان، كمتر از خدمات قديمي‌تر باشد.
اما چون خدمات جست‌و جوي وب رايگان هستند، مي‌توان اين عيبها و نقص‌ها را نيز تحمل كرد. به طوري كه حق اشتراك گرفته نمي‌شود و بابت جست‌وجو نيز پولي دريافت نمي‌گردد.
فاصله بين انتظارات بازيابي قديمي و انتظارات جست‌و جوي وب وقتي كمتر مي‌شود كه عوامل ديگر نيز درنظر گرفته شوند. تشخيص اين عوامل براي جست‌وجوگرهايي مناسب است كه بخواهند از هر دو نوع خدمات استفاده كنند.

عامل اول اين است كه موتورهاي جست‌و جو با داده‌هاي بدون ساختار سروكار دارند، يا با داده‌هايي سروكار دارند كه ساختار آنها سازگاري ندارد. در واقع، ساختاري معين براي HTML وجود دارد. بدنه صفحات ساختار، سازگاري چنداني ندارد كه خدمات جست‌وجوي وب بتواند براي جست‌وجوي ساخت يافته استفاده كند. وقتي سازندگان صفحات وب از گزينه هايي مثل XML استفاده كنند، اين وضعيت تغيير مي‌كند. XML انواع مختلف داده‌هاي موجوددر صفحه را به خوبي شناسايي مي‌كند. بعضي از موتورهاي جست‌و جو سعي مي‌كنند كه از اين امتياز استفاده كنند و فعلا منتظر سايت‌ها هستند تا اين نوع ساختارها در انها به وجود آيد.

عامل دوم اين است كه باتوجه به حجم داده‌هاي موجود در وب، به اضافه داده‌هايي كه روزانه اضافه مي‌شوند، كاري كه موتورهاي جست‌و جو در يك دوره زماني كوتاه انجام مي‌دهند، جالب است، توجه به اين حقيقت كه حداقل يك سطح دستيابي اوليه به صدها ميليون صفحه وجود دارد، جاي اميدواري است و مي‌توان عيب‌ها راناديده گرفت.
در جولاي ۱۹۹۹، در مقاله قابليت دستيابي اطلاعات در وب استيولورنس و سي. ال.گيلز مطالعاتي در مورد حوزه دستيابي موتورهاي جست و جو انجام دادند. در اين مقاله، پژوهشگران براورد كردند كه وب در آن زمان حاوي ۸۰۰ ميليون صفحه از اطلاعات بود و هر موتور جست‌وجوي قوي كمتر از يك چهارن اين محتويات را تحت پوشش قرار داد. آنها برآورد كردند كه از بين ۸۰۰ ميليون صفحه موتور جست و جوي Northern فقط ۱۶ درصد، SNAP و AltaVista فقط ۵/۵ درصد و HotBot فقط ۱۱ درصد و بقيه كمترا ز ۱۰ درصد را شامل مي‌شوند.

يادآوري مي‌شود كه ارقام مطرح شده توسط تمام بينندگان وب قابل قبول نيست. بعضي از توليدكنندگان موتور جست و جو احساس مي‌كنند كه اين ارقام تحت تأثير اين حقيقت قرار گرفتند كه بسياري از صفحاتي كه در اين مطالعه شناسايي شده‌اند، تكراري اند ولي URL يكساني دارند. يعني چندين URL به يك صفحه اشاره مي‌كردند، مثل www.onstract.comو onstrat.com. با اين كه صفحات مشابهي در كارگزاران مختلف بودند. علاوه بر اين بسياري از آنها نيز سپام(مزاحمتهاي پست‌اند) اگر اين مشاهدات درس باشد موتورهاي جست‌وجو صفحاتي بيش از آنچه را كه در مطالعات لورنس وگيلز مطرح شد، دربر مي‌گيرند.
هر كدام از نظرات درست باشد براي افزودن ديدگاهي به اين اعداد، دقت داشته باش

يد كه حتي اگر يك چهارم صفحات نيز تحت پوشش قرار گيرند، مناسب است. توجه كنيد كه بسياري از خدمات جست‌و جوي قديمي تمايل ندارند تمام صفحات منتشر شده را نگهداري كنند. خدمات مشهوري مثل Psychological Abstract, Chemical Abstract و يا ساير خدمات حتي سعي نمي‌كنند تمام چيزهايي را كه به ترتيب در مورد شيمي يا روان‌شناختي منتشر شده‌اند، دربرگيرند. به اين نكته توجه داشته باشيد كه اگر مي‌خواهيد به تمام اطلاعات مربوط به يك موضوع دسترسي داشته باشيد، بايد چندين موتور جست‌وجو را بررسي كنيد.

حتي اگر چندين موتور جست‌و جو نيز جست‌و جو شوند، بازهم بخشي از وب را مشاهده نخواهيد كرد. اين بخش را اصطلاحا وب غيرقابل مشاهده مي‌نامند. اين صفحات در سايتهايي قرار دارند كه ورود به آنها مستلزم داشتن كلمه عبور است يا صفحاتي‌اند كه بخشي از بانكهاي اطلاعاتي هستند كه براي جستجو نياز به ورودي‌هايي از طرف كاربر دارند. براي دستيابي به اين بانكهاي اطلاعاتي، بايد ثبت نام كرده كلمه عبوري را وارد كنيد و يا بايد تقاضايي را در صفحه‌اي از ان سايت وارد كنيد. براي دستيابي به صفحات موجود در اين سايتها بايد مستقيما به آن سايت برويد، نه اين كه سعي كنيد انها را با استفاده از موتور جست‌وجوي وب جست‌وجو كنيد. براي مشاهده مجموعه‌اي از اين نوع سايت‌ها به آدرس زير مراجعه كنيد:
gwis2.circ.gwv.edul~gpriceldirect.htm

براي مجموعه‌اي از انتظارات منطقي در مورد قابليت جست‌وجو، بايد يك جنبه اضافي را درنظر داشت. به طور كلي، اغلب موتورهاي جست‌وجو براي جست‌وجوگرهاي جدي طراحي نشدند. بسياري از آنها براي كاربران موردي طراحي شدند، نه براي كساني كه در محيطهاي تجاري و پژوهشي كار مي‌كنند. با مراجعه به مستندات جست‌وجو و مشاهده مثالهايي كه در آن ارائه مي‌شود، مي‌توانيم به استفاده كنندگان آن پي ببريم. باتوجه به اين حقيقت، اگر از آنچه كه توسط موتور جست‌وجو ارائه مي‌شود استفاده صحيحي به عمل آيد، نتايج معقولي به دست خواهند آمد. اگر كاربران جدي از ويژگي‌هاي پيشرفته‌تر استفاده كنند، ممكن است روش‌هاي پيشرفته‌تري ارائه شوند. گرچه ممكن است بسياري از سايت‌ها بتوانند به كاربران موردي پاسخ دهند، ولي معمولا همه سعي مي‌كنند از موتورهاي جست‌وجوي قوي‌تر استفاده كنند. اين موضوع در مورد Northern light رخ داده است. به همين ترتيب، اغلب موتورهاي جست‌وجو سعي مي‌كنند تمام امكانات جست‌وجو را فراهم كنند.

موارد ديگري كه نبايد انتظار داشت:
ـ سازگاري از يك موتور جست‌وجو به موتور جست‌وجوي ديگر. اين موضوع را مي‌توان يك نكته مثبت تلقي كرد، نه منفي، زيرا هنوز بهترين روش جست‌وجو در وب مشخص نشده است و بايد در اين راه تلاش كرد.
ـ ابزارهاي قديمي كه با فروشندگان Online مورد استفاده قرار مي‌گيرند (مثل واژه‌نامه كنترل شده، دامنه كاملي از اتصال دهنده‌هاي بولي و الحاقي، فرمتهاي خروجي و غيره).
ـ جست‌وجوي كتاب‌شناسي جامع ـ تا مشخص شود چه ژورنال‌ها، كتابها، گزارش‌هاي تكنيكي، پايان نامه ها و غيره چاپ شده‌اند كه موتورهاي جست‌وجو هنوز نتايج قطعي را اعلان نمي‌كنند به خصوص براي جست‌و جوهاي بعدي. براي بسياري از موضوعات، بهترين شرط براي جست‌وجوي كتاب‌شناسي اين است كه از يكي از خدمات اقتصادي استفاده شود يا يك بانك اطلاعاتي مثل ERIC پيدا شود كه خواسته‌ةاي موردنظرتان را داشته باشد.

ـ بدانيد كه در اثناي جست‌وجو چه اتفاقاتي رخ مي‌دهد. پژوهش‌گران مجرب Online اغلب دوست دارند تمام چيزهايي را كه در پشت صحنه رخ مي‌دهد، بدانند. لذا مي‌توانند تشخيص دهند كه آيا واقعا به اهداف خود دست مي‌يابند يا خير.
آنچه كه واقعا در پشت صحنه جست‌وجو رخ مي‌دهد به دلايل رقابتي مخفي است و فقط در اختيار توليدكننده خدمات جست و جو است. اين موضوع به همراه ناسازگاري‌هاي موجود و بديهي، به معناي اين است كه نمي‌توان به دانش كافي در مورد پشت صحنه جست‌وجو دست يافت. در واقع، پشت صحنه، مخفي است.