آزمونهـاي روانـي

مقدمـه :
يكي از هدفهاي عمدة هر علم ، اندازه گيري پديده هاي مورد نظر و دادن جنبة كمي به آنهاست. وقتي پديده اي را با اعداد و ارقام نشان مي دهيم براحتي مي توانيم آن را طبقه بندي و قوانين دربارة آنها وضع كنيم.

هر علم روان شناسي، مجموعه شيوه هايي كه به ما كمك مي كند تا ويژگيهاي رواني اسنان را از حالت كيفي به حالت كمي درآوريم.
اصطلاحاً «روش روان سنجي» ناميده مي شود. روان سنجي، در معناي وسيع كلمه، يعني استفاده از روش آزمايش. اما در معناي محدود كلمه يعني بهره گيري از آزمونهاي رواني براي اندازه گيري توانائيهاي ذهني.

تعريف آزمون رواني :
اگر استعداد را امكان انجام دادن يك عمل يا آشكار ساختن يك رفتار در نظر بگيريم. آزمون رواني به فن يا شيوه اي كه به طور علمي تهيه مي شود و امكان ارزشيابي عين استعدادهاي فردي را فراهم مي آورد تعريف مي كنيم.
استعمال روزافزون آزمون ها و ظهور انواع مختلف آزمايشهاي رواني باعث شده تا تعريف آزمونها از دقت و صراحت بيشتري نسبت به گذشته برخوردار شوند.
تعاريف مختلف آزمون عبارتند از:

پروفسور آندره زي (۱۹۷۰ـ پاريس) آزمون رواني را چنين تعريف مي كند: وسيله تمايز بين افراد براساس يك درجه بندي.
تعريف آناستازي (۱۹۷۰ـ لندن) از آزمون: اندازة استاندارد و عيني از چگونگي يك رفتار.
تعريف پيرپيشو (روان شناس معاصر فرانسوي) از آزمون: يك موقعيت استاندارد شده كه به عنوان انگيزه براي يك رفتاربه كار مي رود. اين رفتار، كمي يا كيفي، با ميانگين افراد ديگري كه در همان موقعيت قرار گرفته اند مقايسه مي شود. اين مقايسه اجازه مي دهد تا رفتار فرد به صورت كمي نمره گذاري شود يا از نظر تيپ شناسي طبق بندي گردد. به عبارت ديگر، رفتار فرد به صورت عددي يا توصيفي ارزشيابي شود.

تعريف پيرپيشو از آزمون، چهار مورد را ايجاب مي كند:
الف) موقعيت تجربي (محيط اجراي آزمون، مواد آزمون، نگرش آزماينده و …) بايد به طور كامل تعريف شود و همة موارد بطور يكسان تكرار گردد.
ب) ثبت رفتاري كه آزمودني در مقابل آزمون نشان مي دهد بايد صريح و عيني باشد. بر حسب موارد آزمون، بسيار متنوع خواهد بود.
ج) رفتار ثبت شده بايد، نسبت به رفتار گروهي از آزمودنيها مقايسه و ارزشيابي اماري قرار گيرد. اين مقايسه الزامي است و آزمايش كه مقايسه آماري نداشته باشد آزمون رواني به حساب نمي آيد.

د) طبق بندي آزمودني نسبت به گروه مرجع هدف نهايي يك آزمون مي باشد.
تعريف انجمن بين المللي پيسكوتكنيك۱ از آزمون كه نسبت به تعاريف فوق كاملتر است. عبارت است از: يك آزمايش معين كه انجام فعاليتي را ايجاب مي كند، براي همة آزمودنيها يكسان است.
شيوة مشخص براي برآورد موفقيت يا شكست يا درجه بندي عددي موفقيت دارد. فعاليت
آزمودن ممكن است شامل معلومات اكتسابي (ازمونهاي معلومات)، كنشهاي حس ـ حركتي يا
رواني (آزمونهاي روان شناختي) باشد.
انواع آزمونهاي رواني :

شروع واقعي آزمونهاي رواني از سال ۱۸۹۶، با مقاله اي كه توسط آلفرد بينه و ويليام هانري در مجلة روان شناس منتشر كردند آغاز شد و در آن مقاله اكثر آزمونهاي موجود را كه به نظر آنها فقط اعمال بسيار ساده و پائين ذهن را اندازه مي گرفتند مورد انتقاد قرار دادند. آنها ، براي اندازه گيري استعدادهاي واقعي ذهن، آزمونهايي را پيشنهاد كردند كه به رفتار زندگي واقعي نزديكتر بود. آزمون يك روش نظامه اي براي سنجش نمونه اي از رفتار و يك وسيلة اندازه گيري در روان شناس و تعليم و تربيت است. اندازه گيريهاي رواني و تربيتي، علاوه بر آزمون كه معروفترين وسيلة اندازه گيري است، با روشهاي ديگري مثل مشاهده و مصاحبه و پرسشنامه و فهرست خصوصيات و مطالعات باليني و … نيز انجام مي گيرد. با توجه به تعداد

بسيار زياد آزمونها و كثرت و پيچيدگي جنبه هاي مختلف رفتار آدمي، طبقه بندي انواع آزمونهاي رواني و تربيتي بسيار مشكل است و نمي توان رضايت همگان را جلب كرد. طبقه بندي هايي كه از آزمونها به عمل مي آيد، ديدگاههاي مختلفي را منعكس مي كند. البته هر نوع طبقه بندي اي كه به عمل آيد مطلق نخواهد بود بلكه تا اندازه اي نظر شخصي مؤلف را منعكس خواهد كرد. طبقه بندي آزمونها به خاطر تسهيل در كار انجام مي گيرد.
مي توان آزمونها را از ديدگاههاي مختلف طبقه بندي كرد:

۱ـ طبقه بندي از نظر عملكرد .
۲ـ طبقه بندي از نظر ماهيت محتوا .
۳ـ طبقه بندي از نظر شيوة كاربرد .
۴ـ طبقه بندي از نظر هدف عملي .
۵ـ طبقه بندي از نظر فن تهيه .
كه ما در مورد هي يك توضيحي مختصر مي دهيم.
۱ـ طبقه بندي از نظر عملكرد :

اين نوع از طبقه بندي جنبة بنيادي دارد و تقريباً در همة كتابهاي پيسكوتكنيك مورد قبول واقع شده است. مثلاً مي گويند كه فلان آزمون، هوش، استعداد، شخصيت، رغبت و … فرد را اندازه مي گيرد. با توجه به نظر فوق آزمونها، مي توان دو گروه آزمون تشخيص داد كه تا اندازه اي مستقل از يكديگرند:
الف) آزمونهاي كارآيي (بازده) .
ب) آزمونها شخصيت (كيفي) .

الف) آزمونهاي كارآيي يا بازده : اين آزمونها ايجاب مي كنند تا آزمودني بازدهي را از خود نشان دهد و يك واقعيت عيني را تحقق بخشد. اين آزمونها زمينة غيرقابل اعتراض روان سنجي را تشكيل مي دهند و نيز رضايتبخش ترين طبقه بندي كه براساس درجه كمي متغير مورد آزمايش انجام مي گيرد، مي باشد. در ميان آزمونهاي كارآيي، مي توان آزمونهاي هوش كلي و آزمونهاي استعداد را تشخيص داد.

آزمونهاي هوش كلي نيز به نوبة خود به دو گروه تقسيم مي شوند :
الف) آزمونهاي سني (رشد) .
ب) آزمونهاي هوش كمي (مطلق) .

الف) گروه اول آزمونهاي سني : هوش را به عنوان كنش در نظر مي گيرد كه به موازات پختگي متحول مي شود. گروه دوم آزمونهاي هوش كمي، سعي مي كند تا استعداد ذهني را مستقل از عامل رشد اندازه بگيرد و مخصوصاً اندازه گيري هوش بزرگسال را مورد توجه قرار مي دهد. واقعيت اين است كه بسيار از آزمونها به هر دو گروه تعلق دارند. تنها شيوة بيان نتايج فرق يم كند. بعضي از آزمونها نيز به طبقة آزمونهاي كارآيي تعلق دارند اما در كاربرد آنها جنبه هاي كيفي از اهميت بيشتري برخوردار است. مانند مقياسهاي تحليلي و آزمونهاي تفكر مفهومي.

مقياسهاي تحليل از سريهاي مختلف تشكيل مي شوند كه هر يك بطور جداگانه نمره گذاري مي شود و بعد جمع كل نمرات به دست مي آيد. بنابراين اين آزمونها نه تنها سطح روان بلكه ساخت آن را نيز مشخص مي كنند. آزمونهاي تفكر مفهومي سعي مي كنند بيشتر به روش باليني نزديكتر شوند و در اجراي آنها آزمايشگر سعي مي كند تا شيوة تشكيل مفاهيم را در نظر بگيرد نه نتايج تشكيل آنها را. با وجود اين آزمونهاي تحليلي بازده را نيز در نظر مي گيرند. به كمك آنها مي توان سطوح خاص و سطح كل را كه از مجموع سطوح خاص حاصل مي شود، به دست آورد. اين آزمونها اجازه مي دهند تا افراد از نظر بازده مطلق خود و از لحاظ ساخت ذهني خود مورد مقايسه قرار گيرند.
ب) آزمونهاي شخصيت يا كيفي : آزمونهاي شخصيت به تعيين منش، جنبه هاي كيفي و عناصر غيرشناختي (غيرقابل اندازه گيري) رفتار زمينة روان توصيفي۱ تعلق دارند. مي توان آزمونهاي شخصيت را كه امروزه تعدادشان بسيار زياد است به طور كلي به دو گروه بزرگ تقسيم كرد:

آزمونهاي تحليلي (عيني) ، آزمونهاي فرافكن (تركيبي) .
در مورد آزمونهاي شخصيت، معمولاً آزمونهاي عيني در مقابل آزمونهاي فرافكن سخن به ميان مي آورند. در واقع آزمونهاي عيني و فرافكن، نه دو مقولة كاملاً مخالف، بلكه آزمونهاي عين شخصيت معمولاً شامل يك دسته سؤالات مكتوب هستند كه پاسخ آنها به صورت صحيح يا غلط، آري يا نه، موافق يا مخالف و يا جوابهايي از اين قبيل داده مي شود. نمره گذاري اين آزمونها كاملاً عيني است. زيرا پاسخهاي آزمون شونده فاقد ابهام است. پرسشنامة شخصيتي كاليفرنيا، پرسشنامة شخصيتي چند وجهي مينه سوتا و آزمون زمينه يابي خلق و خويي گيلفرود ـ زيهرمان در شمار آزمونهاي عيني شخصيت به حساب مي آيند.

در آزمونهاي فرافكن، آزمون شونده معمولاً بايد پاسخ خود را با استفاده از اطلاعات بسيار محدود ارائه نمايد و از آنجا كه در ارزيابي پاسخها به جاي شمردن سؤالاتي كه پاسخ معيني به آنها داده شده بايد به تعبير و تفسير پاسخها پرداخت، نمره گذاري اين آزمونها جنبة ذهني تري دارد. توسعة آزمونهاي فرافكن با اين فرض همراه بوده كه وقتي شخص در مقابل يك وضعيت مبهم قرار داده شود، به ايجاد پاسخهايي مي پردازد كه برگرفته از شخصيت بي همتاي خود اوست. آزمونهاي فرافكن شخصيت، از نظر اجرا، نمره گذاري، و تعبير و تفسير نتايج نيازمند افراد حرفه اي و كاملاً آموزش ديده هستند. آزمون لكه هاي جوهر رورشاخ، آزمون اندريافت موضوع از جمله آزمونهاي فرافكن هستند.

بسيار اتفاق مي افتد كه يك آزمون كارآيي در عين حال به عنوان يك آزمون شخصيت نيز به كار مي رود. نتيجة عددي، سطح بازدهي آزمون را بيان مي كند، رفتار هر جريان آزمايش و شيوة حل مسأله، شخصيت او را منعكس مي سازد. اما در آزمون كارآيي فقط بازده فرد مورد نظر است، در حالي كه در آزمون شخصيت، حتي اگر ايجاب كند كه نتايج به صورت كمي درآيند، شيوة بودن فرد مورد توجه است.

۲ـ طبقه بندي از نظر ماهيت (محتوا ظاهري) :
مي توان دو نوع آزمون تشخيص داد: آزمونهاي كلامي و آزمونهاي غيركلامي (عملي) .
در آزمونهاي كلامي سعي مي شود توانايي آزمودني را در زبان گفتاري و نوشتاري اندازه بگيرد كه البته بيشتر درك كلام مطرح است نه طرز بيان آن. در آزمونهاي غير كلامي، توانائيهاي ملموس و واقعيتهاي عملي را به كار مي گيرند. اين تقسيم بندي به اين صورت توجيه مي شود كه دو نوع هوش يا دو نوع سازگاري وجود دارد: انتزاعي و ملموس، كلامي و عملي. به علاوه، در بعضي موارد به كار بردن آزمونهايي كه زبان گفتاري و زبان نوشتاري را اندازه بگيرند امكان پذير نيست. كودكان خردسال، نابهنجارها، كر و لالها، بيسوادها، افرادي كه زبان آزمايشگر را نمي دانند. زماني كه اندازه گيري تواتائيهاي لازم براي مشاغل فني مورد نظر است، آزمونها الزاماً بايد عملي باشند.
۳ـ طبقه بندي از نظر شيوه كاربرد :

از لحاظ شيوة كاربرد نيز دو نوع آزمون وجود دارد: آزمونهاي فردي و آزمونهاي گروهي .
تا سال ۱۹۱۷ همة آزمونهاي روان شناختي كاربرد انفرادي داشت، فقط آزمونهاي تحصيلي بودند به صورت گروهي اجرا مي شدند. آزمونهاي ارتش، نقطه شروع آزمونهاي گروهي را تشكيل مي دهد. محاسن و معايت آزمونهاي گروهي و آزمونهاي فردي :
مهمترين امتياز اجراي آزمونهاي گروهي :

۱ـ صرفه جويي در زمان: از آنجا كه آزمودنيها در يك ساعت معين تحت آزمايش قرار مي گيرند، همة دستورالعملهاي يكساين را دريافت مي كنند.
۲ـ تضمين يكنواختي موقعيت آزمايش.

۳ـ لزومي ندارد كه اجراكنندة اين آزمونها تخصص داشته باشد.
۴ـ نمره گذاري در مجموع بسيار ساده، سريع و عيني انجام مي گيرد: در بسياري از موارد سعي مي شود، پاسخها را با ماشين تصحيح كنند.
۵ـ تهيه فرمهاي موازي آزمونهاي گروهي به پيچيدگي تهيه فرمهاي موازي آزمونهاي فردي نيست.

۶ـ مقرون به صرفه بودن از نظر هزينه: زيرا فقط يك نوع مواد لازم دارند كه معمولاً به صورت /// در اختيار داوطلبان قرار مي گيرد، گاهي يك مواد و يك كاغذ كفايت مي كند.
با اين وجود آزمونهاي گروهي معايبي نيز دارند. در مورد كودكان خردسال قابل اجرا نيستند. چون اين كودكان غالباً در خانواده زندگي مي كنند، جمع آوري آنها دشواراست. به همين دليل كاربرد آزمونهاي گروهي را محدود مي سازد. اين آزمونها را در مورد عقب مانده هايي كه نمي توانند با گروه پيش بروند، نمي توان به كار برد. در اجراي اين آزمونها نمي توان رفتار آزمودني را در جريان آزمايش يادداشت كرد. خطر رونويسي از ورقة پهلودستي و مسابقة تمرين، در آزمونهاي گروهي بيستر در آزمونهاي فردي است. خطر افشا و انتشار آزمونهاي فردي بسيار كم است. تصحيح آزمونهاي گروهي به دليل غيابي بودن در صورت ابهام در پاسخها مشكل است و نمي توان آنها را روشن كرد.

هر موقع به يك بررسي عميق نياز باشد بايد حتماً از آزمونهاي فردي كمك گرفت. از آزمونهاي فردي در مورد برخي از گروههاي جمعيت مانند كودكان خردسال، افراد معلول ذهني، بيماران رواني و … استفاده مي شود. بعضي از آزمونهاي فردي عبارتند از: مقياس هوش استنفورد بينه، مقياسهاي هوش و كسلر، و مقياسهاي بيلي از رشد اطفال و پرسشنامه شخصيتي كاليفرنيا، شخصيت سنج جند وجهي مينه سوتا (MMPT)، آزمون استعداد تحصيلي SAT ، نمونه هايي از آزمونهاي گروهي است.

۴ـ طبقه بندي از نظر هدف عملي:
مي توان آزمونها را به دو گروه آزمونهاي تشخيص و آزمونهاي پيش بيني تقسيم كرد. هدف گروه اول اين است كه حالت فعلي آزمايش شونده را تعيين كند تا اقداماتي در مورد او به عمل آيد. هدف گروه دوم اين است كه پيش بيني كم و پيش دراز مدتي را در مورد افراد به عمل آورد. مثلاً آزمونهاي راهنمايي شغلي. اين تقسيم بندي براساس ماهيت مواد آزمونها انجام نمي گيرد. بلكه براساس كاربرد آنها انجام مي گيرد. هر آزموني الزماماً يك آزمون تشخيص است، اما اين تشخيص، در بعضي موارد، ارزش يك پيش بيني را دارد.
۵ـ طبقه بندي از نظر فن تهيه:

از اين نظر نيز آزمونها دو گروه متمايز هستند: استفاده از روش هاي غيرتجربي براي تعيين روايي و تحليل عاملي براي تعيين روايي.
گروه اول را معمولاً در مقابل گروه دوم قرار مي دهند. روايي گروه اول رويهمرفته به معيارهاي ذهني استوار است. در حالي كه روايي گروه دوم بر تحليل /// تكيه مي كند. در مودر اين قسمت در بخش ويژگيهاي آزمونها بخش روايي توضيح كاملتري خواهيم داد.
ويژگي هاي آزمون: تهيه علمي آزمون بايد به صورتي باشد كه داراي ويژگيهاي خارجي و داخلي باشد تا نتايج قابل اطمينان و قابل مقايسه اي را فراهم آورد. مؤلفان شرايط يا ويژگيهاي بسيار زيادي را براي يك آزمون قايلند مانند كلاپارد، كه بيست ويژگي را نام مي برد.
ويژگيهاي آزمون به دو دسته ويژگيهاي اصل و ويژگيهاي فرعي تقسيم مي شود:

ويژگيهاي اصلي يك آزمون عبارتند از:
روايي، درجه بندي، اعتبار يا ثبات. استاندارد بودن اين چهار ويژگي مستقل از يكديگر نيستند، بلكه متقابلاً بر يكديگر اثر مي گذارند.
روايي: در لغت نامه دهخدا، روا يعني اين كه آزمون بايد حاجت آزمايشگر را برآورده كند. يك آزمون هوشي زماني روايي خواهد داشت كه اطلاعات صحيحي از آنچه معمولاً هوش ناميده مي شود در اختيار ما بگذارد نه از حافظه و يا از توانائيهاي ديگري كه رابطة بسيار كمي باهوش دارد.
سنجش روايي :

چگونه بايد روايي يك آزمونر را تعيين كرد؟ بنا به گفتة كلاپارد، چگونه بايد تستها را تست كرد؟
براي سنجش روايي آزمون راهنماي مختلفي وجود دارد. در غالب اين موارد همبستگي نمره هاي آزمون با معيار مورد نظر محاسبه مي شود كه اين موارد عبارتند از:
۱ـ معني دار بودن آماري: اولين شرط روايي و مفيد بودن يك آزمون هنجاري است. معني دار بودن آماري اين مفهوم را دارد كه رابطة بين نمره هاي آزمون با معيار مورد نظر ناشي از تصادف نباشد. در كاربدر روشهاي آماري، معني دار بودن را معمولاً با احتمال خطاي ۵% يا كمتر معلوم مي كنند. به اين ترتيب، اگر يك آزمون همبستگي معني داري با يك معيار نداشته باشد نمي توان گفت كه آن آزمون براي سنجش صفت مورد نظر روايي دارد.

۲ـ محاسبة خطاي معيار برآورد: شاخص ميزان اشتباه در پيش بيني يك متغير مستقل (يا متغير ملاك) از يك متغير تابع (يا آزمون) است. فرمول محاسبة اين شاخص عبارت است از: ////
در اين فرمول: /// انحراف معيار متغير ملاك، /// مجذور همبستگي ميان متغير پيش بين (n) و متغير ملاك (y) است.

۳ـ استفاده از جدولهاي انتظار: نمره هاي آزمون يكي از ابعاد جدول است و احتمال نسبت موفقيت در كسب هر نمرة آزمون در بدنة جدول ارائه مي شود. نسبت افرادي كه در يك آزمون در مقايسه با معيار معين به موفقيت مي رسند در جدول انتظار نشان داده مي شود. مثلاً از روي نمرات كنكور دانش آموزان مي توان سطح موفقيت دانشجويان در رشته هاي مختلف را پيش بيني كرد. يعني هرچه نمرة آنها در آزمون سراسري بالاتر باشد، احتمال موفقيت آنها در امتحانات دانشگاهي نيز بيشتر است. مهمترين مزيت جدولهاي انتظار براي تعيين روايي آزمون اين است كه فهم آن براي همگان آسان است. اين جدولها در مشاورة دانشجوي و تعيين ميزان موفقيت آنها در رشته هاي مختلف تحصيلي نيز مفيد است.

۴ـ روش استفاده از نرخهاي پايه: نرخ پايه را در يك خصوصيت معين را به عنوان نسبت افرادي از جمعيت كه داراي آن خصوصيت هستند تعريف مي كنيم. اين نرخها با استفاده از سوابق تجربه شدة موضوع و محاسبة تعداد دفعاتي كه يك واقعة معين در زماني خاص روي مي دهد محاسبه مي شود. مثلاً براي تعيين نرخ پايه در موفقيت در آزمون سراسري دانشگاهها براي تحصيلات فوق ليسانس در رشته اي خاص، نسبت افراد شركت كننده به افراد پذيرفته شده در يك دوره زماني معين را محاسبه مي كنيم. در صورتي كه نرخ پايه در يك آزمون خيلي كم يا خيلي زياد باشد، نمي توان به روايي آن اعتماد كرد و مي گوئيم كه آن آزمون قدرت تشخيص كافي ندارد.

۵ـ نسبتهاي انتخاب: يعني نسبت افرادي است كه از يك گروه موجود برگزيده مي شوند. مثلاً پذيرش دانشجو براي دورة كارداني ادبيات فارسي دانشگاه آزاد نسبت به تعداد داوطلبان بسيار زياد است. در چنين مواردي موقعي يك آزمون را داراي روايي بالا و مربوط به ملاك مورد نظر مي دانيم كه نرخ انتخاب پائين باشد و به اين ترتيب افرادي را كه نمره هاي خيلي بالايي دارند انتخاب مي كنيم.
۶ـ استفاده از تئوريهاي تصميم: در اين روش از تحليلهاي آماري براي تصميم گيري در شرايط معين استفاده مي شود كه سعي مي شود از استراتژيهايي استفاده كنند كه بهترين تصميم گيري دربارة افراد به عمل آيد. مثلاً براي انتخاب افراد براي يك شغل يا براي آموزشهاي معين از اين روش استفاده مي شود. سؤال اصلي در تئوري تصميم اين است كه حداقل نمرة قابل قبول براي يك آزمون بايد چقدر باشد. در اين موارد تصميم گيرنده بايد عوامل گوناگوني را مورد نظر قرار دهد تا انتخاب افراد مناسب به بهترين صورت ممكن انجام گيرد و از اين طريق روايي لازم فراهم آيد.

انواع روايي:
۱ـ روايي ظاهري: يعني اين كه مواد يا سؤالات آزمون از نظر ظاهر شبيه موضوعي باشد كه مورد اندازه گيري است.
۲ـ روايي محتوا: يعني اين كه آزمون بايد ارتباط كامل با كل زمينة مورد نظر داشته باشد. روايي محتوا بيشتر در آزمونهاي پيشرفت تحصيلي مورد نظر است.
۳ـ روايي پيش بيني: يعني اين كه بين نتايج حاصله از اجراي آزمونها و نتايجي كه بعداً به دست مي آيد همبستگي و قرابت وجود داشته باشد. اصولاً كاربرد روزافزون آزمونها به خاطر روايي پيش بيني آنهاست.

۴ـ روايي همزمان: نتايج آزمونها را با نتايجي كه همزمان با اجراي آنها پايه فاصلة كمي بعد از اجراي آنها به دست مي آيد مقايسه مي كنند. مثلاً اگر ازموني بسازيم و در همان زمان بخواهيم روايي آن را تعيين كنيم مي توانيم نتايج آن را با نتايج آزمون ديگري كه در همان زمينه وجود دارد و دربارة همان گروه اجرا مي شود مقايسه كنيم.

۵ـ روايي سازه (روايي مفهومي): عبارت است از تطابق نتايج يك آزمون با پيش بيني هايي كه توسط يك نظريه يا ساير واقعيات شناخته شده به عمل آمده است. مثلاً نظريه هاي زيادي در مورد هوش وجود دارد. از جمله اين كه هوش موجب سازگاري با موقعيت تازه مي شود. بنابراين، اگر نتايج حاصله از اجراي يك آزمون بر روي يك گروه، با نتايج حاصله از قدرت سازگاري همان گروه، كه براساس معيارهاي مورد قبول فراهم آمده است، همبستگي نشان دهد، خواهيم گفت كه آزمون مذكور داراي روايي سازه يا رويايي مفهومي است.

درجه بندي:
درجه بندي يك آزمون يعني تعيين درجات موفقيت و واحدهاي رفتار به منظور مقايسة عيني نتايج افراد مختلف. اين واحدها و اين هنجارها، كه امكان مقايسة افراد را فراهم مي آورد، برحسب ماهيت متغير مورد ارزشيابي، متفاوت است.

چگونه آزمونها را درجه بندي مي كنند؟ آزمونها را درباره گروههايي كه از تعداد زيادي آزمودني تشكيل شده اند اجرا يم كنند. تعداد آزمودنيها حتماً بايد زياد باشد تا خطاهاي تصادفي جبران شود و اين شرط از ضروريات وضع قوانين آماري است. بايد اين گروهها معرفِ مجموعة كساني باشند كه آزمون بعداً دربارة آنها اجرا خواهد شد. به عبارت ديگر، لازم است كه نمونة اوليه روايي داشته باشد. ترمن نيز آزمونهاي مقياس خود را در مورد هزاران كودكي كه به همة طبقات اجتماعي و به اكثر ايالات كشورش تعلق داشتند، بدون انتخاب قبلي، اجرا كرد و با اين طريق سؤالاتي را كه رويهمرفته توسط يك گروه سني پاسخ داده شده بود تعيين نمود. در واقع سؤالي را براي يك گروه سني مناسب مي دانند كه ۷۵% آن گروه پاسخ صحيح بدهند. اگر سؤالي توسط همة افراد يك گروه سني پاسخ داده شود، بسيار آسان خواهد بود و قدرت تمايز نخواهد داشت. در اين صورت گروههاي كودكان همان سن، نسبت به متغير، متجانس نخواهند بود. گروههاي سني معمولاً افرادي را شامل مي شوند كه تاريخ تولد آنها بين ۱۲ ماه توزيع مي گردد. به اين ترتيب، گروه سني ۸ ساله ها كودكاني را شامل خواهد شد كه بين ۷ سال و ۶ ماه و ۸ سال و ۶ ماه سن دارند.

چون محيط اجتماعي هميشه در مورد اكثر تواناييهايي كه توسط آزمونها اندازه گيري مي شود تا
اندازه اي اثر مي گذارد، يا لااقل شيوة تجلي آنها از لابلاي رفتار را تحت تأثير قرار مي دهد، لازم است كه درجه بندي آزمونها براي محيطهاي تقريباً محدود صورت بگيرد.
بنابراين، آزمون مورد نظر هرچه باشد، نتيجة خام آن معنايي نخواهد داشت، زيرا به صورت نسبي نيست. براي اين كه نتيجة خام معناي روشني داشته باشد بايد با هنجارها (نورمها) مقايسه شود. فقط در اين صورت مي توان از بالاتر يا پايين تر، از بهنجار يا نابهنجار صحبت كرد.

بعضي مؤلفان از ظرافت، حساسيت و قدرت تشخيص آزمونها حرف مي زنند. همة اين خصايص به درجه بندي آزمونها بستگي دارد. هر اندازه يك آزمون امكان اندازه گيري تفاوتهاي بسيار كوچك را بيشتر فراهم آورد به همان اندازه بيشتر حساسيت خواهد داشت. هر اندازه گستردگي مقياس بزرگتر باشد، به همان اندازه حساسيت كمتر خواهد بود. در بسياري از موارد، آزمونهاي هوشي بزرگسالان فاقد حساسيت لازم است. اين آزمونها نمراتي را فراهم مي آورد كه فاصلة زيادي از يكديگر دارند و تغييرات ضعيف را نشان نمي دهند. زماني كه اندازه گيري كنشهاي سطوح پايين مورد نظر است، مثلاً اندازه گيري زمان واكنش، سرعت حركات و آستانه هاي حسي، تهية ابزار حساس چندان مشكل نيست. بعضي روان شناسان آن قدر پيش مي روند كه سرعت اَعمال را تا يك صدم ثانيه اندازه مي گيرند، چيزي كه در عمل ضروري به نظر نمي رسد. بتدريج كه در مقياس كنشهاي رواني بالاتر مي رويم، دشواري تهية وسايل دقيق و حساس افزايش مي يابد. زيرا، هر چند تفاوتهاي افراد در اعمال عالي ذهن بسيار آشكار است، اين تفاوتها بطور نامحسوس از كميت محض به كميت آميخته با كيفيت تبديل مي شود.
۵ـ اعتبار (ثبات ـ ///) :

منظور از اعتبار عبارت است از اعتمادي كه مي تواني به نتايج يك ازمون (يا مجموعة آزمونها)، كه از كاربردهاي متوالي آن حاصل مي شود، داشته باشيم. بنابراين در اين جا انسجام داخلي آزمون مورد نظر است. نتايج يك آزمون مي تواند تا اندازه اي تحت تأثير تغييرات محيط و تمايل لحظه اي آزمودني قرار گيرد.
براي محاسبة درجه بندي اعتبار و ثبات چهار روش پيشنهاد شده است:

الف) اجراي مجدد يك آزمون: اگر آزموني را با فاصلة زماني كم و بيش طولاني در مورد گروهي از آزمودنيها دوبار اجرا كنيم، نتايج ناپايدار و متغيري به دست آوريم، ديگر نمي توانيم به آن اعتماد داشته باشيم. زيرا درجة موفقيت در آن تحت تأثير عواملي قرار مي گيرد كه براي ما پوشيده بوده يا كنترل آنها براي ما دشوار است. بدون ترديد نمي توان اميد داشت كه نتايج دو نوبت هميشه يكسان باشد، مخصوصاً اگر فاصلة زماني بين آنها تا اندازه اي طولاني گردد؛ اما تغيير نتايج هم نبايد از حدود معيني تجاوز كند. اگر آزموني را دوبار و به فاصلة كمي در مورد يك فرد اجرا كنند معمولاً ضريب همبستگي ۷۰% را قابل قبول مي دانند، اما اگر همين آزمون روي گروههاي افراد اجرا شود ضريب همبستگي ۹۰% مورد قبول خواهد بود.

ب) اجراي فرمهاي موازي: دو فرم را وقتي موازي مي گويند كه در تعيين روايي و در درجه بندي آنها روش يكساني به كار رود. بنابراين، دو فرم موازي يك آزمون ارزش تشخيصي يكساني دارد و فقط از نظر محتواي ظاهري از يكديگر متفاوت است. مثلاً مقياس اصلي ترمن از دو فرم تشكيل شده بود: فرمهاي M و L . آزمونهاي نابسته به فرهنگ كتل نيز داراي دو فرم است: A و B . كاربرد دو فرم موازي يك آزمون براي اين است كه از تغييرات ناشي از يادآوري و تمرين قبلي جلوگيري شود. اگر آزمونها به كنشهاي سطوح پايين (قدرت ماهيچه اي، زمان واكنش، دقت حركات) تعلق داشته باشد، آثار يادآوري و تمرين يا وجود نخواهد داشت يا كم خواهد بود. به هر حال، تمرين، برحسب افراد مختلف، آثار متفاوتي به همراه دارد. افراد متوسط بهرة بيشتري از آن كسب مي كنند. آزموني كه اعتبار كمي دارد شبيه ساعتي است كه برحسب موقعيت جلو مي رود

يا عقب مي ماند، بدين معني كه مكانيسم آن به عوامل حرارت، درجة رطوبت هوا، طرز قرار گرفتن در دست، … بستگي پيدا مي كند.
به فاصلة چند ماه اجرا، ضرايب همبستگي مجموعه آزمونهاي مختلف بين ۵۴% تا ۸۴% ، آزمونهاي مهارت حركتي فقط ۴۰% و آزمونهاي هوش بين ۷۰% تا ۹۳% به دست آمده است. لازم به يادآوري است كه ارزش ضرايب اعتبار، به نسبت افزايش فاصله بين دو اجرا، كاهش مي يابد. در مجموع مي توان گفت كه ضرايب ۸۰% الي ۹۰% اعتبار رضايت بخشي را براي آزمونها تضمين مي كند.

ج) روش فرد ـ زوج: گاهي از يك آزمون دو فرم موازي در دست است اما امكان اجراي آن در دو نوبت وجود ندارد، گاهي هم از يك آزمون دو فرم موازي موجود نيست. در اين گونه موارد، براي تعيين اعتبار يك آزمون، از روش فرد ـ زوج استفاده مي كنند. بدين ترتيب كه وقتي آزمون بطور طبيعي اجرا شد و هر سؤال نمره گذاري گرديد، به جاي محاسبة نمرة كل، آزمونر را به دو قسمت تقسيم مي كنند و نمرة هر قسمت را جداگانه به دست مي آورند. معمولاً سؤالات را به دو گروه فرد و زوج تقسيم مي كنند تا آثار تمرين، خستگي و دشواري در هر دو قسمت بطور يكسان توزيع شود. اين روش را در مورد همة آزمايش شوندگان به كار مي برند و بين دو سري نتيجه ضريب همبستگي به دست مي آورند. ضريب به دست آمده اعتبار نصف تست خواهد بود. براي محاسبة اعتبار تمام تست از فرمول اسپيرمن ـ براون، كه به صورت زير نوشته مي شود، استفاده مي كنند:
فرمول تايپ شود.

در اين فرمول، ۱۱r = ضريب اعتبار تمام تست، r = ضريب همبستگي بين دو نيمة تست.
مثال: اگر ضريب همبستگي بين دو نيمة آزمون برابر ۶۰% باشد ضريب اعتبار كل آزمون چنين به دست خواهد آمد:
فرمول تايپ شود.

هرگز نبايد نيمة اول يك آزمون را با نيمة دوم آن مقايسه كنيم، مخصوصاً اگر زمان اجراي آزمون محدود باشد. دو نيمة اول و دوم يك آزمون در موقعيت كاملاً متفاوت اجرا مي شود، زيرا، از يك طرف، همة سؤالات نيمة دوم توسط همة آزمودنيها پاسخ داده نمي شود، از طرف ديگر، نيمة دوم از اثرات تمرين بهره مند مي گردد. براي اين كه بتوان تستي را، با استفاده از روش فرد ـ زوج، دو قسمت كرد، تعداد سؤالات آن نبايد زياد محدود باشد.

د) ضريب انسجام: در اين روش، مثل روش فرد ـ زوج، ازمون فقط يك بار اجرا مي شود و ميزان همبستگي دروني يا تجانس سؤالات مورد بررسي قرار مي گيرد. در اين جا ضريب به دست آمده بين ۰ و ۱ متغير خواهد بود و هر اندازه به ۱ نزديكتر باشد به همان اندازه تعادل سؤالات آزمون بيشتر خواهد بود. براي محاسبة تجانس دروني آزمون، از فرمول ۲۱ كودروريچاردسون (K1R21)36 استفاده مي كنند. فرمول مذكور به صورت فرمول/// نوشته مي شود كه در آن n = تعداد سؤالات، X = ميانگين نمرات و۲ S = واريانس نمرات. مثال: اگر ميانگين نمرات يك آزمون ۴۰ سؤالي برابر ۲۵ و واريانس آنها ۱۶ باشد ضريب انسجام آزمون به صورت زير محاسبه خواهد شد:
فرمول تايپ شود.

۶ـ استاندارد بودن :
به دنبال انجام يك آزمون، براي اين كه مقايسة افراد با يكديگر مشروع باشد، بايد در اجرا و نمره گذاري سؤالات روش يكساني به كار رود. نمي توان نتايجي را كه در موقعيتهاي مختلف به وجود آمده است با يكديگر مقايسه كرد. اين امر يكي از قواعد اصلي روشهاي تجربي است. در مورد آزمونها، غير از تنوع استعداد مورد نظر، همة موقعيتها بايد مساوي باشد. با وجود اين، يادآور مي شويم كه در زمينة روان شناسي، ايجاد موقعيتي كه بطور مطلق يكنواخت باشد غيرممكن است. عوامل بسيار متعدد و غيرقابل كنترلي بر آزمودني تأثير مي گذارد.
به منظور تضمين يكنواختي شرايط اجرا، آزمونها هميشه دستورالعملهايي به همراه دارد. اين دستورالعملها بايد دقيقاً رعايت شود، زيرا در تنظيم نورمها مورد استفاده قرار گرفته است. كوچكترين تغييري كه آگاهانه يا ناآگاهانه در دستورالعمل آزمونها داده شود الزاماً بر رفتار آزمودني اثر خواهد گذاشت و اين اثر گاهي قابل اغماض و در بسياري از موارد آشكارا محسوس و مخلّ خواهد بود.