همان طوری که از نام آن بر می آید، به قابلیت تکرار یا اعتماد یک  اندازه یا شاخص مربوط می شود. به عنوان یک مثال بسیار ساده، می توان گفت که  دیروز ما قد یک کودک را اندازه گرفته و مقدار 122/68 سانتی متر را به دست  آورده ایم. ولی امروز فرد دیگری قد همان کودک را اندازه گرفته و مقدار  122/93 سانتی متر را گزارش کرده است. این دو مقدار تا اندازه زیادی با  یکدیگر هماهنگ هستند؛ یعنی، ما نوعی اندازهگیری اولیه از قد کودک را در نظر  گرفته ایم که در بررسی مجدد تأکید یا تکرار شده است. این 0/25 سانتی متر  اختلاف، این واقعیت را نشان می دهد که تکرار اندازه گیریها تقریباً همواره  تا اندازه ای ثبات یا پایایی دارد و پذیرش این نتیجه از جانب ما نشان می  دهد که این بی ثباتی به اندازه ای نیست که سودمندی آن را انکار کنیم. بدین  ترتیب، اختلاف 0/25 سانتی متر تحت این شرایط به اندازه ای ناچیز است که می  توان آن را بی اهمیت تلقی کرد. با وجود این، در سایر اندازه گیریهای فیزیکی  این سطوح تحمل بسیار کم هستند، مانند سیلندر موتور که این تفاوت، اهمیت  بسیاری دارد و سطح بالاتری از پایایی اندازه گیری مورد نیاز است.
پایایی همان دقت نیست. دقت به میزان صحتی اشاره می کند که اندازه گیری را  بر اساس آن می توان مشخص کرد؛ بدین ترتیب، یک شیوه اندازه گیری که به ما  امکان می دهد تا نتایج را بر اساس یک هزارم سانتی متر گزارش کنیم، دقیقتر  از آن اندازه گیری است که نتایج را بر اساس یک دهم سانتی متر به دست می  دهد. درجه دقت یک ابزار مکانیکی که امکان اندازه گیری 2/432 را فراهم می  سازد، یک هزارم سانتی متر است، ولی اگر تحت شرایط یکسان این وسیله، مقدار  2/381 سانتی متر را به دست دهد، پایایی این اندازه گیری به هیچ وجه منطبق  با دقتی نخواهد بود که این ابزار از آن برخوردار است.
این ویژگی که اندازه گیریها را باید "به اندازه کافی دقیق" انجام داد، در  ارزیابی شخصیت نیز کاربرد دارد. اندازه گیری شخصیت در مقایسه با اندازه  گیری خصوصیات فیزیکی مانند قد، همیشه نسبتاً فاقد دقت است؛ و بنابراین، تا  اندازه ای ناپایاست. بدین ترتیب، میزان دقت یک ابزار ارزیابی شخصیت باید با  پایایی آن همخوانی داشته باشد. برای کسانی که از چنین ابزارهایی استفاده  می کنند معمولاً میزان شاخص پایایی مشخص شده است. ما مجدداً در یک فرصت  مناسب به موضوع پایایی باز خواهیم گشت.
اندازه گیری شخصیت دارای شکل دیگری نیز هست که در اندازه گیریهای فیزیکی به  چشم نمی خورد و آن به استانداردهای مورد قبولی مربوط می شود که بر اساس  آنها اندازه گیریها صورت می گیرند. هیچ تردیدی وجود ندارد که یک یاردسنج  (یا یک مترسنج) برای اندازه گیری فواصل خطی مانند قد مناسب است. با وجود  این، در ارزیابی شخصیت، غالباً سؤالهایی درباره صحت و دقت ابزارهای اندازه  گیری به منظور ارزیابی بُعد یا ویژگی مورد بررسی مطرح می شوند. برای مثال،  آیا واقعاً می توان افسردگی را با شمارش پاسخهای رنگی به موارد بی رنگ در  آزمون رورشاخ اندازه گرفت؟ در این مورد، نه تنها سؤال مربوط به شمارش پایای  این پاسخها مطرح است، بلکه شکل دیگر و جدی تر این است که آیا شمارش  پاسخهای رنگ به اندازه گیری درستی از افسردگی می انجامد، درست به همان شیوه  ای که علایم مندرج یاردسنج به شاخص معتبری از قد منجر می شود (صحت یا  اعتبار ابزارهای اندازه گیری مورد استفاده در اندازه گیریهای فیزیکی که  درجات بسیار بالایی از دقت لازم را دارد، مشکلات چندی ایجاد کرده است.)
چون پیش از آنکه بتوانیم تعیین کنیم که آیا اندازه گیری در واقع به مفهوم  مورد نظر مربوط می شود یا خیر، باید از پایایی مناسب برخوردار باشد، ابتدا  به بحث درباره پایایی می پردازیم. معیارهای آزمون تربیتی و روان شناختی که  یک راهنمای عملی برای پایایی و اعتبار است، برای چندین سال توسط انجمن روان  شناسی آمریکا انتشار یافته است (برای مثال، انجمن پژوهش تربیتی آمریکا-  انجمن روان شناسی آمریکا- شورای ملی اندازه گیری در تربیت، 1985) و تمام  افرادی که فعالانه در ساختن ابزارهای اندازه گری شخصیت و کاربرد آنها شرکت  دارند، باید این راهنما را به دقت مطالعه کنند. کتاب راهنمایی که به منظور  استفاده ویژه در زمینه انتخاب استخدامی به کار می رود و با این کتاب راهنما  قابل مقایسه است، توسط شاخه روان شناسی صنعتی- سازمانی انجمن روان شناسی  آمریکا (1980) منتشر شده است. در این کتاب راهنما توجه خاصی به موارد  اعتبار و پایایی و تهیه ملاکها مبذول شده است و منبع مرجع سودمندی در این  زمینه ها محسوب می شود.
پایایی

پایایی به قابلیت تکرار یا قابلیت اعتماد اندازه گیری اشاره دارد. در یک  موقعیت فرضی که روش اندازه گیری کاملاً پایاست، فرض می شود که هر گونه  تغییری در اندازه گیری حاصل نشان دهنده یک تغییر واقعی در صفت مورد مطالعه  است. بدین ترتیب، در چنین نظامی، افزایش یک کیلوگرم در مقیاس نشان خواهد  داد که وزن شیء مورد نظر دقیقاً یک کیلوگرم زیاد شده است؛ به همین ترتیب،  افزایش نمره حاصل از یک مقیاس افسردگی نشان خواهد داد که پاسخ دهنده در حال  حاضر افسردگی بیشتری دارد. پایایی یک اصطلاح کلی است؛ اصطلاحهای همسانی و  ثبات به ترتیب برای توصیف پایایی وابسته به ابزار و پایایی مربوط به زمان  به کار می روند.
همسانی به میزان توافقی اشاره می کند که از به کارگیری دو یا چند ابزار  اندازه گیری (یعنی، مقیاسها، خط کشها یا آزمونها) حاصل می شود. هر گونه  ابزار اندازه گیری یا مجموعه ابزارها را می توان برگرفته از جامعه گسترده  ای از این ابزارها (چه واقعی یا چه فرضی) در نظر گرفت که می توان از آنها  برای اندازه گیری این صفت خاص استفاده کرد. همسانی معمولاً با به کارگیری  یک آزمون یا آزمونهای همزمان دیگر مورد ارزشیابی قرار می گیرد که ترجیحاً  به طور تصادفی از جامعه در دسترس اندازه گیریها انتخاب می شوند. اگرچه این  موضوع در اندازه گیری ابعاد فیزیکی مانند قد یا وزن به مشکلات اندکی می  انجامد، ولی با این حال، مشکلات چندی را در ارزیابی شخصیت ایجاد می کند. ما  به زودی این مشکلات را مورد بررسی قرار خواهیم داد.
ثبات به دقت اندازه گیری حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار  دیگری برای اندازه گیری مجدد استفاده شود، بازآزمایی با گذشت زمان علاوه بر  ثبات، همسانی را نیز شامل می شود. هرگاه در دو بار اندازه گیری از یک  ابزار استفاده شود، ارزیابی مستقیم ثبات اندازه گیری را می توان انجام داد.  بدین ترتیب، ناتوانی در رسیدن به پایایی کامل به واسطه ناهمسانیها یا  خطاهایی است که تابع تغییرات حاصل در نظام مورد نظر با گذشت زمان یا تابع  تغییرات مربوط به ابزار مورد نظر و یا هر دو هستند.
به طور کلی، پایایی به شواهد مختلفی اشاره می کند که در صدد توصیف یک توافق  کلی میان عملیات اندازه گیری هستند. هر کدام از این شواهد بر منبع معینی  از عدم توافق یا خطا تأکید می کند و بقیه منابع را نادیده می گیرد. اندازه  گیری شخصیت شامل گرفتن نمونه ای از رفتار در یک زمان و روز معین در قبال  مجموعه معینی از محرکهاست. البته این پاسخها باید بر طبق یک شیوه معین توسط  یک آزماینده خاص ثبت شوند. بعضی از خطاهای نمونه گیری با هر کدام از این  "موارد خاص" رابطه دارند. این زمان خاص نمونه ای از یک دوره زمانی است و  این مجموعه خاص از محرکها یا سؤالها نمونه ای از یک دسته واقعی یا فرضی از  محرکها در دسترس است. بسیار اهمیت دارد که بتوانیم مشخص کنیم که یک پاسخ یا  نمره خاص، احتمالاً تا چه اندازه به عنوان تابعی از تغییرات در هر کدام از  این خصوصیات اندازه گیری تغییر می کند. متأسفانه، این نوع اطلاعات به ندرت  در ارزیابی شخصیت به چشم می خورد.
بررسی کتاب های درسی در زمینه نظریه روان سنجی (برای مثال گیزلی(807)،  1964؛ نانالی(808)و برنشتاین(809)، 1994) نشان می دهد که فرضهای فلسفی  متخصصان در زمینه مبنای اندازه گیری روان شناختی با یکدیگر متفاوت است. این  تفاوتها در فلسفه به تفاوتهای چندی در توصیف دقیق مفهوم و معنای پایایی و  تفاوتهایی در شیوه های پیشنهادی برای اندازه گیری پایایی یک شاخص انجامیده  است. در این فصل، ما می کوشیم تا مسیر میانه ای را از میان رویکردهای مختلف  برگزینیم و در عین حال، علاوه بر موضوعهایی که فراتر از طیف این کتاب قرار  می گیرند، از ناهمسانیها نیز اجتناب کنیم.
ما با این نکته شروع می کنیم که پایایی به طور تنگاتنگی با مفهوم خطای  اندازه گیری رابطه دارد. خطاهای اندازه گیری را می توان به صورت منظم یا  تصادفی در نظر گرفت. هرگاه ما زمان را از روی ساعتی مشاهده کنیم که همواره  پنج دقیقه جلوست، مرتکب یک خطای منظم شده ایم. از طرف دیگر، هرگاه این ساعت  درست ولی به اندازه ای دور از ما قرار گرفته باشد که ما نتوانیم عقربه  دقیقه شمار را بخوانیم، مرتکب یک خطای تصادفی شده ایم. خطاهای منظم را می  توان به صورت خطاهایی در نظر گرفت که با اشتباههای معلوم رابطه دارند؛ و  خطاهای تصادفی را که به متوسط نمره درست یا مطلق گرایش دارند، می توان  زمانی به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهای منظم  شناسایی یا حذف شده باشند.
به عبارت دیگر، خطاهای اندازه گیری تصادفی با روش اندازه گیری "شکل می  گیرند"، درست مانند زمانی که می کوشیم با یک خط کش که تنها با اینچ مدرج  شده است با تقریب یک دهم اینچ اندازه گیری کنیم یا هنگامی که سعی می کنیم  "افسردگی" را با یک پرسشنامه مداد و کاغذی کلی که فاقد ویژگیهای بالینی  ضروری افسردگی است، ارزیابی کنیم. برخلاف این خطاهای تصادفی که اجتناب از  آنها مشکل است، خطاهای منظم مشخص تر و صحیح تر هستند. به یک معنا، خطاهای  منظم ناشی از سازنده یا استفاده کننده آزمون هستند تا اینکه به خود ابزار  اندازه گیری برگردند. هرگاه ما یک مقیاس افسردگی را روی آزمودنیهایی اجرا  کنیم که در یک فرهنگ (یا خرده فرهنگ) متفاوت زندگی می کنند در مقایسه با  آزمودنیهایی که از هنجارهای مناسبی برخوردارند، یا هرگاه دستورالعملهای  فشارزایی را به کار ببریم که آشکارا از دستورالعملهای مربوط به جامعه  هنجاری متفاوت باشند، در معرض خطای منظم قرار خواهیم داشت. این خطاهای منظم  بالقوه را می توان و البته باید با تنظیم هنجارهای جدید مبتنی بر گروه  فرهنگی مناسب یا شرایط دیگر سنجش تصحیح کرد.
نظریه پردازان روان سنجی در کوششهای خود برای به کمیت درآوردن پایایی، به  طور سنتی به مشخص کردن سهم خطاهای تصادفی در پایایی کم پرداخته اند. عقاید  آنها درباره اینکه آیا باید خطاهای منظم را نیز به عنوان منبع ناپایایی  اندازه گیری در نظر گرفت با یکدیگر اختلاف دارد، و از این رو، ماحصل این  اختلاف عقیده در شاخص عددی پایایی انعکاس یافته است. تعدادی از شاخصهای  متداول پایایی نشان دهنده خطای تصادفی هستند؛ و تعدادی نیز بعضی از منابع  خطای منظم و نه تمام آنها را نشان می دهند. در نسخه تجدیدنظرشده جدیدتر  معیارهای سنجش تربیتی و روان شناختی (1985) با تصدیق این موضوع که روشهای  مختلف محاسبه پایایی، شامل منابع مختلف خطا هستند، توصیه شده است که  پژوهشگران باید دقیقاً روشن کنند، چه روشهایی را در به دست آوردن شاخص  پایایی خاص مورد نظر به کار برده اند.
اکنون به روشهای متداول محاسبه پایایی توجه کنید. شاخص سنتی پایایی، ضریب  پایایی است که می توان آن را هم به عنوان همبستگی بین نمره های واقعی آزمون  و نمره های "واقعی" فرضی و هم به عنوان متوسط همبستگی بین نمره های واقعی  آزمون و سایر آزمونهای احتمالی که همان خصوصیت را اندازه می گیرند، در نظر  گرفت. رویکردهای عملی زیر که برای محاسبه پایایی به کار می روند، با این  تعریف شباهت دارند.
همان طوری که قبلاً اشاره کردیم، آن نوع پایایی که صرفاً با خطای تصادفی  رابطه دارد (خطاهای ناشی از این واقعیت که محتوای آزمون صرفاً نمونه ای از  کل محتواست که ویژگی مورد نظر را در بر می گیرد)، ثبات یا ثبات درونی آزمون  نادیده می شود. ثبات را می توان به شیوه های مختلف ارزیابی کرد. یک روش،  تقسیم آزمون به دو نیمه قابل مقایسه است که با یکدیگر همبسته هستند. بدین  ترتیب، همبستگی حاصل با استفاده از فرمولی که فرمول پیشگویی اسپیرمن -  براون نامیده می شود، با توجه به ارزش مورد انتظار برای کل آزمون "تصحیح"  می شود. چنین برآوردی از ثبات که با مقایسه ماده های زوج و فرد آزمون به  دست می آید، ثبات پایایی از طریق دو نیمه کردن نامیده می شود. روش دیگر،  تعیین ثبات از طریق کاربرد نسخه های مشابه یا جانشین (یا موازی) آزمون است.  همبستگی بین این نسخه ها اساساً با همبستگی تصحیح شده بین دو نیمه آزمون  مطابقت می کند. هنگامی که نسخه های جانشین در دسترس نباشند، راه حل رایج،  استفاده از روش بازآزمایی است. همبستگی بین این دو مجموعه از نمره ها ضریب  پایایی بازآزمایی نامیده می شود.
یکی دیگر از روشهای محاسبه پایایی که از لحاظ آماری تا اندازه ای پیچیده تر  است، با استفاده از فرمول پایایی کودر- ریچاردسون صورت می گیرد (کودر و  ریچاردسون، 1937). مهمترین اجزای این فرمول شامل درصد ماده های نمره گذاری  شده به شیوه ای خاص، همبستگیهای بین ماده ها و نمره کل و انحراف معیار  آزمون است. این داده ها در فرمولی قرار می گیرند که برآورد خوبی از ثبات را  به دست می دهد، به شرطی که آزمون مورد نظر تنها یک عامل آماری را اندازه  گیری کند. متداولترین ضریب پایایی از این دست که ضریب آلفا (کرونباخ، 1951)  نامیده می شود، "میانگین تمام ضرایب دو نیمه سازی حاصل از نیمه های مختلف  آزمون است (آناستازی، 1988)، قطع نظر از اینکه این ماده ها دوارزشی یا  چندارزشی هستند". دشواریهای این روش فراتر از دامنه این کتاب هستند، ولی با  این حال، این روشها در بسیاری از کتابهای درسی روان سنجی مورد بحث قرار  گرفته اند.
همبستگیهای بازآزمایی و نسخه های جانشین اطلاعاتی را فراتر از ثبات آزمون  به دست می دهند. چنانچه آزمودنیها در هنگام اجرای آزمون مجدد، پاسخ بعضی از  ماده ها را به یاد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس  حافظه بدهند؛ یعنی، یک اثر منظم که ممکن است به افزایش ساختگی این همبستگی  بینجامد. یا همان طوری که قبلاً بدان توجه شد، شرایط اجرای یک جلسه آزمون  از یک نوبت به نوبت بعدی ممکن است تغییر کند و این امر به منابع ناشناخته  خطای منظم می انجامد. یا آزمودنیها ممکن است خصوصیتی را که اندازه گیری می  شود تغییر دهند، در چنین شرایطی از میزان ضریب پایایی کاسته می شود.
در عمل از کدام روش محاسبه ضریب پایایی باید استفاده کرد؟ یک پاسخ ساده این  است که ضریب پایایی باید انواع مختلف خطاهایی را که استفاده کننده آزمون  به آنها علاقه مند است، انعکاس دهد. بنابراین، هرگاه ما در اندازه گیری یک  مفهوم به پایایی آزمون علاقه مند باشیم، شاخص ثبات (آلفای کرونباخ یا دو  نیمه سازی) مناسب خواهد بود. چنانچه در اجراهای مکرر و تحت شرایط مختلف به  ثبات آزمون توجه نشان دهیم، آن گاه پایایی بازآزمایی یا نسخه های جانشین از  مناسبت بیشتر برخوردار خواهند بود. در شرایط آرمانی، سازنده آزمون هر دو  مجموعه از داده ها را فراهم خواهد ساخت.
حدود قابل قبول ضرایب پایایی کدام اند؟ برای پاسخ به این سؤال، ما باید به  شیوه ای توجه کنیم که بر اساس آنها، این ضرایب را می توان در عمل به کار  برد. معمولاً، کلید اصلی به خطای معیار اندازه گیری مربوط می شود؛ کمیتی که  مستقیماً از روی ضریب پایایی و انحراف معیار نمره های حاصل به دست می آید.  اگر ضریب پایایی را با r و انحراف معیار را با s نشان دهیم، خطای معیار  اندازه گیری را می توان با توجه به فرمول sرادیکال r-1 محاسبه کرد. برای  نشان دادن معنا و کاربرد خطای معیار اندازه گیری، مقیاس Sc مربوط به MMPI  را در نظر بگیرید. برآوردهای ثبات درونی (ضرایب همبستگی دو نیمه آزمون) این  مقیاس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم،  1975، ص 260). انحراف معیار تمام مقیاسهای MMPI برای نمره های مقیاس بندی  شده برابر با 10 است. حال خطای معیار اندازه گیری را می توان از فرمول یاد  شده محاسبه کرد که برابر است با 10 رادیکال 0/9-1 یا 3؛ یعنی، می توان گفت  که هرگاه امکان اجرای این آزمون به دفعات بسیار زیاد وجود داشته باشد،  متوسط نمره های Sc حاصل برابر با نمره های "واقعی" می شود، ولی این نمره ها  با انحراف معیار 3 پیرامون این میانگین توزیع می یافتند.
اگر توزیع نمره ها کاملاً نامتقارن نباشد، تقریباً دوسوم نمره ها در داخل  یک انحراف معیار نسبت به میانگین قرار می گیرند. بنابراین، احتمال اینکه  نمره حاصل از هر اجرای آزمون معین در سه واحد نسبت به نمره "واقعی" قرار  گیرد، حدود دوسوم است. به عبارت دیگر، اگر یک پاسخ دهنده در مقیاس Sc نمره  55 را کسب کند؛ احتمال اینکه نمره "واقعی" در سه واحد نمره 55، یعنی، 52 و  58 قرار گیرد، دوسوم است. با همین استدلال، از آنجایی که حدود 95 درصد نمره  های یکتوزیع کاملاً متقارن در دو انحراف معیار نسبت به میانگین قرار می  گیرند، 95 درصد یا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعی پاسخ  دهنده در فواصل 6 واحدی نمره 55، یعنی بین 49 و 61 قرار گیرد.
همان طوری که تا اندازه ای در مورد مقیاس D آزمون MMPI صادق است، فرض کنید  که مقدار این ضریب پایایی (دو نیمه سازی) به جای 0/91 برابر با 0/75 باشد  (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معیار 10، این  فرمول مقدار خطای معیار اندازه گیری را برابر با 10 رادیکال 0/75-1 یا 5  نشان می دهد. این موضوع در عمل به معنای آن است که هرگاه پاسخ دهنده ای در  مقیاس D نمره 60 را به دست آورده باشد، و ما بخواهیم دامنه ای را چنان  تعیین کنیم که با احتمال 95 درصد نمره "واقعی" را در برگیرد، این دامنه  باید بین 50 تا 70 باشد. هر چقدر ضریب پایایی کمتر باشد، میزان اعتمادی را  که می توان نسبت به نمره به عنوان برآوردی از میزان "واقعی" خصوصیتی داشت  که پاسخ دهنده آن را داراست، کمتر است.
نظریه تعمیم پذیری

در سال 1964، ریموند بی.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها  "اثبات آزمون" را می توان اندازه گیری کرد (البته وی این اصطلاح کلی را  بیشتر از اصطلاحهای دیگر ترجیح می داد). اولین روش، ثبات و توافق نمره ها  در دفعات متوالی اجراست؛ یعنی، تغییراتی که در یک آزمون و روی یک گروه از  افراد در زمانهای مختلف صورت می گیرد. کتل این ثبات را "پایایی" نامید.  دومین نوع ثبات به آزمونهای مختلف ( یا بخشهای یک آزمون که معمولاً ماده  های انفرادی هستند) بر می گردد و شامل توافق مربوط به یک بار اجراست که با  استفاده از چند آزمون (یا بخشهای آزمون) روی یک گروه از افراد صورت می  گیرد. این ثبات "همگنی" نامیده می شود. نوع سوم ثبات به افراد مختلف بر می  گردد و شامل توافقی است که در مورد معنای نمره های یک آزمون که در یک زمان  معین روی مجموعه های مختلفی از افراد اجرا شده است. این نوع ثبات "انتقال  پذیری" ( یا سرسختی) نامیده می شود.
در یک رویکرد مشابه، کرونباخ، گلیزر(813)، ناندا(814) و راجارتنام(815)  (1972) فرض کردند که اساسی ترین موضوع در پایایی، سؤال مربوط به تعمیم دادن  مشاهده ها یا اندازه گیریها به طبقه دیگری از مشاهده هاست. بنابراین، به  نظر آنها پایایی باید به بررسی میزانی مربوط شود که بر اساس آن، نمره های  حاصل، معرف نمره های به دست آمده از شرایط دیگر یا "مجموعه های مرجع" مختلف  است. مثالها مطالعه نمره های حاصل از نمره گذاران مختلف، ماده های آزمون،  روشها، مشاهده کننده ها یا دفعات مختلف را در بر می گیرند. همان طوری که در  یک بحث دقیق درباره این روش توسط ویگینز(1973) مورد تأکید قرار گرفت، یکی  از مزیتهای اصلی این روش در آن است که پژوهشگران را وا می دارد که در خصوص  مجموعه مرجع خاصی که مایل اند مشاهده های خودشان را بدان تعمیم دهند، صریح و  روشن باشند. این امر تا اندازه ای از تمایز سنتی بین پایایی و اعتبار می  کاهد. جونز(816)، رید(817) و پترسون(1975) در نظام کدگذاری رفتاری خودشان،  مثال خوبی را در زمینه مطالعه کمّی تعمیم پذیری گزارش کردند. در این  مطالعه، آزمودنیها، مشاهده کنندگان و دفعات مختلف، مجموعه های مرجع تعمیم  بودند.
پایایی و فنون فرافکن

نمره های کمّی حاصل از آزمونهای فرافکن چنانچه با روشهایی که توصیف شدند  ارزیابی شوند، اغلب پایایی اندکی دارند. از آنجایی که پایایی یک اندازه یا  شاخص، حد بالایی را بر سودمندی بالقوه یا اعتبار آن تحمیل می کند،  پایاییهای کم اغلب در بررسیهای پژوهشی روی این آزمونها مسئول اعتبارهای  پایین قلمداد می شوند. از طرف دیگر، همچنین استدلال شده است که روشهای  معمول برای ارزیابی پایایی را نمی توان برای ابزارهای فرافکن به کار برد.  برای مثال، گفته می شود که روش دونیمه سازی برای آزمون رورشاخ نامناسب است،  زیرا غیرممکن است که بتوان این ده کارت را به گونه ای تقسیم کرد که دو  نیمه قابل مقایسه را به دست دهد. پایایی بازآزمایی را نیز نمی توان به کار  برد، زیرا آزمون مجدد، در واقع، یک تجربه روان شناختی متفاوت از آزمون  اولیه است و چون گفته می شود که فنون فرافکن نسبت به تغییرات جزیی در  آزمودنی حساس هستند، در واقع، به نظر می رسد که در برخی از آزمونهای فرافکن  فرض می شود که این ابزارها کاملاً پایا هستند و اینکه تغییرات مشاهده شده  در پاسخهای آزمون با گذشت زمان مؤید تغییرات واقعی در فرد هستند. بسیاری از  ویژگیهایی که این آزمونها با آنها سرو کار دارند، مانند خُلق یا سطح انرژی  با گذشت زمان تغییر می کنند و بدین وسیله استدلال محکمی را دال بر این  مفروضه به دست می دهند. با وجود این، هر گونه شناخت واقعی از مشکلات پایایی  اندازه گیری باید به این نتیجه منجر شود که بسیاری از این تغییرات، اگرچه  نه همه آنها، تابعی از پایایی فرعی این ابزارهاست.
مشکلات اندازه گیری در ناپایایی هر آزمون تأثیر دارد، ولی بعضی از مشکلات  به ویژه در خصوص ابزارهای فرافکن ایجاد می شود. به طور کلی، مواد محرک مورد  استفاده در آزمونهای فرافکن با توجه به اینکه طبقه های نمره گذاری مختلف  به طور مناسبی بر اساس محرکها تنظیم شوند، انتخاب نمی شوند. برای مثال،  متوسط تعداد پاسخهای حرکت (M) برای افرا غیربیمار در آزمون رورشاخ با توجه  به انحراف معیارحدود 2، برابر 4 و متوسط جزئیات نادر (Dd) تنها برابر یک  است (اکسنر، 1990). در عمل حداکثر پایایی این اندازه گیریها همان طوری که  نشان دادن اعتبارهای معنادار امری تقریباً غیرممکن است، پایین است.
غالباً همان طور که در مورد آزمون TAT صادق است، نظامهای نمره گذاری تا چند  سال بعد از اینکه مواد محرک انتخاب شده باشند، تنظیم نخواهند شد. در آزمون  TAT، آزمایندگان حتی در این مورد اختیار دارند که کدام محرک را سرانجام به  کار ببرند. این رشد اتفاقی طبقه های نمره گذاری در میزان پایاییهای کم،  تأثیر دارد. نمره های نسبی (و تفاوت آنها) همان گونه که در آزمون رورشاخ به  کار می روند، به ویژه نسبت به پایاییهای کم، حساس هستند. هولتزمن(818) در  تهیه HIT، به انتخاب کارتهایی توجه کرد که در کمیتهای نمره گذاری تأثیر  خاصی داشتند؛ در نتیجه، پایاییهای اکثر طبقه های HIT مناسبتر هستند.
مشکل دیگر شامل استاندارد بودن دستورالعملهاست. راهنماییهای مربوط به اجرای  اکثر زبانهای فرافکن استاندارد نشده اند، به طوری که به آزماینده امکان  دهند تا به طور معناداری بر پاسخهای آزمودنی اثر گذارند. حتی اگرچه در نظام  کنونی اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهای استاندارد شده تأکید  می کند، آزماینده می تواند هنوز تفاوت قایل شود. برای مثال، گراس(819)  (1959) آزمون رورشاخ را روی 30 بیمار اجرا کرد، و در خصوص 20 نفر از آنها  با گفتن "بسیارخوب" یا تکان دادن سر پس از هر پاسخ محتوای انسان تقویت  اجتماعی را برای آنها فراهم کرد. بیمارانی که بدین ترتیب تقویت شدند، در  مقایسه با 10 نفر دیگر به طور معناداری پاسخهای محتوای انسان بیشتری را  ارایه دادند. اهمیت این تفاوتهای ظریف آزماینده که ممکن است او به آنها  واقف نباشد، باید برای خواننده روشن باشد.
حتی مشکل غامضتر این است که به آزمودنیها اغلب اجازه داده می شود که  پاسخهای مختلف چندی بدهند که طولهای نابرابری دارند. احتمالاً اثر محتوای  روان شناختی یک پاسخ یا مجموعه پاسخهای طولانی در مقایسه با یک پاسخ کوتاه  متفاوت است. پاسخهای کوتاه در آزمون رورشاخ یا TAT، عمدتاً مواد رایج یا  پیش پا افتاده را شامل می شوند. پراکندگی در طول پاسخ همچنین انجام مقایسه  های آماری را بی اندازه مشکل می کند.
مشکل دیگر در نمره گذاری تجلی می کند. در بعضی آزمونها مانند MMPI، نمره  گذاری جنبه مکانیکی دارد؛ یعنی، هیچ گونه قضاوت ذهنی در خصوص طبقه یک پاسخ  صورت نمی گیرد یا قضاوت ذهنی اندکی مورد استفاده قرار می گیرد. همین موضوع  در مورد بعضی از طبقه های نمره گذاری آزمونهایی مانند رورشاخ صادق است.  برای مثال، هنگامی که داده ها جمع آوری می شوند، تعیین تعداد کل پاسخهای  ارایه شده شامل هیچ قضاوتی نیست و یا قضاوت ناچیزی را در بر می گیرد. به  همین ترتیب، اندازه گیری بلندی یک شکل نقاشی یا مساحت کل آن، یک روش نسبتاً  مکانیکی است. ولی با این حال، تعیین اکثر نمره های حاصل از آزمونهای  فرافکن شامل چندین قضاوت ذهنی است، برای مثال، آیا این پاسخ رورشاخ شامل  رنگ یا حرکت انسان است؟ آیا این داستان TAT نیاز به پیشرفت یا مهرورزی را  نشان داده و یا اینکه هر دو را نشان می دهد؟ در خصوص آن دسته از آزمونهای  فرافکن که چند روش نمره گذاری مختلف ولی مشابه را در بر می گیرند، مشکل حتی  شدیدتر است.
اگرچه سؤال مربوط به پایایی نمره گذار به طور ساده یک توافق بین داوران و  درون داوران است، ولی باید به خاطر داشت که ناپایایی نمره گذاری در  ناپایایی آزمون تأثیر می گذارد. مورستاین(820) (1963، ص 146-144) جدول  خلاصه ای از پایاییهای نمره گذاران را در خصوص ویژگیهای نمره گذاری شده از  آزمون TAT ارایه کرده است. از 45 مطالعه ای که پایایی تحت لوای همبستگی در  آنها گزارش شده بود، میانه پایایی نمره گذاران 0/74 به دست آمد. با  پایاییهایی از این دست، مشکلات دستیابی به سطوح قابل قبول پایایی آزمون در  واقع زیاد هستند. با وجود این، می توان در این زمینه به پایاییهای بالاتری  نیز دست یافت. در این خصوص، هولت(821) (1978) داده های TAT حاصل از چند  منبع را گزارش کرد که حاکی از پایایی بالای نمره گذاران تا سقف 0/90 بودند.  دستیابی به ضرایب پایایی بالا معمولاً شامل راهنماهای مبسوطی است که طبقه  ها را با دقت تعریف کند و مثالهای نمره گذاری را ارایه دهد. از آنجایی که  کاربرد چنین راهنماهایی نیازمند توجه زیاد و تلاش وافر در تعمیم دادن یک  نمره واحد است، آنها بیشتر به جای قاعده یا حکم، موارد استثنایی را نشان می  دهند.
پایایی تفسیر کلی

توجه بیش از حد به رویکردهای مختلف در تعیین پایایی ممکن است از لحاظ علمی  خطر از دست دادن موضوع اصلی در پایایی را به همراه داشته باشد. آزمونها  فنون جمع آوری اطلاعات مربوط به شخصیت هستند و معمولاً در خصوص ارایه پیش  بینی هایی درباره رفتار آتی بر مبنای عملکرد شخصیت استوارند. به همین دلیل،  توجه غایی ما به پایایی باید معطوف این باشد که کدام آزمون مطرح است؛  یعنی، هرگاه آزمون رورشاخ برای به دست آوردن توصیف جامعی از عملکرد کلی  شخصیت به کار رود، آن گاه موضوع اصلی، پایایی این توصیفهای کلی است و نه  پایایی طبقه های نمره گذاری فردی.
در ارزیابی پایاییهای کلی چه چیزی مورد توجه قرار دارد؟ این روشها به  روشهایی شباهت دارند که قبلاً توصیف شدند. برای مثال، پایایی حاصل از روش  دو نیمه سازی را می توان با مقایسه تفسیرهای حاصل از بررسی نیمه های قابل  مقایسه آزمون ارزیابی کرد؛ پایایی حاصل از روش بازآزمایی شامل مقایسه  تفسیرهای حاصل از دو اجرای مختلف آزمون است؛ و پایایی بین داوران را می  توان با مقایسه تفسیرهای حاصل از اجرای یک آزمون که توسط داوران مختلف صورت  گرفته است، تعیین کرد. پایایی بین آزمایندگان را نیز می توان به روش  مشابهی ارزیابی کرد.
برای ارایه توصیفهای کلی شخصیت که به طور آماری می توان به همین شیوه آنها  را با یکدیگر مقایسه کرد، چهارچوبهای توصیفی چندی در خصوص شخصیت مورد نیاز  است. یک روش موسوم کاربرد مجموعه ای از مقیاسها یا ابعاد درجه بندی است که  با آزمون و نوع اطلاعات توصیفی مورد نیاز متناسب هستند. بدین ترتیب، تفسیر  به دنبال بررسی طرح کلی آزمون، با اختصاص دادن نمره ها یا جایگاهها به  آزمودنیها بر اساس این مقیاسها صورت می گیرد. یا آزمایندگان می توانند به  تعدادی از سؤالهای صحیح - غلط یا چندگزینه ای در خصوص موضوع پاسخ دهند. روش  مرسوم دیگر، استفاده از فن دسته بندی پرسش است. یک دسته بندی پرسش معمولی  شامل 100 کارت است که هر کدام یک توصیف شخصیت را در بر می گیرد. از  آزماینده خواسته می شود که طرح کلی آزمون را مطالعه کند و بعد، عبارتهای  توصیفی را در 9 دسته طبقه بندی کند که از حداقل وصف حال تا حداکثر وصف حال  آزمودنی را در بر می گیرد. تعداد کارتهایی که در هر دسته قرار می گیرند از  قبل تعیین می شوند. به طوری که هر داور توزیع یکسانی از کارتها را به دست  می دهد. در تمام این فنون، همبستگی رتبه ای یا درصد توافق روشها را می توان  برای تعیین یک شاخص عددی پایایی به کار برد (هرگاه قصد داشته باشیم که  پایاییهای مربوط به یک آزماینده واحد را تعیین کنیم، تعداد طرحهای آزمونهای  مورد داوری باید به اندازه کافی زیاد باشد که آزماینده نتواند به یاد آورد  یا حدس بزند که کدام مورد به کدام آزمودنی تعلق داشته است).
پایایی به دست آمده از هر روش ارزیابی باید با کاربرد همان روش متناسب  باشد. هرگاه پیش بینی های مربوط به رویدادهای به خصوصی ارایه شود، پایایی  این پیش بینی ها باید مورد بررسی قرار گیرد. هرگاه توصیفهای کلی شخصیت مورد  توجه باشد، این پایاییهای آنهاست که مورد توجه قرار می گیرند. گرچه اغلب  منابع اساسی دیگری نیز در زمینه پایایی وجود دارد (مانند پایایی نمره گذار)  که پایاییهای نهایی به آنها بستگی دارند، پایایی روش مورد استفاده، سؤال  مربوط به علاقه نهایی است..........در معیارهای سنجش تربیتی و روان شناختی (انجمن پژوهشهای تربیتی آمریکا،  انجمن روان شناسی آمریکا، شورای ملی اندازه گیری در تربیت، 1985) بر این  موضوع تأکید می شود که شواهد مربوط به اعتبار را می توان از طریق روشهای  مختلفی جمع آوری کرد. "اعتبار همواره به میزانی اشاره می کند که این شواهد  از استنباطهایی حمایت کند که از روی نمره ها به دست می آیند" (ص 9).  مدتهاست معلوم شده است که چون آزمونهای مختلف هدفهای متفاوتی دارند،  رویکردی که ممکن است برای نشان دادن اعتبار یک آزمون مناسب باشد، امکان  دارد احتمالاً برای یک آزمون دیگر مناسب نباشد. به طور کلی، سه نوع مختلف  شواهد مربوط به اعتبار را می توان به صورتهای زیر در نظر گرفت: الف) اعتبار  محتوا، ب) اعتبار وابسته به ملاک (پیش بین و همزمان)، و ج) اعتبار سازه.  این طبقه بندی سه گانه که بر اساس هدفهای آزمون استوار است، تا اندازه ای  ساختگی است؛ این طبقه ها تا اندازه ای همپوشانی دارند و معمولاً نشان دادن  این موضوع که یک آزمون به چندین شیوه اعتبار دارد، ضروری است. به دست دادن  شواهدی در خصوص اعتبار (بر اساس آزمودنیهای هدف یا استفاده کنندگان آزمون)  مستلزم روشی بیش از ارزیابی توصیف یا پیش بینی شخصیت حاصل از آزمون است.  فارر(822) (1949) به وضوح در مطالعه ای که میزان بالایی از توافق را در  خصوص توصیف شخصیت همسان و واحدی از دانشجویان لیسانس به دست داد، سفسطه  اعتبار "تصدیقی" یا "شخصی" را به تصویر کشید. این دانشجویان نمی دانستند که  آنها جملگی پسخوراند یکسانی را دریافت کرده بودند. اودل(823) (1972) حتی  در نشان دادن اعتقاد دانشجویان به این گزارشهای مبتنی بر اثر بارنوم، پا  فراتر گذاشت و نشان داد که این گزارشها دقیقتر از گزارشهای واقعی کامپیوتری  در مورد خود آنان بود.
اعتبار محتوا

شواهد وابسته به ملاک در خصوص اعتبار شامل نشان دادن این موضوع است که  محتوای آزمون معرف رفتارهای مورد توجه است. شواهد مربوط به محتوا رابطه  خاصی با آزمونهای پیشرفت و استعداد دارد که در آنها پاسخ ماده های آزمون به  وضوح نمونه هایی از رفتارهای مورد نظر هستند. ارزیابی شخصیت با استفاده از  نمونه های رفتار و آزمونهای موقعیتی، همان طوری که در فصل پنجم مورد بحث  قرار گرفت، همچنین شامل اعتبار محتوا از طریق فراخوانی مستقیم پاسخهای  مربوط است. برای مثال، فرض کنید ما بخواهیم آزمونی درباره رهبری تهیه کنیم و  به همین دلیل شرایط آماده کردن مجموعه ای از نمونه های رفتاری را فراهم می  کنیم که بر اساس آن پاسخ دهنده رفتارهای شاخص پاسخهای خود را به انتظارات  موقعیتی از رهبری نشان می دهد. اگر این موقعیتهای رفتاری در کل نمونه معرفی  از موقعیتهای رهبری (یا زیرمجموعه های کاملاً مشخصی از این موقعیتها)  باشند و هرگاه میزان ساختگی بودن ناشی از موقعیت سنجش به حداقل برسد، ما به  طور ساده بر مبنای این واقعیت که محتوای آزمون نمونه معرفی از رفتار مورد  نظر است، یک آزمون رهبری معتبر خواهیم داشت. به عبارت دیگر، اعتبار محتوای  یک آزمون با یک هدف خاص، ارزیابی ذهنی همان ملاک است. با وجود این، هرگاه  هدف یک آزمون پیش بینی رفتار تحت شرایط نسبتاً واقعی مانند رهبری در جنگ  باشد، آن گاه به چیزی بیش از اعتبار محتوا نیازمندیم.
گاهی مطرح می شود که پرسشنامه های شخصیت مداد و کاغذی هنگامی که به طور  ساده اعتبار محتوا (یا صوری) داشته باشند، یعنی، هنگامی که به صورت منطقی  به دست آمده باشند، اعتبار خواهند داشت. بنابراین، وجود سؤالهای مربوط به  تجزیه اختلال خلقی در یک مقیاس افسردگی، نبود انگیزش برای فعالیتهای روزانه  و کندی روانی - حرکتی را می توان به عنوان زمینه های منطقی مربوط به  سودمندی مقیاس در نظر گرفت. ولی رفتارهای بالینی افسردگی را نمی توان با  علامت زدن روی برگه پاسخ صحیح - غلط IBM نمونه گیری کرد. در واقع، این  همبسته های غیرآزمون یا زندگی واقعی این پاسخهاست که مورد توجه قرار دارند و  همین باید نشان داده شود. خوشبختانه، منطقی بودن (یا اعتبار محتوای) یک  مقیاس برای سازندگان آزمون یک شرط لازم در خصوص سودمندی آن است، اما با این  حال، یک شرط کافی نیست.
اعتبار وابسته به ملاک

در ارزیابی شخصیت، ما به خاطر برخورداری از یک جهت گیری عملی اغلب بیشتر به  شکلهای مختلف اعتبار پیش بین توجه می کنیم. اعتبار پیش بینی به "دقتی  اشاره دارد که بر اساس آن می توانیم درباره یکی از ویژگیهای فرد بر پایه یک  ویژگی دیگر" دست به پیش بینی بزنیم (گیزلی(824)، 1964، ص 338). این نوع  بررسی یا شاخص ارزیابی "پیش بین" و خصوصیتی که بر پایه آن حدس می زنیم،  "ملاک" نامیده نامیده می شود. شاخص عددی ساده اعتبار پیش بین از طریق  همبستگی بین پیش بین و ملاک به دست می آید. اعتبار پیش بینی یک روش مهم در  رویکرد گروههای ملاک برای آزمون سازی است. برای مثال، هرگاه بخواهیم افزایش  متوسط بیماران را هنگام پذیرش درمان روان پزشکی در مقیاسهای MMPI به عنوان  شاخصی از مدت زمانی که بستری می شوند به کار ببریم، می توان به بهترین  وجهی برای این منظور از اعتبار پیش بین سود جست. همبستگی بین افزایش متوسط و  روزهای بستری شدن در آینده شاخصی از اعتبار افزایش متوسط به عنوان پیش  بینی کننده بستری شدن است.
برای اطمینان حاصل کردن از این موضوع که همبستگی حاصل به طور ساختگی بالا  نیست، اهمیت زیادی دارد که شاخص ملاک را از "آلوده شدن" با متغیر پیش بین  حفظ کنیم. در مثال قبلی، افزایش کلی نیمرخMMPI بیماران نباید هیچ نقشی در  تعیین طول مدت زمان بستری شدن آنها داشته باشد. در بررسیهای انجام گرفته  روی ملاک و کاربرد علمی متغیر پیش بین، باید احتیاط زیادی را به عمل آورد  که محرمانه بودن نمره های متغیر پیش بین حفظ شود. در غیر این صورت، این  نمره ها تحت تأثیر "پیشگوییهای خودکام بخش" قرار می گیرند.
شواهد مربوط به اعتبار پیش بینی یک آزمون را باید برای هر نوع ملاکی که  انتظار پیش بینی آن می رود، نشان داد. این واقعیت که متوسط افزایش نمره در  MMPI را می توان برای پیش بینی طول مدت بستری شدن به کار برد، موفقیت آن را  در پیش بینی احتمال بستری شدن مجدد تضمین نمی کند، علی رغم اینکه هر دو  ملاک را بتوان به عنوان اندازه ها یا شاخصهای "موفقیت درمان" به کار برد.  علاوه بر این، این واقعیت که متوسط افزایش برای پیش بینی طول مدت بستری در  یک مکان خاص و با یک گروه خاص به کار برده شده عملاً به این معنا نیست که  در یک مکان دیگر نیز موفق خواهد بود. در این مورد، در خصوص گروه جدید باید  وارسی اعتبار صورت گیرد. روشهای موجود در وارسی اعتبار و مخاطره های  ناتوانی در انجام این کار در فصل چهار مورد بحث قرار گرفته اند.
اعتبار وابسته به ملاک لزوماً به پیش بینی در آینده اشاره نمی کند. در بعضی  موارد منطقی و گاه مفید است که برای یک رویداد همزمان به پیش بینی دست زد و  برای رویدادی که قبلاً رخ داده است، ولی نمی توان آن را مستقیماً بدون  کوششهای زیاد اندازه گیری کرد، به پس بینی توجه کرد. برای مثال، فرض کنید  که می خواهیم ماهیت و میزان نیازهای بین فردی گروهی از دانشجویان را تعیین و  اندازه گیری کنیم. در یک روش، مشاهده گران کارآزموده برای یک دوره زمانی  معین آنها را مورد بررسی قرار داده و اطلاعاتی را از موقعیتهای واقعی زندگی  به دست می آورند. در یک روش دیگر، مجموعه ای از آزمونهای موقعیتی به کار  برده می شوند و در روش سوم، یک پرسشنامه مداد و کاغذی به کار گرفته می شود  یا امکان دارد که آزمودنیها بر اساس مقیاسهای درجه بندی در مورد خودشان  قضاوت کنند. این پرسشنامه یا درجه بندیها به مثابه کوششهایی هستند که با  استناد به آنها درباره خصوصیات دانشجویان در یک زمان معین تصمیم گرفته می  شود. بدین ترتیب، اعتبار را می توان از طریق نمونه رفتارهای طولانی تر و  پرهزینه تر و روشهای آزمون موقعیتی تعیین کرد. در این خصوص، بدیهی است که  اعتبار محتوا نشان داده می شود و نتایج به عنوان ملاکی برای مقایسه با روش  مداد و کاغذی به کار می روند. چنانچه این نمونه های رفتاری یا شاخصهای  موقعیتی صرفاً در برخی از زمانهای آتی در دسترس باشند، آن گاه مجدداً  درباره آینده دست به پیش بینی می زنیم.
اعتبار سازه

شواهد مربوط به اعتبار سازه مفهومی است که در اولین نسخه مجله انجمن روان  شناسی آمریکا به نام استاندارد (1954) به کار رفت و توسط کرونباخ و میل  (1955) گسترش یافت. هدف از این اصطلاح یافتن عنوان مناسبی برای نشان دادن  اعتبار بود که تا قبل از آن زمان، بدون درک کاملی از منطق و تلویحات ضمنی  این روش به کار برده می شد. هنگامی که ملاک قطعی یا محسوسی برای کیفیت، صفت  یا ویژگی مورد نظر جهت بررسی وجود ندارد، چنین کاری منطقی به نظر می رسد.
اعتبار را می توان به روشهای مختلف طبقه بندی کرد؛ برای مثال، با استفاده  از بُعد عینی در برابر انتزاعی (یا جزیی در برابر مفهومی). غالباً ما به  همبستگیهای بین نمره های یک آزمون و یک ملاک به خصوص یا عینی مانند تعداد  بیماران بستری در بخشهای روان پزشکی یا تعداد خلافهای رانندگی علاقه مند  هستیم. بررسیهای مربوط به اعتبار پیش بین از این دست جذابیت زیادی دارند،  زیرا آنها در عمل مفید هستند و نیاز زیادی به پیچیدگیهای روش شناختی یا  نظری ندارند.
با وجود این، ما اغلب به اعتبار روابط بین اعتبارهای سازه یا انتزاعی نظیر  نیرومندی خود، اضطراب یا برون گرایی علاقه مند هستیم که برای آنها هیچ شاخص  واحد رایجی وجود ندارد. ما می توانیم اعتبار پیش بین شاخص بستری شدن در  بخشهای روان پزشکی یا شاخص ارتکاب به جرم را از طریق یک همبستگی واحد نشان  دهیم، ولی اثبات اعتبار سازه یک مقیاس اضطراب یا یک شاخص از هر مفهوم کلی و  انتزاعی دیگر در حوزه روان شناختی بسیار مشکل است. اعتبار سازه نیازمند  جمع آوری تدریجی شواهد حاصل از یافته های پژوهشی مختلفی است که شبکه ای از  روابط میان شاخص مورد نظر و مفاهیم مناسب دیگر را به تصویر می کشد. ماهیت و  میزان این روابط را باید از نظریه یا نظریه هایی که مفهوم مورد نظر را  مطرح کرده اند و از معنای قابل فهم متداول این مفهوم پیش بینی کرد.
بنابراین، برای دستیابی به شواهد اعتبار سازه مربوط به اضطراب، همان طوری  که از این اصطلاح بر می آید، فرد باید روابط مثبت میان این شاخص و رفتار  مورد بحث را در موقعیتهای استرس زای موقتی، انواع مختلف مشکلات روان پزشکی،  شاخصهای فیزیولوژیکی مانند عرق کردن کف دست و ضربان قلب و سایر رفتارهایی  که معمولاً با اضطراب همراه هستند، به دست آورد. علاوه بر این، باید مشخص  شود که هیچ رابطه ای بین این شاخص و خصوصیات معینی که به طور فرضی مستقل از  اضطراب
هستند مانند قد یا هوش وجود ندارد. دستیابی به اعتبار سازه یک وسیله اندازه  گیری را می توان به بهترین وجهی به عنوان تداوم برنامه ای در نظر گرفت که  در آن معنای اعتبار سازه به تدریج توسط ماهیت روابطی که بر آن اثر می  گذارند، روشنتر می شود و عینیت می یابد و طبعاً به وسیله آنها معنای این  سازه همان گونه که روابط غیرمنتظره کشف می شوند، از وضوح بیشتری برخوردار  می شود. در تحلیل پایانی، از آنجایی که هیچ ضریب واحد یا مجموع ضرایب مشخصی  که از قبل به عنوان شواهدی دال بر اعتبار سازه شاخص مورد نظر، وجود ندارد،  قضاوتهای مربوط به میزان اعتبار سازه وسیله مورد بحث باید لزوماً ذهنی  باشند.
مفهوم اعتبار سازه قویاً بر اساس زمینه هایی که در درک نظری رفتار انسان یا  دقت و یا کاربرد کارهای عملی کمکی به ما نمی کنند، مورد سؤال قرار گرفته  است. یک موضوع اساسی در ایرادهای وارده به اعتبار سازه به این نکته مربوط  می شود که ویژگی یا سازه فرضی به عنوان یک مفهوم واقعی در نظر گرفته می شود  تا یک پندار تبیینی قراردادی. ساربین (1968) با استفاده از اضطراب به  عنوان محور این بحث، به طور قانع کننده ای دامهای مربوط به این فرض را که  این حالتهای ذهنی یا صفتها مانند اضطراب از موجودیت واقعی برخودارند،  خاطرنشان ساخت. خطر عمده در یک پاسخ کلامی برای سؤالهایی مانند اینکه  "اضطراب" چیست؟ قرار دارد؛ سؤالی که نمی توان به گونه بامعنایی به آنها  پاسخ داد. ساربین اعتقاد دارد که کوششهای ما برای ساختن پندارها یا "اسطوره  های" علمی تابعی از نظام زمانی و عادتهای کلامی ما هستند و اینکه این  گرایشها نیازمند توجه و کنترل دقیق هستند. با وجود این، بیشتر ادبیات  تحقیقی جدید ما که فنون ارزیابی شخصیت را در بر می گیرد شامل اعتباریابی  سازه است و خوانندگان آگاه باید از مطالب و مشکلاتی که جزء لاینفک این روش  هستند، آگاه باشند.
اعتبار افزوده

هنگامی که یک آزمون به عنوان مبنایی برای پیش بینی در یک موقعیت بالینی به  کار برده می شود، تعیین سودمندی این آزمون به اندازه تعیین دقت پیش بینی  اعتبار پیش بین ساده نیست. همان طوری که سچرست(825) (1963) توضیح داد،  آزمونهایی مانند آزمون رورشاخ اغلب بعد از مصاحبه، خواندن گزارشها،  کنفرانسها و مانند آنها تفسیر می شوند. ظاهراً روشن است که اعتبار یک آزمون  باید بر اساس افزایشهای تدریجی در کارایی پیش بین اطلاعات مورد نظر مبتنی  باشد، زیرا در غیر این صورت، ساده و بی ارزش در نظر گرفته می شود (ص 154).  میل (b1959)، قبلاً در خصوص افزایش اعتبار و اطلاعات معنایی واضح (ص 114)، و  کرونباخ و گلیزر(1965) به تفصیل در خصوص همین موضوع با توجه به انتخاب  کارکنان بحث کرده بودند.
از آنجایی که ایده ارزشیابی سودمندی یک آزمون بر اساس اعتبار افزوده در آن  موقعیت به خصوص بسیار آشکار و مناسب است، تعجب آور است که بسیاری از  آزمونهای تشخیصی خاصی که در حوزه بالینی به کار می روند، اعتبار افزوده  اندکی را نشان می دهند؛ و علت این امر تا اندازه زیادی آن است که متخصصان  بالینی عموماً گرایش پایداری را به ارزشیابی کارایی رفتار آنها نشان نمی  دهند. در واقع، هاتاوی (1959) برآورد کرد که اگر متخصصان بالینی فعالیتهای  اندازه گیری خود را با توجه به کارایی ارزشیابی نمایند، بیش از 40 درصد این  فعالیتها را باید به کناری نهاد. تحقیقی که روشهای مختلف ارزیابی را بر  اساس اعتبار افزوده آنها مورد بررسی قرار داده، در فصل 8 مورد بحث قرار  گرفته است.
موفقیت و شکست

اعتبار پیش بین یک وسیله ارزیابی به طور سنتی بر اساس محاسبه همبستگی بین  نمره پیش بین و ملاک مورد نظر نشان داده می شود. هرگاه این ملاک، یک موقعیت  موفقیت یا شکست مانند این موقعیت را در بر بگیرد که آیا زندانیانی که  آزادی مشروط دارند مرتکب خلاف می شوند یا خیر، گهگاه اعتبار پیش بین به  صورت درصد پیش بینی های درست در نظر گرفته می شود.
کارکردن در قالب موفقیت و شکست (یا درصد موارد صحیح) امکان آن را فراهم می  آورد که اهمیت توجه به نرخ پایه یک رویداد را نشان دهیم؛ یعنی، نسبتی از  مواردی که این رویداد در جامعه مورد نظر روی می دهد. می توان مثال تخطی از  آزادی مشروط را در نظر گرفت. فرض کنید ما با توجه به تجربه قبلی می دانیم  که 30 درصد زندانیان احتمالاً در مدت آزادی مشروط خود مرتکب خلاف می شوند.  بنابراین، نرخ پایه ارتکاب به خلاف در مدت آزادی مشروط 30درصد یا 0/30 است.  حال چنانچه رفتار آتی این زندانیان را صرفاً بر اساس این اطلاعات پیش بینی  کنیم، می توانیم ادعا کنیم که هیچ کدام از این زندانیان در مدت آزادی  مشروط خود مرتکب خلاف نمی شوند. از آنجایی که 30درصد این عده در واقع در  زمره خلافکاران هستند (اگرچه ما نمی دانیم که کدام 30درصد مرتکب خلاف می  شوند)، در 30درصد موارد دچار اشتباه خواهیم شد؛ یعنی، در پیش بینی های خود  70 درصد درست عمل خواهیم کرد. اکنون فرض کنید که ما آزمودنی را تهیه کرده  ایم که این خلافکاران را در 65درصد موارد نشان می دهد. حتی اگر این آزمون  به ما امکان می دهد تا با احتمالی بیشتری از 50درصد شانس دست به پیش بینی  بزنیم، بر اساس نرخ پایه 70درصد پیش بینی دقیقتری خواهیم داشت.
ضمناً وقتی بدانیم که نرخ پایه کسانی که خلاف نمی کنند 70درصد است، نرخ  شانس این تخصیص واقعاً بیشتر از 50درصد است. چنانچه ما به طور تصادفی هر  70نفر از 100نفر زندانی را به طبقه "غیرمتخلفان" اختصاص دهیم، در 70درصد  موارد یا به طور متوسط 49 بار درست عمل خواهیم کرد. به همین ترتیب، تخصیص  تصادفی 30درصد باقی مانده به طبقه "متخلف" باید به 9 جایگزینی درست منجر  شود. بنابراین، در اختصاص دادن شانس 70/30، ما باید در 49 به اضافه 9 یا 58  درصد موارد درست عمل نماییم. بعضی از روان شناسان تا اندازه ای پیشتر می  روند و توجه می کنند که این "شانس" باید با نرخ پایه 70درصد مشخص شود.  اولین تحلیل مشروح از کاربرد داده های نرخ پایه در ارزشیابی صحت پیش بینی  در زمینه ارزیابی شخصیت توسط میل و روزن (1955) ارایه شده است.
در تحلیل های قبلی، ما تبعات نسبی نتایج دیگر را نادیده گرفتیم. به عبارت  دقیقتر، ما بدیهی فرض کرده ایم که هر دو نوع خطای احتمالی – شناسایی نکردن  متخلفان و برچسب غلط به غیرمتخلفان زدن- باید به یک اندازه تبعات منفی  داشته باشند. در عمل این احتمال وجود دارد که خطا در یک جهت در مقایسه با  خطایی که در جهت دیگر وجود دارد، از نتیجه منفی بیشتری برخوردار است. برای  مثال، می توانیم تصور کنیم که نتیجه منفی آزادی مشروط دادن به یک مجرم که  بعداً در این دوران مرتکب خلاف می شود با توجه به تمام موارد، در مقایسه با  آزادی مشروط ندادن به مردانی که در این دوران مرتکب خلاف نمی شوند، بسیار  بالاتر است. تحلیل های مفصلتر مشکلات توجه به نتایج مختلف توسط کرونباخ و  گلیزر(1965) و ویگینز(1973) صورت گرفته اند. این سؤالها به کارایی یا  کاربرد پیش بینی ها مربوط می شوند و بعداً در فصل هشتم تحت عنوان فرعی  "تصمیم گیری" مورد بحث قرار می گیرند.
کاربرد داده های نرخ پایه، قطع نظر از جامعه مورد بررسی، در خصوص استفاده  از نمره های برش خودکار در آزمونها، اطلاعاتی را به دست می دهد. برای مثال،  هاتاوی (b1956) گزارش داد که نمره T حدود 60درصد از بیماران اسکیزوفرن در  گروه اعتباریابی روان پزشکی وی در مقیاس Sc مربوط به MMPI با توجه به عامل  تصحیح K، 70 یا بالاتر بوده است، در حالی که تنها نمره حدود 2درصد از  آزمودنیهای بهنجار مربوط به اعتباریابی در این دامنه قرار داشت. فرض کنید  که این مقیاس به منظور تشخیص در کلینیکی به کار برده شده است که تقریباً  نیمی از بیماران آن مبتلا به اسکیزوفرنی و نیمی دیگر "بهنجار" هستند. یک  محاسبه ساده نشان می دهد که گذاشتن تشخیص اسکیزوفرنی روی تمام بیمارانی که  نمره 70 یا بالاتر دارند باعث می شود که 79درصد از تمام بیماران، اسکیزوفرن  تلقی شوند. این محاسبه در جدول 1-7 آورده شده است. از بین تمام بیمارانی  که با استفاده از این آزمون، روی آنها تشخیص اسکیزوفرنی گذاشته شده است، در  واقع، 30 نفر تقسیم بر 39 نفر (یا 97درصد) به اسکیزوفرنی مبتلا هستند.  اکثر اشتباهات صورت گرفته در جهت گذاشتن تشخیص غیراسکیزوفرنی روی بیماران  است و لذا یک نمره برش پایین تر (برای مثال، 65) کارایی کلی تشخیص را  افزایش می دهد. نکته مهمی که در اینجا وجود دارد این است که استفاده از  نمره 70 به عنوان نمره برش تضمین می کند که تقریباً تمام بیمارانی که با  استفاده از این آزمون روی آنها تشخیص اسکیزوفرنی گذاشته شده است، در واقع،  به اسکیزوفرنی مبتلا هستند. مقیاس Sc در عمل به اندازه ای که در اینجا  توصیف شد، کارایی ندارد؛ زیرا تعدادی از 50درصدی که بهنجار هستند به واسطه  اختلالهای دیگری که دارند، نمره های Sc بالایی خواهند داشت.
اکنون فرض کنید که ما این آزمون را روی دانشجویان ظاهراً بهنجار دانشگاه  اجرا کردیم و عملاً 1درصد آنها به اسکیزوفرنی مبتلا هستند. چنانچه همین  نمره برش 70 به کار برده شود، با استفاده از این آزمون می توان روی 2/6  درصد این دانشجویان تشخیص اسکیزوفرنی گذاشت. این وضعیت در جدول 2-7 نشان  داده شده است. به عبارت دیگر، اکثر دانشجویانی که در مقیاس Sc نمره 70 یا  بالاتر می گیرند، اسکیزوفرن نیستند. بیان این پیش بینی بر اساس موارد  موفقیت و شکست و نرخهای پایه نشان می دهد که اگرچه صحت پیش بینی برای  دانشجویان (97/6 درصد) در مقایسه با بیماران (79درصد) بسیار بیشتر است، این  آزمون به طور کلی هنگامی که در خصوص جامعه ای به کار رود که برای آن تهیه  نشده است، کارایی نخواهد داشت. با وجود این، این امر به معنای انکار این  موضوع نیست که دانشجویانی با نمره Sc بالا متفاوت از دانشجویانی با نمره  پایین هستند. این تفاوتها را می توان از طریق بررسیهای خاص مربوط به اعتبار  که روی دانشجویان دانشگاه انجام شده است، مورد بررسی قرار داد.
جدول 1-7: درصد مربوط به بیمارانی که با استفاده از مقیاس Sc روی آنها  تشخیص اسکیزوفرن یا بهنجار گذاشته شده است. در اینجا نمره برش 70 است و  عملاً نیمی از افراد بیمار و نیمی دیگر بهنجار هستند........نمره T ــــــــــ عملاً اسکیزوفرن ـــــــــــ عملاً بهنجار ـــــــــ کل
نمره T برابر 70 یا بالاتر ـــــــــــ 30 a,b ــــــــــــ 1cــــــــــــ 31
(به عنوان تشخیص اسکیزوفرنی)
نمره پایین تر از 70 ـــــــــــ 20dــــــــــــ 49a,eـــــــــــــ 69
(به عنوان ملاکی برای بهنجاری)
کل ــــــــــــ 50 ـــــــــــــ 50 ــــــــــــــ 100
a تشخیص درست. c مثبت های نادرست. e منفی های درست
b مثبت های درست. d منفی های نادرست.
این مثال که در خصوص خطر کاربرد نمره های برش خودکار بیان شد، همچنین مشکل   صحت پیش بینی را در مواردی که رویدادهای مورد پیش بینی به ندرت اتفاق می   افتند، نشان می دهد. از جدول 2-7 چنین بر می آید که احتمالاً تلاش جهت به   کارگیری مقیاس Sc برای شناخت درست اسکیزوفرنهای معدودی که در میان جامعه   دانشگاهی یافت می شوند، کوشش بیهوده ای خواهد بود. مشکل پیش بینی رویدادهای   نادر با توجه به پدیده خودکشی به عنوان موردی که خیلی کم رخ می دهد، توسط   روزن (1954) مورد بررسی قرار گرفته است. روزن با برآورد نرخ خودکشی به   میزان 0/0033 در میان بیماران روان پزشکی و فرض یک نرخ پیش بینی به میزان   75درصد، با استفاده از داده های فرضی نشان داد که حتی اگر چه نمره برش در   یک مقیاس تعیین خودکشی به اندازه ای بالا باشد که تنها 2/5 درصد از موارد   واقعی خودکشی به طور صحیح شناسایی شوند، روی بیش از 98 درصد این بیماران به   اشتباه تشخیص "اقدام به خودکشی" گذاشته می شود. نیازی به گفتن نیست که  این  مشکل همواره حتی به صورت ناشناخته در تلاش به منظور شناسایی بیمارانی  که  قصد خودکشی دارند (از طریق قضاوت بالینی یا ذهنی)، وجود دارد.
قطع نظر از دشواری پیش بینی، به علت ضرورت شناسایی بیمارانی که قصد خودکشی   دارند، روشهای پیشگیری از آن باید کاملاً مشخص شود. روزن اشاره می کند که   وقتی مسئولان بیمارستان بر این باورند که از خودکشی باید به هر قیمتی   پیشگیری کرد، روش معمول آن است که از طریق شناسایی تعداد زیادی از "مثبت   های نادرست"، دچار خطا شویم. بنابراین، تقریباً هر بیماری که نشانه های   خودکشی را بروز می دهد (خواه در یک مقیاس بالینی یا در یک مقیاس روان سنجی)   به عنوان فردی که قصد خودکشی دارد، مورد توجه قرار خواهد گرفت. علاوه بر   این، بعضی از پیشرفتهایی که در پیش بینی روان سنجی به عمل آمده، ناشی از   جمع آوری دقیق داده های مفصل در طی سالیان متمادی است. این داده ها امکان   طبقه بندی و شناسایی دقیقتر بیمارانی را فراهم می کند که قصد خودکشی در   آنها نسبتاً شایعتر است. این نوع بررسیها توسط فاربرو، اشنایدمن و نورینگر   (1966) صورت گرفته که البته توسط برخی از پژوهشگران ادامه یافته اند. به   ویژه، بک (1986)، بک، برچیک، استوارت، و استیر (1990) دریافته اند که   ناامیدی یک عامل پیش بینی کننده مهم در خودکشی است. وی با کمک همکاران خود   مقیاس قصد خودکشی (بک، شویلر، و هرمان، 1974) و مقیاس فکر خودکشی (بک،   کوواکس، و وایس من، 1979) را تهیه کرده است.
جدول 2-7: درصد دانشجویانی که با استفاده از مقیاس Sc تشخیص اسکیزوفرن یا   بهنجار روی آنها گذاشته شده است. در اینجا نمره برش 70 است و 1درصد افراد   عملاً اسکیزوفرن و 99درصد بهنجار هستند.
نمره Tـــــــــــــ عملاً اسکیزوفرن ــــــــــــ عملاً بهنجار ـــــــــــ کل
نمره T برابر با 70 یا بالاتر ـــــــــــــ 0/6aـــــــــــــ 2 ــــــــــــ 2/6
(به عنوان تشخیص اسکیزوفرنی)
نمره T برابر با 70 یا پایین تر ـــــــــــــ 0/4ــــــــــــــ 97a ــــــــــــ 97/4
(به عنوان ملاکی برای بهنجاری)
کل ــــــــــــ 1 ــــــــــــ 99 ـــــــــــــــ100
نسبتهای گزینش

در بحث درباره اعتبارهای وابسته به ملاک، فرض کرده ایم که پیش بینی ها یا   تصمیم هایی چند باید برای هر مراجع اتخاذ شود؛ یعنی، ما مجبوریم که برای  هر  فرد تصمیم بگیریم. تحت چنین شرایطی، ما با مشکل متفاوتی روبه رو هستیم:   گزینش که با توجه به آن نیازی نیست که برای هر فرد عمل تخصیص صورت گیرد.   فرض کنید که از ما خواسته شده است تا 10 بیمار اسکیزوفرن را از یک بخش 200   نفری انتخاب نماییم، ولی دقیقاً نمی دانیم که آنها چه افرادی هستند. شانس   ما در انجام این کار از طریق اجرای یک آزمون مربوط به اسکیزوفرنی و  انتخاب  10 نمره بالا حتی اگر اعتبار پیش بین این آزمون متوسط باشد، بسیار  زیاد  است. دلیل این امر نیز آن است که ما این پیش بینی را برای اکثریت  بیماران  به عمل نخواهیم آورد. از نظر ما این پیش بینی فقط به معدودی از  بیماران  مربوط می شود که به احتمال زیاد در مورد آنها صادق است؛ یعنی،  بیمارانی که  نمره های افراطی دارند.
نسبت گزینش به عنوان تعداد افرادی تعریف می شود که از میان تعداد کل مورد   نظر برگزیده شده اند. در این مثال، نسبت مورد نظر 10 به 200 یا 0/05 است.   هر چقدر که این نسبت کمتر باشد، موفقیت این گزینش با توجه به همان اعتبار   پیش بین قبلی بیشتر خواهد بود. عامل دیگری که بر دقت این گزینش اثر می   گذارد نسبت بیماران مورد نظر در گروه تحت بررسی است؛ یعنی، نرخ پایه. در   این مثال، نرخ پایه 100 به 200 یا 0/05 است. در این خصوص، جداول مورد نظر   (تایلر و راسل، 1939) برای نشان دادن صحت گزینش مورد انتظار با توجه به   اعتبار پیش بین، نرخ پایه و نسبت گزینش در دسترس هستند. در مثالی که با آن   روبه رو بودیم، فرض کنید که آزمون مربوط به اسکیزوفرنی دارای یک ضریب   همبستگی اعتبار پیش بین با مقدار 0/4 است. جداول تایلر- راسل نشان می دهند   که ما به احتمال زیاد با موفقیت از میان 10 نفر، 8 اسکیزوفرن را شناسایی   کرده ایم. با وجود این، فرض کنید که صرفاً 20 بیمار وجود دارند که باید از   میان آنها دست به انتخاب زد (در اینجا فرض بر آن است که نیمی از این عده   واقعاً اسکیزوفرن هستند). نسبت گزینش در اینجا 10 به 20 یا 0/50 است و   جداول تایلر- راسل نشان می دهند که احتمال گزینش ما 6 اسکیزوفرن از 10 نفر   یا اندکی بیشتر از شانس، یعنی، 0/50 است.
نسبتهای گزینش در جایی که بسیاری از افراد با یکدیگر رقابت دارند، دارای   اهمیت زیادی هستند. تحت چنین شرایطی، از آزمونی که اعتبار پیش بینی اندکی   دارد می توان برای به دست دادن گزینشهای نسبتاً دقیق استفاده کرد. این   وضعیت اغلب در انتخاب یک فرد از میان مجموعه ای از افراد جهت احراز یک شغل   مناسب پدید می آیند. علت دیگر این امر به موقعیتی بر می گردد که خدمات   درمانی موجود مانند روان درمانی محدود بوده و بسیاری از بیماران در پی   درمان هستند.
متغیرهای تعدیل کننده

مدتهاست که آماردانان دریافته اند چه چیزهایی برای آنها به عنوان نوعی   عوامل ظاهراً دلفریب و درست عمل می کنند. یکی از این عوامل در جداول تایلر-   راسل نهفته است و همان طوری که قبلاً توصیف شد برای افزایش اعتبار پیش  بین  در مواردی به کار می رود که یک نسبت گزینش مناسب وجود داشته باشد.  استفاده  از متغیرهای تعدیل کننده روش دیگری برای به دست آوردن اعتبارهای  پیش بین  بالا تحت این شرایط خاص است.
مفهوم متغیرهای تعدیل کننده در اصل توسط گیزلی (1956، 1963) و ساندرز   (1956) معرفی شد. تعدیل کننده نوعی اطلاعات است که می توان از آن برای پیش   بینی دقت متغیر پیش بینی کننده دیگر جهت یک آزمودنی یا مجموعه آزمودنیها   استفاده کرد. برای مثال، چنانچه بتوان نمره های دانشجویان وسواسی دانشگاه   را از نمره های آزمون استعداد آنها پیش بینی کرد، ولی نتوان این کار را در   مورد نمره های دانشجویان غیروسواسی انجام داد، در نتیجه می توان از یک   مقیاس وسواس برای تعدیل پیش بینی این نمره ها از نمره های آزمون استعداد   استفاده کرد؛ یعنی، برای شناسایی آن دسته از دانشجویانی که این پیش بینی   برای آنها نسبتاً دقیق خواهد بود و دانشجویانی که این پیش بینی برای آنها   دقیق نخواهد بود.
چنانچه ما علاقه خود را صرفاً به دانشجویان کاملاً وسواسی منحصر نماییم،   اعتبار پیش بین نمره های دانشگاهی به مراتب بالاتر از نمره های دیگر خواهد   بود. به عبارت دیگر، ما پیش بینی را به بهای کار کردن با افرادی که می   دانیم برای آنها از بیشترین اعتبار برخوردار است، بالا برده ایم. متغیر   تعدیل کننده از لحاظ منطقی با نوع خاصی از تعامل در کاربرد تحلیل واریانس   به منظور بررسی نتایج تحقیق معادل است. وضعیت فوق در شکل 1-7 منعکس شده است   که نتایج همین مطالعه فرضی را نشان می دهد. رابطه آشکار را می توان بین   نمره های آزمون استعداد و نمره های دانشگاهی دانشجویان وسواسی دید که البته   برای دانشجویان غیروسواسی صادق نیست.
در وهله اول، امکانات افزایش پیش بینی از طریق کاربرد متغیرهای تعدیل کننده   در ارزیابی شخصیت مهم و جدی به نظر می رسند. این مفهوم بدون شک به طور   غیررسمی در بسیاری از موقعیتها به کار برده می شود. برای مثال، چنانچه دکتر   جونز در تشخیص ویژگیهای اختلال شخصیت افرادی که به کلینیک وی مراجعه می   کنند تبحر داشته باشد، احتمال بیشتری وجود دارد که مصاحبه کننده این   مراجعان را به نزد دکتر جونز جهت معاینه تشخیصی بفرستد. چنانچه این قاعده   را تعمیم دهیم، این امکان وجود دارد که یک متغیر تعدیل کننده را در نظر   بگیریم. این متغیر نشان می دهد که ما باید تا چه اندازه توجه خود را معطوف   پروتکل رورشاخ یک بیمار یا نیمرخ MMPI جهت دستیابی به تشخیص روان پزشکی   نماییم. در یک سطح پیچیده تر، امکان آن وجود دارد تعیین کنیم که آیا برای   یک بیمار خاص یا گروهی از بیماران باید بیشترین توجه خود را معطوف پروتکل   رورشاخ، آزمون رسم آدمک، نیمرخ MMPI، اطلاعات زیست نگاری یا هر منبع دیگری   از داده ها نماییم یا خیر.
شکل 1-7: تعامل بین نمره های دانشگاه و ابتلا به وسواس که در جهت تعدیل پیش   بینی نمره ها بر اساس نمره های آزمون استعداد عمل می کند. (توضیح شکل)
امروزه، اکثر پژوهشهایی که در خصوص متغیرهای تعدیل کننده صورت گرفته معطوف   پیش بینی موفقیت در زمینه های تحصیلی یا استخدامی بوده است. گیزلی (a1960)   در کوششی که به منظور افزایش پیش بینی درآمد در بین رانندگان تاکسی انجام   داد، دریافت که از یک متغیر تعدیل کننده که بر اساس سن و تحصیلات است می   توان برای نشان دادن این موضوع استفاده کرد که کدام یک از این دو مقیاس   توانایی (یعنی، آزمونهای توانایی فضایی و حرکتی) پیش بینی کننده بهتری است.   در این مطالعه، آزمون فضایی برای رانندگان مسنتر و با تحصیلات کمتر عامل   پیش بینی کننده بهتری بود. گیزلی (b1960) همچنین نشان داد که می توان با   استفاده از رویکرد گروههای ملاک به طور تجربی متغیرهای تعدیل کننده را به   دست آورد. خصوصیتی که از طریق اجرای یک پرسشنامه مورد پیش بینی قرار داشت،   اجتماع پذیری بود. عامل پیش بینی کننده که همبستگی اندکی با اجتماع پذیری   داشت هوش بود و این متغیر با استفاده از یک سیاهه توصیف خود، اندازه گیری   گردید. با توجه به متغیر تعدیل کننده دو گروه ملاک انتخاب شدند. گروه  "قابل  پیش بینی" متشکل از افرادی بود که نمره های آنها تقریباً حول و حوش  توزیع  اجتماع پذیری و هوش قرار داشتند. گروه دیگر، گروه "غیرقابل پیش  بینی" را  تشکیل می داد. بعد، پاسخهای موجود به سیاهه توصیف خود جهت پیدا  کردن ماده  هایی که بین دو گروه تمایز قایل می شدند، مورد بررسی قرار  گرفتند و این  ماده ها مقیاس تعدیل کننده را شکل دادند. نتایج بررسی مربوط  به اعتباریابی  با یک نمونه جدید نشان داد که از این مقیاس می توان برای  قابل پیش بینی  ترین افراد استفاده کرد.
اگرچه زمینه اصلی پژوهش مربوط به متغیرهای تعدیل کننده به افزایش پیش بینی   موفقیت تحصیلی یا شغلی ارتباط داشته است، پژوهشهای مناسب بالینی نیز صورت   گرفته اند. فالکرسون (1959) نشان داد که اعتبار یک آزمون شخصیت جهت پیش   بینی سازگاری کلی به بُعد شخصیت برون گرایی - درون گرایی یا هیستری-   پسیکاستنی ارتباط پیدا می کرد، زیرا آزمودنیهای درون گرا در پاسخهای خود   بسیار دقیقتر بودند. تاملینسون (1967) در یک بررسی مربوط به قضاوت بالینی،   نشان داد که داورانی با نیاز به پیشرفت بالا در مقایسه با سایر داوران (پس   از مصاحبه مستقیم با مراجع) پیش بینی های دقیقتری را درباره مراجعان به  عمل  می آورند، ولی هنگامی که مراجع را از پشت آینه یکطرفه مشاهده می  کردند، از  دقت پیش بینی های آنها کاسته می شد. کلوم و هویبرگ (1971) در  یکی از  بررسیهای خود که به مشکلات روان پزشکی مردان در یک منطقه جنگی  مربوط می شد،  توانستند نرخ تصمیمهای موفقیت آمیز حمله آنها را بر اساس  بازگشت به جبهه  از طریق استفاده از طبقه های تشخیصی به عنوان تعدیل کننده  پیش بینی (که بر  اساس متغیرهای شرح حال نگاری قرار داشت)، افزایش دهند.
اصول زیربنایی و اساسی کاربرد متغیرهای تعدیل کننده کدام اند؟ در دو مثال   اول فوق – یعنی، پیش بینی نمره های دانشجویان و موفقیت در میان رانندگان   تاکسی - می توان از عقل سلیم یا تبیین های منطقی برای توجیه این موضوع   استفاده کرد که چرا گروههای فرعی خاصی در مقایسه با بقیه از قابلیت پیش   بینی بیشتری برخوردارند. بنابراین، می توان انتظار داشت که دانشجویان   وسواسی احتمالاً در خصوص محدوده تواناییهای خود تلاش می کنند و دانشجویانی   که از وسواس کمتری برخوردارند به طور انتخابی زمان خود را صرف واحدهایی می   کنند که به آنها علاقه دارند. نکته ای که در اینجا تبیین آن مشکل تر است   این موضوع است که مقیاسهای تعدیل کننده تجربی را می توان بدون داشتن هیچ   گونه محتوای متناسبی تهیه کرد. بحث مربوط به تبیین های روان سنجی احتمالی   که البته فراتر از این کتاب است، توسط هوبرت و دونت (1967) ارایه شده است.   زدک (1971) در این زمینه کلی یک مرور و بحث جامعی را ارایه کرده است.
در خصوص کاربرد متغیرهای تعدیل کننده در افزایش پیش بینی، محدودیتهای چندی وجود دارد.
ابتدا امکان آن وجود ندارد که برای تمام پیش بینی ها متغیر تعدیل کننده   داشته باشیم. اسمیت و لانیون (1968) از داده های شرح حال نگاری برای مشخص   کردن آن دسته از مجرمانی استفاده کردند که در دوران آزادی مشروط خود مرتکب   خلاف شده بودند و بعد کوشیدند تا یک مقیاس تعدیل کننده تجربی را در اساس   ماده های MMPI به منظور بالا بردن این پیش بینی تهیه کنند. ولی در این خصوص   هیچ گونه افزایشی به دست نیامد، زیرا احتمالاً عوامل تعیین کننده اینکه   آیا در طی آزادی مشروط خلافی صورت می گیرد یا خیر، ضمنی بوده و تا زمانی که   دوره آزادی مشروط آغاز نشده باشد، قابل تشخیص نیستند. محدودیت بالقوه   دیگر، توسط بم و آلن (1974) مشخص شد و ما درباره آنها در فصل دوم بحث   کردیم. آنها نشان دادند که افراد از لحاظ ثبات رفتاری در زمینه های معین به   گونه پایایی تفاوت دارند و اینکه "ثبات" هر صفت را می توان از طریق درجه   بندیهای شخصی ارزیابی کرد. همان طوری که قابل پیش بینی بود، افرادی با  ثبات  زیاد در مقایسه با افرادی که ثبات پایینی داشتند، قابلیت پیش بینی  بیشتری  را نشان دادند. بنابراین، روشن است که اهمیت ندادن به تعدیل کننده  ممکن است  "ثبات" باشد و اینکه بعضی افراد به طور ساده حداقل در بعضی زمینه  های خاص  باثبات تر و قابل پیش بینی تر از دیگران هستند. چنانچه بتوان  نشان داد که  این حالت یک خصوصیت شخصیت کلی است، آن گاه قابلیت بالینی  تعدیل کننده ها تا  اندازه زیادی محدود خواهد بود، زیرا همان فردی که برای  مثال در آزمون MMPI  نمره بالایی در یک متغیر تعدیل کننده به دست می آورد،  در تمام منابع  اطلاعاتی شخصیت در خصوص تعدیل کننده ها نمره بالایی را کسب  می کند.
اگرچه کارکرد اولیه متغیرهای تعدیل کننده به عنوان یک عامل مهم در افزایش   دقت در زمینه ارزیابی شخصیت برآورده نشده است (برای مثال، آناستازی، 1988)،   هنوز پژوهشهای دیگری در این زمینه مورد توجه هستند. برای مثال، کوششهایی   به منظور شناخت تعدیل کننده های روابط بین وقایع زندگی استرس زا و   اختلالهای روانی در بزرگسالی (جانسون و ساراسون، 1979) و کودکان (ساندلر،   1980) صورت گرفته اند. در این زمینه منصفانه است بگوییم که بررسی متغیرهای   تعدیل کننده پیشرفتی را در تکنولوژی ارزیابی شخصیت نشان می دهد، زیرا این   امر فراتر از بررسیهای کلی مربوط به اعتبار قرار می گیرد و پرسش میزانهای   مختلف اعتبار را برای انواع مختلف افراد تحت شرایط متفاوت مد نظر قرار می   دهد.
پی نوشت:

822- Forer
823- O'Dell
824- Ghiselli
825- Sechrest................................................................................................پاسخهای ارایه شده به روشهای ارزیابی شخصیت، علاوه بر  خصوصیات شخصیت آزمودنیها تحت تأثیر متغیرهای دیگر نیز قرار دارند. اگرچه  ویژگیهای شخصیتی یک فرد به طور کلی تعیین کننده های مهم پاسخهای وی هستند،  با این حال، بر مبنای پژوهش و نظریه اکنون می دانیم که این پاسخها فرآورده  های پیچیده تعداد چندی از متغیرهای روان شناختی، جامعه شناختی، زبان شناختی  و عوامل دیگر هستند که بسیاری از آنها با اهدافی که روشهای ارزیابی دارند،  رابطه ای ندارند. برای مثال، پاسخهای آزمون شخصیت را می توان تحت تأثیر یک  میل هشیار جهت نشان دادن یک سازگاری خوب یا صراحت پاسخهای "صحیح" به ماده  های مختلف دانست. این پاسخها همچنین ممکن است تحت تأثیر تجربه های اخیر  مانند دیدن یک تصویر حرکت دراماتیک باشند؛ مثلاً، به عنوان یک مثال دیگر،  تفاوتهای خرده فرهنگی در کاربرد کلمه های ارزیابی مانند اغلب و خیلی ممکن  است بر پاسخهای آزمون تأثیر گذارد. بررسی اینکه چگونه این عوامل نامربوط  نظامدار که معمولاً سوگیریهای پاسخ، آمایه های پاسخ یا سبکهای پاسخ نامیده  می شوند، بر پاسخهای داده شده به وسایل ارزیابی شخصیت تأثیر می گذارند، هم  برای بهبود کارایی در کاربرد ابزارهای جدید ضروری هستند. در اینجا اصطلاح  زیربنایی تحریفهای پاسخ به کار برده شده است.
علاقه روان سنجان به تأثیر تحریفهای پاسخ از دهه 1920 آغاز شد؛ یعنی، از  زمانی که تصور بر آن بود که پرسشنامه های مستقیم از ارزش اندکی برخوردارند،  زیرا امکان آن وجود داشت که به سادگی به آنها پاسخهای جعلی و نادرست داده  شود. کرونباخ (1941، 1942، 1946، 1950) یکی از اولین افرادی بود که توجه  رسمی مستقیم خود را به موضوع کلی تحریفهای پاسخ مبذول کرد. او به تحریف  کردن اثر گرایشهای دانشجویان به حدس در خصوص پاسخهای مربوط به امتحان  پیشرفت کلاسی درست – غلط علاقه نشان داد. تحریفهای پاسخ همچنین مورد توجه  هاتاوی و مک کین لی به ویژه در تهیه و تدوین MMPI بودند و این نتیجه به  سایر ابزارهای اندازه گیری شخصیت تعمیم داده شد: انواع گزارشهای شخصی، و آن  گاه رورشاخ، TAT و سایر آزمونهای فرافکن.
بعضی از منتقدان به این موضع افراطی گرایش داشته اند که پاسخهای موجود به  آزمونهای شخصیت علاوه بر تحریفهای پاسخ اطلاعات اندکی را نشان می دهند و  اینکه هرگونه کوششی برای استفاده از این آزمونها جهت ارزیابی گرایشهای پاسخ  زیربنایی که معمولاً تحت عنوان حلقه شخصیت گرد می آیند، محکوم به شکست  هستند. دیدگاه دیگری که ما با آن موافق هستیم، این است که اگرچه در خلال  ساخت آزمون خهت به حداقل رساندن اثرات تحریف پاسخها باید کوششهایی چند صورت  گیرد، ولی آنها همسانیهایی در رفتار هستند که گاهی امکان استنباطهای مفیدی  را درباره شخصیت و رفتار آتی افرادی که آنها را نشان می دهند، فراهم می  آورند. موضوع اصلی در سراسر این بحث، درباره ارزیابی شخصیت، درجه و میزانی  است که بر اساس آن، استنباطهای حاصل از پاسخهای داده شده به ابزارهای  ارزیابی می توانند از یک مبنای تجربی برخوردار باشند. پاسخهایی که با  رفتارهای غیرآزمونی مورد توجه ارتباطی ندارند، طبق تعریف واریانس خطا را  تشکیل می دهند و به همین دلیل برای حذف یا کاهش آنها باید کوششهای قابل  ملاحظه ای صورت گیرد. از طرف دیگر، پاسخهایی که با رفتارهای مرتبط با شخصیت  ارتباط دارند، باید قطع نظر از عنوانی که دارند، مورد بررسی قرار بگیرند.
دو نوع تحریف پاسخ وجود دارد: سبک پاسخ (جکسون و مسیک، 1958) است که به  گرایش در تحریف کردن پاسخها در یک جهت خاص (البته قطع نظر از محتوای محرک)  اشاره دارد. نمونه هایی از سبکهای پاسخ عبارت اند از: گرایش به دادن پاسخ  "درست" به طور نامتناسب در یک سیاهه درست - غلط و گرایش به انتخاب یک گزینه  خاص مانند گزینه ج در یک آزمون چند گزینه ای. پاسخ دهی زیاد نیز که در فصل  ششم با توجه به مقیاسهای درجه بندی مورد بحث قرار گرفت، یک سبک پاسخ است.  گرایش به کل لکه یا رنگ به جای شکل لکه در آزمون رورشاخ نیز نمونه ای از یک  سبک پاسخ است. چون محتوای محرک آزمون معمولاً یک تعیین کننده قوی پاسخ است  که وجود دارد، اثر سبکهای پاسخ هر چقدر که محتوا از ابهام بیشتری برخوردار  می شود، زیادتر خواهد شد. بنابراین، ما موقعیت جالبی داریم که در خصوص  ابزارهایی که محتوای محرک آنها مانند رورشاخ نسبتاً مبهم است، سبکهای پاسخ  تعمداً بررسی شوند و به عنوان شاخصهای مهم عوامل شخصیت مورد توجه قرار  گیرند. در خصوص پرسشنامه هایی که حالت گزارش شخصی دارند، پارامترهای سبک  پاسخ معمولاً تا اندازه زیادی به عنوان واریانس خطا محسوب می شوند.
دومین نوع تحریف پاسخ، یعنی، "آمایه پاسخ" به میل هشیار یا ناهشیار آزمودنی  جهت پاسخگویی به شیوه ای اطلاق می شود که تصویر خاصی از وی ایجاد شود. در  این کاربرد سنتی، فرد دارای آمایه ای جهت پنهان کاری و تمارض برای نشان  دادن پرخاشگری، سلامت یا احراز شغل" است (رورر، 1965، ص133). آمایه های  پاسخ به طور کاملاً متفاوت از سبکهای پاسخ که می توان آنها را به طور نسبی  "جدا از محتوا" در نظر گرفت، تا اندازه زیادی توسط محتوای محرک تعیین می  شوند: هرچقدر محتوا روشنتر و یا از ابهام کمتری برخوردار باشد، تأثیر آن بر  آمایه های پاسخ بیشتر خواهد بود. چون آزمون های فرافکن مانند رورشاخ و TAT  در مقایسه با پرسشنامه های شخصیت خودسنجی از ابهام بیشتری در محتوای محرک  برخوردارند، فرض شده است که آزمونهای فرافکن کمتر تحت تأثیر آمایه های پاسخ  در مقایسه با پرسشنامه ها قرار می گیرد. با وجود این، شواهد پژوهشی خاصی  که بعداً در این فصل مورد بحث قرار می گیرد، نشان می دهد که این فرض چندان  مورد حمایت قرار نگرفته است.
باید خاطرنشان کرد که یک پاسخ یا الگوی خاصی از پاسخها را می توان با  استفاده از سبک پاسخ، آمایه پاسخ یا آمیزه ای از تأثیر همزمان آمایه و سبک  پاسخ فرا خواند. بنابراین، آزمودنیهای "دفاعی" می توانند آمایه پاسخ را به  کار گیرند و اطلاعات ناچیزی را درباره خودشان افشا کنند و یا از سبک پاسخ  استفاده کرده و گزینه "نمی دانم" یا "مطمئن نیستم" را در پرسشنامه ها  برگزینند. یک برنامه مناسب در خصوص ارزیابی شخصیت، پیش بینی های مناسبی را  در زمینه این دو جنبه تحریف پاسخ به دست می دهد.
تفاوتهای چشمگیری از لحاظ اهمیتی وجود دارد که به سبکهای پاسخ و آمایه های  پاسخ در فرایند ارزیابی شخصیت نسبت می دهند. در یک زمان، بسیاری از روان  شناسان اعتقاد داشتند که تحریفهای پاسخ تأثیر زیادی را بر آزمودنیها اعمال  می کند به طوری که فرض بر این بود که نتایج پرسش نامه های شخصیت چیزی بیشتر  از تأثیر این عوامل نامربوط نیست (ادواردز، 1957؛ جکسون و مسیک، 1958).  بعضی از جنبه های مربوط به این اختلاف نظرها هنوز حل نشده باقی مانده است.  با وجود این، نکته ای را که می توان در اینجا پیش بینی کرد به شرح زیر است:  این عوامل ممکن است در بعضی موارد چشمگیر باشند، ولی می توان آنها را به  گونه مناسبی از طریق کاربرد روشهای آزمون سازی دقیق کنترل کرد. یک استثنا  در این خصوص فریب عمومی یا وانمودسازی است که در بسیاری از کاربردهای  ارزیابی شخصیت به عنوان یک مشکل جلوه می کند و معمولاً جداگانه بررسی می  شوند. در ادامه مباحث مربوط به سبکهای پاسخ مورد بررسی قرار می گیرند که با  تصدیق گویی آغاز می شود.
سبک پاسخ تصدیق

بیشترین سبک پاسخی که مورد بررسی قرار گرفته، تصدیق گویی است؛ یعنی، تمایل  به پاسخ درست دادن در یک پرسشنامه درست - غلط. آمایه پاسخ تصدیق گویی در  افراطی ترین شکل خود قطع نظر از محتوی (مانند "من مادرم را کشتم") موجب  پاسخ بلی به تمام ماده ها می شود. این آمایه همچنین باعث می شود که آزمودنی  به دو جمله یا عبارت متناقض پاسخ مثبت بدهد؛ برای مثال، "من ازدواج خوبی  دارم" و "من ازدواج خوبی ندارم". خوشبختانه نمونه های افراطی به ندرت در  عمل دیده می شوند و توجه به تصدیق گویی عمدتاً معطوف ماده های مبهم بوده  است نظیر "من اغلب نسبت به مسئولیتهایی که انجام نداده ام، احساس نگرانی می  کنم". در این ماده، یک پاسخ مثبت ممکن است ناشی از این واقعیت باشد که  آزمودنی در واقع به همین شیوه رفتار کرده است؛ ولی ممکن است همچنین بدین  معنا باشد که آزمودنی در مورد این رفتار مطمئن نیست و پاسخ مورد نظر با یک  سبک پاسخ تصدیقی مشخص می شود. هر زمان که پرسشنامه های شخصیت دارای ماده  های نسبتاً مبهم زیادی باشند و اکثریت پاسخهای کلید یکسان باشند، نمره های  حاصل تحت تأثیر سبک پاسخ تصدیق قرار خواهند داشت.
در کاربرد عملی پرسشنامه ها، سبک پاسخ تصدیق تا چه اندازه اهمیت دارد؟ علی  رغم دیدگاههایی مانند دیدگاه کاچ و کنیستون (1960) که در آن فرض بر این است  که تصدیق گویی یک متغیر مفید شخصیت است و رورر (1965) که اعتقاد دارد که  این امر یک بخش غیرقابل اجتناب ساختار زبان ماست و باید آن را پذیرفت،  بهترین رویکرد ظاهراً این آگاهی است که این متغیر می تواند تأثیر ناچیز ولی  پردردسری را بر پاسخهای موجود به پرسشنامه های شخصیت داشته باشد.  بنابراین، حذف این تأثیر از طریق گنجاندن تعدادی ماده های درست، و در عین  حال، نادرست هر زمان که محتوای ماده ها دست نخورده باقی بماند، یک کوشش  منطقی به نظر می رسد.
سبک پاسخ منحرف

سبک پاسخدهی دیگری که به ماده های شخصیت وجود دارد، یعنی، سبک پاسخهای  غیرنوعی، نامعمول یا منحرف، توجه قابل ملاحظه ای را به خود جلب کرده است.  پاسخهای هنجاری یا معمول به ماده های آزمون شخصیت توسط کل جامعه فراهم می  آید؛ برای مثال، یک پاسخ مثبت به یکی از ماده های پرسشنامه، یعنی، "پدرم  مرد خوبی بود"، پاسخ خفاش به کارت V آزمون رورشاخ یا نقاشی یک فرد دارای  لباس در آزمون رسم آدمک. بعضی از روان شناسان مسلم فرض می کنند که  پراکندگیها یا انحرافهای موجود از این پاسخهای هنجاری به ماده های آزمون  نشان دهنده گرایش کلی به سوی منحرف است.
این دیدگاه به طور رسمی به عنوان فرضیه انحراف توسط برگ (1955، 1957، 1959)  بیان شد. بر اساس این فرضیه "الگوهای پاسخ منحرف" کلی هستند؛ از این رو،  آن دسته از الگوهای رفتار منحرف که در خصوص نابهنجاری مهم هستند و بنابراین  به عنوان نشانه قلمداد می شوند، با سایر الگوهای پاسخ گرفته نمی شوند،  ارتباط دارند (1955، ص 62). برگ (1959) اعتقاد داشت که پاسخدهی منحرف را می  توان به بهترین وجهی به عنوان یک سبک پاسخ در نظر گرفت تا یک آمایه پاسخ،  زیرا محتوای محرک مورد نظر بی اهمیت است. علاوه بر این، او بر این باور بود  که ابهام محتوا تأثیر این عامل را به جای کاهش، افزایش می دهد. با وجود  این، همیلتون (1968) این موضع را برگزید که محتوای ماده عامل مهمی در  پاسخدهی منحرف است، زیرا هر ماده باید به طور انفرادی جهت تعیین اینکه چه  چیزی برای آن ماده یک پاسخ منحرف خواهد بود، مورد بررسی قرار گیرد.
توجه به این موضوع جالب است که رورشاخ اعتقاد داشت که پاسخ منحرف یک عامل  مهم در آزمون لکه های جوهر اوست. رورشاخ در اصل به این موضوع توجه کرد که  (1942، 1951، ص23) اکثر پاسخهای داده شده به لکه های جوهر وی از طریق شکل  لکه قابل تعیین هستند و او "به منظور اجتناب از ارزشیابی ذهنی" بر اساس  پاسخهای واقعی یک جامعه بهنجار 100 نفری، دامنه مشخص تصویرپردازیهای بهنجار  شکل، یعنی، شکل خوب یا پاسخهای (مثبت F) را مطرح کرد. رورشاخ دریافت که  ادراک شکل خوب تحت تأثیر حالتهای روانی - آسیب شناختی مختلف به ویژه  اسکیزوفرنی مختل خواهد بود" (ص31). ارزیابی دقت ادراک شکل در پاسخهای  رورشاخ با استفاده از فراوانی به طور دقیقتر و مشروحتری توسط بک و همکاران  (1961)، اکسنر (1974) و دیگران مورد بررسی قرار گرفته است. در تفسیر جدید  رورشاخ (اکسنر، 1986، 1991) سطح شکل همان طوری که از طریق جداول فراوانی و  با استفاده از قضاوت آزماینده و تجربه بالینی بر می آید، به عنوان یک شاخص  مهم سطح کلی انحراف یا آسیب شناسی روانی که به آزمودنی قابل اسناد است، در  نظر گرفته می شود. پاسخدهی منحرف همچنین یک نکته مهم در MMPI است؛ در اینجا  علاوه بر این، سطح شکل به عنوان یک شاخص مفید درجه کلی آشفتگی روانی مد  نظر قرار می گیرد (لاچار، 1974). در آزمون MMPI جهت ارزیابی پاسخدهی منحرف،  تصادفاً یک مقیاس به نام F (در این مورد برای "فراوانی") وجود دارد.
فرضیه انحراف مکرراً توسط تعدادی از دانشجویان سنجش و اندازه گیری (برای  مثال رورر، 1965؛ سچرست و جکسون، 1962، 1963) با توجه به دلایل چندی مورد  انتقاد قرار گرفته است. به نظر می رسد که شواهد پژوهشی اندکی در جهت حمایت  از دیدگاه برگ مبنی بر این موضوع وجود داشته باشد که پاسخدهی منحرف در هر  موقعیت پاسخ پیش بینی کننده پاسخ منحرف در تمام موقعیتهاست. با وجود این،  به صراحت آشکار است که برخی از ویژگیهای معین پاسخ منحرف مانند سطح شکل  رورشاخ و مقیاس F در آزمون MMPI شاخصهای مفیدی در زمینه آسیب شناسی روانی  هستند. از آنجایی که این شاخصها، در واقع، به محتوای محرکهای آزمون مربوط  می شوند، مناسب به نظر نمی رسد که آنها را به طور ساده تحت عنوان سبکهای  پاسخ در نظر بگیریم، بلکه با توجه به شیوه ای که در فرایند ارزیابی شخصیت  مورد استفاده قرار می گیرند، بهتر آن است که آنها را به عنوان بخش مکمل روش  آزمون قلمداد کرد.
سبک پاسخ افراطی

یکی دیگر از سبکهای پاسخ، پاسخدهی افراطی است. این سبک می تواند تنها در  آزمونهایی وجود داشته باشد که پاسخ به ماده های آنها به صورت درجه بندی یا  ابعاد متضاد باشد (همان طوری که در فصل 6 مورد بحث قرار گرفت). بعضی افراد  تمایل دارند قطع نظر از محتوای ماده سؤال به جای طبقه های میانی، طبقه های  افراطی (نظیر "کاملاً مخالفم" یا "کاملاً موافقم") را برگزینند. اگرچه به  نظر می رسد که پاسخدهی افراطی به پاسخدهی منحرف شباهت داشته باشد، همیلتون  (1968) با تذکر در خصوص این پاسخدهی افراطی به پاسخدهی افراطی کاملاً مستقل  از محتواست و در مقابل، پاسخدهی منحرف شامل یک موضوع که پاسخدهی افراطی  کاملاً مستقل از محتواست و در مقابل، پاسخدهی منحرف شامل یک واکنش خاص به  محتوای ماده است، بین آنها تمایز قایل شد. بازبینی پژوهشی همیلتون در زمینه  سبک پاسخ افراطی نشان داد که این پدیده یک ویژگی پایای آزمودنیهاست و  اینکه این وضعیت همواره در زنان (بیشتر از مردان)، افرادی با اضطراب زیاد و  افرادی که سازگاری روان شناختی ضعیفی دارند، بیشتر دیده می شود. بدین  ترتیب، هنگامی که مقیاسهای درجه بندی را به کار می بریم، بهتر است به این  اثرهای ناچیز ولی مهم توجه کنیم.
آمایه پاسخ مطلوب - نامطلوب

ما قبلاً نتیجه گرفتیم که سبکهای پاسخ (تحریفهای بری از محتوای پاسخ به  ابزارهای ارزیابی شخصیت) متغیرهای نسبتاً کم اهمیتی هستند که در اکثر  کوششهای موجود در زمینه ارزیابی شخصیت وجود دارند. با وجود این، این موقعیت  هنگامی که به آمایه های پاسخ توجه می کنیم (یعنی، گرایش نظامدار به  "تحریف" محتوای پاسخهای فرد به ماده های ارزیابی شخصیت) تا اندازه ای  متفاوت است. خواننده در اینجا باید تعریف ما را در خصوص آمایه پاسخ به خاطر  داشته باشد. منظور از آمایه پاسخ، کوششهای عمومی آزمودنی برای تحریف  پاسخها در یک جهت خاص و تمایلات ظریف و ناهشیار آنها برای ارایه پاسخهای  سودار است.
متداولترین آمایه پاسخ توصیف خویش به گونه مطلوب یا نامطلوب است. اولین روش  در بررسی این مشکل از طریق یک مطالعه خاص، یعنی، از طریق آمایه پاسخ  مطلوبیت اجتماعی بود. اکنون از این اصطلاح معمولاً برای اشاره به تولید  طبیعی یا ناهشیار پاسخهای مطلوب اجتماعی استفاده می شود؛ اصطلاح وانمودسازی  خوب برای کوششهای سودار هشیار و عمدی در این جهت استفاده می شود. با توجه  به پیش بینی این نتیجه از لحاظ آمایه پاسخ مطلوبیت اجتماعی، افرادی که "به  طور طبیعی" یا ناهشیار به شیوه ای مطلوب و اجتماعی پاسخ می دهند، احتمالاً  خصوصیات شخصیت خود را دقیقتر بیان می کنند، ولی کوششهای هشیار و عمدی برای  توصیف خود به گونه ای مطلوب یا نامطلوب منبع مهمی از تحریف پاسخ را تشکیل  می دهد. شکل 2-7 خلاصه ای از بعضی متداولترین اصطلاح شناسیها را در زمینه  سبکها و آمایه های پاسخ به تصویر می کشد.
شکل 2-7: خلاصه ای از بعضی از اصطلاح شناسیها در زمینه تحریفهای پاسخ (توضیح شکل)
یک انگیزه مهم پژوهش در زمینه آمایه پاسخ مطلوبیت اجتماعی در ارزیابی  شخصیت، تحقیقی بود که توسط ادواردز (1953) صورت گرفت. ادواردز درجه بندیهای  دانشجویان را در انواع مختلف پرسشنامه های خودسنجی (با توجه به یک مقیاس 9  درجه ای) بر اساس این موضوع به دست آورد که آنها رفتار مورد نظر هر ماده  سؤال را تا چه اندازه مطلوب در نظر می گرفتند. آن گاه او از یک گروه دیگر  از آزمودنیها خواست که به ماده های همین ابزار ارزیابی شخصیت خودسنجی پاسخ  دهند و همبستگی بسیار مثبت بالایی (0/87) را بین فراوانی تأیید هر ماده  توسط گروه دوم و متوسط درجه بندیهای مطلوبیت اجتماعی گروه اول یافت. به  عبارت دیگر، این دانشجویان تا اندازه زیادی به ماده هایی پاسخ دادند که  آنها را از لحاظ اجتماعی مطلوب ادراک کرده بودند. ادواردز (1964) نشان داد  که نمره های حاصل از مقیاسهای MMPI چنان به اندازه بالایی با درجه بندیهای  مطلوبیت اجتماعی آنها همبستگی داشت که نیمرخهای واقعی MMPI بر اساس این  درجه بندیها به اندازه خوبی قابل پیش بینی بودند. او نتیجه گرفت که مطلوبیت  اجتماعی حداقل با ارزیابی دقیق شخصیت تداخل کرده است؛ و در بدترین شرایط،  احتمالاً این امر کاربرد پرسشنامه ها را مشکل و یا حتی غیرممکن ساخته است.
این نتیجه که یک آمایه پاسخ مطلوبیت اجتماعی شدیداً با پاسخهای مربوط به  پرسشنامه های شخصیت تداخل دارد، از لحاظ زمینه های روش شناختی، تجربی و  نظری مورد سؤال قرار گرفته است (هیلبرون و گوداشتاین، a1961؛ نورمن، 1967؛  پاول هوس، 1984). امروزه یک دیدگاه مورد قبول وجود دارد و آن این است که  مطلوبیت اجتماعی یک بخش بهنجار از پاسخدهی است و می تواند یک متغیر پیش  بینی کننده مهم محسوب شود. افراد بهنجار معمولاً به یک صورت قابل پذیرش و  مقبول عمل می کنند؛ یعنی، به یک شیوه مطلوب اجتماعی، در واقع، این معنای  معمول "بهنجار" است. عدم مطلوبیت اجتماعی رفتار احتمالاً مهمترین ملاک آسیب  شناسی روانی است. پاسخهای افراد بیمار به ماده های پرسشنامه ای ماننده  پرسشنامه MMPI نشان می دهند که آنها از لحاظ روانی بیمار هستند؛ عدم  مطلوبیت اجتماعی رفتارهای نابهنجار آنها نیز کاملاً آشکار است.
همان طوری که هیلبرون (1964) بدان توجه کرد، تمایل به دادن پاسخهای نامطلوب  اجتماعی به پرسشنامه های شخصیت ظاهراً با وجود رفتارهای نامطلوب  غیرآزمودنی که پیش بینی از روی آن امکان پذیر است، ارتباط دارد. این نتیجه  که وجود رفتار مطلوب اجتماعی با سازگاری یا بهداشت روانی همبستگی دارد،  منطقی است و این نتیجه از تنزل مطلوبیت اجتماعی به طبقه تحریف پاسخ جلوگیری  می کند. در واقع، برای بعضی از آزمونهای جدیدتر، مانند پرسشنامه شخصیت  هوگان (هوگان و هوگان، 1992)، عمل آمایه پاسخ مطلوب اجتماعی تعدیل کننده به  عنوان یک مهارت یا شایستگی در نظر گرفته می شود.
به طور کلی، در این خصوص اتفاق نظر وجود دارد که میزانهای افراطی مطلوبیت  اجتماعی ممکن است سایر جنبه های پاسخ به یک آزمون را کمرنگ یا تحریف کند و  احتمالاً عاقلانه است که در صورت امکان به این موارد افراطی توجه کنیم. این  امر برای پرسشنامه های شخصیت که در یک حیطه بهنجار به ارزیابی خصوصیات  آدمی می پردازند، به سادگی در مرحله تهیه ماده های آزمون با استفاده از  ماده هایی که همبستگیهای آنها با مطلوبیت اجتماعی نسبتاً ناچیز است، قابل  دسترس می باشد (جکسون، 1967، 1976، 1984). این روش برای اولین بار توسط باس  (1959)، باس و دورکی (1957) در اندازه گیری خصومت مورد دفاع قرار گرفت.  برای مثال، به جای طرح سؤال به این صورت که "گاهی من از کوره در می روم" که  پاسخ مثبت بدان می تواند نامطلوب باشد، سؤال را می توان بدین صورت اصلاح  کرد که "من واهمه دارم از اینکه گاهی از کوره در بروم" یا "گاهی من نمی  توانم کنترل کنم که از کوره در نروم" یا "من نگران هستم که از کوره در  بروم" که البته تمام آنها به یک شیوه کمتر نامطلوب نوشته شده باشند.
روش متداول دیگری که برای کنترل مطلوبیت اجتماعی به کار می رود، استفاده از  ماده های گزینه- بایست همراه با ماده هایی است که به صورت زوجی (یا سه  تایی) با توجه به مطلوبیت اجتماعی جور می شوند. هر عبارت در هر زوج به طور  تجربی یا با استفاده از روشهای دیگر به عنوان یک پیش بینی کننده مهم رفتار  مورد نظر هماهنگ می شوند (EPPS که در فصل 3 مورد بحث قرار گرفت این روش را  به کار می گیرد). ولی با این حال، مشکلات چندی در کاربرد روش گزینه – بایست  به چشم می خورند. ابتدا آزمودنی باید یکی از گزینه ها را انتخاب کند،  اگرچه ممکن است هیچ کدام از آنها توصیف کننده رفتار وی نباشند. چنین وضعیتی  هیچ گونه اطلاعاتی را درباره میزان ترجیح یا خصوصیت شخصیتی زیربنایی آن به  دست نمی دهد. ثانیاً اگرچه ماده های آزمون به یک شیوه کلی از لحاظ مطلوبیت  با یکدیگر زوج می شوند، ولی هنوز به اندازه کافی با یکدیگر تفاوت دارند که  امکان وانمودسازی وجود داشته باشد (برای مثال، دیکن، 1959). سوم، همان  طوری که قبلاً متذکر شدیم، کوششهایی که به منظور حذف مطلوبیت اجتماعی صورت  می گیرند، ممکن است قدرت پیش بینی ابزار، و در عین حال، اثر دفاعی بودن را  کاهش دهند. مروری که اسکات (1968) در زمینه مطالعه بررسیهایی انجام داد که  اعتبار آزمونهای گزینه - بایست و تک محرکی را با یکدیگر مقایسه می کرد، به  این نتیجه بیشتر خنثی انجامید که اعتبارهای حاصل از این دو روش متفاوت  نیستند و اینکه در خصوص مزیت روش گزینه - بایست در زمینه کنترل دفاعی بودن  هیچ گونه شواهد قاطعی وجود ندارد. بنابراین، به نظر می رسد که فن گزینه -  بایست همان طوری که از ابتدا انتظار آن می رفت، هیچ گونه مزیتی نسبت به  روشهای دیگر ندارد.
کوششهای نسبتاً اندکی در زمینه مطالعه تأثیر مطلوبیت اجتماعی در کارکرد  رویکردهای فرافکن که به منظور ارزیابی شخصیت صورت می گیرند، به عمل آمده  است. رزینکوف (1961) همبستگیهای غیرمعناداری را بین درجه بندیهای مطلوبیت  اجتماعی در خصوص موضوعهای متداول TAT و فراوانی تأیید آنها گزارش کرد و  نتیجه گرفت که مطلوبیت اجتماعی یک منبع مهم واریانس در ارایه موضوعهای TAT  نیست. با وجود این، اکسنر (1978) در یک مطالعه با استفاده از رورشاخ نشان  داد که این عنصر "اثر بسیار معناداری را بر چیزی دارد که عملاً توسط  آزمودنی ارایه می شود" (ص 45)، اگرچه در نسخه قبلی این کتاب، او این یافته  را کم اهمیت جلوه داد (اکسنر، 1986). هیچ دلیلی برای این فرض وجود ندارد که  نتایجی که در اینجا با توجه به پرسشنامه ها به دست آمده است نباید در خصوص  فنون فرافکن به کار روند، ولی قبل از رسیدن به یک قضاوت صریح و مشخص  پژوهشهای بیشتری مورد نیاز هستند................فریب عمدی

یک مشکل بسیار جدی تر در ارزشیابی شخصیت تمایل افراد به تحریف عمدی یا  سودار کردن پاسخهای خود در ابزارهای ارزیابی شخصیت است. بحث زیر بر حول دو  موضوع متمرکز است:
1. کوششهای عمدی افراد در جهت ارایه نوعی تصویر مطلوب و خوشایند از خودشان  به صورت خیلی حق به جانب یا بسیار سالم در ادبیات روان شناسی شخصیت تحت  عنوان دفاعی بودن مطرح شده است. این اصطلاح در کاربرد معمول خود همچنین به  کوششهای افراد در جهت تحریف پاسخهای خود در سایر ابعاد شخصیت مانند برون  گرایی یا توانایی فروشندگی اشاره دارد.
2. کوششهایی برای تقلید اختلالهای خاص مانند روان پریشی یا اختلال ضربه پس  از آسیب یا (خارج از حوزه ارزیابی شخصیت) اختلال حافظه یا عقب ماندگی ذهنی  به یک دلیل خاص.
افرادی که آزمونهای شخصیت از نوع پرسشنامه خودسنجی را تهیه و ابداع کرده  اند، مدتهای متمادی از این مشکلات آگاه بوده اند (میل و هاتاوی، 1946)، ولی  در این خصوص هیچ راه حل اثربخشی را ارایه نکرده اند. در واقع، وضوح مشکلات  مربوط به پرسشنامه های شخصیت تا اندازه زیادی موجب محبوبیت رویکردهای  فرافکن به ارزیابی شخصیت شده است، زیرا به طور همه جانبه ای این اعتقاد  وجود دارد که رویکرد فرافکن فرصت فریب عمدی را از سر راه بر می دارد یا  حداقل تا اندازه زیادی از بروز آن می کاهد. ما به زودی این اعتقاد را به  تفصیل مورد بررسی قرار خواهیم داد.
دفاعی بودن نوعی کوششهای عمدی جهت ایجاد یک تأثیر مطلوب است. شواهد مربوط  به وجود دفاعی بودن به عنوان یک مشکل در ارزیابی شخصیت از منابع چندی ریشه  می گیرد. ابتدا نیمرخهای مربوط به آزمونهای شخصیت به ظاهر بهنجار و سالم  گاهی از بیماران بستری و سایر افراد منحرفی به دست می آید که نباید چنین  نیمرخهای بهنجاری را داشته باشد. ثانیاً شواهد بسیار زیادی وجود دارد که  انواع مختلف گروههای آزمودنی مانند دانشجویان و بیماران می توانند به منظور  ایجاد یک برداشت خوب (یا بهتر) پاسخهای آزمون شخصیت خود را به ویژه در  پرسشنامه های خودسنجی تغییر دهند. باید به این نکته توجه کرد که حتی  دانشجویان که معمولاً نیمرخهای شخصیت بهنجاری دارند، می توانند تحت  دستورالعملهای خوب وانمود کردن، نیمرخهای مطلوبتری را به دست دهند. این امر  به ویژه در خصوص پرسشنامه هایی با ماده های کاملاً آشکار صادق است؛ یعنی،  پرسشنامه هایی که در آنها مطلوبیت اجتماعی پاسخها کاملاً روشن است. فوسبرگ  (1941) سالها پیش، با استفاده از پرسشنامه شخصیت برن رویتر توانست نشان دهد  که همبستگی بین نمره های حاصل از دستورالعمل عادی و نمره های حاصل از  دستورالعمل وانمودسازی خوب کاملاً ناچیز (0/11) است و این امر به وضوح نشان  می دهد که چگونه آمایه دفاعی بودن می تواند بر پاسخهای پرسشنامه ای از این  نوع تأثیر بگذارد.
از طرف دیگر، شواهد زیادی در این خصوص وجود دارد که برای افراد بیمار به  ویژه بیماران بستری، امکان آن وجود ندارد که کاملاً یک نیمرخ بهنجار به دست  آید. برای مثال، گریسون و اولینگر (1957) نشان دادند که تنها 11 درصد از  بیماران می توانند یک نیمرخ MMPI بهنجار داشته باشند. بعضی از بیماران از  طریق ارایه نیمرخهای بیمارگونتر به این دستورالعملها پاسخ دادند و بقیه به  طور ساده الگوی متفاوتی از نابهنجاری را در نیمرخهای خود نشان دادند. کانتر  (1963) دریافت که توانایی "خوب وانمود کردن" با سازگاری نسبی فرد رابطه  دارد. کانتر با استفاده از گروههای افراد الکلی و متقاضیان استخدام، متوجه  شد که آزمودنیهایی که از سازگاری بهتری برخوردارند، در ارایه نیمرخهای جعلی  خوب در پرسشنامه روان شناختی کالیفرنیا موفقتر هستند.
با توجه به کوششهایی که در خصوص ایجاد برداشتهای مطلوب در آزمونهای شخصیت  شده است، متداول آن است که بین وانمود در جهت سازگاری بهداشت روانی بالا و  وانمود مربوط به پرهیزکاری شخصی افراطی تمایز قایل شویم. بعضی از نویسندگان  (پاول هوس، 1984، 1986) شبیه سازی سازگاری بالا را قویاً در ارتباط با  مفهوم سنتی مطلوبیت اجتماعی – یعنی، به طور کلی یک ویژگی ناهشیار- و شبیه  سازی پرهیزکاری افراطی را در ارتباط با مفهوم صداقت شخصی در برابر دروغگویی  عمدی در نظر گرفته اند. بنابراین، نتایج بررسیهای تحلیل عاملی که توسط  پاول هوس (1986) گزارش شد، دو عامل متمایز را نشان داد. شاخصهای سنتی  مطلوبیت اجتماعی روی یک عامل فریب خود و شاخصهای سوگیری عمدی تر روی یک  عاما دیگر کنترل برداشت نام دارد. ابزتر پاول هوس (1991)، یعنی، پرسشنامه  متعادل پاسخ مطلوب، به منظور ارزیابی این دو عامل ساخته شد. دو مقیاس که  برای پرسش نامه غربالگری روانی (لانیون 1970، 1993) تهیه شد- یعنی، تأیید  سازگاری بالا و تأیید پرهیزکاری افراطی - نیز بین این دو مؤلفه فریبکاری  مطلوب متمایز ایجاد می کنند.
مریض جلوه دادن یا تمارض نوعی کوشش عمدی برای ایجاد نگرش در خصوص اختلال یا  ناتوانی در طرف مقابل است. به علت ویژگی دفاعی بودن در افراد، شواهد زیادی  وجود دارد که نیمرخهای مربوط به آزمونهای روانی می توانند از افرادی به  دست آیند که عملاً واجد این ویژگیها نیستند. سازندگان مقیاس مزاج هام –  ودزورث بیش از 60 سال پیش این موضوع را مورد بررسی قرار دادند (هام و  ودزورث، 1935). در یکی از بررسیهای جدیدی که توسط یکی از نویسندگان کتاب  حاضر صورت گرفته است، دانشجویان کاملاً سازگار می توانند الگویی را در MMPI  ایجاد کنند که نشان دهنده شخصیت جامعه ستیز است (لانیون، b1967). میل و  هاتاوی (1946) در نوشته های اولیه خود درباره MMPI وجود این عوامل تحریف  کننده را گویا و روشن فرض کردند.
فنون فراکن. یک اعتقاد سنتی وجود دارد که فنون فرافکن، به ویژه رورشاخ، در  معرض تحریف هشیار قرار ندارند (برای مثال، راجرز، 1988). با وجود این، حتی  اولین بررسیها در این زمینه (اگرچه این نتایج کاملاً هماهنگ و یکدست  نیستند) نشان می دهند که آزمون رورشاخ، در واقع، در معرض وانمودسازی خوب و  بد است (کارپ و شاوزین، 1950، فلدمن و گریلی، 1954؛ فوسبرگ، 1938، 1941؛  هنری و راتر، 1956). این بررسیها علاوه بر این نشان دادند که آزمونیهای  بهنجار در مقایسه با بیماران بستری بیشتر قادر به تحریف پاسخهای خودشان  هستند و اینکه تا اندازه ای وانمودسازی در جهت بد، ساده تر از خوب است.  نتایج مطالعات جدیدتر تا اندازه زیادی با بررسیهای قبلی هماهنگی دارد. برای  مثال، آلبرت، فاکس و کان (1980) نشان دادند که متخصصان نمی توانستند تمارض  را از طریق متمارضان ناآگاه و آگاه تعیین کنند. بررسی میتمن (1983) مشخص  کرد که آزمون رورشاخ هنگامی که آزمودنیها نسبت به نقش خود آگاهی داشتند  مستعد تمارض بوده است. اکسنر و شرمن در یک بررسی چاپ نشده (اکسنر، 1991) با  توجه به خوب جلوه دهی، دریافتند که ده بیمار اسکیزوفرن نتوانستند هنگامی  که از آنها خواسته شد تا عملکرد خود را بهبودی بخشند از آشکارسازی اجتناب  کنند.
پژوهشهای به عمل آمده در خصوص تحریفهای پاسخ با استفاده از سایر ابزارهای  فرافکن (اگرچه کاملاً پراکنده بوده است) از این نتایج حمایت می کنند. برای  مثال، وایس کوپ و دیپا (1951) نشان دادند که آزمودنیها می توانند با موفقیت  داستانهای TAT را در جهتهای مثبت و منفی جعل کنند و به طور کلی در تمارض  موفقتر بودند؛ نتیجه ای که توسط کارهای کاپلان و اورون (1965) نیز مورد  تأیید قرار گرفت. هولمز (1974) به آزمودنیها یاد داد تا از فرافکنی های  نادرست استفاده کنند یا فرافکنی های درست را در TAT بازداری کنند و دریافت  که داوران نمی توانستند هر نوع تمارض را تشخیص دهند. بروزوویچ (1970)  دروغین بودن نمره ها را در آزمون فرافکن شخصیت گروهی نشان داد. شوارتز،  کوهن و پلولیک (1964) در یک بررسی با استفاده از آزمون ناکامی تصاویر  رونزوایگ، دریافتند که دستورالعملهای آموزشی که دفاعی یا بی پرده بودند،  پاسخهای متفاوت قابل انتظاری را به دست دادند. نتیجه اصلی خاصی که در یک  مرور جدید پژوهشی در زمینه دفاعی بودن و تمارض با توجه به آزمونهای فرافکن  به دست آمد، آن است که پژوهشهای مناسبی وجود ندارد تا امکان نتایج قاطعی را  در این زمینه فراهم آورند (استرماک، 1988). با وجود این، این نتایج حکایت  از آن دارند که مشکل تحریف پاسخ همچنین برای آزمونهای فرافکن وجود دارد و  در این زمینه شواهد ناچیز ضد و نقیضی به چشم می خورد.
کنترل فریب

کوششهای هشیار و عمدی بعضی از آزمودنیها جهت تحریف پاسخهای خود (به ویژه در  جهت مثبت) به ابزارهای ارزیابی شخصیت (خواه پرسشنامه و خواه ابزارهای  فرافکن) مشکل بغرنجی را به وجود آورده است. احتمالاً ساده ترین و مستقیم  ترین رویکرد در خصوص این زمینه جلب همکاری و صداقت آزمودنیها در هنگام  پاسخگویی است. این روش در موقعیتهایی مفید است که آزماینده و آزمودنی هدف  مشترکی دارند: دستیابی به اطلاعات دقیق درباره آزمودنی. این وضعیت در اکثر  موقعیتهای پژوهشی و در ارزشیابیهای مربوط به مشاوره، بهداشت روانی و رشد  سازگاری فردی به چشم می خورد. ولی در بعضی از موقعیتهای مرسوم، هدف آزمودنی  رسیدن به مزیتهای فردی است. بعضی از مثالها در این زمینه عبارت اند از:  ارزشیابیهای قانونی به منظور تعیین صلاحیت از نظر دادگاه، تعیین وضعیت  سلامتی والدین زندانی پس از طلاق یا آسیب و یا ناتوانی ذهنی در ارتباط با  دادخواهی شخصی یا ادعای جبران کارفرما یا مزیتهای خاص دیگر. در تمام این  موقعیتها یک ارزیابی مرتبط با شخصیت تا زمانی که فریبکاری بالقوه آزمودنی  مورد توجه قرار نگیرد، از کاربرد محدودی برخوردار خواهد بود.
فریبکاری شامل کوششهای زیاد فرد جهت ارایه یک تصویر خوشایند یا به طور کلی  ناخوشایند است. آزمودنیها در یک موقعیت استخدامی تمایل دارند که خودشان را  به گونه ای جلوه دهند که مثلاً توانایی فروشندگی بالا یا استعداد رهبری  زیادی داشته باشند. در یک موقعیت وابسته به دادگاه، متهم گرایش دارد که هر  گونه نشانه احتمالی از تمایلات جنسی انحرافی خود را پنهان کند. کوشش جهت  تمارض ممکن است شامل بازنمایی نادرست مشکلات حافظه، آسیب مغزی یا کمردرد  مزمن باشد. طرح مبسوطی از این موارد خارج از طیف این کتاب است، ولی می توان  آن را در بسیاری از منابع یافت (راجرز، 1988؛ اشرتلن، ویلکینز، وان گورپ و  بوب هولز، 1992).
برای درک ماهیت روشهای معاصر ارزیابی فریب عمدی، یک مرور کلی در قالب یک  دیدگاه وسیعتر مفید است. این رویکرد سنتی مبتنی بر مدل نشانه های دروغگویی  کلی یا نشانه های فریب است (اکمن،1985). فرض اصلی این رویکرد این است که در  خصوص دروغ گفتن نشانه های جهان شمولی وجود دارد که شامل پاسخهای  فیزیولوژیکی و حرکتی هستند. این نشانه ها که معمولاً محصول تغییرات  زیربنایی در هیجان پذیری هستند، با استفاده از دروغ یاب و از طریق مشاهده  رفتاری دقیق قابل تشخیص هستند. این مدل به صورت تخیلی در داستان پینوکیو که  دروغگویی وی از طریق تغییراتی در اندازه بینی اش قابل تشخیص بود، به تصویر  درآمده است. با وجود این، همان طوری که در فصل پنجم توضیح داده شد، در حال  حاضر شواهد پژوهشی قابل توجهی وجود دارد که نتایج دروغ یاب (اگرچه بیش از  عامل شانس) در هیچ کجا به سطح مورد نیاز کاربرد عملی نزدیک نیست (بارتول و  بارتول، 1994). به همین ترتیب، یافته های پژوهشی پراکنده در خصوص کاربرد  نشاه های رفتاری به عنوان نشانه های کلی دروغگویی حاکی از آن هستند که این  روش نیز یک شیوه موفقیت آمیز نیست (اکمن و اوسالیوان، 1991).
در طی دهه گذشته، یک رویکرد دیگر در تشخیص فریب از برتری چشمگیری برخوردار  شده است. برخلاف رویکرد سنتی که قطع نظر از ویژگیهای موقعیت یا هدف که مورد  جعل قرار می گرفتند، بر نشانه های کلی مشترکی مبتنی بود، تکنولوژی جدیدتر  وابسته به محتواست. چون این روش به عدم آشنایی آزمودنی نسبت به خصوصیات هدف  مبتنی است، می توان آن را مدل دقت اطلاعات نام نهاد. به عنوان مثال، کورتل  و هاوک (1989) نشان دادند که آن دسته از زندانیانی که می کوشند نشانه های  روان پریشی کارکردی را تقلید کنند، به شیوه های مشهودی از بیماران روان  پریش واقعی قابل تشخیص هستند. اکثر بیماران روان پریش واقعی نوعی الگوی  شاخص سست شدن و گفتار حاشیه ای را نشان دادند و بسیاری نیز انسجام نداشتند،  یا واژه سازی (واژه های خودساخته) را به کار بردند. آنها عاطفه پایین، کند  و یا هر عاطفه نامتناسب دیگری را نشان دادند و الگوی نشانه های آنها با یک  اختلال خاص هماهنگی داشت. معدود افرادی که تمارض می کردند، این نشانه ها  را نشان دادند؛ با وجود این، این افراد نشانه هایی را نشان دادند که با  روان پریشی کارکردی هماهنگی نداشت، مانند توهمهای بینایی، رفتار دراماتیک و  افراطی و افکار خودکشی.
در زمینه های دیگر یافته های مشابهی گزارش شده است. چاپمن و برنا (1990) در  ارزیابی درستی شکایتهای کمردرد، نوعی الگوی مشخص افراد متمارضی، نظیر سطوح  پایین تر فعالیت فیزیکی، علاقه و توجه کم به درمان و بسیاری نشانه های  دیگر را دریافتند. ویگینز و برانت (1988) با توجه به آسیب حافظه، انواعی از  الگوی عملکرد را نشان دادند که بر اساس آنها فراموشکاران واقعی از افراد  متمارض تفاوت داشتند.
گسترش روشهای تشخیص که مبتنی بر رویکرد دقت اطلاعات می باشد، امروزه به  سرعت در حال تکوین است و همه نشانه ها حکایت از آن دارند که این رویکرد به  طور قطعی در تشخیص فریب که در زمینه های مختلف ارزیابی وجود دارد، موفق  است. با وجود این، این روش به هیچ وجه جدید نیست. گاف (1954) بیش از 40 سال  پیش، مقیاس فریب (Ds) را برای شناسایی بیمارانی که در نشانه های بیماری  روان نژندی خود اغراق می کردند، تنظیم کرد. او ماده هایی را انتخاب کرد که  به طور تجربی بین گروه بیماران واقعی و افرادی که فقط وانمود به بیماری می  کردند، تمایز قایل شده بودند. این روش مقیاس سازی با موفقیت همراه بود،  زیرا گروه فریبکار اطلاعات دقیقی درباره بیماری مورد نظر نداشتند. برای آن  دسته از افرادی که اطلاعات دقیقی درباره خصوصیات هدف داشتند، شاخصهای  فریبکاری مبتنی بر مدل دقت اطلاعات ناموفق بودند.
بحث فوق زمینه ای را برای درک روشهایی که معمولاً برای کنترل فریب به کار  می روند، فراهم می کند. این کار به طور عمده در زمینه ارزیابی بهداشت روانی  و به میزان کمتری در زمینه پرسشنامه های شخصیت بهنجار انجام شده است. سه  رویکرد اصلی در این خصوص را می توان تشخیص، اصلاح و پیشگیری نامید.
روشهای تشخیص. بسیاری از پرسشنامه ها مانند بعضی از مقیاسهای خاص برای  ارزیابی این موضوع به کار می روند که تا چه اندازه آزمودنیها می کوشند تا  پاسخهای خود را تحریف کنند. برای مثال، مقیاس تأیید رجحان کودر (کودر،  1951) و مقیاس دروغ سنجی (L) آزمون MMPI نمره ای را به دست می دهند که مبین  تعداد دفعاتی است که فرد به ماده های خاصی پاسخ داده است؛ ماده هایی که به  ندرت به آنها بدین گونه جواب داده می شود. هدف از این مقیاس تأیید عمدتاً  شناسایی آزمودنیهایی است که به طور تصادفی پاسخ می دهند و مقیاس L در پی  مشخص کردن آزمودنیهایی است که به طور ساده نگرشهای دفاعی دارند یا سعی می  کنند خود را به نحو مطلوبی جلوه دهند. اکثر افراد به طور صادقانه تنها بعضی  از ماده های مقیاس L را (نظیر "من هرگز دست به دزدی نزده ام") تأیید می  کنند. افرادی که بیش از اندازه این ماده را تصدیق می کنند تمایل دارند خود  را خوب جلوه دهند و نیمرخ آنها معمولاً چه از لحاظ کاربرد بالینی یا پژوهش  بی اعتبار قلمداد می شود.
همانند مقیاس تأیید کودر، مقیاس F در MMPI آزمودنیهایی را شناسایی می کند  که به یک شیوه نامنظم به ماده هایی پاسخ می دهند که به ندرت در یک جهت خاص  به آنها پاسخ داده می شود. چون اکثر پاسخهای نادر در MMPI از لحاظ اجتماعی  نامطلوب یا روانی – آسیب شناختی هستند، مقیاس F نیز افرادی را شناسایی می  کنند که تمایل دارند خود را بد جلوه دهند. شواهد پژوهشی زیادی حکایت از آن  دارند که این مقیاسها به طور منطقی در شناسایی تمارض مؤثر هستند. شاخص F-K  یا تفاوت بین نمره های خام در مقیاس F و K نیز از این لحاظ موفق هستند  (دالستروم، ولش و دالستروم، 1975؛ گاف، 1950).
روشهای اصلاح. سازندگان آزمون MMPI کوشش کرده اند تا به طور ساده بتوانند  تحریف پاسخ مطلوب یا نامطلوب را تشخیص دهند. آنها مقیاس K را به عنوان یک  وسیله تصحیح ابداع کردند؛ یعنی، کوششی برای ارزیابی میزان درجه دفاعی بودن  موجود در نیمرخ روانی و تصحیح آن. همان طوری که در فصل 3 خاطرنشان شد،  مقیاس K به طور تجربی از طریق مقایسه پاسخهای افراد بهنجار با پاسخهای  بیماران روان پزشکی به دست آمده است که نمره های آنها در مقیاسهای بالینی  در دامنه بهنجار قرار داشتند، و بنابراین، افرادی که بتوان بیماری روانی  آنها را کمتر از حد در نظر گرفت. نمره های بالا در این مقیاس با پاسخ بلی  به ماده هایی مانند "من هرگز در زندگی احساس بهتر نداشتم" به دست می آمدند.
نمره K مستقیماً به عنوان یک متغیر اصلاحی مورد استفاده قرار گرفته و در  کسرهای مختلف به نمره های آزمودنی در پنج مقیاس بالینی اضافه می شود (Hs،  Pd، Pt و Ma). استفاده از مقیاس K به بدین شیوه در اصل برای افزایش قدرت  تمیزی این مقیاسها به ویژه در دامنه میانی و حساس ارزشهای نمره مورد  استفاده قرار می گیرد (دالستروم، ولش و دالستروم، 1972، ص 128). در اصل  سازندگان MMPI این تصور را داشتند که کسرهای بهینه مقیاس K که باید برای آن  افزایشی صورت گیرد با توجه به جامعه مورد نظر تفاوت دارد. بنابراین،  هیلبرون (1963) مجموعه اصلاح شده ای از کسرهای تصحیح K را به منظور افزایش  اعتبار MMPI در میان دانشجویان گزارش کرد. با وجود این، مجموعه اولیه وزنها  به عنوان بخش اصلی آزمون تبدیل شده و در اصل برای تمام آزمودنیها به کار  برده می شود. همچنین کاربرد استفاده از فن تصحیح K و تصحیح های ویژه که  اکنون به کار می روند باید غیرقطعی تلقی شوند. در سایه کارهای مارکس،  سیمان، و هالر (1974) که یک سیستم تفسیری آماری را برای نیمرخهای MMPI  مربوط به نوجوانان ارایه کردند و در پرتو MMPI-A که جدیدتر است، معلوم شد  که اگر تصحیح های K مورد استفاده قرار نمی گرفتند، اعتبار بالاتری به دست  می آمد.
روشهای پیشگیری. بهترین روش برای پیشگیری از فریب استفاده از ماده های ظریف  و مویین است؛ یعنی، ماده هایی با اعتبار پیش بین یا همزمان تجربی ولی بدون  اعتبار صوری یا اعتبار صوری اندک. این اعتقاد رایج است ( به فصل 3 نگاه  کنید) که ماده های ظریف و مویین در مقایسه با ماده های آشکار باعث اعتبار  یا سودمندی اندک می شوند. برای مثال، نورمن (a1963) که روش پیچیده کنترل  فریب را از طریق حذف آشکارترین ماده ها در مقیاس خود ارایه کرد، نتیجه گرفت  که کاربرد این مقیاسها "جهت استفاده در یک موقعیت با توجه به طبقه خاصی از  آزمودنیها را نمی توان بیش از اندازه تعمیم داد" (ص 240). البته این یافته  با فرض مربوط به مدل دقت اطلاعات هماهنگی دارد که در آن ماده های مناسب  برای تشخیص فریب به یک زمینه خاص وابسته هستند. هنگامی که از این زاویه  موضوع را بررسی کنیم، استفاده از ماده های ظریف و مویین را باید به عنوان  یک رویکرد نویدبخش مورد توجه قرار داد. بنابراین، ماده هایی مانند آنهایی  که توسط کورنل و هاوک (1989) جهت شناسایی افرادی که روان پریشی را تقلید  کرده بودند (همان طوری که قبلاً توضیح داده شده) شناسایی شده بودند، می  توان به طور مناسبی ظریف و مویین نامید.
یک روش نسبتاً افراطی برای پیشگیری از فریب در کارهای والاس (1966، 1967)  ارایه شده است. به جای در نظر گرفتن شخصیت بر اساس صفات یا عملکرد عادتی،  به اعتقاد وی می توان اصطلاحهای توانایی یا حداکثر عملکرد را جایگزین کرد.  بنابراین، شاخصی از برتری و تفوق ممکن است شامل یک آزمون موقعیتی باشد که  در آن آزمودنیها باید پاسخهای خود را هر چقدر که امکان دارد با سلطه گری  مطرح کنند و بعد با توجه به عملکرد واقعی خودشان مورد ارزیابی قرار خواهند  گرفت. برای آن آزمودنی که به عملکرد حداکثر و نه به عملکرد عادتی مربوط می  شود، مسئله دروغگویی یا دفاعی بودن تا اندازه ای نامربوط است. نسخه  غیرمستقیمی از این ایده را می توان در نیمرخ شخصیت جامع استخدام مدار  (آزمون استخدامی واندرلیک، 1993) یافت. در این نیمرخ از فرد متقاضی شغل  خواسته می شود که به هر ماده دو بار پاسخ دهد؛ یکبار برای "توصیف خویش و  احساسهای خود" و بار دیگر به "جای یک متقاضی ایده آل یا کامل". از مقایسه  بین این دو نمره برای تعیین هماهنگی متقاضی با شغل مورد نظر استفاده می  شود. با وجود این، اعتبار این روش یا هر استفاده دیگر از رویکرد حداکثر  عملکرد، تاکنون به طور جدی مورد مطالعه قرار نگرفته است.
تمام این روشها مزیتها و طرفداران خود را دارند. در عین حال، هر کدام از  آنها محدودیتهای روشنی دارند و هیچ کدام کاملاً روش مناسبی برای کنترل فریب  (در پاسخ به پرسشنامه های شخصیت) محسوب نمی شوند. بنابراین، سؤال مربوط به  کنترل فریب در ارزیابی شخصیت هنوز به قوّت خود باقی خواهند ماند. همان  طوری که در فصل نهم خواهیم دید، بعضی از روان شناسان (برای مثال، لوول،  1967) بر این باورند که آزمونهای شخصیت را نباید به طور کلی تحت شرایطی که  فرض دفاعی بودن بالا وجود دارد، به کار برد.
خلاصه

پایایی به تکرارپذیری یک شاخص مربوط می شود. پایایی در نسخه های معادل یک  ابزار اندازه گیری همسانی نام دارد. ثبات به پایایی در طول زمان اشاره  دارد. عدم پایایی خطای اندازه گیری می تواند نظامدار یا تصادفی باشد. خطاها  یا سوگیریهای نظامدار را می توان کنترل کرد. خطای تصادفی را می توان به  عنوان بازتابی از این واقعیت در نظر گرفت که محتوای یک آزمون به طور ساده،  نمونه ناچیزی از کل نمونه ای است که خصوصیت مورد نظر را در بر می گیرد.  تعدادی از فنون عملی مختلف به منظور ارزیابی پایایی وجود دارند و اینکه  کدام روش به کار رود، به این موضوع بستگی دارد که، چه منابعی از ناپایایی  مورد ارزیابی قرار می گیرند. فرمولهای کودر- ریچاردسون و ضریب آلفای  کرونباخ صرفاً خطای تصادفی را اندازه گیری می کنند و برآوردی از همسانی  درونی آزمون را به دست می دهند. پایایی دو نیمه سازی نیز برآوردی از خطای  تصادقی را به دست می دهد؛ نسخه ای معادل و پایاییهای بازآزمایی درجات  متفاوتی از خطای تصادفی و نظامدار را به دست می دهند. برای کاربرد عملی  پایایی در تعیین دقت نمره آزمون، خطای معیار اندازه گیری را می توان از روی  ضریب پایایی و انحراف معیار نمره های حاصل محاسبه کرد.
مشکلات خاصی که در خصوص تعیین پایاییهای بعضی از آزمونهای فرافکن وجود  دارد، اغلب به این نتیجه نامناسب انجامیده است که ملاحظات پایایی را نباید  در مورد آنها به کار برد. این مشکلات از منابع چندی ناشی می شوند: این  واقعیت که آزمونها همراه با ضرایب پایایی نمره ها به طور ذهنی ساخته نمی  شوند، عدم وجود استانداردهای مربوط به دستورالعملها برای اجرا و نمره گذاری  آزمونها و جنبه های نمره گذاری. یک رویکرد در این زمینه به ضرایب پایایی  کاربردهای مختلفی متمرکز بوده است که نتایج آزمون در خصوص آنها کارایی  دارد؛ یعنی، پایایی تفسیرهای کلی. این رویکرد، به رغم برخی از مشکلات،  احتمالاً مناسبترین روش برای فنون فرافکن است.
اعتبار را می توان به عنوان درجه یا میزانی در نظر گرفت که استنباطهای به  عمل آمده از نمره های آزمون به وسیله شواهد تأیید می شوند. چون آزمونهای  مختلف هدفهای متفاوتی دارند، رویکردی که برای نشان دادن اعتبار در یک آزمون  یا موقعیت به کار می رود ممکن است برای یک آزمون یا موقعیت دیگر مناسب  نباشد. اعتبار محتوا یا صوری ویژه آزمونی است که محتوای آن نمونه معرفی از  رفتارهای مورد نظر است. اعتبار وابسته به ملاک به دقتی اشاره دارد که بر  اساس آن استنباطهایی درباره یک خصوصیت معین فرد، یا ملاک را می توان بر  اساس یک خصوصیت دیگر و یا عامل پیش بینی کننده به عمل آورد. اعتبار سازه  زمانی مطرح می شود که هیچ گونه ملاک مشخصی برای خصوصیتی که مورد ارزیابی  قرار دارد وجود ندارد، و به همین دلیل منطقی است که شبکه روابط بین شاخص  مورد نظر و انواع مفاهیم مربوط را نشان دهیم.
در یک واقعیت بالینی، اهمیت دقت پیش بینی ساده یک آزمون کمتر از اعتبار  افزوده آن (یعنی، وجه و میزانی که آزمون دقت، پیش بینی را بالاتر از سطحی  که می توان بدون آزمون بدان رسید، افزایش می دهد) است. چنین تصور می شود که  اگر توجه بیشتری به اعتبار افزوده مبذول می شد، بسیاری از آزمونهای بالینی  معمول امروزی نادیده گرفته می شد.
همان طوری که می توان نشان داد، هنگامی که دقت پیش بینی بر اساس موفقیت و  شکست مورد ارزیابی قرار می گیرد، آگاهی از نرخ پایه یا فراوانی واقعه مورد  نظر جامعه اهمیت دارد. آگاهی از هزینه یا ارزش مربوط به اتخاذ یک تصمیم  نادرست در یک جهت یا جهت دیگر از اهمیت وافری برخوردار است. چنانچه مشکل نه  به پیش بینی، بلکه به انتخاب مربوط شود - یعنی، اگر پیش بینی نباید به هر  آزمودنی خاصی که اطلاعاتی درباره وی در دسترس است مربوط شود - آن گاه نسبت  انتخاب نیز در تعیین کارایی پیش بینی به یک عامل تبدیل می شود.
متغیر تعدیل کننده هرگونه اطلاعاتی است که می توان از آن برای پیش بینی  مربوط به یک فرد خاص استفاده کرد و اینکه چگونه می توان پیش بینی دیگر را  با دقت ارایه کرد. بنابراین، افزایش دقت در پیش بینی به طور بالقوه به بهای  ارایه پیش بینی صرفاً برای نسبتی از آزمودنیها امکان پذیر است. اکثریت  پژوهشهای به عمل آمده در زمینه متغیرهای تعدیل کننده تا به امروز در خصوص  پیش بینی های تحصیلی و استخدامی بوده است، ولی بررسی کاربرد آنها در  ارزیابی بالینی و شخصیت مفید به نظر می رسد. تحریفهای پاسخ به هر گونه  متغیری (غیر از خصوصیات شخصیت آزمودنی) اشاره می کند که ممکن است بر  پاسخهایی که به روشهای ارزیابی شخصیت داده می شود، تأثیر گذارد. سبکهای  پاسخ به عنوان گرایشهایی در جهت انتخاب نامتناسب بعضی از پاسخها قطع نظر از  محتوای محرک آزمون تعریف شده است. تصدیق گویی تمایل به دادن پاسخ "بلی"  زیاد در یک پرسشنامه درست - غلط است.
راهبدهای پژوهشی چندی برای تعیین درجه و میزانی که سبک تصدیق گویی پاسخهای  پرسشنامه را تحریف می کند وجود دارند که عبارت اند از: بررسی همبستگیهای  بین نمره های مقیاسهای اصلی و مقیاسهای "معکوس"، بررسیهای تحلیل عاملی و  مقایسه میان شاخصهای مختلف تصدیق گویی. شواهد حاصل ظاهراً حکایت از آن  دارند که تصدیق گویی تأثیر تحریف کننده مهمی را بر پاسخهای پرسشنامه اِعمال  نمی کند و اینکه نتایج قبلی متناقض سهم محتوای ماده سؤال را در نظر نمی  گیرد. سبک پاسخ منحرف، یعنی، گرایش به دادن پاسخ در یک جهت انحرافی، در  مقایسه با تصدیق گویی توجه کمتری را به سوی خود جلب کرده است و ما بر این  باوریم که این سبک در حوزه ارزیابی شخصیت از اهمیت عملی اندکی برخوردار  است.
آمایه های پاسخ گرایشهای هشیار یا ناهشیار جهت تحریف نظامدار پاسخها به  ابزارهای ارزیابی شخصیت هستند. مطلوبیت اجتماعی یا گرایش طبیعی (یا  ناهشیار) به پاسخگویی در یک جهت مطلوب اجتماعی، آن طور که قبلاً تصور می  رفت یک عامل چندان تحریک کننده نیست؛ ولی ممکن است در مقابل، خصوصیات  (مطلوب اجتماعی) واقعی آزمودنی را نشان دهد. درجات بالای مطلوبیت اجتماعی  یک نگرانی بجا و معتبر است، ولی احتمال آن را می توان اغلب از طریق واژه  بندیهای مناسب ماده در خلال مراحل اولیه آزمون سازی کاهش داد. شواهد قاطعی  در این خصوص وجود ندارد که نشان دهد روشهای گزینه بایست برای کنترل مطلوبیت  اجتماعی مفید هستند یا خیر.
فریب عمدی، یعنی، کوشش هشیار برای تحریف پاسخهای آزمون شخصیت، در خصوص  اعتبار ابزارهای ارزیابی یک مشکل جدی و حل نشده را مطرح می کند. فریب عمدی  هم به بد جلوه دهی و هم به خوب جلوه دهی اشاره دارد که بسته به اینکه کدام  جنبه از ویژگی هدف مورد تحریف قرار می گیرد، رویکردهای مختلفی را شامل می  شود. پیشرفتهای قابل ملاحظه ای در گسترش روشهای اختصاصی و محتوی مدار در  خصوص تعیین تحریف بعضی خصوصیتها صورت گرفته اند. این پیشرفتها عمدتاً بر  این رویکرد دقت اطلاعات به فریب را می توان در برابر رویکرد سنتی تر نشان  های دروغگویی کلی قرار داد که در آن این تصور وجود دارد که نشانه های جهان  شمول معینی وجود دارد که مستقل از محتوایی هستند که تحریف شده اند. نمونه  هایی از روشهای محتوی مدار برای تعیین فریب شامل مقیاس L در MMPI جهت  شناسایی کوششهایی در جهت خوب نمایی افراطی است. بر خلاف اعتقاد عمومی، فنون  فرافکن نیز در معرض کوششهای عمدی آزمودنیها جهت تحریف پاسخهایشان قرار  دارد، اگرچه در این زمینه ایجاد عمدی یک برداشت مطلوب مشکل تر از یک برداشت  نامطلوب است.
شواهد چندان محکمی در این زمینه وجود ندارد که روشهای تصحیح مانند مقیاس K  در MMPI در کنترل تحریف پاسخ مفید هستند. پژوهشهای بیشتری در خصوص گسترش  تکنولوژی آزمون سازی که از دفاعی بودن و سایر تحریفهای پاسخ جلوگیری کند،  وجود ندارد.

   + فرزانه (ربابه)دریاباری - ٦:٤٦ ‎ب.ظ ; ۱۳٩٢/٢/٢٢