پژوهش های پیشین در مورد بررسی روایی و اعتبار آزمون ...

ارسال شده در 11 آذر 1400 توسط فاطمه کرمانی در بدون موضوع

یکی دیگر از ابزارهای جمعآوری اطلاعات، پرسشنامه های محقق ساختهای بود که به منظور بررسی روایی امتحانات، به چند نفر از دبیران متخصص و با تجربه به صورت ایمیل و حضوری تحویل داده شد. علاوه بر این، از طریق مصاحبه تلفنی و پرسشنامه از دبیران مصحح اوراق امتحانی درباره وضعیت تصحیح اوراق امتحانی نظرخواهی شد.
روش اجرای تحقیق
ابتدا از دانشگاه معرفینامهای برای اداره کل آموزش و پرورش استان لرستان جهت همکاری گرفته شد که با توجه به مسائل حفاظتی اوراق نهایی، از طرف اداره مذکور به مرکز سنجش وزارت آموزش و پرورش ارجاع داده شد. سپس از طرف این مرکز به حراست مرکزی وزارت آموزش و پرورش معرفی و با اعلام بلامانع بودن این کار از طرف مرکز نامبرده، جهت موافقت نهایی به مرکز سنجش وزارت آموزش و پرورش ارجاع گردید. بعد از دریافت مجوز از سوی این مرکز با مراجعه به اداره کل آموزش و پرورش استان لرستان و مرکز سنجش آن، هماهنگیهای لازم صورت گرفت. سپس به نواحی یک و دو آموزش و پرورش شهرستان خرمآباد معرفی گردیده که به دلیل عدم موافقت ناحیه دو، کار جمعآوری داده ها پس از طی مراحل اداری در حوزه تصحیح ناحیه یک صورت گرفت. بدینمنظور اطلاعات اوراق امتحانی ۶۰۰ دانش آموز رشته تجربی در دروس ادبیات فارسی و زیستشناسی خرداد ماه ۹۰ استخراج گردید. این اطلاعات در فرمهای محقق ساخته ثبت و سپس در نرم افزار spss وارد شدند.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

برای آماده سازی داده ها جهت انجام تحلیل کلاسیک، میانگین نمراتی که ارزیابان مختلف به هر سوال داده بودند، محاسبه و جایگزین نمرهی فرد در هر سوال شد. همچنین، برای آماده سازی داده ها جهت انجام تحلیل IRT، مراحل زیر صورت گرفت؛
ابتدا داده ها بر اساس قرارداد زیر به ۰ و ۱ تبدیل شدند.
به پاسخ صحیح سوال، ۱ و به پاسخ غلط، ۰ تعلق گرفت.
برای سوالی که بارم یا ریز بارم آن ۵/ ۰ بود، نمرهی ۲۵/۰ و بالاتر به یک تبدیل شد.
برای سوالی که بارم یا ریز بارم آن ۷۵/۰ بود، نمرهی ۵/۰ و بالاتر از آن به یک تبدیل شد.
برای سوالی که بارم یا ریز بارم آن ۱ بود، نمرهی ۵/۰ و بالاتر از آن به یک تبدیل شد.
در مرحله بعد، جمع نمرات داده شده توسط مصححان به هر سوال محاسبه شد. سپس، برای اینکه دادههایمان را به داده های دو ارزشی (جهت آماده سازی ورود به نرم افزار بایلوگ) تبدیل کنیم، مطابق قرارداد زیر نمرهی هر سوال مجدداً به ۰ و ۱ کدگذاری شد.
برای دادههایی که ۳ مصحح آنها را تصحیح کرده بودند؛ نمرات ۳ و ۲ به یک و نمرات ۱ و ۰ به صفر تبدیل شد. همچنین برای دادههایی که ۲ مصحح آن ها را تصحیح کرده بودند؛ نمرات ۲ و ۱ به یک و ۰ به صفر تبدیل گردید.
روش تجزیه و تحلیل اطلاعات
به منظور بررسی روایی امتحانات نهایی، این امتحانات از نظر ساختار، محتوا، توزیع طبقه بندی سوالات و میزان پوشش محتوای کتاب با بهره گرفتن از نظرات متخصصان موضوعی که با اصول اندازه گیری آشنایی داشتند و از طریق پرسشنامه های محقق ساخته مورد ارزیابی قرار گرفتند. این قسمت از کار در واقع یک ارزیابی کیفی محسوب میشد. لذا جهت تحلیل اطلاعات به دست آمده از روشهای آمار توصیفی استفاده گردید.
برای بررسی سوالات از نظر ساختار، اگر حداقل ۷۰ درصد (ملاک ۷/۰) متخصصان موضوعی سوال را دارای اشکال تشخیص دهند آن سوال از نظر ساختاری نامناسب تشخیص داده می شود.
به منظور ارزیابی محتوایی سوالات آزمون، از روش لاشه برای تعیین ضریب روایی محتوایی استفاده شد. آمارهی آن، نسبت روایی محتوایی (CVR) تبدیل خطی از نسبت تعداد ارزیابانی که سوال را ضروری تشخیص می دهند به تعداد کل ارزیابان شرکت کننده در پنل است که دامنه ی آن از ۱ تا ۱- میباشد. شیوه محاسبه ی آن بدین صورت بود که ۵ نفر از متخصصان موضوعی در هر درس، هر یک از سوالات را بر روی یک مقیاس سه نقطهای (ضروری، مفید اما غیر ضروری و غیر ضروری) درجهبندی کردند. سپس CVR برای هر سوال محاسبه گردید و ملاکهای ۶/۰و ارزشهای بحرانی CVR (ویلسون، پان و چامسکی، ۲۰۱۲) در نظر گرفته شد. اگر مقدار محاسبه شده بزرگتر یا مساوی ملاک تعیین شده باشد، میتوان گفت که آن سوال ضروری محسوب می شود و از روایی برخوردار است.
برای بررسی سوالات از نظر طبقه بندی شناختی، اگر بیش از ۵۰% متخصصان موضوعی در تخصیص دادن سوال به یکی از سطوح شناختی طبقه بندی بلوم توافق داشته باشند، آن سوال متعلق به آن سطح در
نظر گرفته می شود.
به منظور چگونگی توزیع سوالات در فصلهای مختلف، ملاکهای مختلفی وجود دارد که در این تحقیق برای بررسی اینکه سوالات امتحانات نهایی، تمام فصول کتاب را به طور منطقی پوشش دادهاند یا خیر، تعداد صفحات هر فصل در نظر گرفته شده است. تعداد سوالات هر فصل که از طریق فرمول زیر محاسبه شد با تعداد سوالات هر فصل که در امتحان طرح شده بود، مقایسه گردید.
= تعداد سوالات هر فصل
از آنجا که تعداد اوراق تصحیح شده توسط هر یک از مصححان برابر نبود و مصححان اوراق امتحانی متفاوتی را تصحیح کرده بودند، در صورت استفاده از طرحهای کاملا متقاطع جهت بررسی اعتبار امتحانات، خیلی از اطلاعات موجود کنار گذاشته میشد. از اینرو، در این پژوهش از طرحهای ترکیبی استفاده گردید.
نکتهای که باید به آن اشاره شود، این است که در تعیین اعتبار با بهره گرفتن از طرحهای GT، نمرات مصححان دوم لحاظ نگردیده است. همچنین، جهت تحلیل داده ها از نرم افزار EDUG 5.0 استفاده گردید.
وب و شیولسون (۱۹۸۱) بیان نمودند که اصل تقارن^[۱۶۴] کاردینت^[۱۶۵] و همکارانش منجر به تمایز میان ۴ مرحله از مطالعه اندازه گیری شده است که عبارتند از:
طرح مشاهده^[۱۶۶]
طرح برآورد^[۱۶۷]
۳) طرح اندازه گیری
۴) طرح بهینه سازی^[۱۶۸].
در GT دو نوع مطالعه وجود دارد؛ مطالعه تعمیمپذیری (مطالعه G) و مطالعه تصمیم (مطالعه D). مطالعه G، سه مرحله اول را شامل می شود و مطالعه D، همان مرحله چهارم است. در این پژوهش، برآورد ضرایب اعتبار داده های امتحانات نهایی در قالب ۳ طرح اندازه گیری و مطابق با مراحل مذکور صورت گرفته است.
اولین مرحله یک مطالعه اندازه گیری، مشخص کردن طرح مشاهده است که شامل انتخاب رویه ها، سطوح
و محاسبهی میانگین مجذورات است. جهان مشاهدات قابل قبول در این پژوهش، شامل ۴ رویه است که عبارتند از: دانش آموزان(S)، سوالات (I)، مصححان ®، جنسیت دانش آموزان(G). رویهی سوال در دروس ادبیاتفارسی و زیستشناسی به ترتیب ۶۱ و ۷۸ سطح دارد. رویهی مصحح در دروس ادبیات فارسی و زیستشناسی به ترتیب ۹ و ۷ سطح دارد. همچنین، رویههای دانش آموز و جنسیت هر کدام دارای ۳۰ و ۲ سطح میباشند. کاردینت، جانسون و پینی^[۱۶۹](۲۰۱۰) مطرح می کنند، محقق باید روابط میان رویه ها با یکدیگر را نیز مشخص کند. در مطالعه حاضر، ارتباط رویههای اندازه گیری بدین قرار است: دانش آموزان درون جنسیت و جنسیت درون مصححان آشیانه کرده اند که با نماد S:G:R نشان داده شده است. همچنین، رویهی سوال متقاطع با رویه های مذکور × S:G:R Iمیباشد.
کاردینت و همکاران (۲۰۱۰) مطرح می کنند، تعداد سطوح رویهی آشیانه شده باید برای هر سطح از رویهای که در آن آشیانه کرده است، برابر باشد. در این پژوهش، تعداد یکسانی از دانش آموزان (۳۰ نفر) در هر سطح از جنسیت قرار داده شده و سطوح جنسیت برای هر مصحح به طور یکسان در نظر گرفته شده است.
در ادامه، منابعی که به طور بالقوه در تغییرپذیری نمرات دروس مورد مطالعه سهیم بوده، مشخص شد. با این کار میتوان واریانس کل را به منابع واریانس مختلفی تقسیم نمود. در این پژوهش، ۷ منبع واریانس مشخص شده است: مصححان، جنسیت(درون مصححان)، دانش آموزان(درون جنسیت)، سوالات، اثرات تعاملی مصححان – سوال، جنسیت – سوال، دانش آموزان – سوال و اثر باقیمانده.
مشخص کردن طرح برآورد، دومین مرحله یک مطالعه اندازه گیری است. در این مرحله، وضعیت نمونه گیری از رویه ها باید مشخص شود. به بیانی دیگر، این مرحله شامل تصمیم گیری در مورد رویه هاست که آنها محدود یا نامحدود و تصادفی یا ثابت در نظر گرفته شوند. همچنین در این مرحله مؤلفه های واریانس برآورد میشوند. در مطالعه حاضر، رویههای مصححان، دانش آموزان و سوالات به عنوان رویههای تصادفی با جهانهای نامحدود در نظر گرفته شده اند. به عبارتی دیگر، مصححان مورد مطالعه یک نمونه تصادفی از تمام مصححان مشابه ممکن محسوب میشوند و نیز دانش آموزان و سوالات. جنسیت دانش آموزان یک رویهی ثابت است.
گفتنی است، مدل اندازه گیری به کار رفته در این پژوهش، مدل ترکیبی است. زیرا ترکیبی از رویههای ثابت و تصادفی در آن وجود دارد. نمودار طرح برآورد پژوهش حاضر، در صفحهی بعد ارائه شده که رویه ثابت جنسیت در آن با نقطه چین نشان داده شده است.
S:G:R
I
R
RI
(G:R)I
(S:G:R)I)
G:R
نمودار ۳-۱: تقسیم بندی واریانس برای طرح برآورد I(S:G:R)
در مرحله سوم یک مطالعه اندازه گیری، باید مشخص شود کدام رویه ها تفکیکی هستند و کدامیک ابزاری. منظور از رویهی تفکیکی^[۱۷۰]، رویهای است که هدف و تمرکز اندازه گیری قرار گرفته است.کاردینت و
همکاران(۲۰۱۰) مطرح می کنند که واریانس حاصل از این رویه مترادف با مفهوم واریانس نمرهی واقعی در
نظریه کلاسیک آزمون است. همچنین، منابع بالقوه خطا که در هر مطالعه اندازه گیری وجود دارد، رویههای ابزاری^[۱۷۱] محسوب میشوند. کاردینت، تورنر و الل^[۱۷۲] (۱۹۷۶) مطرح کردند؛ برخلاف تمرکز سنتی روی افراد، هدف اندازه گیری ممکن است بسته به هدف خاص تصمیمگیرنده تغییر کند و تفاوتهای فردی ممکن است به عنوان منبع خطا در نظر گرفته شوند. در پژوهش حاضر، رویههای دانش آموزان، سوالات و مصححان هر کدام به تنهایی و در تحلیلهای جداگانه به عنوان رویههای تفکیکی در نظر گرفته شدند. برای ادامه تحلیل در این مرحله، نیاز است که نوع تصمیم (نسبی یا مطلق) مشخص شود و به دنبال آن واریانسهای خطا و ضرایب تعمیمپذیری برآورد شوند. در پژوهش حاضر، هر دو نوع ضریب تعمیمپذیری (نسبی
و مطلق) به همراه خطای استاندارد مربوطه گزارش شده است.
مرحله چهارم در یک مطالعه اندازه گیری، طرح بهینهسازی است که مطالعه تصمیم (مطالعه D) را
شامل می شود. باید در نظر داشت که افزایش یا کاهش سطوح رویه ها و یا تغییر ماهیت آنها برای دستیابی به یک طرح اندازه گیری مطلوب مستلزم در نظر گرفتن یک سری ملاحظات منطقی و عملی است. در این پژوهش برای هر یک از طرحهای اندازه گیری، مطالعه D با تغییر سطوح رویه ها - نه تغییر ماهیت آنها – و در قالب یک سوال انجام گرفت. همچنین در طراحی چنین مطالعه ای، جهان تعمیم باید تعریف شود. در این پژوهش، جهان تعمیم مربوط به رویههای دانش آموزان، مصححان و سوالات نامحدود در نظر گرفته شد.
جهت محاسبه ویژگیهای روانسنجی سوالات بر اساس CTT؛ ابتدا ضریب اعتبار کل آزمون با بهره گرفتن از فرمول آلفای کرونباخ به دست آمد. سپس اعتبار آزمون با بهره گرفتن از روش لوپ با کمک نرم افزار spss محاسبه شد، به طوریکه با حذف هر سوال میزان اعتبار آزمون مجدداً مورد بررسی قرار گرفت. در صورتی که حذف سوال میزان اعتبار را کاهش دهد، میتوان نتیجه گرفت که آن سوال مناسب بوده و نقش موثری در هماهنگی با سایر سوالات دارد و در صورتی که با حذف سوال میزان اعتبار آزمون افزایش یابد، بیانگر این است که آن سوال نامناسب بوده و تجانس کمتری با سایر سوالات دارد و بهتر است از آزمون حذف شود. سوالاتی که با حذفشان در میزان اعتبار تغییری نمیدهند، میتوانند جهت ترغیب آزمودنی برای پاسخگویی به سایر سوالات مفید باشند. در مرحله بعد، شاخص های آماری سوالات (درجه دشواری و ضریب تمیز سوال) براساس داده های خام و کدگذاری شده محاسبه شد. محاسبه براساس داده های خام با بهره گرفتن از روش نیتکو و با اکسل انجام گرفت. همچنین، محاسبه بر اساس داده های کدگذاری شده به این شکل بود که ابتدا داده های خام بر اساس قرارداد به ۰ و ۱ تبدیل شدند. سپس با بهره گرفتن از نرم افزار بایلوگ، درجه دشواری و ضریب تمیز سوالات بر اساس CTT به دست آمد.
محاسبه ویژگیهای روانسنجی سوالات بر اساس IRT به این شرح بود؛ ابتدا مفروضات اولیه و اساسی این نظریه (تک بعدی بودن و استقلال موضعی) مورد بررسی قرار گرفتند. برای سنجش تک بعدی بودن آزمون روشهای متعددی پیشنهاد شده است که در این پژوهش، از نمودار اسکری استفاده گردید. بر این اساس نموداری برحسب تعداد عاملها و مقادیر ویژه مشخص می شود که میتوان تعداد عاملهایی را که مقادیر ویژه آن ها بزرگتر از یک است، تعیین کرد. در این نمودار مقادیر ویژه بر اساس اهمیت، از بزرگ تا کوچک رسم می شود. طبق گفتهی لرد (۱۹۸۰)، وقتی که مفروضه تک بعدی بودن برقرار است، استقلال موضعی نیز حاصل می شود از این حیث این دو مفهوم با هم معادل اند(به نقل از همبلتون و همکاران، ۱۹۹۱، ترجمه ی فلسفی نژاد، ۱۳۸۹).
بعد از اینکه نتایج نشان از برقراری مفروضات داشت، با بهره گرفتن از نرم افزار BILOGMG3 مقادیر پارامترهای سوال به همراه آزمون خی دو و سطح معناداری در مدلهای یک پارامتری و دو پارامتری برآورد گردید. لازم به ذکر است که با توجه به نامعلوم بودن پارامترهای سوال و توانایی، جهت برآورد همزمان آنها از روش بیشینهی درستنمایی حاشیهای استفاده گردیده است. در این روش با مشخص کردن یک توزیع برای پارامترهای توانایی، آنها را از تابع درست نمایی خارج ساخته و پارامترهای سوال برآورد میگردند. در مرحله بعد با پارامترهای برآورد شده سوال به عنوان معلوم برخورد شده و توانایی آزمودنیها برآورد میگردد. روش بیشینهی درستنمایی حاشیهای یک روش از سرگیرانه است. سپس میزان برازندگی تک تک سوالات با مدلهای یک پارامتری و دو پارامتری در سطوح آلفای ۰۱/۰ و ۰۵/۰ بررسی شد. چنانچه در مدلی، سطح معناداری سوال از مقدار آلفای مورد نظر بیشتر باشد، گفته می شود سوال با آن مدل برازش دارد؛ در غیر این صورت نشان دهنده عدم برازش سوال با مدل است. بر اساس ملاکهای توصیف و تفسیر، مقادیر برآوردشدهی پارامترها به تفکیک مدل تحلیل شدند. همچنین، منحنی ویژگی سوالات به تفکیک مدلها، منحنی ویژگی و تابع آگاهی یک سوال نمونه ترسیم و مقادیر بیشینه آگاهی و تتای ماکسیمم سوالات برآورد گردید.

مجله علمی: آموزش ها - راه‌کارها - ترفندها و تکنیک‌های کاربردی

آخرین مطالب

مجله علمی: آموزش ها - راه‌کارها - ترفندها و تکنیک‌های کاربردی

جستجو

موضوعات

فیدهای XML