WordPress.com News

Cari Blog Ini

Kamis, 17 Maret 2011

Psikometri


Psikometrik adalah bidang studi yang berhubungan dengan teori dan teknik pengukuran pendidikan dan pengukuran psikologis, yang mencakup pengukuran pengetahuan, kemampuan, sikap, dan sifat-sifat kepribadian. lapangan terutama berkaitan dengan pembangunan dan validasi instrumen pengukuran, seperti kuesioner, tes, dan penilaian kepribadian.

Ini melibatkan dua tugas penelitian utama, yaitu:
(i)                 pembangunan instrumen dan prosedur untuk pengukuran, dan
(ii)               pengembangan dan penyempurnaan pendekatan teoretis untuk pengukuran. Mereka yang psychometrics praktek dikenal sebagai psychometricians dan meskipun mereka mungkin juga psikolog klinis, mereka tidak wajib begitu dan bukannya bisa (misalnya) sumber daya manusia atau pembelajaran dan pengembangan profesional. Either way spesifik, terpisah, kualifikasi dalam psikometri diperlukan.

Asal-usul dan latar belakang

Banyak karya teoritis dan diterapkan pada awal psikometri dilakukan dalam upaya untuk mengukur kecerdasan. Francis Galton, sering disebut sebagai "bapak psychometrics", dirancang dan termasuk tes mental antara tindakan antropometri nya. Namun, asal psychometrics juga memiliki koneksi ke bidang terkait psychophysics. Dua pionir lainnya psychometrics diperoleh doktor di Leipzig Psychophysics Laboratorium bawah Wilhelm Wundt: James McKeen Cattell pada tahun 1886 dan Charles Spearman pada tahun 1906.

psikometrkian LL Thurstone, pendiri dan presiden pertama Masyarakat Psikometri pada tahun 1936, mengembangkan dan menerapkan pendekatan teoritis untuk pengukuran disebut sebagai hukum penilaian perbandingan, sebuah pendekatan yang memiliki hubungan dekat dengan teori psikofisik dari Ernst Heinrich Weber dan Gustav Fechner . Selain itu, Spearman dan Thurstone keduanya membuat kontribusi penting kepada teori dan penerapan analisis faktor, metode statistik dikembangkan dan digunakan secara luas di psikometri.

Baru-baru ini, teori psikometri telah diterapkan dalam pengukuran kepribadian, sikap, dan keyakinan, dan prestasi akademik. Pengukuran fenomena ini tidak teramati sulit, dan banyak penelitian dan ilmu pengetahuan akumulasi dalam disiplin ini telah dikembangkan dalam upaya untuk benar mendefinisikan dan mengukur fenomena tersebut. Kritik, termasuk praktisi dalam ilmu fisika dan aktivis sosial, berpendapat bahwa definisi tersebut dan kuantifikasi adalah mustahil sulit, dan bahwa pengukuran tersebut seringkali disalahgunakan, seperti dengan tes kepribadian psikometri yang digunakan dalam prosedur kerja:

    "Misalnya, seseorang majikan ingin untuk peran yang membutuhkan perhatian yang konsisten untuk detail berulang mungkin tidak ingin memberikan pekerjaan yang dapat seseorang yang sangat kreatif dan mudah bosan."

Angka yang membuat kontribusi yang signifikan terhadap psikometri termasuk Karl Pearson, Henry F. Kaiser, LL Thurstone, Georg Rasch, Johnson O'Connor, Frederic M. Tuhan, Ledyard R Tucker, dan Arthur Jensen.

Definisi pengukuran dalam ilmu sosial

Definisi pengukuran dalam ilmu sosial memiliki sejarah yang panjang. Definisi yang luas saat ini, diusulkan oleh Stanley Smith Stevens (1946), adalah pengukuran yang adalah "penugasan angka ke obyek atau peristiwa menurut beberapa aturan". Definisi ini diperkenalkan di koran di mana Stevens mengusulkan empat tingkat pengukuran. Meskipun diadopsi secara luas, definisi ini berbeda dalam hal-hal penting dari definisi yang lebih klasik pengukuran diadopsi dalam ilmu fisika, yang merupakan pengukuran yang adalah estimasi numerik dan ekspresi besarnya satu kuantitas relatif terhadap yang lain (Michell, 1997).

Memang, definisi Stevens pengukuran dikemukakan sebagai tanggapan terhadap Inggris Ferguson Komite, yang kursi, A. Ferguson, seorang ahli fisika. Komite diangkat pada tahun 1932 oleh Asosiasi Inggris untuk Kemajuan Sains untuk menyelidiki kemungkinan kuantitatif memperkirakan peristiwa sensorik. Meskipun kursi dan anggota lainnya fisikawan, panitia juga termasuk beberapa psikolog. Laporan komite menyoroti pentingnya definisi pengukuran. Sementara respon Stevens adalah untuk mengajukan sebuah definisi baru, yang memiliki pengaruh besar di lapangan, ini tidak berarti tanggapan hanya untuk laporan. Lain, terutama yang berbeda, respon adalah untuk menerima definisi klasik, sebagaimana tercermin dalam pernyataan berikut:

    "Pengukuran dalam psikologi dan fisika sama sekali tidak berbeda arti Fisikawan dapat mengukur ketika mereka dapat menemukan operasi dengan mana mereka dapat memenuhi kriteria yang diperlukan;. Psikolog tetapi untuk melakukan hal yang sama Mereka tidak perlu khawatir tentang perbedaan misterius antara makna. pengukuran dalam dua ilmu. " (Reese, 1943, hal 49)

Ini tanggapan yang berbeda ini tercermin dalam pendekatan alternatif untuk pengukuran. Sebagai contoh, metode berdasarkan matriks kovariansi biasanya digunakan pada premis bahwa angka, seperti nilai baku berasal dari penilaian, adalah pengukuran. Pendekatan tersebut memerlukan definisi implisit Stevens pengukuran, yang hanya memerlukan bahwa jumlah ditugaskan sesuai ketentuan beberapa. Tugas penelitian utama, kemudian, adalah umumnya dianggap penemuan asosiasi antara skor, dan faktor diketengahkan untuk mendasari hubungan tersebut.

Di sisi lain, ketika pengukuran model seperti model Rasch bekerja, jumlahnya tidak ditetapkan berdasarkan aturan. Sebaliknya, sesuai dengan pernyataan Reese di atas, kriteria khusus untuk pengukuran dinyatakan, dan tujuannya adalah untuk membangun prosedur atau operasi yang menyediakan data yang memenuhi kriteria yang relevan. Pengukuran diperkirakan berdasarkan model, dan tes dilakukan untuk memastikan apakah kriteria yang relevan telah dipenuhi.

Instrumen dan prosedur

Instrumen psikometri pertama dirancang untuk mengukur konsep kecerdasan. Pendekatan historis paling terkenal melibatkan tes Stanford-Binet IQ, yang dikembangkan awalnya oleh psikolog Alfred Binet Perancis. Berlawanan dengan kesalahpahaman yang cukup luas, tidak ada bukti kuat bahwa adalah mungkin untuk mengukur kecerdasan bawaan melalui instrumen tersebut, dalam arti kapasitas belajar bawaan tidak terpengaruh oleh pengalaman, juga tidak niat ini asli ketika mereka dikembangkan. Namun demikian, tes kecerdasan adalah alat yang berguna untuk berbagai tujuan. Sebuah konsepsi alternatif intelijen adalah bahwa kapasitas kognitif dalam diri seseorang adalah manifestasi dari komponen umum, atau faktor kecerdasan umum, serta kapasitas kognitif spesifik ke domain tertentu.

Psikometrik diterapkan secara luas dalam penilaian pendidikan untuk mengukur kemampuan dalam domain seperti membaca, menulis, dan matematika. Pendekatan utama dalam menerapkan tes di domain ini telah Teori Tes Klasik dan Item lebih baru Respon Teori dan model pengukuran Rasch. Pendekatan-pendekatan yang terakhir memungkinkan skala bersama orang-orang dan item penilaian, yang menyediakan dasar untuk pemetaan kontinum perkembangan dengan memungkinkan deskripsi keterampilan ditampilkan pada berbagai titik di sepanjang kontinum. pendekatan tersebut memberikan informasi yang kuat mengenai sifat pertumbuhan pembangunan dalam berbagai domain.

Fokus utama lain dalam psikometri telah di tes kepribadian. Ada berbagai pendekatan teoretis untuk konseptualisasi dan pengukuran kepribadian. Beberapa instrumen lebih dikenal termasuk Minnesota Multifase Personality Inventory, Model Lima Faktor (atau "Big 5") dan alat-alat seperti Kepribadian dan Preferensi Inventarisasi dan Myers-Briggs Type Indicator. Sikap juga telah dipelajari secara ekstensif menggunakan pendekatan psikometri. Sebuah metode yang umum dalam pengukuran sikap adalah penggunaan skala Likert. Sebuah metode alternatif melibatkan penerapan model pengukuran berlangsung, yang paling umum menjadi hiperbolik Cosine Model (Andrich & Luo, 1993).

Pendekatan Teoritis

Psychometricians telah mengembangkan sejumlah teori pengukuran yang berbeda. Ini termasuk teori tes klasik (CTT) dan teori respon butir (IRT) Sebuah pendekatan yang tampaknya matematis untuk menjadi serupa dengan IRT tapi juga cukup berbeda, dalam hal asal-usulnya dan fitur, diwakili oleh model Rasch untuk pengukuran. Pengembangan model Rasch, dan kelas yang lebih luas model mana ia berasal, secara eksplisit didirikan pada persyaratan pengukuran dalam ilmu fisika.

Psychometricians juga telah mengembangkan metode untuk bekerja dengan matriks besar korelasi dan covariances. Teknik dalam tradisi umum meliputi: analisis faktor,  sebuah cara menentukan dimensi yang mendasari data; skala multidimensi, metode untuk menemukan representasi sederhana untuk data dengan sejumlah besar dimensi laten, dan data clustering, pendekatan untuk menemukan obyek yang saling menyukai. Semua metode deskriptif multivariat mencoba untuk menyaring data dalam jumlah besar ke dalam struktur sederhana. Baru-baru ini, pemodelan persamaan struktural  dan analisis jalur merupakan pendekatan yang lebih canggih untuk bekerja sama dengan matriks kovarians besar. Metode ini memungkinkan model statistik yang canggih untuk dipasang ke data dan diuji untuk menentukan apakah mereka cocok memadai.

Salah satu kekurangan utama dalam analisis berbagai faktor kurangnya konsensus dalam memotong poin untuk menentukan jumlah faktor laten. Sebuah prosedur yang biasa adalah untuk menghentikan anjak ketika eigenvalues
​​turun di bawah satu karena menyusut bola asli. Kurangnya poin pemotongan keprihatinan metode multivariat lainnya, juga.

Konsep-konsep kunci

Konsep-konsep kunci dalam teori tes klasik adalah reliabilitas dan validitas. Sebuah ukuran yang dapat diandalkan adalah salah satu yang mengukur membangun secara konsisten di seluruh waktu, individu, dan situasi. Ukuran yang berlaku adalah salah satu yang langkah apa yang dimaksudkan untuk mengukur. mengukur mungkin dapat diandalkan tanpa berlaku. Namun, reliabilitas sangat diperlukan, tetapi tidak cukup, untuk validitas.

Kedua reliabilitas dan validitas dapat dinilai secara statistik. Konsistensi atas tindakan mengulangi dari pengujian yang sama dapat dinilai dengan koefisien korelasi Pearson, dan sering disebut-tes ulang uji reliabilitas Demikian pula, kesetaraan versi berbeda dari ukuran yang sama dapat diindeks oleh korelasi Pearson,. Dan disebut setara bentuk keandalan atau istilah yang serupa.

Internal konsistensi, yang membahas homogenitas bentuk tes tunggal, dapat dinilai dengan menghubungkan kinerja pada dua bagian dari tes, yang disebut reliabilitas split-setengah, nilai korelasi momen-produk Pearson koefisien dua tes setengah adalah disesuaikan dengan formula prediksi Spearman-Brown sesuai dengan korelasi antara dua tes full-length. Mungkin indeks yang paling umum digunakan adalah α reliabilitas Cronbach, yang setara dengan rata-rata dari semua koefisien split-setengah mungkin. pendekatan lainnya termasuk hubungan intra-kelas, yang merupakan rasio varians dari pengukuran target yang diberikan kepada varians dari semua target.

Ada sejumlah bentuk yang berbeda dari validitas. Validitas Kriteria-istimewa dapat dinilai dengan menghubungkan suatu ukuran dengan ukuran kriteria diketahui berlaku. Ketika ukuran kriteria dikumpulkan pada waktu yang sama sebagai ukuran sedang divalidasi tujuannya adalah untuk menetapkan validitas konkuren, ketika kriteria dikumpulkan kemudian tujuannya adalah untuk menetapkan validitas prediktif. ukuran A memiliki validitas konstruk jika itu berhubungan dengan ukuran lain konstruksi sesuai dengan teori. validitas Konten adalah demonstrasi bahwa item tes diambil dari domain yang diukur. Dalam contoh seleksi personil, konten pengujian didasarkan pada pernyataan pasti atau set pernyataan pengetahuan, keterampilan, kemampuan, atau karakteristik lain yang diperoleh dari analisis jabatan.

Item respon model teori hubungan antara sifat-sifat laten dan tanggapan untuk menguji item. Di antara keuntungan lainnya, IRT memberikan dasar untuk memperoleh perkiraan lokasi seorang pengambil-test pada sifat laten yang diberikan serta standar error pengukuran lokasi itu. Sebagai contoh, pengetahuan mahasiswa tentang sejarah bisa dideduksi dari skor nya pada tes universitas dan kemudian dibandingkan dengan andal dengan pengetahuan seorang siswa sekolah menengah dideduksi dari tes terlalu sulit. Skor diperoleh oleh teori tes klasik tidak memiliki karakteristik, dan penilaian kemampuan aktual (daripada kemampuan relatif terhadap pengambil test lainnya-) harus dinilai dengan membandingkan skor untuk orang-orang "kelompok norma" yang dipilih secara acak dari populasi. Bahkan, semua tindakan berasal dari teori tes klasik tergantung pada sampel yang diuji, sedangkan, pada prinsipnya, yang berasal dari teori respon item tidak.

Standar kualitas

Pertimbangan validitas dan reliabilitas biasanya dipandang sebagai elemen penting untuk menentukan kualitas tes apapun. asosiasi Namun, profesional dan praktisi sering menempatkan masalah ini dalam konteks yang lebih luas ketika mengembangkan standar dan membuat penilaian secara keseluruhan tentang kualitas tes secara keseluruhan dalam konteks tertentu. Sebuah pertimbangan keprihatinan di banyak pengaturan penelitian yang digunakan adalah apakah metrik inventarisasi psikologis yang diberikan bermakna atau sewenang-wenang.

Pengujian standar

Dalam bidang ini, Standar Pendidikan dan Psikologis Pengujian standar tempat tentang validitas dan reliabilitas, bersama dengan kesalahan pengukuran dan pertimbangan terkait di bawah topik umum uji, evaluasi konstruksi dan dokumentasi. Topik utama kedua meliputi standar yang berkaitan dengan keadilan dalam pengujian, termasuk keadilan dalam menggunakan pengujian dan uji, hak dan tanggung jawab pengambil pengujian individu dari beragam latar belakang linguistik, dan pengujian individu dengan cacat. Topik utama ketiga dan terakhir meliputi standar yang berhubungan dengan aplikasi pengujian, termasuk tanggung jawab pengguna pengujian psikologis dan penilaian, pengujian dan penilaian pendidikan, pengujian dalam pekerjaan dan credentialing, ditambah pengujian dalam evaluasi program dan kebijakan publik.
[Sunting] Standar Evaluasi

Dalam bidang evaluasi, dan evaluasi pendidikan tertentu, Komite Bersama Standar Evaluasi Pendidikan  telah menerbitkan tiga set standar untuk evaluasi. Para Personil Evaluasi Standar  diterbitkan pada tahun 1988, Program Evaluasi Standar (2nd edition) diterbitkan pada tahun 1994, dan Evaluasi Mahasiswa Standar diterbitkan pada tahun 2003.

Setiap publikasi menyajikan dan menguraikan serangkaian standar untuk digunakan dalam berbagai pengaturan pendidikan. Standar memberikan pedoman untuk merancang, melaksanakan, menilai dan memperbaiki bentuk evaluasi diidentifikasi. Masing-masing standar telah ditempatkan dalam salah satu dari empat kategori dasar untuk mempromosikan evaluasi pendidikan yang layak, berguna, layak, dan akurat. Dalam set standar, validitas dan reliabilitas pertimbangan yang tercakup dalam topik akurasi. Sebagai contoh, standar mahasiswa keakuratan membantu memastikan bahwa evaluasi siswa akan memberikan informasi suara, akurat, dan kredibel tentang belajar siswa dan kinerja.

Tidak ada komentar:

Posting Komentar

Laman