AGS Eğitim Bilimleri 17 - Ölçme ve Değerlendirme 2: Geçerlik, Güvenirlik, Kullanışlılık ve Test Geliştirme İlkeleri

2026 AGS Hazırlık • Eğitim Bilimleri

Ders 17: Ölçme ve Değerlendirme 2 — Geçerlik, Güvenirlik, Kullanışlılık ve Test Geliştirme İlkeleri

Bu derste ölçme araçlarının kalitesini belirleyen en kritik başlıklara geçiyoruz. Amaç; geçerlik, güvenirlik, kullanışlılık, objektiflik ve test geliştirme ilkelerini birbirine karıştırmadan öğrenmek. Ölçme aracın iyi görünse bile gerçekten doğru şeyi ölçmüyorsa, tutarlı sonuç vermiyorsa ya da uygulanabilir değilse öğretim kararların da bozulur.

Detaylı konu anlatımı Kavram ayrımları net Mini testli

Ders hedefleri

Bu dersin sonunda şunları net biçimde yapabiliyor olman gerekiyor:

Geçerlik ve güvenirlik arasındaki farkı açık biçimde kurabilmek,
Kapsam, görünüş, ölçüt ve yapı geçerliği gibi başlıkları ayırt edebilmek,
Bir testin neden güvenirliği düştüğünü veya geçerliğinin zedelendiğini örnek olaylarda görebilmek,
Test geliştirme sürecinin temel mantığını sınav mantığıyla anlayabilmek.

Bu dersten beklenen asıl kazanım Ölçme aracının “iyi” olması tek boyutlu bir şey değildir. Bir test hem uygulanabilir olacak, hem tutarlı sonuç verecek, hem de gerçekten ölçmek istediği şeyi ölçecektir. Soruların büyük kısmı bu ayrımlar üzerinden gelir.

Konu neden önemli?

Öğretmen sınav yapabilir ama yaptığı sınav gerçekten kazanımları ölçmüyorsa, puanlar tutarsız çıkıyorsa ya da puanlama çok öznel kalıyorsa doğru karar veremez. Yani ölçme aracı sadece “soru kâğıdı” değildir; öğretim sürecini yönlendiren karar aracıdır.

Ölçme-değerlendirme konularında en temel dönüşüm noktası burasıdır: artık sadece ölçme sonucu değil, ölçme aracının niteliği konuşulur. Bu yüzden geçerlik ve güvenirlik, bütün ünitenin merkezinde yer alır.

Kısa sınav notu Bu başlıkta en sık karışan yerler: geçerlik-güvenirlik ilişkisi, hata türleriyle güvenirlik ilişkisi ve kapsam geçerliğiyle görünüş geçerliğinin karıştırılmasıdır.

Geçerlik

Geçerlik, bir ölçme aracının ölçmek istediği özelliği ne derece doğru ölçtüğünü anlatır. Başka bir ifadeyle, “bu test gerçekten ölçmesi gereken şeyi mi ölçüyor?” sorusunun cevabıdır.

Örneğin matematik başarısını ölçmek için hazırlanmış bir sınav, öğrencinin daha çok okuduğunu anlama becerisine yükleniyorsa geçerlik sorunu doğabilir. Çünkü görünüşte matematik sınavıdır ama baskın olarak başka bir niteliği etkiliyor olabilir.

Ana fikir Geçerlik = doğru şeyi doğru amaçla ölçme meselesidir.

Geçerlik türleri

1. Kapsam geçerliği

Testin, ölçülmek istenen konu ya da davranış alanını ne kadar temsil ettiğini anlatır. Eğer öğretilecek kazanımların önemli bir kısmı testte yer almıyorsa ya da test sadece dar bir bölgeye yığılıyorsa kapsam geçerliği zayıflar.

Kapsam geçerliği neyi sorar? “Bu test, konunun ve kazanımların temsilini dengeli biçimde yapıyor mu?”

2. Görünüş geçerliği

Testin dışarıdan bakıldığında ölçüyor gibi görünmesidir. Bu tür geçerlik daha çok ilk izlenim düzeyindedir. Bilimsel anlamda tek başına güçlü bir geçerlik kanıtı sayılmaz.

Yani test öğrenciler, veliler ya da öğretmenler tarafından “uygun görünüyor” olabilir; ama bu tek başına gerçekten geçerli olduğu anlamına gelmez.

3. Ölçüt geçerliği

Test puanlarının dışarıdaki bir ölçütle ilişkisini temel alır. Eğer test sonuçları, aynı özelliği gösteren başka güçlü bir ölçütle uyumluysa ölçüt geçerliği desteklenmiş olur.

Burada özellikle bir testin gelecekteki başarıyı yordaması ya da mevcut güçlü bir ölçütle benzer sonuç vermesi önem kazanabilir.

4. Yapı geçerliği

Ölçme aracının kuramsal olarak ölçmek istediği yapıyı gerçekten ölçüp ölçmediğiyle ilgilidir. Özellikle doğrudan gözlenemeyen özelliklerde, örneğin tutum, ilgi, kaygı, kişilik gibi alanlarda daha çok önem kazanır.

Geçerlik türü	Temel soru	Ayırt edici nokta
Kapsam geçerliği	Kazanımları yeterince temsil ediyor mu?	İçeriğin dengeli dağılımı
Görünüş geçerliği	Dışarıdan uygun görünüyor mu?	İlk izlenim düzeyi
Ölçüt geçerliği	Başka bir ölçütle uyumlu mu?	Dış ölçüte dayalı ilişki
Yapı geçerliği	Kuramsal yapıyı gerçekten ölçüyor mu?	Soyut özellikler için önemli

Güvenirlik

Güvenirlik, bir ölçme aracının tutarlı sonuç verme derecesidir. Yani benzer koşullarda tekrarlandığında sonuçların ne kadar kararlı olduğu ile ilgilidir.

Eğer bir sınav bugün çok yüksek, yarın anlamsız derecede düşük sonuç veriyor; puanlayana göre aşırı değişiyor ya da öğrencinin gerçek düzeyiyle ilgisiz dalgalanmalar gösteriyorsa güvenirlik düşüktür.

Ana fikir Güvenirlik = tutarlılık ve kararlılık demektir.

Güvenirliği artıran etkenler

Soru sayısının yeterli olması
Soruların açık ve anlaşılır olması
Uygulama koşullarının standartlaştırılması
Puanlamanın nesnel yapılması
Ayırt edici maddelerin kullanılması

Güvenirliği düşüren etkenler

Az sayıda soru
Belirsiz ya da çift anlamlı maddeler
Uygulama ortamındaki gürültü ve düzensizlik
Puanlayıcı yanlılığı
Aşırı kolay ya da aşırı zor, ayırt ediciliği düşük maddeler

Kritik nokta Güvenirlik yüksek olabilir ama geçerlik yine de düşük olabilir. Çünkü test çok tutarlı biçimde yanlış şeyi de ölçebilir.

Geçerlik ve güvenirlik ilişkisi

Bu iki kavram çok yakındır ama aynı şey değildir. Geçerlik, doğru şeyi ölçme; güvenirlik ise tutarlı ölçme ile ilgilidir.

Genel sınav mantığında şu ilişki kabul edilir: Güvenirlik, geçerlik için gerekli ama tek başına yeterli değildir. Çünkü tutarsız bir ölçüm zaten doğru yorumlanamaz; ama tutarlı olması da otomatik olarak doğru şeyi ölçtüğü anlamına gelmez.

Durum	Ne anlama gelir?
Güvenirlik düşük	Sonuçlar tutarsızdır; geçerlik de zayıflar.
Güvenirlik yüksek, geçerlik düşük	Test tutarlı ama yanlış özelliği ölçüyor olabilir.
Hem güvenirlik hem geçerlik yüksek	İstenen ideal duruma yaklaşılır.

Sınav cümlesi olarak akılda tut “Her geçerli ölçme aracı yeterince güvenilir olmalıdır; ama her güvenilir ölçme aracı geçerli olmak zorunda değildir.”

Kullanışlılık

Kullanışlılık, ölçme aracının hazırlanma, uygulanma, puanlanma ve yorumlanma bakımından pratik olma derecesidir. Bir ölçme aracı çok teorik olarak iyi görünebilir; ama aşırı uzun, çok maliyetli, uygulanması güç veya puanlaması aşırı zaman alıcıysa kullanışlılık düşer.

Eğitim ortamında sadece ideal ölçme aracı değil, uygulanabilir ölçme aracı da gerekir. Çünkü öğretmenin zamanı, öğrenci düzeyi, okul koşulları ve sınıf büyüklüğü gerçektir.

Kullanışlılığı etkileyen unsurlar süre, maliyet, hazırlanma kolaylığı, uygulanabilirlik, puanlama pratikliği, yorumlanabilirlik

Objektiflik

Objektiflik, ölçme ve puanlama sonuçlarının kişiden kişiye değişmemesiyle ilgilidir. Aynı cevap farklı puanlayıcılarda ciddi biçimde değişiyorsa objektiflik sorunu vardır.

Özellikle açık uçlu sorularda ve performans değerlendirmelerinde puanlama ölçütlerinin açık tanımlanması, rubrik kullanılması ve puanlama sürecinin standartlaştırılması objektifliği artırır.

Kısa yorum Objektiflik arttıkça güvenirlik de genellikle desteklenir.

Test geliştirme ilkeleri

İyi bir test tesadüfen oluşmaz. Önce neyin ölçüleceği netleştirilir, sonra bu amaca uygun kapsam belirlenir, soru yazılır, gözden geçirilir ve gerektiğinde düzeltilir.

1. Amacı belirleme
Test ne için kullanılacak? Başarı, hazırbulunuşluk, seçim, yerleştirme ya da süreç izleme mi?

2. Kapsamı ve kazanımları belirleme
Hangi davranışlar, konular ve bilişsel düzeyler ölçülecek?

3. Belirtke tablosu hazırlama
İçerik ile hedef davranışlar dengeli biçimde eşleştirilir.

4. Madde yazma
Açık, anlaşılır, amaca uygun sorular hazırlanır.

5. Gözden geçirme ve düzeltme
Dil, kapsam, güçlük, ifade ve teknik hatalar kontrol edilir.

6. Uygulama ve gerekirse analiz
Test sonuçlarına göre madde ve test kalitesi değerlendirilir.

Belirtke tablosu neden önemlidir? Çünkü kapsam geçerliğini güçlendirir. Hangi konudan, hangi düzeyde ve kaç soru geleceği rastgele değil, planlı biçimde belirlenmiş olur.

İyi bir testte aranacak temel nitelikler

Geçerli olmalı
Güvenilir olmalı
Kullanışlı olmalı
Öğrenci düzeyine uygun olmalı
Amaca hizmet etmeli
Madde dağılımı dengeli olmalı
Anlaşılır dil kullanılmalı

Hızlı tekrar etiketleri Doğru şeyi ölçme = Geçerlik Tutarlı sonuç = Güvenirlik Pratik uygulanma = Kullanışlılık Kişiden bağımsız puanlama = Objektiflik Planlı içerik dağılımı = Belirtke tablosu

Sınavda nasıl sorulur?

1. Geçerlik soruları

Testin kazanımları temsil etmemesi, ölçmek istediği yapı dışındaki özelliklerden aşırı etkilenmesi ya da konu dengesinin bozulması geçerlik sorusu olarak gelir.

2. Güvenirlik soruları

Puanlayıcı farkı, uygulama koşullarının değişmesi, soru sayısının azlığı ve belirsiz maddeler güvenirliği düşüren etkenler olarak sorulabilir.

3. Kullanışlılık soruları

Çok uzun sürede puanlanan, yüksek maliyetli veya sınıf koşullarında uygulanması zor testler kullanışlılık açısından sorunlu sayılır.

4. Test geliştirme soruları

Özellikle belirtke tablosu, kapsam temsili ve amaca uygun test hazırlama basamakları üzerinden gelir.

Soru çözme taktiği Önce şunu sor: burada sorun doğru şeyi ölçememek mi, tutarsız sonuç vermek mi, uygulama zorluğu mu, yoksa testin planlanış biçimi mi? Bu ayrım doğru kavrama götürür.

Sık karıştırılanlar

1. Kapsam geçerliği ve görünüş geçerliği

Kapsam geçerliği testin içeriği temsil etmesiyle ilgilidir. Görünüş geçerliği ise dışarıdan bakıldığında uygun görünmesiyle ilgilidir.

2. Güvenirlik ve geçerlik

Güvenirlik tutarlılıktır, geçerlik doğruluktur. Tutarlı olmak tek başına doğru şeyi ölçmek anlamına gelmez.

3. Kullanışlılık ve geçerlik

Çok pratik bir test kullanışlı olabilir; ama yanlış şeyi ölçüyorsa geçerli değildir. Tersine çok geçerli görünen ama uygulanması imkânsıza yakın bir test de eğitim pratiğinde sorun yaratır.

4. Objektiflik ve güvenirlik

Objektiflik arttıkça puanlama daha tutarlı hâle gelir ve bu durum çoğu zaman güvenirliği destekler; ama ikisi birebir aynı kavram değildir.

Hızlı tekrar cümlesi Geçerlik doğru şeyi ölçmek, güvenirlik tutarlı ölçmek, kullanışlılık ise ölçme aracını uygulanabilir kılmaktır.

Ders sonu mini test

1) Bir sınavın konunun önemli kazanımlarını dengeli biçimde temsil etmesi öncelikle hangi özellikle ilişkilidir?

A) Kullanışlılık

B) Güvenirlik

C) Kapsam geçerliği

D) Tesadüfî hata

2) Aynı öğrencinin benzer koşullarda yapılan ölçümlerde birbirine çok yakın sonuçlar alması, testin hangi özelliğinin yüksek olduğunu düşündürür?

A) Görünüş geçerliği

B) Güvenirlik

C) Bağıl ölçüt

D) Tanılayıcı değerlendirme

3) Aşağıdakilerden hangisi geçerlik ile güvenirlik arasındaki ilişkiyi en doğru biçimde yansıtır?

A) Geçerlik ve güvenirlik tamamen aynı kavramdır.

B) Güvenirlik düşük olsa da geçerlik yüksek olabilir.

C) Geçerlik varsa kullanışlılık otomatik olarak en üst düzeydedir.

D) Güvenirlik geçerlik için gerekli ama tek başına yeterli değildir.

4) Bir öğretmenin test hazırlamadan önce hangi kazanımdan kaç soru soracağını planlayıp konu-dağılım tablosu oluşturması aşağıdakilerden hangisiyle daha çok ilişkilidir?

A) Belirtke tablosu ve test geliştirme ilkeleri

B) Tesadüfî hata

C) Geriye ket vurma

D) Buluş yoluyla öğretim

Ders kapanış özeti Bu dersten tek satırlık özet çıkaracaksan şöyle çıkar: geçerlik testin doğru şeyi ölçmesi, güvenirlik tutarlı sonuç vermesi, kullanışlılık uygulanabilir olması, objektiflik kişiden bağımsız puanlanabilmesi, iyi test geliştirme ise bütün bunların planlı biçimde kurulması demektir.