Yokluk Hipotezi Anlamlılık Testi ve Etki Büyüklüğü Tartışmalarının
Transkript
Yokluk Hipotezi Anlamlılık Testi ve Etki Büyüklüğü Tartışmalarının
Yokluk Hipotezi Anlamlılık Testi ve Etki Büyüklüğü Tartışmalarının Psikoloji Araştırmalarına Yansımaları İdil Işık* Psikoloji araştırmalarında nicel verinin analizi için kullanılan istatistiksel testlerin temel mantığı “Yokluk Hipotezi Anlamlılık Testi” (Null Hypothesis Significance TestingNHST1) üzerine kuruludur. Ancak bir karar verme sistematiği olarak NHST, pek çok araştırmacı tarafından yıllardır ciddi şekilde eleştirilmektedir (örn., Cohen, 1994; Gigerenzer, 1998a ; Rosnow ve Rosenthal, 1989; Thompson, 1999). Psikoloji araştırma yöntemleri ve istatistiksel analiz konularında, lisans ve lisansüstü eğitiminde NHST temel öğretilerden birisidir. Pek çok psikoloji öğrencisi için NHST şu sürecin işlemesine neden olur: Veriye ve hipoteze uygun istatistiksel analizi yap; istatistik test değeri ile birlikte ortaya çıkan p değerine bak; sonucun “sıfır nokta sıfır beş”ten2 küçük olup olmadığına bak; küçük ise istatistiksel olarak anlamlıdır. Sonuç anlamlı ise, değişkenler arasında bir ilişki vardır ya da bağımlı değişken açısından gruplar arasında fark vardır ve “sevinç” hissedilir; eğer sonuç anlamlı değil ise, genelde “ben şimdi ne yapacağım?” düşüncesi ve hayal kırıklığı belirir. Sadece öğrenciler değil, deneyimli araştırmacılar da benzer bir yaklaşım ile veri analizi yapabilmektedir (Gigerenzer, 2004). Bu süreç istatistik test değerinden ziyade p değerine odaklanılmasına neden olur ve iki değişken arasındaki ilişkinin büyüklüğü hakkında fazla kafa yormadan, çoğu zaman da aslında istatistiksel anlamlılığın gerçekten bize ne söylediğini kesin olarak kavramadan sürüp gidebilir. NHST’yi eleştiren literatür, psikoloji araştırmaları sonucunda elde edilen bulguların sunduğu bilgiyi kavramak için bu mekanik sürecin dışına çıkılması gerektiğini söylemektedir. Bu alanda basılı önemli eserlerden birisinin yazarı olan Kline’nin söylediği gibi bu yöntem “alışıldığı şekilde ve üzerinde fazla dü* İstanbul Bilgi Üniversitesi Psikoloji Bölümü 1 Bu makaleye konu olan ana kavramlar için, İngilizce literatürde aşina olduğumuz NHST, ES, CI kısaltmalarını kullanmayı tercih ettim. 2 Özellikle lisans öğrencileri arasında %5 kesme değeri için kullanılan söylem yaygın olarak budur. Öğretim ortamlarında kimi öğrencilerin bu ifadeyi tam anlamlandıramadan kullandığını gözlemleyebiliyoruz. 56 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 şünmeksizin” kullanılmaktadır (kişisel iletişim, 2013)3. Bunun dışına çıkmak için veri analizinde, p değeri yanında, istatistik test değerinin büyüklüğüne (t, F, r vb.) bakılması; istatistiksel güç (Statistical Power), etki büyüklüğü (Effect Size-ES) ve güven aralığı (Confidence Interval-CI) gibi ek değerlerin incelenmesi önerilmektedir. NHST konusunda çok geniş uluslararası eleştirel literatür mevcut olmasına rağmen, araştırma bulgularının raporlamasında ağırlık halen istatistiksel anlamlılık üzerindedir. Ancak farklı disiplinlerden ve ülkelerden araştırmacıların, NHST tartışmalarını kendi alanlarına entegre etmeye çalıştıkları, bu amaçla NHST konusunu temel alan teorik makaleler yayımladıkları görülmektedir. Bu girişimler neticesinde, özellikle ES ve CI raporlaması konusunda zaman içinde gelişme kaydedilmektedir. Önümüzdeki günlerde bu konunun daha fazla sayıda araştırmacının dikkatini çekeceği de anlaşılmaktadır. Örneğin, anlamlılık testi tartışmalarına işaret eden NHST kısaltmasının yanında EST (Effect Size Testing; etki büyüklüğü analizi) kısaltmasının da karşımıza çıkması bu eğilimin bir işaretidir (Cortina ve Landis, 2011). Uluslararası literatürde NHST’ye dair kapsamlı tartışmalar sürerken, ülkemizde araştırma bulgularını istatistiksel anlamlılığının ötesinde ve olguları açıklayıcı gücü açısından irdeleyen psikoloji bilimi özelinde yeterli bir tartışma ortamının olmadığını söyleyebiliriz. Psikoloji alanındaki araştırmaların basılabileceği yerel akademik dergiler kısıtlıdır; bunlarda da etki büyüklüklerinin raporlanmasına dair ortak bir politikadan bahsedemeyiz. Türk Psikoloji Dergisi yazım kurallarına göre, derginin Haziran 2013 tarihli, 71. Sayısında da belirtildiği gibi “Tüm yazılar Amerikan Psikologlar Birliği tarafından yayımlanan ‘Publication Manual of American Psychological Association4 (5. Baskı), 2001’ adlı kitapta belirtilen yazım ilkelerine uygun olarak yazılmalıdır.” (s. 120). APA, NHST tartışmalarının sonucunda, araştırmaların bilimsel katkısını arttırmak için bulguların raporlamasında esas alınacak ilkeleri zaman içinde değiştirmiş; örneğin, etki büyüklüğünü raporlama gereği altıncı basımda (2010) kesinlik kazanmıştır. Dolayısıyla TPD’nin APA yazım rehberinin 5. Basımını (2001) rehber olarak kullanmaya devam etmesi, güncel gelişmelerin yeni yayınlara aktarılmasında yönlendirme eksikliğine neden olmaktadır. Ayrıca, TPD yazım kurallarına göre etki düzeyinin raporlanmasının gerekli olduğu, “Sıklıkla kullanılan istatistiksel teknikler, metin içinde rapor edilirken aşağıda belirtilen şekilde olmalıdır: Varyans analizi: ....yaş değişkeninin temel etkisi anlamlıdır (F(1,123) = 5.43, p < .05, η2= .05)” ifadesinde, sıklıkla kullanılan bir etki büyüklüğü ölçütü olan eta-kare (η2= .05) teriminden anlaşılmaktadır (TPD, 2013, s. 20). Ancak burada sadece ANOVA testi için örnek verilmesi, ancak bu terimin ne olduğunun açıklanmaması, araştırmacıların diğer istatistik analizlerine ve raporlarına etki düzeyi bakışını yerleştirmeleri açısından bir yönlendirme sağlamamaktadır. NHST eleştirel yazınının araştırmalara yansıma sürecini incelediğimizde, meta-analiz çalışmalarının araştırmacıların p değerine odaklanarak çalışma eğilimini değiştirmek için bir tetikleyici olduğu görülmektedir. Ülkemizde psikolojinin çeşitli araştırma alanlarında basılı meta-analiz çalışmalarına da nadiren rastlanmaktadır. ULAKBIM sosyal bilimler veritabanında “meta analiz” anahtar kelimesi ile tarama yapıldığında 29 adet eser listelenmektedir5. Bunlardan 14 tanesi ilgili araştırma alanındaki mevcut araştırmaların harmanlandığı meta analiz çalışmalarıdır; iki makale meta analiz teknikleri ile ilgilidir. Ampirik meta analiz araştırmalarından 10 tanesi eğitim bilimleri alanıyla ilgili dergilerde yayımlanmıştır. Geri kalan dört çalışma “Polis Bilimleri Dergi- 3 Bu makalede Rex B. Kline’den yapılan ve tırnak içinde verilen alıntılar, kendisi ile yaptığım yüz yüze görüşmeden alınmıştır. Rex B. Kline ile İstanbul’da 9 Temmuz 2013 tarihinde NHST hakkında yüz yüze yarı yapılandırılmış mülakat yaptım; yaklaşık 1.30 saat süren görüşmenin ses kaydını yaptım. Görüşmeyi deşifre ettikten sonra kendisi ile paylaştım ve bu makalede görüşlerine yer vermek üzere bilgilendirilmiş onayını aldım. Bu görüşmeden alıntılar, metin içinde ilk kez “kişisel iletişim” olarak verildikten sonra, metinde okuma kolaylığı yaratmak için “k.i., 2013” olarak verilmiştir. 4 Bu eser makalenin kalan kısmında “APA yazım rehberi” adıyla verilecektir. 5 9.1.2014 tarihinde yaptığım tarama sonucudur. ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 57 si”, “Çocuk ve Gençlik Ruh Sağlığı Dergisi”, “Dokuz Eylül Üniversitesi İşletme Fakültesi Dergisi” ve İstanbul Üniversitesi İşletme Fakültesi İşletme Dergisi”nde yayımlanan makalelerdir. Bu meta analiz eserlerinin ilgilendiği konular farklı hedef kitlelerdeki psikolojik süreçlere işaret etmekle birlikte, “Türk Psikoloji Yazıları” ya da “Türk Psikoloji Dergisi”nde meta analiz çalışmasına rastlanmamış olması, psikoloji alanında etki büyüklüklerini harmanlayan bilginin eksik kaldığına işaret ediyor. Ülkemizdeki psikoloji yazınında var olduğunu düşündüğüm bu eksikliklerden yola çıkarak bu makalede amacım, NHST’nin ne olduğunu, NHST sistematiği ile araştırmacının hangi bilgilere ulaşabildiğini ya da ulaşamadığını, bu sistematiğin hangi yönlerden eleştirildiğini ve NHST’nin eksiklikleri ile başa çıkmak için atılması gereken adımların neler olduğunu özetlemektir. Bu çerçevede takip eden bölümlerde mevcut literatürü özetledikten sonra, bu makale için Türk Psikoloji Dergisi’nde yayımlanan makaleler üzerinde yaptığım sistematik taramaya dayalı gözlemlerimi sunacağım ve NHST tartışmalarının ülkemizdeki araştırmalara entegre edilmesi için yapılabilecekler konusunda öneriler getireceğim. NHST İkili Karar Sistematiği Yokluk Hipotezi Anlamlılık Testi’ne göre, yokluk hipotezinde (H0), ilgilendiğimiz değişkenler arasında anlamlı bir ilişki olmadığını ya da bağımsız değişkenin oluşturduğu alt gruplarda bağımlı değişken açısından farklılık olmadığını iddia etmekteyiz. Yokluk hipotezine alternatif olarak ortaya attığımız hipotezde (H1) ise, anlamlı ilişki ya da farklılık olduğunu tahmin etmekteyiz. Bu modele göre, bu iki hipotezden birisini reddederken, yapılan hata düzeyi, araştırmanın sonunda ulaşacağımız yargıyı belirler. Bu karar sırasında, iki temel hata yapmamız mümkündür. Yokluk hipotezi doğru iken reddedebiliriz (Hata Tipi I) ya da yokluk hipotezi yanlış iken reddetmeyebiliriz (Hata Tipi II). I.Tip hata, istatistiksel anlamlılık düzeyi ile ilgilidir. Eğer araştırmacı, yokluk hipotezini reddederken hata olasılığı %5’ten fazla ise yokluk hipotezini desteklemiş oluruz; dolayısıyla fark olduğunu iddia ettiğimiz alternatif hipotezi devre dışı bırakmaktayız (Tablo 1). Araştırma geleneğinde, araştırmacılar I. Tip hatanın ortadan kaldırılmasını daha fazla önemsemektedir; çünkü bu hata türünde araştırmacı var olmayan bir etkinin var olduğunu iddia ederek, bazı araştırmacıların belirttiği gibi “kolayca aldatılabilen kişi” durumuna düşmekte (gullibility, Rosenthal ve Rosnow, 2008) ya da “kusurlu” (error of commission) bir davranış sergilemektedir (Ellis, 2010). Bu sebeple araştırmacıların yöntem eğitiminde bu hataya daha fazla atıf vardır. Tablo 1. NHST Karar sistematiği ve hata türleri H0 hipotezini Reddet H0 hipotezini Reddetme H0 Doğru H0 Yanlış İsabetli karar (1-alfa) Hata Tipi II (Beta) Kabul edilebilir en yüksek hata düzeyi: .20 Hata Tipi I (Alfa) Kabul edilebilir en yüksek hata düzeyi: .05 İsabetli karar (1-Beta) İstatistiksel Güç 58 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 II.Tip hata ise, iki değişken arasındaki nedensel ya da korelatif bir bağ bulunmasına rağmen, bu ilişkinin var olmadığı yönünde bir karar verildiğini gösterir. “Körlük” (Rosenthal ve Rosnow, 2008) ya da “ihmal” (error of omission; Ellis, 2010) olarak isimlendirilen bu hatanın en fazla %20 düzeyinde olması kabul edilebilir (Cohen, 1988). Bu hata türü, araştırmada bir etki var iken, mevcut araştırma örneklemi ve tasarımı ile ne düzeyde gözden kaçırılabildiğine dair bilgi vermektedir. Görüldüğü gibi, NHST iki hipotez üzerine kuruludur; bu hipotezlerden birisi doğru olduğunda, diğeri doğru olamaz. Veriyi analiz etmek için kullanılan istatistik testleri, örneklemden elde edilen değer ile H0 hipotezinde tanımlanan evrene dair parametre arasındaki farkı, örneklemden kaynaklanan hatayı dikkate alarak hesaplar. Araştırmacı iki hipotez arasında seçim yaparken ortaya çıkma olasılığı olan iki farklı hatadan kaçınmak durumundadır. İşte NHST’nin bu ikili yapısı içinde karşımıza çıkan istatistiksel anlamlılık ve istatistiksel güç olgularını takip eden bölümde daha detaylı açıklayacağım. Ayrıca NHST sistematiğine dair eleştirilere geçmeden önce, etki büyüklüğü olgusunun ne olduğuna da kısaca değineceğim, çünkü etki büyüklüğünün anlaşılmasının NHST’nin eleştirilen yönlerini kavramak açısından yardımcı olacağını düşünüyorum. İstatistiksel Anlamlılık İstatistiksel anlamlılık önceki bölümde belirtilen hatalardan birincisi ile ilgilidir; burada alfa ve p değeri olmak üzere iki kavram gündeme gelmektedir6 (Gigerenzer, 2004). Alfa, I. Tip hatayı sergileme olasılığıdır; yani H0 doğru kabul edilecek olursa, H0 hipotezinin reddedilmesinin koşullu olasılığıdır. Bu koşullu olasılık araştırmanın aynı evrenden örneklemlerle tekrarlanması halinde ortaya çıkabilecek hata düzeyidir. Standart bir değer olarak genelde 0.01 ya da 0.05 olarak seçilir. Eğer farklı bir değer seçilecek olursa genellikle 0.05’ten daha düşük olan değerler seçilir. Alfa değeri, analizler yapılmadan seçilen kıstastır. p değeri ise H0 hipotezinin doğru olduğu koşul kabul edilerek, aynı araştırmanın tekrarlanması halinde, gözlenen test değeri ve daha uç bir değerin ortaya çıkma olasılığını gösterir. Bu olasılık da H0 hipotezinin doğru olduğu sayıltısı7 altında hesaplandığı için, koşullu olasılık düzeyidir. Gözlenen olasılık değeri olarak p, Gigerenzer’in (1993, 2004) de isimlendirdiği gibi “anlamlılığın tam seviyesi” dir. NHST sürecinde, p değerinin alfa değerinden düşük olmasını bekleriz. Yani, I. Tip hatanın replikasyonlarda ortaya çıkması beklenen en yüksek düzeyini gösteren alfa değerinin, gerçek veriden elde edilen gözlenen bulgunun replikasyonlarda ortaya çıkma olasılığını gösteren p değeri ile karşılaştırılması istatistiksel anlamlığa dair çıkarım imkânı verir. NHST eleştirel literatürüne katkıda bulunan yazarlar, alfa ve p değerinin sıklıkla karıştırıldığını söylemektedir (Hubbard, 2004; Mulaik, Raju ve Harshman, 1997). Bunun neticesinde istatistiksel anlamlılığın ne olduğuna dair pek çok yanlış tanımın ortaya çıktığını ve bu yanlış anlamaların öğrenciler, deneyimli araştırmacılar ve hatta istatistik ve yöntem dersi veren öğretim üyeleri arasında dahi görüldüğünü söylemektedir. Bu konuyla ilgili olarak ilerleyen bölümlerde daha fazla bilgi vereceğim. Dolayısıyla, p< .05 olması halinde, istatistiksel anlamlılık şuna işaret eder: Aynı araştırmanın, benzer özelliklerdeki örneklemlerde tekrarlanması halinde, elde edilen ilişki ya da farka ilişkin istatistik test değerlerinin %5’inden daha azı, gözlenen bulgular- 6 Alfa ve p değeri olasılık değeri olarak iki temel teorik yaklaşıma dayalıdır: (1) H0 hipotezinin doğru olduğu sayıltısı altında hesaplanan, koşullu olasılık düzeyleridir. (2)“Sıklıkçı” (frequentist) istatistiksel kestirime dayalıdır; yani, tekrarlı random denemeler sonucunda bir çıkarıma varılabilir ve ilgilenilen olgunun bu tekrarlarda ne sıklıkla gözlendiği, olgunun olasılığını verir. 7 Sayıltı: İngilizce “Assumption” kelimesi için ön kabul anlamında kullanılmaktadır. ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 59 dan daha uçlarda (düşük ya da yüksek) bir sonuç verecektir. Bu sonuç elde edildiğinde H0 reddedilir ve alternatif hipotez için destek elde edilmiş olur. Görüldüğü gibi istatistiksel anlamlılığın ne olduğunu açıklamaya çalışırken gözlenen ilişki ya da farkın ne düzeyde olduğuna dair atıf yer almadı. Tek vurgu I. Tip hatanın ve gözlenen bulgunun ortaya çıkma olasılığıdır. Oysa araştırmacıların esas amacı, ilgilendiği araştırma sorusunun içinde yer alan değişkenler arasında ne tür bağıntılar olduğu ve bu bağıntıların ne kadar güçlü olduğunu anlamak ve açıklamaktır. Yani etki büyüklüğünü anlamaktır; ancak istatistiksel anlamlılık bu konuda bilgi vermez. Daha da ötesinde NHST’deki p değeri vurgusu esasen ilişkilerin önemsenecek düzeyde olup olmadığı sorusundan da araştırmacıları uzaklaştırmaktadır. İstatistiksel Güç İki değişken arasında korelasyonel ya da nedensel bir ilişki, dolayısıyla bir etki var olmasına rağmen, yapılan araştırma sonucunda bu etki fark edilemeyebilir. Daha önceki bölümde de bahsedildiği gibi bu hata II.Tip hata türüdür ve beta değeri olarak bilinmektedir. Bunun tamamlayıcısı olan doğru karar, yani 1-beta ise, bir etkinin doğru şekilde tespit edilebilme ihtimalini vermektedir ki bu da “İstatistiksel Güç” olarak isimlendirilmektedir. İşte, eleştirel literatür, araştırmacıların bulgularını istatistiksel güç açısından da yorumlaması gerektiğini söylemektedir. Yani araştırmamızda eğer bir etki var ise, yaptığımız ölçüm ya da inceleme, bu etkinin varlığını tespit etmek ve göstermek açısından ne kadar güce sahiptir sorusuna cevap bulunmalıdır. Araştırmanın istatistiksel gücünün düşük olması, örneklemden hareketle evrene dair hatalı çıkarımlar yapılmasına neden olmaktadır. Bir analizin istatistiksel gücünü şu faktörler belirlemektedir ve bir analizin gücü bu dört unsur yüksek olduğunda en yüksek düzeye ulaşır (Ellis, 2010; Murphy ve Myors, 2004): (a) Araştırmanın ölçüm araçlarının ve tasarımının bir etkiyi tespit etmekteki hassasiyet düzeyi: Geçerliliği yüksek ölçüm araçları ve karıştırıcı değişkenlerden kaynaklanan istenmeyen varyansın en aza indirildiği araştırma tasarımları ölçüm hassasiyetini yükseltecektir; böylelikle istatistiksel güç artacaktır. (b) Var olan etkinin büyüklüğü: Gerçek yaşamda var olan etki büyük ise istatistik testler tarafından da kolaylıkla tespit edilecektir. (c) Örneklem büyüklüğü: Örneklemin büyük olması, evrene ilişkin daha doğru kestirim yapılmasını sağlar; dolayısıyla, analizin etkiyi tespit etmesini sağlayan hassasiyeti de yükselecektir. Geniş örneklem, istatistik testlerin gücünü de yükseltmektedir. Araştırmanın örneklemi büyüdükçe, istatistik test değeri büyüyecek, p değeri küçülecektir. (d) H0 hipotezinin reddedilmesi için konulan kesme değerinin ne kadar tutucu olduğu: H0 hipotezinin reddedilmesi için seçilen p değeri çok tutucu olmadığında, yani %5 ve daha büyük olduğunda, testin istatistik gücü de yükselmektedir. p değerinin %5’ten daha düşük olması etkinin tespitini zorlaştırmaktadır. Bu sebeple araştırmacı, araştırma sorusunun gereklerine göre farklı bir alfa değeri seçebilmelidir. Örneğin, etki düzeyi ve bu etkiyi tespit etme hassasiyeti yüksek deneysel tasarım kullanan bir araştırmacı alfa değerini %5 seçmek zorunda olmamalıdır. Sonuç olarak, istatistiksel güç kavramı, araştırmacıların NHST mantığı içinde sadece I. Tip hataya odaklanarak, mekanik bir şekilde H0 hipotezini “destekle” ya da “reddet” kararına sıkışmasının önüne geçmektedir. Çünkü araştırmacı, ilgilendiği olgular arasındaki etkinin büyüklüğünün taşıdığı önem, bu etkiyi tespit edebilmek için kullandığı araçlar ve araştırma tasarımının hassasiyeti, gereken örneklem büyüklüğü ve standart p değerleri yerine araştırmanın gerektirdiği bir p değerini bilinçli şekilde seçmek durumundadır. Yani bu süreçte araştırmacılar, tek bir p değeri üzerinden mekanikle- 60 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 şen bir karar yerine, analitik ve aktif bir rol üstlenmeye başlayacaktır. Etki Büyüklüğü Etki büyüklüğü, incelediğimiz olgu çerçevesinde, değişkenler arasındaki korelasyonel ya da kestirimsel ilişkinin ne kadar kuvvetli olduğunu gösteren standart ölçüttür (Kelley ve Preacher, 2012; Murphy ve Myors, 2004). İstatistiksel anlamlılığın daha önceki bölümlerde detaylı şekilde verilen tanımından yola çıktığımızda, p değerinin ilgilendiğimiz olguyla ilgili değişkenler arasında gözlenen bağların gücü ve önemi konusunda bilgi vermediğini biliyoruz. İşte NHST’ye eleştirel yaklaşan araştırmacılar bu kısıttan yola çıkarak ek bir ölçüt ile elde edilen bulgunun ne düzeyde önemsenmesi gerektiği hakkında fikir elde etme çabasına girmiştir; araştırmacıları da bu yönde teşvik etmektedirler (Fritz, Scherndl ve Kühberger, 2013). Yani istatistiksel anlamlılığa sahip olan bir korelasyon ya da farkın büyüklüğü, iki değişken arasındaki etki hakkında ne söylemektedir? Etki büyüklüğü bu sorunun cevabını veren standart bir değerdir (Murphy ve Myors, 2004). NHST ELEŞTİRİLERİ Fark edildiği gibi önceki bölümde NHST karar sistematiği içinde yer alan ana kavramları tanıtırken dahi, istatistiksel anlamlılığın eleştirilen yönleri ile istatistiksel güç hesaplamalarının NHST’nin kısıtlılıkları ile başa çıkmak için katkısından bahsetmek durumunda kaldım. Bu bölümde, NHST eleştirilerini daha sistematik şekilde özetleyeceğim. Takip eden bölüm ise bu sorunlarla başa çıkmak için sunulan öneriler üzerine odaklanacak. 1. NHST’nin bir model olarak taşıdığı sorunlar NHST’nin karmaşık yapısı, bunun sonucu olarak mekanik bir araç olarak kurgulanması, modelde iki farklı hata olasılığı söz konusu iken I.Tip hataya vurgu olması, örneklem genişliğinden etkilenmesi ve istatistiksel kestirim açısından katkı sağlamaması, NHST’nin bir model olarak sorunlu yönleridir. a. NHST’nin araştırmacıları mekanik karar vermeye iten yapısı NHST’nin mekanik yapısına dair eleştirileri NHST’nin tarihçesinden yola çıkarak tartışabiliriz. Harlow, Mulaik ve Steiger (1997), NHST’nin güncel kullanımının, R. Fisher’in 1920’li yıllardaki yaklaşımı (Robinson ve Wainer, 2001) ile 1930’lu yıllarda J. Neyman ve E. S. Pearson’un ortaya attığı görüşlerin hibrid şekli olduğunu söyler. Fisher modeli (p modeli), sadece yokluk hipotezini ortaya atar, alternatif hipotez yoktur (Morgan, 2003). Yokluk hipotezinin altında, verinin koşullu olasılığıyla ilgili bir tahmin yapmaya çalışır ve istatistik test sonucunda ortaya çıkan olasılığı p değeri olarak isimlendirir. Bugün geleneksel olarak Fisher’e atfedilen 0.05 ve 0.01 anlamlılık düzeylerinin bütün çalışmalarda kullanılması gerektiği konusunda aslında Fisher’in bir yönlendirmesi olmadığı söylenmektedir (Inman,1994; Kline, 2004). Bu değerin alfa değeri olarak vurgulanışı, tüm araştırmalar için karar kriteri olarak kabul edilişi ve modele alternatif hipotezin eklenişi Neyman-Pearson yaklaşımının sonucudur (Hubbard, 2004; Hubbard ve Armstrong, 2006) . Hubbard ve Ryan (2000), 1940-1960 tarihleri arasında, istatistiksel analizlerin kullanımının yaygınlaştığını ve NHST’nin standart bir prosedür olarak yerleştiğini söylemektedir. Bu standartlaşma kestirim süreçlerindeki öznel yargıları ortadan kaldırmak açısından yararlı olmakla birlikte, NHST araştırmacılar tarafından ikili (dichotomous) karar aracı olarak giderek mekanikleşerek kullanılmaya başlanmış ve 1970’lerden iti- ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 61 baren özellikle bu yönüyle eleştirilmeye başlanmıştır. Bu bilgiler ışığında NHST karar sistematiği sürecinde araştırmacıların mekanikleşen yaklaşımlarının şu aşamaların hepsinde olduğunu söyleyebilirim: (a) I. Tip hata düzeyinin en fazla %5 olarak seçilmesi; (b) istatistik testlerin, bir analizin gerektirdiği koşullara (temel sayıltılar) bakılmaksızın kullanılması; (c) elde edilen test istatistik değerinin büyüklüğüne bakmadan sadece p değeri nin %5’ten büyük ya da küçük oluşuna göre istatistiksel anlamlılık ile ilgili karar verilmesi, (d) bu kararın H0 hipotezini red ya da kabul ilkesi ile rapor edilmesi; (e) bu bulgunun taşıdığı anlam hakkında derinlemesine ve analitik bir değerlendirme yapılmaması. Bu sürecin ürünü olan makalelere bakıldığında, ifadelerin ve sayısal değerlerin adeta bir şablona yerleştirilerek yazıldığı hissi uyanmaktadır. Gigerenzer (2004) bunu “yokluk ritueli” (null ritual, s. 588) olarak isimlendirmektedir. b. NHST’nin Tip I hatasına ağırlık vermesi “İstatistiksel Güç” bölümünde de belirtildiği gibi, NHST karar sistematiğinde II.Tip karar hatası ve bu karardan kaçınma seviyesini veren güç olgusu modelin temel yapı taşları arasındadır. Ancak lisans ve lisansüstü eğitimde izlenen araştırma yöntemleri, istatistik ve veri analizi öğretim teknikleri ağırlıklı olarak I.Tip hataya vurgu yapmaktadır. Örneğin, sosyal bilimlerde yaygın olarak kullanılan istatistik programı SPSS son yıllara kadar istatistik güç hesaplamasını kapsam içine almamıştır; bugün ise belli başlı istatistik analiz teknikleri için gözlenen güç hesaplamaları yapılabilmektedir. Tüm bunlar, araştırmacıların da temel kaygısının I.Tip hataya yoğunlaşmasına neden olmaktadır (Nickerson, 2000). c. NHST’nin örneklem genişliğinden etkilenmesi ve etki büyüklüğü ile ilgili yanılsamaya neden olması Daha önce de belirtildiği gibi NHST sistematiğinde, eğer örneklem geniş ise küçük bir etki dahi istatistiksel anlamlılık gösterecektir. İstatistiksel anlamlılık düzeyini8, etkinin büyüklüğü ile örneklemin büyüklüğü belirler (Rosenthal ve Rosnow, 2008). Örneklem büyüdükçe istatistiksel anlamlılık da büyüyecektir; bu etki büyüklüğü sıfır olmadığı sürece doğrudur. Örneğin, geniş örneklemlerle çalışan kamuoyu yoklamaları ya da epidemiyoloji araştırmalarında her türlü sonuç anlamlı çıkmaktadır (Nickerson, 2000). Küçük örneklemlerle yapılan çalışmalarda aynı büyüklükteki bir etki ise istatistiksel olarak anlamlı çıkmayacaktır. Özellikle araştırma tasarımı ve ölçüm araçlarının doğru seçilmesi ile gerekli deneysel kontrollerin sağlandığı küçük örneklemli deneysel çalışmalarda etkinin büyük olduğunun gözlenmesine rağmen, bulgunun istatistiksel anlamlılık vermediği için önemsenmemesi araştırmacıların sıklıkla yaptığı hatalardan birisidir. Burada NHST eleştirilerinin odak noktalarından birisi ortaya çıkmaktadır. Küçük örnekleme sahip ve tutucu p değerini tercih eden araştırmaların istatistiksel gücü de düşüktür; dolayısıyla, küçük de olsa var olan bir etkinin var olmadığı kararı verilecektir. Oysaki küçük bir etkinin pratik ve klinik anlamlılığı yüksek olabilir. d. Yokluk hipotezinin evrende her zaman yanlış olduğu gerçeğinin göz ardı edilmesi Aslında iki değişken arasındaki ilişki ve fark düzeyinin sıfır olması neredeyse imkânsızdır (Nickerson, 2000); yani H0 gerçek hayat ve insanla ilişkili olgular için her zaman yanlıştır. Bu sebeple iki değişkenin birbiriyle ilişkisi her durumda sıfırdan daha büyük olacaktır. Araştırmalarda, bireysel ve gruplar arası farklılıkların her zaman var olduğunu bilmemize rağmen bu farklılıkların sıfır (nil) olduğunu iddia ederek analizlere başlanmış olması eleştirilmektedir. Cohen (1994), “istatistiksel güç analizine 8 İstatistiksel Anlamlılık Düzeyi= Etkinin Büyüklüğü x Örneklem Büyüklüğü 62 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 dair çalışmaları sırasında sıfır hipotezinin her zaman yanlış olduğunu fark ettiğini” yazmaktadır (s. 1000). Yani aslında yokluk hipotezi, hemen her zaman, hatta küçük örneklemlerde dahi reddedilecek bir iddiadır. Cohen (1990), “Eğer H0 her zaman yanlış ise, bunu reddetmeyi bu kadar önemli kılan nedir?” diye sormaktadır (s. 1308). Kısacası, küçük bir örneklemde gözlenen küçük bir fark, geniş bir örneklemle çalışıldığında kesinlikle istatistiksel olarak anlamlı çıkacaktır. Bunun sağduyu ile öngörülebildiği durumda, istatistiksel olarak desteklendiğini göstermenin pek bir esprisi yoktur. Önemli olan bulunan farkın açıklayıcı etkisinin gösterilebilmesidir. Buna bağlı olarak, özellikle büyük örneklemle yapılan çalışmalarda sonucun istatistiksel olarak anlamlı çıkması, araştırmacıların bu bulgudaki etkinin ne kadar büyük olduğu konusunda kafa yormamasına neden olmaktadır. Aslında istatistiksel anlamlılıktan daha önemli olan, iki değişkenin ilişkisinin önemsenmeye değer büyüklükte olup olmadığıdır. 2. NHST’nin araştırmacıların kullanımına bağlı sorunlu yönleri Bakan, 1966 yılında yayımlanan makalesinde psikologların anlamlılık testini bir “yemek kitabı” (s. 428) gibi kullanma eğiliminde olduğunu, eğitimleri sürecinde anlamlılık testinin dayandığı matematiksel ve felsefi temellerin farkına varamadıkları için de NHST sistematiğini pek çok yanlış anlamayla kullandıklarını belirtmiştir. Bakan (1966) makalesinin girişinde, sunacağı eleştirilerin ve uygulamada rastlanan yanlış yorumlar konusundaki gözlemlerinin aslında bir orijinalliği olmadığını, literatürde bu konuda kaynakların olduğunu, ancak kendisine “kral çıplak” (s. 423) diyen kişi rolünü biçtiğini söylemektedir. Dolayısıyla bu bölümde özetleyeceğim “kullanıcı hataları”nın yaklaşık yarım asır önce Bakan’ın makalesinde de verildiğini (hatta öncesi de olduğunu Bakan söylüyor), ardından farklı araştırmacıların teorik ya da ampirik çalışmalar yaptığını görüyoruz. a. İstatistiksel anlamlılığın tanımına dair bilişsel çarpıtmalar NHST’nin karmaşık yapısı nedeniyle, istatistiksel anlamlılığın ne olduğuna dair pek çok yanlış anlama ortaya çıkmaktadır. Bakan’ın “yanlış yorumlama” (1966), Kline’nin (2013) ise “bilişsel çarpıtma” (cognitive distortion) olarak isimlendirdiği bu yanlış anlamalar aşağıda özetlenmektedir: i. p değeri elde edilen sonucun şansa bağlı olarak ortaya çıkma olasılığını gösterir: Bu bilişsel çarpıtmayı anlayabilmek için önce “şans”ın ne demek olduğuna karar vermek gerekir. Araştırmacılar elde ettiği bulguların ortaya çıkmasında şansın etkisini azaltmak ister; çünkü, bulgunun sadece bir “rastlantı”ya bağlı olmadığı ya da “kazara” gerçekleşmediğine kanıt elde etmek ister. Böylelikle p< 0.05 olduğunda, bulgunun ortaya çıkmasında şansın payının en fazla %5 olduğu yönünde bir anlayış gelişmektedir. Eğer “şans” kavramı ile bu rastlantısallık anlatılmaya çalışılıyorsa, elde edilen bulgunun ortaya çıkma nedeni olarak sadece rastlantı faktörü üzerinde durulmaktadır. Oysa bir olgunun ortaya çıkması tek bir nedene bağlı olamaz. Diğer taraftan “şans” kavramı eğer “olasılık” yerine kullanılıyorsa; bu durumda NHST karar sistematiğinin bütününün zaten bir olasılık sistemi olduğu unutuluyor demektir. NHST’ye eleştirel yaklaşanlar p değerinin şans ile ilişkilendirilerek tanımlanmasının, kullanıcının p değerinin örnekleme hatasına bağlı olarak ortaya çıktığı yönündeki yanlış inanışından kaynakladığını söylemektedir (Falk, 1998; Falk ve Greenbaum, 1995). Oysaki örneklemden kaynaklanabilecek hataların yanında ölçüm hataları, tasarım ve analiz sürecinin kendisi de açıklayıcı nedenler arasındadır (Kline, 2013). ii. p değeri I.Tip hatanın ortaya çıkma olasılığını gösterir: Daha önceki bölümde p değeri ile alfa değerinin aynı şey olmadığını söylemiştik. Bu çarpıtmada alfa ile p değeri karıştırılmaktadır. iii. p değeri H0 hipotezinin doğru olma olasılığını gösterir: Bu çarpıtma, aslında NHST’nin ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 63 kesinlikle cevap veremeyeceği bir soruya atıfta bulunmaktadır. İstatistiksel anlamlılığın cevap verebileceği soru şudur: “Etkinin var olmadığı doğru kabul edildiğinde, elimizdeki verinin ortaya çıkma olasılığı nedir?” Olasılık olarak bu soru şu şekilde ifade edilir: P(D| H0)9. Eleştirel literatür bu soru neticesinde araştırmacıların hipotez testi yaptığı yanılsaması içine düştüğünü söylemektedir. Yani, “Elimizdeki veriye göre, yokluk hipotezinin doğru olma olasılığı nedir?” sorusunun cevaplandığı sanılmaktadır. Oysaki P(H0|D)10 olasılığına dayalı bu ikinci soruya, p değeri cevap veremez. Olasılık çalışmaları yapan teorisyenler bu iki sorunun farklı olasılık yöntemlerine dayalı olduğunu belirtiyor. Birincisi koşullu olasılıktır ve NHST’nin dayalı olduğu olasılık hesaplaması budur. Diğeri ise Bayes olasılık perspektifi ile test edilebilecek bir sorudur. NHST’nin sorunları ile başa çıkmak için bu olasılık perspektifine geçiş önerileri bulunsa da (örn., Kruschke, 2010) bu istatistik testlerine dair radikal bir yapılanma gerektirdiği için pek de mümkün gözükmemektedir. Sonuç olarak, p değeri, H0 doğru kabul edildiğinde, elimizdeki verinin ve bu verinin sunduğu bulgu ile bundan daha ekstrem değerlerin ortaya çıkma olasılığıdır. iv. p< 0.05 olduğunda, H1 hipotezinin doğru olma olasılığı %95’ten büyüktür: Burada p değerinin tamamlayıcısı olan 1-p değeri üzerinden bir hata yapılmakta ve yine NHST’nin koşullu olasılık üzerine kurulu olduğu unutulmaktadır. Yani, NHST, elimizdeki veriye göre H0 hipotezinin doğru olma olasılığını vermiyorsa, H1 hipotezinin doğru olduğu konusunda da bilgi vermesi mümkün değildir. İstatistiksel anlamlılık, H0 hipotezinin reddedilip reddedilmediği bilgisini verir, ama H1 hipotezinin ne düzeyde doğru olduğu konusunda olasılık bilgisi vermez. v. p< 0.05 olduğunda, replikasyon çalışmalarında istatistiksel olarak anlamlı sonuç elde etme olasılığı %95’ten büyüktür: Tanımı ve dayandığı sıklıkçı (frequentist) bakış gereği, p değeri replikasyona dolaylı yoldan işaret etmektedir; ama bir bulgunun replikasyonla doğrulanma olasılığı genelde 1-p değildir. Bir evrenden seçilmiş benzer örneklemle yapılan çalışmaların ilgilendiğimiz değişkenle alakalı sunacağı bulgu örneklemler arası bir varyansa sahiptir. Ayrıca Greenwald, Gonzalez, Harris ve Guthrie (1996), p < 0.05 koşulu altında evrendeki etki düzeyi ile bir örneklemdeki etki düzeyi aynı olduğunda, aynı H0 hipotezinin replikasyon çalışmasında reddedilme olasılığının %50 seviyelerinde olduğunu göstermiştir. Görüldüğü gibi istatistiksel anlamlılığa dair bilişsel çarpıtmalardan ilk üçü p değeri ile diğer ikisi ise p’nin tamamlayıcısı olan 1-p değeri ile ilgilidir. NHST eleştirisi yapan araştırmacılar bu çarpıtmaların, NHST’nin karmaşık yapısından kaynaklandığı kadar, araştırmacıların aslında esas anlamak ve sormak istedikleri şeyin bu çarpıtmalarda yattığını, ama NHST’nin bu sorulara yanıt verme gücü olmadığını söylemektedir. Rosenthal ve Gaito (1963), Nelson, Rosenthal ve Rosnow (1986), Oakes (1986), Zuckerman, Hodgins ve Rosenthal (1993), Poitevineau ve Lecoutre (2001), psikoloji araştırmacıları, öğrencileri, istatistikçiler, araştırma yöntemleri ve istatistik dersi verenler arasında bu bilişsel çarpıtmaların ne oranda sergilendiğini incelemişlerdir. Bulgular, istatistiksel anlamlılığın ne olduğu konusunda tüm hedef kitlelerde az ya da çok bilişsel çarpıtmalara rastlandığını göstermektedir. b. Akademik arenada istatistiksel anlamlılığa sahip bulgulara verilen abartılı önem NHST sistematiği, kullanıcılarda “anlamlı olmayan bir sonucun bilimsel değerinin de olmayacağı” algısını uyandırmaktadır. Bu algının yaratılmasında bilim camiası ve dergilerin eğiliminin de önemi büyüktür. Rosenthal (1979), istatistiksel anlamlılığı yaka9 D: Data, P: Probability P(D| H0): H0 koşulu altında datanın ortaya çıkma olasılığı. 10 P(H0|D): Dataya dayalı olarak ya da data koşulu altında H0 hipotezinin ortaya çıkma olasılığı. 64 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 lamış çalışmaların akademik dergilerde basılma olasılığının daha yüksek olduğuna, diğerlerinin ise çekmecelerde unutulup gittiğine (File Drawer Problem) işaret etmektedir. Bu durum meta-analiz çalışmalarının da sonuçlarını etkilemektedir. Dergilerde basılan, dolayısıyla meta-analize dâhil edilen araştırmaların çoğunluğu istatistiksel anlamlılık düzeyini yakalamış bulgulara sahiptir. İlgilenilen olguya dair çoğunluğu anlamlı çıkan sonuçlar üzerinden meta- analiz yapılması yanlı genel değerlendirmelere ulaşılmasına neden olmaktadır. c. NHST’nin sayıltılarının karşılanmadan kullanılması Eleştirel literatür, NHST’nin kendi sayıltılarına uyularak kullanılması halinde işlevi olabileceğini söylemektedir. Örneğin, Kline’ye göre (k.i., 2013), “p değeri ancak bir analizin temel sayıltıları karşılandığı durumlarda doğrudur. İstatistiksel yazılımlardan elde edilen sonuçlarda yer alan p değerleri yanlıştır; çünkü bizler bu analizleri, anlamlılık testinin temel sayıltılarını hiçe sayarak kullanmaktayız”. Bu görüşü t-testi örneği üzerinden açıklayabiliriz. t-test için sayıltılar şunlardır: i. Katılımcılara seçkisiz örnekleme yöntemi ile ulaşılmış olması gerekmektedir. Oysa gerçek olasılıklı örnekleme tekniğinin kullanıldığı ve evrende her bir katılımcıya örnekleme girmek açısından eşit şans veren çalışmaların sayısı çok azdır. Araştırmacıların en sık kullandığı yöntem, en kolay ulaşabildikleri kişilerle çalışmaktır. ii. Örneklemlerin bilinen evrenlerden elde edilmesi, iki grubun dağılımının normallik göstermesi ve her iki grubun varyansının eşit olması gerekmektedir. Bu sayıltıdan küçük bir sapma, özellikle de küçük örneklemle çalışırken ve de seçkisiz örnekleme yapılmadı ise t-test sonucunun ve p değerinin doğruluk düzeyine çok etki yapar. Wilcox ve Keselman (2003) Student’s t-test, standart ANOVA, Pearson product-moment korelasyonu ve regresyon testlerinin normal dağılımdan küçük sapmalar gösteren bir veri üzerinde uygulanması halinde elde edilen bulguların araştırmacıları yanlış yönlendirdiğini, testin istatistiksel gücünü düşürdüğünü, etki büyüklüğünün ve güven aralığının yanlış hesaplanmasına neden olduğunu söylemektedir. Modern robust istatistik teknikleri ile normallikten sapmaların ve uç değerlerin (outliers) test istatistiklerini daha az etkilemesini sağlayan istatistiksel prosedürler geliştirilmekle birlikte, bu uygulamalar psikoloji araştırma pratiğine henüz tam olarak yansımamıştır. Wilcox (1998) modern istatistik teknikleri ile psikoloji araştırmacıları tarafından kullanılan teknikler arasındaki makas aralığının her gün biraz daha açıldığını söylemektedir. iii. t-test, araştırmada yapılan ölçümlerin mükemmel şekilde güvenilir olduğunu varsayar. Yani hiçbir ölçüm hatası yoktur; oysaki insanla yapılan çalışmalarda ölçümden elde edilen puanların hata içermemesi mümkün değildir. Bu hemen hemen hiçbir zaman sağlanamaz. Araştırmacılar olarak bizler bir hipotezi test ederken uygun istatistik teste karar vermek için değişken sayısı, değişkenlerin içinde barındırdığı grupların sayıları ve değişkenlerin ölçümünde kullanılan ölçeklerin türüne bakarız. Ancak, verinin kaynağının seçkisiz olarak elde edilmesi, ölçümlerin güvenilirliği ve dağılıma dair sayıltıların uygunluğu genellikle atlanan, bakılıyorsa dahi pek raporlanmayan yönleridir. Kline’ye göre; “Psikoloji araştırmalarında bu sayıltılar çok nadir karşılanır ve çoğu araştırmacı raporlarında örneğin t-test bulgularını sunarken bu sayıltılara yer vermez. Verinin bu sayıltılar açısından ne durumda olduğuna dair kelime edilmez. Böylece, istatistik analizin sayıltıları ihlal edilir, bulgular hatalı hale gelir, p değeri en basit dille yanlış olur. Yani anlamlılık testi, bu sayıltıların sunulduğu koşullar içinde çok nadir kullanılır.” (k.i., 2013). Bu da araştırma tasarımı ile istatistik arasındaki potansiyel uyumsuzluğu göz ardı ederek, analiz tekniğinin otomatikleşerek kullanılması anlamına gelmektedir. Bu ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 65 uyumsuzluk, istatistiksel analizlerin yanlış sonuçlar vermesine neden olmaktadır. Bu sayıltıların karşılanmaması durumunda p değerinin hatalı olacağını dikkate alarak bu aşamaya da gereken önem verilmelidir. d. Araştırmacılar tarafından yapılan hatalı yorumlar Daha önce p değerine dair yanlış tanımlar ve bunların doğurduğu bilişsel çarpıtmaları özetlemiştim. Bir diğer hata grubu ise NHST’den elde edilen bulguların yorumlanması sırasında sergilenir. Esasen bu yanlış yorumlar, istatistiksel anlamlılığın tam olarak ne olduğunu anlayamamaktan kaynaklanmaktadır. Dolayısıyla, önceki bölümde verilen bilişsel çarpıtmalarla aynı temel üzerine oturmaktadır. Bu bölümün aslında, bilişsel çarpıtmaların yorumlara nasıl yansıdığını özetlediğini söyleyebiliriz. i. Düşük p değeri, büyük etki demektir: İstatistiksel olarak anlamlı çıkan sonuçlar, elde edilen test değerine ve mevcut araştırmalarda raporlanan etki büyüklüklerine bakılmaksızın, büyük etkiye işaret ediyormuş gibi yorumlanmaktadır. p değeri etkinin büyüklüğü hakkında bilgi vermez. ii. H0 hipotezinin reddedilmesi demek, H1 hipotezinin doğrulandığı anlamına gelir: Tek bir çalışmada H0 hipotezinin reddedilmesi, H1 hipotezinin her durumda doğru olduğunu göstermez; çünkü H0 karşısındaki alternatif iddia aslında tek değildir. Örneğin iki grup arasında fark olduğu desteklendiğinde, bu fark bir birim de olabilir; beş birim de olabilir. Bağımlı değişkende gözlenen fark ilgilendiğimiz bağımsız değişken tarafından kısmen açıklanırken, araştırma tasarımına dâhil edilmeyen pek çok değişken, kalan varyansın ve hatta iyi bir deneysel kontrol sağlanmadı ise açıklandığı söylenen varyansın da esas belirleyicisi durumundadır. Yani H1 durumu için mantıksal pek çok alternatif açıklama vardır. Spesifik bir H1 hipotezinin doğrulanabilmesi için tüm alternatiflerin test edilerek reddedilmesi gerekir. Dolayısıyla H1 hipotezinin kabul edilmesi mümkün değildir; ancak H0 hipotezinin reddedilmesi mümkündür. Bu yanılsama genelde araştırmacıların istatistiksel olarak anlamlı çıkan bir sonucun nedensellik hakkında da bilgi verdiğine inanmasına yol açmaktadır. iii. İstatistiksel anlamlılık araştırmanın kaliteli ve başarılı olduğunu gösterir: H0 hipotezi, gerçekten bir etki olduğu için değil, aslında tasarım ve ölçüm problemleri sonucunda yanlış şekilde de reddedilebilir. İstatistiksel anlamlılık kaliteyi garantilemez. iv. İstatistiksel olarak anlamlı olmayan sonuçlar araştırmayı “başarısız” kılar: Bazı durumlarda H0 hipotezinin reddedilmemesi bilinçli şekilde tercih edilir; bu bulgunun “değeri” tamamen araştırma sorusuyla ve alandaki diğer araştırmaların bulgularıyla gösterdiği tutarlılıkla alakalıdır. Alternatif hipotez için destek elde etmeye çalışırken H0 hipotezinin reddedilememesi durumunda, araştırılan olgunun başka faktörlerden etkilenebildiğine dair fikir üretilebilecektir; alternatif H1 iddialarının ortaya atılmasına zemin yaratması bir başarıdır. v. Bir replikasyon çalışmasında iki çalışma istatistiksel olarak anlamlı olan ve olmayan bulgular verirse doğrulama sağlanamadığı anlaşılır: İki çalışma farklı istatistiksel güç ve örneklem büyüklüklerine sahipse, istatistiksel anlamlılık seviyeleri üzerinden karşılaştırılamazlar. Etki büyüklüklerinin birbirine yakınlığı replikasyonun işlediğini gösterir. vi. Bir analiz p=.051 sonucunu veriyorsa istatistiksel olarak anlamlı değildir: NHST öğretisi sonucunda alfa değeri kesinlikle uyulması gereken bir kesme değeri olarak algılanmaktadır. Bunun sonucunda örneğin p=.049 istatistiksel olarak anlamlı kabul edilirken, p=.051 istatistiksel olarak anlamlı değildir. Oysaki etki büyüklüklerine bakılacak olsa eşit oldukları görülecektir. Diğer taraftan kimi zaman p değerindeki belirgin farklar, örneğin p değerinin bir araştırmada 0.03, diğerinde 0.07 olmasına rağmen, etki büyüklükleri açısından hiçbir fark olmayabilir. Genellikle 0.05 üzerine çıkan yakın değerler, bulgunun marjinal ya da istatistiksel anlamlılığa yaklaştığını belirterek 66 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 raporlanmaktadır. Oysa bulgular alfa değerine bu kadar önem atfetmeden de yorumlanmalı ve raporlanabilmelidir. Gordon (2001), Haller ve Krauss (2002) ve Lecoutre, Poitevineau ve Lecoutre (2003), p değerine dair yanlış yorumlara odaklanan ampirik çalışmalarında, psikologların ve hatta istatistikçilerin istatistiksel anlamlılık değerini yanlış yorumlayabildiğini göstermişlerdir. Yani Lecoutre ve diğerlerinin (2003) diliyle NHST’nin yanlış yorumları karşısında “bağışıklığın olmadığı” (s. 42) anlaşılmaktadır. Çözüm Önerileri NHST’nin şu ana kadar özetlenen tüm kısıtlarıyla başa çıkmak için, literatürde bir dizi önerinin sunulduğunu görüyoruz. Bu öneriler araştırmacılar tarafından kısmen uygulama pratiklerine de geçirilmiş olmasına rağmen psikoloji eğitiminin parçası haline getirilmeleri ve yaygınlaştırılmaları gerekmektedir. 1. Etki Büyüklüğünün Raporlanması Daha önce de tanımladığımız etki büyüklüğü, bağımsız değişkenin bağımlı değişken üzerinde ne düzeyde etkiye sahip olduğunu gösteren standart bir ölçüttür (Murphy ve Myors, 2004). APA yazım rehberi altıncı basımı (2010), istatistik analiz sonucunda anlamlı p değeri elde edilmediği durumlarda dahi etki büyüklüğünü gösteren standart ilişki ya da fark (burada Cohen’in d puanı örnek olarak verilmiştir) indeksi ile raporlama yapılmasını istemektedir. Etki büyüklüğünün raporlanması iki işleve sahiptir: (a) Etki büyüklüğünün araştırmalar arası karşılaştırmalardaki rolü: Aynı alanda gerçekleştirilen farklı araştırmalardan elde edilen test istatistik değerleri (t, F, r ya da x2 gibi), farklı örneklem büyüklükleri ve örneklem özellikleri nedeniyle karşılaştırılabilir sonuçlar vermemektedir. Bu karşılaştırmayı yapabilmek için gruplar arası farkları ya da ilişki düzeyini veren standart bir puanlamaya ihtiyaç vardır. Rosenthal ve Rosnow (2008), bu ihtiyacı şu örnekle açıklıyor: Örneğin bir araştırmacı 80 katılımcı ile gerçekleştirilen bir çalışmada, liderlik tarzının verimlilik üzerindeki etkisini araştırmış ve Tarz A’nın, Tarz B’den iyi olduğunu bulmuş olsun (t(78)=2.21, p< 0.05). Diğer araştırmacı da aynı deneyin bir replikasyonunu 20 kişinin katılımı ile yapıp anlamlı bir sonuç elde etmemiş olsun (t(18)=1.06, p=0.30). Bu bulguya göre ikinci çalışma, birincinin sonuçlarını elde edilen t-test değeri ve p değeri açısından tekrarlamamaktadır. İki çalışmanın da sonuçları şu prosedürlere göre etkileri açısından karşılaştırılabilir: r, R-kare, eta, eta-kare, Cohen’s f gibi “ilişkinin standartlaştırılmış ölçümü” veya Cohen’s d, Glass’s g ve Hedge’s d gibi “ortalamalar arasındaki standart fark”. Eğer bu iki araştırmanın bulgularının standart ilişki düzeyi (r) ile karşılaştırması yapılacak olsa aynı sonuçları elde ettikleri gösterilebilir (Rosenthal ve Rosnow, 2008, s. 56)11. (b) Etki büyüklüklerinin yorumlanması: Bu standart etki büyüklüğü ölçütü, bulguları “küçük”, “orta” ve “büyük” etkiye sahip şeklinde yorumlamaya imkân vermektedir. Cohen, “Statistical Power Analysis for the Behavioral Sciences” başlıklı kitabında (1988), psikoloji araştırmalarının veri analizinde sıklıkla kullanılan d, r, R, R-kare, Cohen’s f, eta ve eta-kare gibi ölçütleri, büyüklükleri açısından yorumlamaya rehberlik edecek, kendi deyimiyle “operasyonel tanımlar” vermiştir. Ancak, kitabın bütününde bu tanımların “sadece birbirine göre değil, aynı zamanda davranış bilimlerinin belirli bir alanı, belirli bir içerik ve araştırma kapsamında seçilen yöntem açısından da göreceli” olduğunu belirtmektedir (Cohen, 1988, s. 25). Yani, konu ve yöntem açısından çok geniş bir çeşitliliğe sahip davranış bilimleri gibi bir alanda, bulgunun etkisinin küçük, orta ya da büyük olduğuna karar vermek için standart bir tanım yaratmanın riskli olduğunu söylemektedir. Ancak, bu tanımların yine de geleneksel bir referans oluş11 .24 vermektedir. formulü ile t değeri r değerine dönüştürüldüğünde her iki araştırma bulgusu r = ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 67 turma avantajı olduğunu belirterek operasyonel tanımlarına kitabında örneklerle yer vermiştir. Bu kapsamda Tablo 2, farklı etki büyüklüklerinin yorumlanmasında kullanılabilecek değerleri vermektedir. Cohen kitabında (1988) sadece küçük, orta ve büyük etki değerlerini vermiş; bazı yazarlar ise tipik olarak gözlemlenebilecek düzeyin üzerindeki etki büyüklüğünü de eklemişlerdir (örn. Leech, Barrett ve Morgan, 2008). Küçük etki düzeyi kabul edilebilir en düşük etkiye işaret etmektedir. Tablo 2. Farklı Etki Büyüklüğü Endeksleri ve Yorumlanması (Cohen, 1988) Ortalamalar arasındaki farkın standartlaştırılması d 1 ve r İlişkinin standartlaştırılmış ölçümü R2 Cohen's f eta eta-kare Çok Büyük üzeri .70 ve üzeri .49 ve üzeri .50 .45 ve üzeri .20 Büyük .80 .50 .26 .40 .37 .1379 Orta .50 .30 .13 .25 .24 .0588 Küçük .20 .10 .0196 .10 .10 .0099 Cohen (1988) etki düzeyinin yorumlanması için verdiği kesme değerlerinin, araştırılan konuda fazla çalışmanın olmadığı yeni alanlarda işe yarayacağını söylemiştir. Yani, kendi çalışmanızdan bir etki gözlemlediğinizde bunun büyüklüğünü anlayabilmek için elinizde karşılaştırma yapacağınız hiçbir çalışma yoksa bu durumda işlevseldir. Farklı araştırma alanları ve araştırma tasarımlarına göre ES düzeylerinin büyük ya da küçük olarak yorumlanmasında ciddi bir değişkenlik olacaktır. Örneğin, eğer boylamsal bir çalışma yapıyorsak, 3-5 yıl sonrasına dair kestirimlerimiz açısından ES düzeyi küçük olacaktır. Araştırmamız deneysel bir tasarıma sahipse, kontrollü veri toplama imkânı varsa ES çok daha büyük olacaktır. Bir araştırmada, elde edilen etki büyüklüğünün ne kadar önemseneceği araştırma konusuna, kullanılan araştırma tasarımına ve bu bulgunun gerçek hayata yansımalarına bağlıdır. Elde edilen etkinin büyüklüğü üzerinde yorum yapabilmek için, araştırılan konu ile ilgili olarak daha önce yapılmış çalışmalarda raporlanan etki büyükleri bir rehberdir. Yani yeni çalışmada elde edilen etki, önceki etki büyüklüklerine göre ne düzeydedir? Etki küçük gözükse dahi, diğer araştırma bulgularına göre göreceli düzeyi, ilgilenilen bağımlı değişkenin insan hayatı açısından etkisi nedeniyle önemsenmesi gereken bir sonuç olabilir. Örneğin, insan hayatını riske atan çok çeşitli tehlike kaynağının bulunduğu bir üretim ortamında, iş ortamında yapılacak teknik iyileştirmeler ve çalışanlara güvenli davranışları kazandırmayı hedefleyen eğitimler ile iş kazalarının oranı arasındaki ilişkiyi inceleyen bir araştırma gerçekleştirdiğimizi düşünelim. Yapılacak teknik bir iyileştirme ve verilen eğitimler neticesinde beş yıllık zaman dilimi içinde ölümlü kaza oranı %15’ten, %11’e düşmüş olsun. % 4 düzeyinde bir iyileşme yaşandığını gösteren bir bulgunun ne kadar önemsenmesi gerektiği mevcut litera- 68 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 türdeki etki büyüklükleri ile karşılaştırılarak yorumlanabilir. Teknik iyileştirmeler ve eğitimlerin etki büyüklüğü bu çerçevede yorumlanabilir. Ancak bunun daha ötesinde, bu araştırmanın 1000 işçinin çalıştığı bir işletmede yapıldığını düşünecek olsak, bu iyileştirici yaklaşımlar sonunda beş yılda en az 40 çalışanın hayatta kalacağını söyleyebiliriz. Aslında bir iyileştirici müdahale değil kırk, sadece iki kişinin dahi hayatta kalmasını sağlıyorsa önemsenmesi gereken bir etkiye sahip olarak yorumlanmalıdır. Bu örnek ayrıca bizi istatistiksel anlamlılığın kısıtları ile başa çıkmak için önerilen pratik ve klinik anlamlılık kavramlarına getirmektedir. 2. Bulguların taşıdığı önem açısından değerlendirilmesi Bilim insanları, uygulayıcılar, tüketiciler, yöneticiler, hastalar ve öğrenciler gibi bir araştırma alanı ya da konusuyla ilgili kişiler acaba bir bulguyu önemi ve ne kadar dikkate değer olduğu açısından nasıl yorumlamaktadır? Bu bulguya güvenerek bir aksiyon almak konusunda ne düşünmektedir? Bu sorular Türkçeye “Dikkate Değer Anlamlılık” (substantive significance) diye çevirebileceğimiz, bulguların klinik süreçlerde ve uygulamada taşıdığı öneme işaret eden anlamlılık ile ilişkilidir (Kelley ve Preacher, 2012). a. Bulguların pratik anlamlılık açısından yorumlanması Bir araştırmada etkinin büyüklüğü sadece ES indeksinin sayısal değeriyle ilişkili değildir. Etki büyüklüğü değerinden yola çıkarak çalışmanın ne kadar önemli olduğu ve gerçek hayatta taşıdığı anlam hakkında bilgi ihtiyacı vardır (Kirk, 1996). Örneğin, cinsiyet ile liderlik yetkinliği arasındaki r = 0.40 düzeyinde istatistiksel olarak anlamlı orta düzeyde bir korelasyon değeri, yani cinsiyet değişkeninin liderlik yetkinliğinin %16’sını açıklıyor olması (R2), liderleri seçerken cinsiyete göre karar vermeye başlamak için yeterli olamaz. Yani bu bulgunun pratik bir anlamlılığı yoktur. Pratik anlamlılık konusunu tartışmaya açan teorisyenler, bir bulgunun önemi açısından yargıya varması gereken kişilerin, bu bilginin “tüketicisi” durumundaki kişiler olduğunu söyler. Bu kişilerin bir bulgunun gerçek hayata yansımaları ve bu bulguya dayalı olarak alınan kararların sonuçları hakkındaki yargıları, bulgunun pratik anlamlılığını verir (Aguinis, Werner, Abbott, Angert, Park ve Kohlhausen, 2010). Liderlik yetkinliği ile ilgili örnekten hareket edersek, bir işletmedeki insan kaynakları yöneticisinin, istatistiksel olarak anlamlı olan, ama ortalama etki büyüklüğüne sahip bu bulgu ile ilgili yorumları ve bu bulgudan yola çıkarak aldığı aksiyonlar bu bulgunun pratik anlamlılığını gösterir. b. Bulguların klinik anlamlılık açısından yorumlanması Klinik anlamlılık ise terapi teknikleri, ilaçla tedavi ya da eğitim uygulaması gibi bir müdahale yönteminin sonuçları açısından taşıdığı değer, bu yöntemin uygulandığı kişinin ve bu kişi ile ilişki içinde olan kişilerin gündelik hayatında gerçekten fark edilebilir bir değişim yaratıp yaratmadığının göstergesidir (Kazdin, 1999). Jacobson, Roberts, Berns ve McGlinchey (1999), örneğin psikolojik bir soruna dair tedavi sürecinde olan bir danışanın, uygulanan müdahale yöntemi sonunda, bu sorun öncesindeki işlevselliğine dönmüş olmasını klinik anlamlılık için kıstas olarak almaktadır. Bauer, Lambert ve Nielsen (2004), klinik anlamlılıktan bahsetmek için, tedavinin uygulandığı birey için anlam taşıyan bir değişimin yaşanması gerektiğini vurgular. İstatistik anlamlılık yapısı gereği grup ya da örneklem ölçeğinde karşılaştırmalara dayalıdır. Peterson (2008) klinik anlamlılığa yapılan vurgu sayesinde, birey ölçeğindeki gelişme ya da iyileşmelerin, grup düzeyindeki gelişmeler kadar dikkat çekmeye başlayacağını söylemektedir. Örneğin, ilaç tedavisi sonucunda yaşanan değişim istatistiksel olarak anlamlılığa ulaşmasa dahi, az sayıda vakada etki gözlenmesi ve vakaların bu değişimi önemsemesi, araştırmaya devam etme kararı verilmesine neden olabilir; yani bulgu klinik açıdan anlamlıdır (Peterson, 2008; Thompson, 2002). ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 69 3. İstatistiksel Gücün araştırma sürecine ad-hoc ya da post-hoc kullanımla entegre edilmesi Örneklem büyüklüğü, etki düzeyi ve istatistiksel anlamlılık arasındaki fonksiyonel bağlılık, araştırmacıların istatistiksel güç olgusunu planlama ya da teşhis amacıyla kullanmasına imkân vermektedir. Bunlardan birincisi, yani planlama, araştırmaya başlamadan önce örneklemin genişliğine karar verilmesidir. Cohen (1988,1992), Rosnow, Rosenthal ve Rubin (2000), Rosenthal ve Rosnow (2008) tarafından sunulan dönüşüm tablolarından yola çıkarak, gözlenmesi tahmin edilen bir etki büyüklüğü ve hipotez testi için seçilen kesme değeri kullanılarak örneklem büyüklüğüne karar verilebilir. İkinci kullanımı ise, araştırmanın hangi etkileri tespit etmekte daha fazla güce sahip olduğunu teşhis etme amaçlı kullanımıdır. Genelde istatistik programlarına entegre edilmiş olan “gözlenen güç” değerleri ile, farklı hipotez testlerinden elde edilen bulgular istatistik güçleri açısından karşılaştırılabilir. Böylelikle, araştırmanın gücü düşükse, bunun örneklem büyüklüğü, ölçüm hassasiyeti ya da gerçekte var olan etkinin zaten küçük olması gibi unsurlardan hangisi ile ilgili olduğu konusunda analitik bir değerlendirmeye başlanabilir. 4. Güven Aralığının Raporlanması Bildiğimiz gibi araştırmalarda seçilmiş örneklemden elde edilen değerlerle evrene dair çeşitli parametreler hakkında tahminde bulunmaya çalışıyoruz. Örneğin seçtiğimiz parametre, grup ortalaması gibi bir “tek değer tahmini” (point estimate) olabilir. Bu kapsamda, geleneksel pratiklere bakıldığında, ortalama ile standart sapmanın raporlandığını görmekteyiz. Ancak, APA yazım rehberi (2010), bu değerin doğruluğu hakkında fikir veren “aralıklı kestirim”in (interval estimate) raporlanmasını “bulguların raporlanmasındaki stratejilerin en iyisi” olduğunu belirtmektedir (s. 34). İstatistik analizlerden elde edilen parametre değerleri, ortalamalar arasındaki fark gibi parametre değerlerinden türetilmiş değerler ve etki büyüklüklerinin güven aralıkları ile birlikte raporlanması kuvvetle önerilmektedir. Örneğin %95 güven aralığı, sunulan değerin hangi hata aralığı içinde gözlenebileceğini göstererek, bulgunun doğruluk (precision) düzeyi hakkında (Cumming ve Finch, 2005), yani ortalamanın hangi alt ve üst sınırda gözlenebileceği hakkında bilgi vermektedir. Bulguların hem tek değer tahmini hem de aralıklı tahmini üzerinden tartışılması tercih edilmektedir (APA, 2010). Güven aralığı tanımına göre, bir araştırmanın çeşitli seferler tekrarı halinde, örneklemden elde edilen değerin, evrende gözlenebilecek gerçek değeri kapsaması beklenmektedir. Genelde %95 ya da %99 güven aralığı içinde yapılan hesaplamalar ile örneklemden örnekleme belirli düzeyde sapma beklense dahi, bizim çalışmamızdaki aralığın evrende var olan gerçek değeri içerme ihtimalinin %95 ya da %99 olduğunu söylemekteyiz. Çalışmaların %5 ya da %1’inde ise aralık tahmininin evren değerini kapsamayacağı tahmin edilmektedir. Cumming ve Finch (2005) güven aralığını “gözlenme olasılığı olan, evrene dair akla yakın değer yelpazesidir; güven aralığının dışında kalan değerler mantıksızdır” şeklinde tanımlamaktadır (s. 174). Güven aralığında yer alan ortalama değer, evren parametresi için en yüksek olasılığa sahip değerdir; güven aralığının üst ve alt sınır değerlerine yaklaşıldıkça, evren parametresinin bu düzeyde gözlenme olasılığı düşmektedir (Kalinowski, 2010). Güven aralığının dar olması, yaptığımız ölçümün daha az hata payı ile gerçekleştirildiğini ve bulgunun daha güvenilir olduğunu göstermektedir. Güven aralığı değerleri, istatistik test değerinin anlamlılık düzeyine ilişkin çıkarım imkânı vermektedir. Güven aralığı araştırmanın istatistiksel gücünden etkilenir. Eğer bir araştırmanın, tasarımı gereği istatistiksel gücü düşük ise, bulguların güven aralığı da daha geniş olacaktır; yani örneklemden elde edilen bulguların güvenilirliği konusunda bir belirsizlik söz konusu olacaktır. Gücü ve hassasiyeti yüksek çalışmalar, daha dar güven aralığı ve de daha güvenilir sonuçlar verecektir (Murphy ve Myors, 2004). 70 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 5. Replikasyona ağırlık ve önem verilmesi Eleştirel yazın, istatistiksel olarak anlamlı ve hatta büyük bir etkiyi yakalayabilecek güçte bir çalışma olsa dahi tek bir araştırmanın bilimsel katkısının yeterli olmadığını vurgulamaktadır (Cohen, 1994; Falk, 1998; Kline, 2013). Bu sebeple replikasyon çalışmaları yapılması, araştırmacıların bulgularını aynı alandaki diğer araştırmalarla etki büyüklükleri açısından karşılaştırması önerilmektedir. Bir araştırma alanında daha bütünsel bir perspektif yaratılması için bu yaklaşımın şart olduğu söylenmekte; özellikle doğa bilimlerinde var olan replikasyon geleneğinin psikoloji için de yerleştirilmesi önerilmektedir. Ancak, replikasyon çalışmaları, genellikle araştırmalardan beklenen “orijinallik” şartını karşılamadığı için, araştırmacılar pek istekli olmamaktadır; bu isteksizlikte bu tür çalışmaların dergilerde basılma şansı yakalayamaması da bir etkendir (Neuliep ve Crandall,1990, 1993). Bir araştırma sistematik olarak tüm yönleri ile tekrarlanabileceği gibi, örneklem ve ölçüm araçları aynı tutularak kısmî bir tekrar çalışması da yapılabilir ya da ilgilenilen olgu aynı tutularak farklı örneklem ya da ölçüm araçları ile de tekrarlanabilir. Her bir replikasyon yaklaşımı ilgilenilen olguyla ilgili ek bilgi sağlayacaktır. Daha önce belirtildiği gibi H0 hipotezinin reddedilmesi halinde, H1 hipotezi aslında pek çok alternatif açıklamayı içinde barındırmaktadır. Replikasyon işte bu çeşitliliği daraltarak, daha kesin yargılara ulaşılmasını sağlayacaktır. 6. Meta-analiz çalışmalarının yaygınlaşması Aynı araştırma alanında basılmış yayınlarda gözlemlenen etki büyüklüklerinin sistematik şekilde karşılaştırılması, farklı araştırmalardan elde edilen etki büyüklüklerinin ortalamalarının ve varyansının değerlendirmeye alınması, alanda yapılan çalışmalara büyük bir resim olarak bakmak için son derece yararlıdır. NHST eleştirmenleri (Ellis, 2010; Mulaik, Raju ve Harshman, 1997; Kline, 2013) meta-analiz çalışmalarını, p değerine yapılan vurgunun ES’ye kaydırılmasına şans tanıdığı için önemsemektedir. Meta-analiz çalışmaları sayesinde, tek bir araştırmadan yola çıkarak genelleme yapma eğiliminin azalması beklenmektedir. Meta-analiz perspektifinin NHST’nin kısıtları ile başa çıkmak açısından katkısı sadece bağımsız meta-analiz projelerinin yürütülmesi ile sınırlı değildir. Aslında her araştırmanın literatür tarama aşamasına meta-analitik bir perspektif yerleştirilmesi önerilmektedir (Kline, k.i., 2013). İlgilenilen araştırma alanı ve araştırma sorusuna dair yapılmış çalışmalar ES değerlerini hesaplamamış olsa dahi, araştırma geleneğine ES ve meta-analizin yerleşmesi halinde, yeni araştırma üzerinde çalışan araştırmacı, önceki araştırmalarda sunulan betimleyici istatistikleri kullanarak ES hesaplaması yapabilir. Böylelikle yeni araştırmadan elde edilen ES düzeyleri, önceki çalışmalarda gözlenen ortalama ES düzeyleri ile karşılaştırılarak, etkinin büyüklüğüne dair analitik değerlendirme yapılabilir. APA yazım rehberi (2010), araştırmacıların raporlarında istatistik değerleri detaylarıyla vermesi ve ES bulgularını raporlaması halinde, araştırmaların meta-analiz çalışmalarına dâhil edilme şansı yakalayabileceğini, böylelikle alandaki bilgi birikiminin bir parçası haline gelebileceğini belirtmektedir. Bu katkıyı yükseltmek için, p değerinin alfa değerinden düşük ya da yüksek olduğunu (örn., p<0.05 ya da p>0.05) belirten yazım yerine, p tam değeri yazılmalıdır (Aguinis ve ark., 2010). Ayrıca, ES sadece nokta değeri olarak değil, güven aralıkları ile birlikte raporlanmalıdır (Fritz, Scherndl ve Kühberger, 2013). Türkiye’de NHST Bu bölüme kadar özetlenen literatür, bize uluslararası akademik alanda NHST konusunda zengin bir tartışma ortamının olduğunu gösteriyor. Bu makale için yaptığım taramada, ülkemizde NHST tartışmalarını teorik olarak bir araya getiren bir yayına psikoloji alanında rastlayamadım. ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 71 Bu konuda Doğan Kökdemir’in 2000 yılında V. Türkiye’de Internet Konferansı ve XI. Ulusal Psikoloji Kongresi’ndeki bildirilerinde, istatistiksel güç, etki büyüklüğü ve hipotez testi olgularını ele aldığını görüyoruz. Ben ve Ali Tekcan (2010), XVI. Ulusal Psikoloji Kongresi’nde, 1995-2009 yılları arasında Türk Psikoloji Dergisi’nde yayımlanan makalelerde istatistiksel anlamlılığın ötesine geçen raporlama pratikleri ile ne sıklıkla karşılaşıldığı konusunda bir bildiri sunduk. Ancak bu üç bildiri bir makale olarak basılmamıştır; dolayısıyla NHST’nin psikoloji araştırmaları açısından ülkemizde kalıcı bir esere dönüşmediğini söyleyebiliriz. NHST konusunda ülkemizde basılı iki yayının, eğitim bilimleri alanından olduğunu görüyoruz (Özsoy ve Özsoy, 2013; Yıldırım ve Yıldırım, 2011). Yıldırım ve Yıldırım (2011) çalışmalarında yokluk hipotezi anlamlılık testi ile ilgili temel yanılgıları özetlemektedir. Özsoy ve Özsoy (2013) ise eğitim bilimleri alanında SSCI’da taranan dört dergide 2007-2011 tarihleri arasında yayımlanan 480 makale üzerinde çalışmışlar; makalelerin sadece %7.2’sinde (35 makale) etki büyüklüklerinin raporlandığını göstermişlerdir. NHST konusunu ele aldığım bu teorik özet üzerindeki çalışmalarım devam ederken, bir taraftan da NHST’nin ülkemizde psikoloji araştırmalarındaki yansımalarını anlayabilmek için, daha önce XVI. Ulusal Psikoloji Kongresi için yapmış olduğumuz taramayı (Işık ve Tekcan, 2010), 2009 sonrasında basılan makaleleri de ekleyerek güncelledim. Böylelikle Türk Psikoloji Dergisi’nde (TPD) 1995 (Cilt 10, Sayı 34) ile 2013 (Cilt 28, Sayı 71) tarihleri arasında basılan 38 sayıda yer alan toplam 208 makale üzerinde tarama yaptım. Bunlardan 12 tanesinde birden fazla deney yer almaktaydı. Her bir deneyi de bağımsız bir çalışma olarak kabul ederek taramaya dahil ettiğim için incelenen çalışma sayısı N=238 oldu. Bu yayınlardan, teorik, derleme ve test standardizasyonu türünde olanları (n=44) tarama kapsamı dışında bıraktım. Deneysel ya da deneysel olmayan ampirik çalışmalardan oluşan 194 çalışma üzerinde yaptığım taramanın etki büyüklüklerine dair tamamlanan kısmından elde edilen bulgulara göre, bu araştırmaların % 34’ü (n=66) etki büyüklüklerini raporlamıştır. 2001’den itibaren ise etki büyüklüğü raporlamasının arttığı görülmektedir. Etki büyüklüğü raporlaması yapılan çalışmaların oranı, 1995-2000, 2001-2005, 2006-2010 beş yıllık dilimleri için sırasıyla; %1, % 6.2 ve %18’dir. 2011-2013 arasında yayımlanan beş sayıda ise etki büyüklüğü raporlamasının oranı %8.8’dir. Etki büyüklüğü raporlanmış makalelerde, bulguların bu etki açısından yorumuna araştırmaların sadece % 6.2’sinde rastlanmaktadır. Sadece iki çalışmada Cohen’e referans verilmiş; ancak bunlardan bir tanesinde Cohen’in (1988) operasyonel tanımlarına göre (Tablo 2) yorum yapılmıştır. En sık kullanılan etki büyüklüğü ölçümü etakaredir (%82.06). Daha önce de belirtildiği gibi NHST eleştirilerinde ön plana çıkan noktalardan birisi, sabit bir alfa değeri ile çalışma alışkanlığının olmasıdır. Rosnow ve Rosenthal (1989) “Tanrı 0.06 anlamlılık düzeyini de 0.05 kadar sevmektedir” (s. 1277) vurgusu ile Tip I hatası açısından seçilen bu kesme değerinin, keskin bir ikili karar verme zorunluluğu yarattığına ve bu değerin zaman içinde yerleşen keyfi bir değer olduğuna işaret etmektedir. Buradan hareketle, taradığım makalelerde sınırda anlamlılık düzeyleri kapsamında 0.05 ile 0.10 arasındaki anlamlılık düzeylerini yorumlarken izlenen stratejiyi de baktım. TPD dergisinde yayımlanan makalelerde bulgular geleneksel olarak %5 ve altındaki p değerleri ile analiz edilmekte ve raporlanmaktadır. %5 kesme değerinin üzerindeki bulguları, “sonucun istatistiksel açıdan anlamlı olmadığını” söylemenin ötesinde yorumlayan makaleler sayıca azdır. Standart p değerinin üzerinde sonuç veren analizlerde araştırmacıların kullandığı yorumlarda örneğin, bir araştırmada 0.061 değerinin anlamlılığa yakın olması nedeniyle F değerleri verilmiş ve grup ortalamaları tartışılmıştır. Yaygın olmasa da 0.051-0.060 aralığındaki p değerleri elde edildiğinde, bulguya dair bir yorum yapma eğilimi gözlenmektedir. Çalışmalardan bazılarında p<0.08, p<0.07, p<0.09, p<0.10 marjinal düzeyde anlamlı kabul edilmektedir. 72 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 Bu örnekler, araştırmacıların %5 p değerini keskin bir karar sınırı olarak kullanmanın ötesine geçme eğiliminde olduğunu göstermektedir. Bu bulgulardan da anlaşıldığı gibi NHST açısından, en azından etki büyüklüklerini raporlama açısından, ülkemizde yakın dönemde bazı gelişmeler olduğu söylenebilir. Ancak, araştırmaların bulgularının taşıdığı etkinin büyüklükleri, bu büyüklüklerin taşıdığı klinik ve pratik anlamlılık halen önceliğe sahip değildir. Sonuçlar ve Öneriler Eleştirel yazın, NHST’ye tümüyle karşı olan yazarlar kadar gerekli şartlar altında kullanılması halinde NHST’nin işe yaradığını düşünen yazarları da içeren bir yelpazeye sahiptir. İkinci gruptaki yazarlar, istatistiksel anlamlılık testlerinin, kullanılan analiz yönteminin öngördüğü koşullar karşılandığı sürece bir geçerliliğe sahip olduğunu söyler (Abelson, 1997; Mulaik, Raju ve Harshman, 1997). Oysa çoğu zaman bu sayıltılar karşılanamamaktadır ve araştırma raporlarında bu sayıltılara yer verilmemektedir. Daha da ötesinde NHST sistematiğinin karmaşık yapısına bağlı olarak ortaya çıkan bilişsel çarpıtmalar ve yanılsamalar, araştırmacıların aslında yürüttükleri çalışmada gerçekten merak ettikleri sorunun cevabını bulduklarını sanmalarına neden olmaktadır; NHST’nin teorik yapısı ise çoğu zaman buna elvermemektedir. Önceki bölümde yer alan tüm eleştiriler neticesinde pek çok araştırmacı NHST’nin psikoloji biliminin gelişimine, bilimin getirdiği kümülatif birikimin oluşumuna ve güçlü teorilerin üretilmesine ket vurduğu çıkarımına ulaşmaktadır (Meehl, 1978; Rossi, 1997; Schmidt,1996). NHST sistematiğinin doğurduğu bilişsel çarpıtmalar ve yanılsamalar sonucunda, Kline “Kendi bulgularımızı anlayamaz hale geliyoruz. Bulgular güvenilir olsa dahi, eğer biz bu bulguların ne anlama geldiğini anlayamıyorsak, bu tekniğin bilim açısından oynadığı rol nedir?” (k.i., 2013), diye sormaktadır. Gigerenzer’e (1998b) göre güçlü teorilerin yerini teorisiz veri, tekil kavramlar ve ikili sınıflamalar almaktadır; bunları “vekil teori” (surrogates for theories; s. 196) olarak isimlendirmekte ve bunların ortaya çıkışındaki temel tetikleyicilerden birisinin NHST olduğunu söylemektedir. Teorisiz verinin “ebeveynsiz bebek” gibi olduğunu, “beklenen yaşam süresinin kısa olduğunu” belirtmektedir (s. 202). Yani, psikoloji araştırmalarında NHST geleneğinin etkisi altında veri analizi yapılması, bulguların teorik bağlamına ve diğer araştırmalarla bir arada yarattığı kümülatif bilgiye yeteri kadar zaman ayrılmamasına neden olmaktadır. Bakan’a göre (1966) psikolojide “bilimsel kestirimde tam otomatikleşme sağlama rüyası, fantezisi ve ideali” (s. 430) vardır; NHST de bir karar aracı olarak, araştırmacının kestirimde bulunma ve çıkarım yapma sorumluluğunu, kendi omuzlarından atması için bir fırsat sunmaktadır. Rozeboom (1960) ise istatistiksel yöntemlerin, ham verinin işlenmesini sağlayan bir araştırma enstrümanı olduğunu ve araştırmacıların bilimsel süreçler için ihtiyaç hissettikleri bu tür araçlara ulaşabilmesinin bir avantaj olduğunu söylemektedir. Diğer taraftan araştırmacının, özel bir uzmanlık alanının ürettiği bir aracın yeterliliğini sorgulayabilecek teknik donanıma sahip olmaması, bu araçları ezbere kullanmaya başlamasına yol açmaktadır. Bu da kullanıcıyı bir yöntem ya da aracın kısıtlılıkları karşısında, daha da kırılgan hale getirmektedir. NHST bir karar aracı olarak gerek Bakan, gerekse Roseboom’un altmışlı yıllarda dile getirdiği dezavantajları taşımaktadır. NHST’ye getirilen eleştiriler neticesinde psikoloji nicel analiz yaklaşımlarında yavaş da olsa bir yenilenme gözlendiğini söyleyebiliriz. Fritz ve arkadaşları (2013) tarafından yürütülen kapsamlı tarama bu konuda destekleyici bulgular sunmaktadır. Fritz ve arkadaşları, 1990-2010 aralığında Web of Knowledge veritabanında yer alan, psikoloji araştırmalarında istatistiksel güç, etki büyüklüğü ve güven aralığı analizlerinin kullanım sıklığını araştıran makaleler üzerinde çalışmışlardır. İstatistiksel güç analizinin sıklığını tarayan 11 adet çalışmaya rastlamışlar ve bunların kapsadığı toplam 1164 makaleden sadece %2.9’unun istatistiksel güç analizi yaptığını tespit etmişlerdir. Gü- ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 73 ven aralığının kullanım sıklığını tarayan dokuz çalışma bulmuşlar; bunların kapsadığı 1064 adet psikoloji araştırmasının % 10.4’ünün güven aralıklarını raporladığını gözlemlemişlerdir. Etki büyüklüğü ile ilgili tarama yapan 29 çalışmanın ise 6366 adet psikoloji araştırmasını içerdiği ve bunların %38.4’ünün etki büyüklüklerini raporladığı görülmüştür. Fritz ve arkadaşlarının bulgularına göre, NHST tartışmalarının ardından önerilen raporlama stratejilerinin hayata geçirilmesinde, etki büyüklüklerinin raporlanması en belirgin yere sahiptir; ardından güven aralıkları gelmektedir. İstatistiksel güç analizi ise nadiren yapılmaktadır. Fritz ve arkadaşları etki büyüklüğünü hesaplama eğiliminin geliştiğini, ancak alandaki diğer araştırmalarla karşılaştırıldığında bu etkinin ne düzeyde önemseneceği açısından yorumlamalara rastlanmadığını söylemektedir. Ayrıca, ES’nin etkili şekilde raporlanabilmesi için güven aralıkları ile birlikte verilmesi gerektiği, ancak makalelerde buna rastlanmadığı belirtilmektedir. Türk Psikoloji Dergisi’nde yayımlanan makaleler üzerindeki yaptığım taramaya göre araştırmaların % 34’ünün etki büyüklüklerini raporladığını gözlemlemiştim. Bu bulgunun Fritz ve arkadaşlarının etki büyüklüğünün raporlanma sıklığına dair elde ettiği bulgu ile tutarlı olduğunu görüyoruz. Benzer şekilde, ES ölçütleri raporlansa da yorumlanmadığı da görülmektedir. APA yazım rehberi (2010), test istatistiklerinin anlamlı çıkmadığı durumlarda da etki düzeyinin raporlanması gerektiğini söylemektedir. TPD makalelerinde bu konuda bir tutarlılık gözlenememiştir; bazı araştırmacıların F testinde istatistiksel anlamlılık elde etmediği durumlarda da etki büyüklüğünü raporladığı görülmektedir. Ancak bunun bilinçli bir tercih mi yoksa derginin yazım ilkeleri gereği eta-kare raporlaması yapılmasını istediği için mi olduğu konusunda bir değerlendirme yapmak mümkün değildir. NHST literatüründeki en temel eleştirilerden birisi, NHST yaklaşımın bulguların mekanik bir şekilde değerlendirilmesine yol açması, araştırmacının elde edilen bulguyu taşıdığı önem ve etki açısından yorumlamasına ket vurmasıdır. Etki büyüklüğünü dergilerin yazım ilkeleri gereği belirli istatistik testler için raporlamak, diğer analizlerde bu yönüyle analiz yapmamak ve bulguları etki büyüklükleri açısından yorumlamamak da mekanikleşen raporlama eğiliminin bir başka örneği olabilir. NHST’nin Türkiye’deki durumu ile ilgili sunulan bilgiler ışığında, ülkemizde yürütülen araştırmaların uluslararası ve akademik standartlara ulaşması için çeşitli adımların atılması gerektiğini söyleyebiliriz. Uluslararası literatürde, NHST tartışmalarının, psikoloji araştırmalarında bir değişim yaratmasında çeşitli inisiyatiflerin rol oynadığını görüyoruz. Bunlardan belki de en önemlisi, meslek kuruluşlarının, istatistiksel kestirim konusunda üyelerini bilgilendirmek ve yönlendirmek için yaptığı çalışmalardır. Bu konuda psikoloji alanındaki en önemli inisiyatif APA tarafından alınmıştır. İstatistiksel Kestirim Çalışma Grubunun hazırladığı rapor (Wilkinson ve Task Force on Statistical Inference, 1999), veri analizi, yorumlaması ve raporlaması için kalite standartlarını sunmaktadır. Bu standartların ardından güncellenen APA yazım rehberi de (2001, 2010) özellikle etki büyüklüğü ve güven aralığı raporlamasını kalite açısından temel gereklilikler olarak sunmaktadır. Diğer bir etken, akademik dergilerin yayın politikalarıdır. Dergilerin ve editörlerinin p değerine ait etki büyüklüklerinin raporlanmasını zorunlu hale getirmesi araştırmacıların ES hesaplamalarını araştırma sürecine entegre etmeleri için önemli bir rol oynamaktadır. Diğer taraftan dergilerin, NHST tartışmalarına dair makaleleri ve bu tartışmaların çeşitli disiplinler ya da bilim dallarına etkilerini inceleyen eserlere de yayın şansı vermesi gerekir. Dergilerde NHST konusundaki özel sayılar ve bölümler de bilimsel araştırma ve yazım yöntemleri konusunda ortak bir bakış yaratmak açısından önemli bir rol üstlenecektir. Etki büyüklüğü, istatistiksel güç, güven aralığı hesaplamalarının psikoloji lisans ve lisansüstü yöntem derslerinin müfredatına dâhil edilmesi gerekmektedir. Öğrenciler NHST’nin bir karar aracı olduğunu anlamalı, psikoloji araştırmalarında tasarımdan 74 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 analize kadar giden tüm aşamalarda analitik bir yaklaşımın gerektiğini fark etmeleri sağlanmalıdır. Öğrencilerin ilgilenilen alandaki mevcut meta-analiz çalışmaları ile de tanıştırılması gerekmektedir. Böylelikle, kendi araştırmalarında bekleyebilecekleri etki büyüklüklerini tahmin edebilirler; hipotezlerini bu bilgiye dayalı olarak formüle edebilirler. Etki büyüklüğünün öneminin fark edilmesinde meta-analiz çalışmaları önemli bir işleve sahiptir. Öğrencilere replikasyon çalışmalarının önemi de anlatılmalıdır. Frank ve Saxe (2012), replikasyon çalışmalarına, deneyimli araştırmacıların maliyet ve orijinallik kaygısı nedeniyle pek ilgi göstermediği gerçeğinden hareketle, bu çalışmaları psikoloji müfredatına entegre etmeyi önermektedir. Bu amaçla, öğrencilerin güncel araştırmaların replikasyonlarını yapmak üzere yönlendirilmesi bir öğretim tekniği olarak sunulmaktadır. Sonuç olarak, bu inisiyatiflerin ülkemizde de alınması gerektiğini söyleyebiliriz. Hyde (2001) şu vurguyu yapıyor: “Etki büyüklüklerini raporlamanın bir ihtilaf (controversy) olarak tanımlanması yazıktır. Etki büyüklüklerinin raporlanması en basit anlamda iyi bir bilimsel uygulamadır. Tek soru sosyalleşme sürecimizi ders kitaplarından, saygın bilim adamlarına kadar nasıl değiştireceğimizdir.” (s. 228). Bu görüşten yola çıkarak, ülkemizde de sosyalleşme adımları atılması gereğinden bahsedebiliriz. Ülkemiz araştırmacılarının bir araya geleceği bilimsel tartışma ortamları yaratılmalıdır. Bu amaçla, çeşitli sempozyumlar, atölye çalışmaları, platformlar düşünülebilir. NHST konusunda özel olarak akademik bir yayına imza atmamış, ancak bu tartışmaları merakla takip eden, kendi araştırmalarına bilinçli şekilde dahil eden araştırmacıların ve öğrencilerini ES, CI gibi ölçütlerle tanıştıran öğretim üyelerinin bir araya gelerek ülkemizdeki araştırma pratiğini güncellemeye dönük bilinç yaratmak için inisiyatif alması gerekmektedir. Yazar Notu/Teşekkür Bu çalışmanın ortaya çıkması ve görüşlerinin bu makalede paylaşılması konusunda verdiği destek nedeniyle Rex B. Kline’ye ve makalenin olgunlaşmasını sağlayan yapıcı eleştirileri nedeniyle Ersin Aslıtürk ve Bahar Tanyaş’a teşekkür ederim. Kaynaklar Abelson, R. P. (1997). A retrospective on the significance test ban of 1999 (If there were no significance tests, they would be invented). L. L. Harlow, S. A. Mulaik, and J. H. Steiger, (Ed.), What if there were no significance tests? içinde (117-141). N.J., Mahwah,: Lawrence Erlbaum Associates. Aguinis, H., Werner, S., Abbott, J. L., Angert, C., Park, J. H., ve Kohlhausen, D. (2010). Customer-centric science: Reporting significant research results with rigor, relevance, and practical impact in mind. Organizational Research Methods, 13, 515-539. American Psychological Association. (2001). Publication manual of the American Psychological Association (5. baskı). Washington, DC: Author. American Psychological Association. (2010). Publication manual of the American Psychological Association (6. baskı.). Washington, DC: Author. ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 75 Bakan, D. (1966). The test of significance in psychological research. Psychological Bulletin, 66(6), 423-437. Bauer,S., Lambert, M.J. ve Nielsen, S.L. (2004). Clinical significance methods: A comparison of statistical techniques. Journal of Personality Assessment, 82(1), 60–70 Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. baskı). Hillsdale, NJ: Erlbaum. Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312. Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159. Cohen, J. (1994). The earth is round (p < 0.05). American Psychologist, 49, 997-1003. Cortina, J.M. ve Landis, R.S. (2011). The earth is not round (p = .00). Organizational Research Methods, 14(2), 332-349. Cumming, G. ve Finch, S. (2005). Inference by eye: Confidence intervals, and how to read pictures of data. American Psychologist, 60, 170–180. Ellis, P.D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis, and the interpretation of research results. USA: Cambridge University Press. Falk, R. (1998). Replication:A step in the right direction: Commentary on Sohn. Theory and Psychology, 8, 313–321. Falk, R. ve Greenbaum, C.W. (1995). Significance tests die hard: The amazing persistence of a probabilistic misconception. Theory and Psychology, 5, 75-98. Frank, M. ve Saxe, R. (2012). Teaching Replication. Perspectives on Psychological Science, 7(6), 600– 604. Fritz , A., Scherndl, T. ve Kühberger, A. (2013). A comprehensive review of reporting practices in psychological journals: Are effect sizes really enough? Theory and Psychology, 23(1), 98–122. Gigerenzer, G. (1993). The superego, the ego, and the id in statistical reasoning. G. Keren ve C.A. Lewis (Ed.), A handbook for data analysis in the behavioral sciences: Methodological issues içinde (311–339). Hillsdale, NJ: Erlbaum. Gigerenzer, G. (1998a). We need statistical thinking, not statistical rituals. Behavioral and Brain Sciences, 21(2), 199-200. Gigerenzer, G. (1998b). Surrogates for theories. Theory and Psychology, 8, 195-204. Gigerenzer, G. (2004). Mindless statistics. The Journal of Socio-Economics, 33, 587–606. Gordon, H.R.D. (2001). American vocational education research association members’ perceptions of statistical significance tests and other statistical controversies. Journal of Vocational Education Research, 26 (2), 244-271. Greenwald, A. G., Gonzalez, R., Guthrie, D. G., ve Harris, R. J. (1996). Effect sizes and p-values: What should be reported and what should be replicated? Psychophsysiology, 33, 175-183. Haller, H. ve Krauss, S. (2002). Misinterpretations of significance: A problem students share with their teachers? Methods of Psychological Research Online, 7(1). Erişim tarihi: Kasım 2009, http://www.dgps.de/fachgruppen/methoden/mpr-online/issue16/ 76 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 art1/haller.pdf Harlow, L.L., Mulaik, S.A. ve Steiger, J.H. (1997) What if there were no significance tests? N.J. : Lawrence Erlbaum Associates Publishers. Hubbard, R. (2004). Alphabet soup: Blurring the distinctions between p’s and alpha’s in psychological research. Theory and Psychology, 14, 295–327. Hubbard, R. ve Armstrong, J.S. (2006). Why we don’t really know what statistical significance means: A major educational failure. Journal of Marketing Education, 28, 114–120. Hubbard, R. ve Ryan, P. A. (2000). The historical growth of statistical significance testing in psychology and its future prospects. Educational and Psychological Measurement, 60, 661-681. Hyde, J.S. (2001). Reporting effect sizes: The roles of editors, textbook authors, and publication manuals. Educational and Psychological Measurement, 61, 225-228. Inman, H.F. (1994). Karl Pearson and R. A. Fisher on statistical tests: A 1935 exchange from Nature. The American Statistician, 48, 2-11. Işık, İ. ve Tekcan, A. (2010, Nisan). Türkiye’deki Psikologların Yokluk Hipotezi Anlamlılık Testi Tartışmalarına Yaklaşımı. 16.Ulusal Psikoloji Kongresi, Mersin, Türkiye. Jacobson, N.S., Roberts, L.J., Berns, S. B. ve McGlinchey, J. B. (1999). Methods for defining and determining the clinical significance of treatment effects: Description, application, and alternatives. Journal of Consulting and Clinical Psychology, 67(3), 300-307. Kalinowski, P. (2010). Understanding confidence intervals (CIs) and effect size estimation. Observer, 23(4). Erişim tarihi: 23 Ocak 2013, http://www.psychologicalscience. org/ index.php/publications/observer/2010/april-10/understanding-confidenceintervals-cis-and-effect-size-estimation.html Kazdin, A. E. (1999). The meanings and measurement of clinical significance. Journal of Consulting and Clinical Psychology, 67, 300-307. Kelley, K. ve Preacher, K. J. (2012). On effect size. Psychological Methods, 17, 137–152. Kirk, R.E. (1996). Practical significance: A concept whose time has come. Educational and Psychological Measurement, 56, 746-759. Kline, R.B. (2004) . Beyond significance testing: Reforming data analysis methods in behavioral research. Washington, DC: APA books. Kline, R.B. (2013) . Beyond significance testing: Reforming data analysis methods in behavioral research (2. baskı). Washington DC: APA books Kökdemir, D. (2000, Kasım). Cohen’in dünyası yuvarlak mı? İstatistiksel güç, etki büyüklüğü ve hipotez testi. V. Türkiye’de Internet Konferansı, Ankara, Türkiye. Kökdemir, D. (2000, Eylül). Cohen’in dünyası yuvarlak mı? İstatistiksel güç, etki büyüklüğü ve hipotez testi. XI. Ulusal Psikoloji Kongresi, Ege Üniversitesi, İzmir, Türkiye. Kruschke, J. K. (2010). What to believe: Bayesian methods for data analysis. Trends in Cognitive Sciences, 14(7), 293-300. Lecoutre, M.P., Poitevineau, J. ve Lecoutre, B. (2003). Even statisticians are not immune to misinterpretations of Null Hypothesis Significance Testing. International Journal of Psychology, 38(1), 37-45. ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 77 Leech, N.L., Barrett, K.C. ve Morgan, G.A. (2008). SPSS for intermediate statistics: Use and interpretation (3.baskı). NJ: Lawrence Erlbaum Associates. Meehl, P.E. (1978). Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft psychology. Journal of Consulting and Clinical Psychology, 46, 806-834. Morgan, P.L. (2003). Null hypothesis significance testing: Philosophical and practical considerations of a statistical controversy. Exceptionality, 11, 209–221. Mulaik, S. A., Raju, N. S. ve Harshman, R. A. (1997). There is a time and place for significance testing. Lisa A. Harlow, Stanley A. Mulaik, ve James H. Steiger , (Ed), What if there were no significance tests? içinde (65-116). Mahwah, NJ: Lawrence Erlbaum Associates. Murphy, K.R. ve Myors, B. (2004). Statistical power analysis: A simple and general model for traditional and modern hypothesis tests (2.baskı). USA: Laurance Erlbaum Associates,Inc. Nelson, N., Rosenthal, R. ve Rosnow, R. L. (1986). Interpretation of significance levels and effect sizes by psychological researchers. American Psychologist, 41, 1299-1301. Neuliep, J. W. ve Crandall, R. (1990). Editorial bias against replication research. J. W. Neuliep, (Ed.), Replication research in the social sciences içinde (85–90). London: Sage. Neuliep, J. W. ve Crandall, R. (1993). Reviewer bias against replication research. Journal of Social Behavior and Personality, 8, 1–8. Nickerson, R.S. (2000). Null hypothesis significance testing: A review of an old and continuing controversy. Psychological Method, 5, 241–301. Oakes, M. (1986). Statistical inference: A commentary for the social and behavioral sciences. Chichester: John Wiley & Sons. Özsoy, S. ve Özsoy, G. (2013). Eğitim araştırmalarında etki büyüklüğü raporlanması. İlköğretim Online, 12, 334-346. Peterson, L.S. (2008, Şubat). Clinical significance and practical significance are not the same things. The annual meeting of the Southwest Educational Research Association, Bildiri Sunumu, New Orleans. http://files.eric.ed.gov/fulltext/ED499990.pdf, Erişim Tarihi: Ocak, 2014. Poitevineau J. ve Lecoutre B. (2001).Interpretation of significance levels by psychological researchers: The .05-cliff effect may be overstated. Psychonomic Bulletin and Review, 8, 847‑850. Robinson, D.H. ve Wainer, H. (2001). On the past and future of null hypothesis significance testing. (Report No. RR-01-24). NJ: ETS Educational Testing Services: Statistics & Research Division. Rosenthal, R. (1979). The file drawer problem and tolerance for null results. Psychological Bulletin, 86(3), 638-641. Rosenthal, R. ve Gaito, J. (1963). The interpretation of level of significance by psychological researchers. Journal of Psychology,55, 33-38. Rosenthal, R. ve Rosnow, R. L. (2008). Essentials of behavioral research: Methods and 78 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 data analysis (3. baskı.). NY: MacGraw-Hill Companies. Rosnow, R. L. ve Rosenthal, R. (1989). Statistical procedures and the justification of knowledge in psychological science. American Psychologist, 44, 1276–1284. Rosnow, R. L., Rosenthal, R. ve Rubin, D.B. (2000). Contrast and effect sizes in behavioral research. A correlational approach. USA: Cambridge University Press. Rossi, J.S. (1997). A case study in the failure of psychology as a cumulative science: The spontaneous recovery of verbal learning. L. A. Harlow, S. A. Mulaik, and J. H. Steiger , (Ed), What if there were no significance tests? içinde (175-197). Mahwah, NJ: Lawrence Erlbaum Associates. Rozeboom, W.W. (1960). The fallacy of the null-hypothesis significance test. Psychological Bulletin, 57, 416-428. Schmidt, F.L. (1996). Statistical significance testing and cumulative knowledge in psychology: Implications for training of researchers. Psychological Methods, 1, 115129. Thompson, B. (1999). Improving research clarity and usefulness with effect size indices as supplements to statistical significance tests. Exceptional Children, 65, 329–337. Thompson, B. (2002). “Statistical”, “practical”, and “clinical”: How many kinds of significance do counselors need to consider? Journal of Counseling and Development, 80, 64-71. Türk Psikologlar Derneği (2013). TPD yazım kuralları. Türk Psikoloji Dergisi, 71, 120121. Wilcox, R. R. (1998). How many discoveries have been lost by ignoring modern statistical methods? American Psychologist, 53,300–314. Wilcox, R. R. ve Keselman, H. J. (2003). Modern robust data analysis methods: Measures of central tendency. Psychological Methods, 8, 254–274. Wilkinson, L., ve the Task Force on Statistical Inference (1999). Statistical methods in psychology journals: Guidelines and explanations. American Psychologist, 54, 594604. Yıldırım, H. H. ve Yıldırım, S. (2011). Hipotez testi, güven aralığı, etki büyüklüğü ve merkezi olmayan olasılık dağılımları üzerine. İlköğretim Online, 10, 1112-1123. Zuckerman, M., Hodgins, H.S., Zuckerman, A. ve Rosenthal, R. (1993). Contemporary issues in the analysis of data: A survey of 551 psychologists. Psychological Science, 4, 49-53. Yokluk Hipotezi Anlamlılık Testi Tartışmalarının Psikoloji Araştırmalarına Yansımaları İdil Işık Bu yazı nicel psikoloji araştırmalarının çatısını teşkil eden “Yokluk Hipotezi Anlamlılık Testi”ne (Null Hypothesis Significance Testing, NHST) getirilen eleştirileri tartışmaktadır. NHST araştırmalarda sunulan hipotezlerin istatistiksel olarak analiz edilmesinde, en temel nicel araştırma yöntemi öğretisi olarak gelenekselleşmiş bir modeldir ve analiz sonucunun değerlendirilmesinde anlamlılık seviyesini gösteren ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 79 p (olasılık) değerine odaklanma eğilimi yaratmaktadır. NHST hem psikoloji bilimi genelinde hem de araştırmacılar özelinde zaman içinde giderek mekanikleşen bir kullanım kazanmış ve önemli eleştirilerin hedefi olmuştur. Bağımlı değişkenin yordanma düzeyi hakkında yeterli bilgi sunamaması ve II. Tip yordama hatasının (yani, bir etki gerçekte varken, bulunamaması) görece göz ardı edilmesi bu eleştiriler arasındadır. Bu eleştirilerin özellikle yoğunluk kazandığı 1990’lardan bugüne NHST’nin eksiklik ve sınırlılıkları ile başa çıkabilmek için, NHST sonuçları yanında, etki büyüklüğü (Effect Size, ES) ve güven aralığı (Confidence Interval, CI) bilgilerinin raporlanmasını minimum gereklilik olarak veren kaynaklar ortaya çıkmıştır. Ayrıca, istatistiksel güç (Statistical Power) olgusu da, araştırmacıların dikkatini NHST’nin yapısı içinde yer alan II.Tip yordama hatasına çekmek için literatürdeki yerini almıştır (Cohen, 1988). Bu çalışma kapsamında Türkiye özelinde yapılan bir tarama göstermektedir ki ülkemiz psikoloji yazınında NHST konusundaki tartışmalar yeterince dikkat çekmemiştir. Yayınlanmış araştırmalarda NHST’nin sınırlılıkları ile başa çıkmak için önerilen etki büyüklüğü ve istatistiksel güç değerlendirmelerinin kullanımına ilişkin baskın bir tutum da gözlenmemektedir. Psikoloji eğitimi almış kişilerin NHST eleştirilerine dair ne kadar bilgi sahibi olduğu hakkında kesin bir fikir elde etmemizi sağlayacak veri de bulunmamaktadır. Bu çerçeveden hareketle bu makalede, NHST üzerinde teorik düzeyde devam eden tartışmaların genel bir özeti ve değerlendirmesi yapılarak, araştırmacılar için kaynak yaratacak bir derleme sunulmaktadır. Anahtar sözcükler: yokluk hipotezi anlamlılık testi, etki büyüklüğü, güven aralığı, istatistiksel güç. Bandora Nîqaşên Testa Watedariyê ya Hîpoteza Tunebûnê ya li ser Lêgerînên Psîkolojîk İdil Işık Ev nivîs, rexneyên ku li Testa Watedariyê ya Hîpoteza Tunebûnê (NHST) ya ku bingeha lêgerînên çendanî yên psîkolojiyê pêk tîne nîqaş dike. NHST’ê wekî modela sereke ya rêbaza dahûrandina hîpotezên îstatîstîkî yên ku di lêgerînan de têne pêşkêşkirin bi awayekî kevneşopî cihê xwe girtiye. NHST di analîzkirina îstatîstîkî ya hîpotezên ku di lêgerînan de têne pêşkêşkirin, modeleke bi awayekî kevneşopî wekî rêbaza lêgerînên çendanî ya sereke cihê xwe girtiye û di nirxandina encama dahûrandinê de mirov han dide da ku bi hûrbînî bala xwe bidin ser p (dibetî) ya ku asta watedariyê nîşan dide. NHST di teveka zanista derûnînasiyê de hem jî bi taybetî di nav lêgerîneran de bi domana demê re rengekî mekanîk wergirtiye û dûçarî gelek rexneyan bûye. Di nav van rexneyan de tiştên mîna der barê asta pêşbînîkirina guherîneya girêdayî de têra xwe nedana agahiyan û li ber çavan negirtina çewtiya pêşbînîkirinê ya cureya duyemîn (wate, karîgeriyek di rastiya xwe de heye, lê belê nayê dîtin) hene. Di salên 1990’î de ku ev cur rexne gelekî zêde bûn, ji bo serederîkirina bi kêmasî û tengasiyên NHST’ê re, hinek çavkaniyên wisa derketin holê ku wan wekî pêwîsteke hêrî kêm dixwest ku digel encamên NHST’ê, agahiyên mezinatiya karîgeriyê (Effect Size, ES) û hewana pêbaweriyê (Confidence Interval, CI) bên raporkirin. Her wiha hêza îstatîstîkî jî ji bo bala lêgerîneran bikêşe ser çewtiya pêşbînîkirina cureya duyemîn a ku berhemeke pêkhatînî ya NHST’ê di nav lîteratûrê de cihê xwe girt (Cohen 1988). Vekolan û lidûvçûneke ku bi taybetî di çarçoveya vê xebatê de li Tirkiyeyê hatiye kirin, nîşan dide ku li Tirkiyeyê di lîteratûrê derûnînasiyê de nîqaşên der barê NHST’ê de têra xwe bal nekişandiye. Di lêgerînên ku hatine weşandin de ji bo sûdwergirtina ji mezinatiya karîgeriyê û hêza îstatîstîkî ku ji bo serederîkirina ji dortengiyên NHST’ê re tên pêşniyarkirin, helwesteke berbiçav nehatiye dîtin. Li aliyê din têra xwe dane jî nîn in ku em bizanin ka kesên ku di warê derûnînasiyê de hatine perwerdekirin der barê rexneyên li NHST’ê de çendî xwedan agahî ne. Lewma jî, di vê xebatê de, ji bo ku ji lêgerîneran bibe çavkaniyeke gelemperî û pûxteyî, der barê nîqaşên ku di asteke teorîk de li ser NHST’ê de berdewam dikin, tê pêşkêşkirin. Peyvên sereke: testa watedariyê ya hîpoteza tunebûnê, mezinahiya bandorê, navbera pêbaweriyê, hêza îstatîstîkî 80 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 The Null Hypothesis Significance Testing Debate and Its Implications for Psychological Research İdil Işık This paper discusses the critics on Null Hypothesis Significance Testing (NHST) which is eventually the base of the quantitative research methodology in psychology. NHST is a conventional method in the process of statistical analysis of quantitative data during hypothesis testing that directs the researchers to focus on the p (probability) value. Over time NHST has created a mechanical approach to the data analysis both at the overall level of psychology and the individual level of researchers and it has been a target for the crucial critics. It is criticized with respects that NHST does not provide information about the predictive capacity of independent variables on dependent variable and it overlooks the Type II error (i.e., as there is an effect it is not recognized). These critics have gained prevalence by 1990s and scientific studies emerged that advised reporting of Effect Size measures (ES), and Confidence Intervals (CI) as the minimum requirements to deal with the limitations of NHST. Moreover, statistical power calculations were proposed as the way to shift the focus of researchers to Type II error (Cohen, 1988). The review conducted specific to Turkey as part of this article shows that NHST debate does not get attention in the psychology literature of our country. We do not recognize a dominant attitude in the use of effect size measures and statistical power calculations in the articles that were published. We do not have data to evaluate how knowledgeable the people with psychology education are on the NHST debate, either. Within this framework in this paper, a resource on general review and evaluation of the theoretical discussions on NHST is provided for the researchers. Keywords: null hypothesis significance testing, effect size, confidence interval, statistical power.