Accuracy
Accuracy
Accuracy, makine öğrenimi ve veri madenciliği gibi alanlarda sıklıkla kullanılan bir performans ölçütüdür. Sınıflandırma problemlerinde doğru sınıflandırılan örneklerin toplam sayısının tüm örneklerin toplam sayısına oranıdır. Yani, accuracy, doğru tahmin edilen örneklerin tüm örnekler içindeki yüzdesini ifade eder.
Örneğin, bir sınıflandırma modeli, 100 örneğin 85'ini doğru sınıflandırdıysa, accuracy oranı 0.85 veya %85'tir. Accuracy, bir modelin ne kadar doğru çalıştığını anlamak için kullanılır, ancak tek başına yeterli bir ölçüt değildir. Bazı durumlarda, farklı sınıflardaki örneklerin eşit dağılmadığı dengesiz veri setlerinde accuracy yanıltıcı olabilir ve diğer performans ölçütleri, örneğin precision, recall ve F1 score gibi ölçütler de hesaba katılmalıdır.
95% CI
95% CI (95% güven aralığı) istatistiksel bir kavramdır ve bir tahminin ne kadar doğru olduğunu belirlemek için kullanılır.
Bir veri setindeki bir özelliğin (örneğin ortalama) gerçek değeri hakkında bir tahmin yapıldığında, bu tahminin ne kadar doğru olduğunu belirlemek istenebilir. Bu tahminin güven aralığı, tahmin edilen özellik değerinin üst ve alt sınırlarıdır.
95% güven aralığı, tahmin edilen özellik değerinin üst ve alt sınırlarının, tahmin edilen değerin ortalama değerinden 1.96 standart hata kadar yukarı ve aşağıda olduğu aralığı ifade eder. Standart hata, özellikle ilgili verilerin değişkenliğini ve örnekleme boyutunu içeren bir istatistiksel ölçüttür.
Örneğin, bir veri setindeki ortalama bir özellik değerinin 95% güven aralığı, bu özellik için yapılan tahminin 95% olasılıkla gerçek değerden 1.96 standart hata kadar yukarıda ve aşağıda olduğu aralığı ifade eder. Bu, tahminin doğruluğu hakkında bilgi sağlayabilir ve karar verme süreçlerinde kullanılabilir.
No Information Rate
No Information Rate (NIR), sınıflandırma problemlerinde kullanılan bir performans ölçütüdür. NIR, veri setindeki en yaygın sınıfın tahmini oranıdır.
Bir sınıflandırma problemi, örneklerin farklı sınıflara ayrıldığı bir veri setinde bir modelin, bir örneğin hangi sınıfa ait olduğunu tahmin etmesiyle oluşur. Bu tahminler doğru veya yanlış olabilir.
NIR, sınıflandırma probleminde en basit sınıflandırma modelinin performansını ifade eder. Bu model, her zaman en yaygın sınıfın tahmini sonucunu verir. NIR, en yaygın sınıfın tahmini oranıdır ve doğru tahmin oranı bu oranın üzerinde olmalıdır ki modelin performansı anlamlı olsun.
Örneğin, bir sınıflandırma problemi, 100 örneğin 60'ının sınıf A, 30'unun sınıf B ve 10'unun sınıf C olduğu bir veri setinde gerçekleştiriliyor olabilir. En yaygın sınıf A olduğundan, NIR bu veri seti için %60'dır. Modelin performansı, bu oranın üzerinde olmalıdır.
Kappa Test İstatistiği
Kappa test istatistiği, bir sınıflandırma modelinin doğruluğunu ölçmek için kullanılan bir istatistiksel ölçüttür. Kappa, tahmin edilen sınıf ve gerçek sınıf arasındaki uyumun rastgelelikten kaynaklanan uyumdan ayırt edilmesine yardımcı olan bir ölçüttür. Kappa, sınıflandırma problemlerinde doğruluk oranı (accuracy) gibi diğer performans ölçütlerinin eksik kaldığı alanlarda kullanışlıdır.
Kappa, bir "gözlemci" ve "altın standart" arasındaki uyumun ölçülmesi için de kullanılır. Örneğin, bir tıbbi testin doğruluğunun ölçülmesinde, birden fazla uzmanın aynı test sonuçlarını değerlendirmesi ve sonuçların ne kadar tutarlı olduğunun ölçülmesinde kullanılabilir.
Kappa, tahmin edilen sınıf ve gerçek sınıf arasındaki uyumu, rastgeleliğe karşı düzeltir ve -1 ile 1 arasında değerler alabilir. Kappa değeri, 1'e yakın olduğunda modelin tahminleri gerçek değerlerle yüksek oranda uyumlu olduğunu, 0'a yakın olduğunda rastgele tahminlerle aynı düzeyde olduğunu, -1'e yakın olduğunda ise modelin tahminleri gerçek değerlerle tamamen zıt olduğunu gösterir.
Kappa test istatistiği, sınıflandırma modellerinin performansını ölçmek ve model iyileştirmeleri için bir ölçüt sağlamak için sıklıkla kullanılır.
Mcnemar's Test İstatistiği
McNemar testi, bir sınıflandırma modelinin performansını değerlendirmek için kullanılan bir istatistiksel testtir. McNemar testi, iki farklı sınıflandırma yöntemi arasındaki farkı karşılaştırmak için kullanılabilir. Bu test, bir modelin diğerine göre istatistiksel olarak anlamlı bir şekilde daha iyi veya daha kötü performans gösterip göstermediğini belirlemek için kullanılır.
McNemar testinin hipotezleri şu şekildedir:
H0 hipotezi: İki sınıflandırma yöntemi arasında fark yoktur (yani, başarı oranları aynıdır).
H1 hipotezi: İki sınıflandırma yöntemi arasında fark vardır (yani, başarı oranları farklıdır).
Bu hipotezler, sınıflandırma yöntemleri arasındaki farkın istatistiksel olarak anlamlı olup olmadığını belirlemek için test edilir. H0 hipotezi varsayıldığında, sınıflandırma yöntemlerinin başarı oranlarının aynı olduğu kabul edilir ve sıfır fark olarak ifade edilir. H1 hipotezi ise, sınıflandırma yöntemleri arasındaki farkın var olduğunu varsayar.
Sensitivity (Hassasiyet)
Sensitivity (Hassasiyet), belirli bir hastalığın veya durumun gerçekten varlığını tespit edebilme yeteneğidir. Sensitivite, gerçek pozitif sonuçların (hastalığın varlığı doğru bir şekilde tespit edilenlerin) toplam sayısına bölünerek hesaplanır.
Specificity (Özgüllük)
Specificity (Özgüllük), belirli bir hastalığın veya durumun gerçekten yokluğunu tespit edebilme yeteneğidir. Specificity, gerçek negatif sonuçların (hastalığın yokluğu doğru bir şekilde tespit edilenlerin) toplam sayısına bölünerek hesaplanır.
Positive Predictive Value (PPV) (Pozitif Tahmin Edici Değer)
Positive Predictive Value (PPV) (Pozitif Tahmin Edici Değer), bir test sonucunun gerçek pozitif sonuçlarla ne sıklıkla eşleştiğini gösterir. PPV, gerçek pozitif sonuçların toplam sayısının, tüm pozitif sonuçların toplam sayısına bölünerek hesaplanır.
Negative Predictive Value (NPV) (Negatif Tahmin Edici Değer)
Negative Predictive Value (NPV) (Negatif Tahmin Edici Değer), bir test sonucunun gerçek negatif sonuçlarla ne sıklıkla eşleştiğini gösterir. NPV, gerçek negatif sonuçların toplam sayısının, tüm negatif sonuçların toplam sayısına bölünerek hesaplanır.Bu değerler, bir testin doğruluğunun ve güvenirliğinin değerlendirilmesinde önemlidir. Özellikle tıp ve sağlık alanında, hastalıkların tanısında ve tedavisinde kullanılan testlerin duyarlılık ve özgüllük değerleri dikkate alınarak yorumlanır.
Prevalence,Detection Rate Rate, Detection Prevalence,Balanced Accuracy ve F1 Score
Prevalence (Yaygınlık), belirli bir hastalığın veya durumun bir popülasyonda ne sıklıkta bulunduğunu ifade eder. Yaygınlık, toplam hasta sayısının toplam popülasyona oranı olarak hesaplanır.
Detection Rate (Tespit Oranı), bir testin gerçek pozitif sonuçlarının toplam pozitif sonuçlar içindeki oranını ifade eder. Gerçek pozitif sonuçların tüm pozitif sonuçlara oranı olarak hesaplanır.
Detection Prevalence (Tespit Yaygınlığı), bir testin gerçek pozitif sonuçlarının toplam hasta sayısına oranını ifade eder. Gerçek pozitif sonuçların toplam hasta sayısına oranı olarak hesaplanır.
Balanced Accuracy (Dengeli Doğruluk), bir testin hem duyarlılığını hem de özgüllüğünü dikkate alarak hesaplanan bir doğruluk ölçüsüdür. Dengeli doğruluk, duyarlılık ve özgüllük değerlerinin ortalaması olarak hesaplanır.
F1 Score (F1 Skoru), bir testin doğruluğunu ve güvenirliğini ölçen bir diğer ölçüttür. F1 skoru, bir testin hem duyarlılığını hem de özgüllüğünü dikkate alarak hesaplanır ve bunların harmonik ortalaması olarak ifade edilir.