Model Değerlendirme | Makine Öğrenimi

Model Değerlendirme Nedir?

Model değerlendirme, makine öğrenimi modellerinin performansını ölçme, analiz etme ve karşılaştırma sürecidir. Bu süreç, modelin gerçek dünya verilerine ne kadar iyi genelleme yaptığını belirlemeye yardımcı olur.

Doğru model değerlendirme, modelin güçlü ve zayıf yönlerini anlamak, aşırı öğrenme veya eksik öğrenme problemlerini tespit etmek ve farklı modeller arasında karşılaştırma yapmak için kritik öneme sahiptir.

Model değerlendirme, probleme özgü metrikler kullanılarak yapılır. Sınıflandırma, regresyon ve kümeleme problemleri için farklı değerlendirme metrikleri ve yöntemleri bulunmaktadır.

Model Değerlendirme Adımları

Veri Bölme
Eğitim, doğrulama ve test setlerine ayırma
Metrik Seçimi
Probleme uygun değerlendirme metriklerini belirleme
Çapraz Doğrulama
Modelin farklı veri alt kümelerinde değerlendirilmesi
Hata Analizi
Yanlış tahminlerin incelenmesi ve analizi
Model Karşılaştırma
Farklı modellerin performanslarının karşılaştırılması

Sınıflandırma Modeli Değerlendirme Metrikleri

Karmaşıklık Matrisi ve Temel Metrikler

Karmaşıklık matrisi (confusion matrix), sınıflandırma modellerinin performansını değerlendirmek için kullanılan temel bir araçtır. Bu matris, gerçek ve tahmin edilen sınıflar arasındaki ilişkiyi gösterir.

	Tahmin: Pozitif	Tahmin: Negatif
Gerçek: Pozitif	Doğru Pozitif (TP)	Yanlış Negatif (FN)
Gerçek: Negatif	Yanlış Pozitif (FP)	Doğru Negatif (TN)

Temel Metrikler:

Doğruluk (Accuracy): (TP + TN) / (TP + TN + FP + FN)
Kesinlik (Precision): TP / (TP + FP)
Duyarlılık (Recall/Sensitivity): TP / (TP + FN)
Özgüllük (Specificity): TN / (TN + FP)
F1-Skoru: 2 * (Precision * Recall) / (Precision + Recall)

İleri Sınıflandırma Metrikleri

Temel metriklerin ötesinde, sınıflandırma modellerinin performansını daha kapsamlı değerlendirmek için kullanılan ileri metrikler bulunmaktadır.

İleri Metrikler:

ROC Eğrisi (Receiver Operating Characteristic): Farklı eşik değerlerinde duyarlılık ve özgüllük arasındaki ilişkiyi gösteren grafik
AUC (Area Under the ROC Curve): ROC eğrisi altında kalan alan, 1'e yakın olması iyi performans göstergesidir
Precision-Recall Eğrisi: Farklı eşik değerlerinde kesinlik ve duyarlılık arasındaki ilişkiyi gösteren grafik
Log Loss: Tahmin olasılıklarının doğruluğunu ölçen logaritmik kayıp fonksiyonu
Cohen's Kappa: Şans eseri doğru sınıflandırmayı hesaba katan bir metrik
Matthews Correlation Coefficient (MCC): Dengesiz veri setlerinde bile güvenilir sonuçlar veren bir metrik

Çok Sınıflı Metrikler:

Macro Average: Her sınıf için metriklerin ortalaması
Weighted Average: Sınıf frekanslarına göre ağırlıklandırılmış ortalama
Micro Average: Tüm sınıflar için toplam TP, FP, TN, FN değerlerini kullanarak hesaplama

Regresyon Modeli Değerlendirme Metrikleri

Hata Bazlı Metrikler

Regresyon modellerinin performansını değerlendirmek için kullanılan temel metrikler, tahmin edilen değerler ile gerçek değerler arasındaki farkı ölçer.

Temel Hata Metrikleri:

Ortalama Mutlak Hata (MAE): Tahmin hatalarının mutlak değerlerinin ortalaması
Ortalama Kare Hata (MSE): Tahmin hatalarının karelerinin ortalaması
Kök Ortalama Kare Hata (RMSE): MSE'nin karekökü, orijinal birimde hata ölçümü sağlar
Ortalama Mutlak Yüzde Hata (MAPE): Yüzde olarak ifade edilen ortalama mutlak hata
Ortalama Kare Logaritmik Hata (MSLE): Logaritmik ölçekte MSE, büyük değerlere daha az ağırlık verir

Açıklayıcılık Metrikleri

Bu metrikler, modelin veri varyansını ne kadar iyi açıkladığını ölçer ve model performansını değerlendirmek için kullanılır.

Açıklayıcılık Metrikleri:

R-Kare (R²): Modelin açıkladığı varyans oranı, 0-1 arasında değer alır, 1'e yakın olması iyi performans göstergesidir
Düzeltilmiş R-Kare: Model karmaşıklığını hesaba katan R-Kare versiyonu
Açıklanan Varyans Skoru: 1 - (Var(y - ŷ) / Var(y))
Maksimum Hata: En büyük tahmin hatasının mutlak değeri
Medyan Mutlak Hata: Tahmin hatalarının mutlak değerlerinin medyanı, aykırı değerlere karşı daha dirençlidir

Regresyon Modeli Değerlendirme Teknikleri

Regresyon modellerinin performansını değerlendirmek için kullanılan çeşitli teknikler ve yaklaşımlar.

Değerlendirme Teknikleri:

Artık Analizi: Tahmin hatalarının (artıkların) dağılımını ve desenlerini inceleme
Artık Grafikleri: Artıkların tahmin edilen değerlere veya özelliklere göre çizilmesi
Q-Q Grafikleri: Artıkların normal dağılıma uygunluğunu kontrol etme
Çapraz Doğrulama: K-katlı çapraz doğrulama ile modelin genelleme yeteneğini değerlendirme
Öğrenme Eğrileri: Eğitim seti boyutuna göre model performansının değişimini inceleme
Tahmin vs Gerçek Grafikleri: Tahmin edilen değerler ile gerçek değerlerin karşılaştırılması

Denetimsiz Öğrenme Modeli Değerlendirme

Kümeleme Değerlendirme Metrikleri

Denetimsiz öğrenme modellerinin, özellikle kümeleme algoritmalarının performansını değerlendirmek için kullanılan metrikler.

İç Değerlendirme Metrikleri (Etiket Gerektirmez):

Silhouette Katsayısı: Kümelerin ne kadar iyi ayrıldığını ve yoğunluğunu ölçer (-1 ile 1 arasında)
Davies-Bouldin İndeksi: Küme içi benzerlik ve kümeler arası farklılık oranını ölçer (düşük değerler daha iyi)
Calinski-Harabasz İndeksi: Küme içi yoğunluk ve kümeler arası ayrımı ölçer (yüksek değerler daha iyi)
Dunn İndeksi: En yakın iki küme arasındaki minimum mesafenin, en büyük küme çapına oranı
İnertia (WCSS): Küme içi kare mesafelerinin toplamı (düşük değerler daha iyi)

Dış Değerlendirme Metrikleri (Etiket Gerektirir):

Rand İndeksi: Doğru sınıflandırılan çiftlerin oranı
Düzeltilmiş Rand İndeksi (ARI): Şans faktörünü hesaba katan Rand İndeksi versiyonu
Normalize Edilmiş Karşılıklı Bilgi (NMI): Kümeleme ile gerçek etiketler arasındaki bilgi paylaşımını ölçer
Homojenlik, Tamlık ve V-ölçütü: Kümelerin ne kadar homojen ve tam olduğunu ölçer

Boyut İndirgeme ve Anomali Tespiti Değerlendirme

Boyut indirgeme ve anomali tespiti gibi diğer denetimsiz öğrenme yöntemlerinin değerlendirilmesi için kullanılan yaklaşımlar.

Boyut İndirgeme Değerlendirme:

Açıklanan Varyans Oranı: Korunan bilgi miktarını ölçer
Rekonstrüksiyon Hatası: Orijinal veri ile yeniden oluşturulan veri arasındaki fark
Stres Değeri (MDS için): Orijinal ve indirgenen uzaydaki mesafelerin uyuşma derecesi
Downstream Task Performansı: İndirgenen özellikler kullanılarak yapılan sınıflandırma veya regresyon performansı

Anomali Tespiti Değerlendirme:

ROC Eğrisi ve AUC: Farklı eşik değerlerinde anomali tespiti performansını ölçer
Precision-Recall Eğrisi: Özellikle dengesiz veri setlerinde anomali tespiti performansını değerlendirir
F1-Skoru: Kesinlik ve duyarlılık arasındaki dengeyi ölçer
Average Precision Score: Precision-Recall eğrisi altında kalan alan

Değerlendirme Zorlukları:

Etiket Eksikliği: Denetimsiz öğrenmede genellikle gerçek etiketler bulunmaz
Subjektif Değerlendirme: Sonuçların yorumlanması genellikle uzmanlık gerektirir
Çoklu Çözümler: Farklı kümeleme sonuçları eşit derecede geçerli olabilir
Ölçeklenebilirlik: Büyük veri setlerinde değerlendirme metrikleri hesaplama zorluğu