Model Değerlendirme Nedir?
Model değerlendirme, makine öğrenimi modellerinin performansını ölçme, analiz etme ve karşılaştırma sürecidir. Bu süreç, modelin gerçek dünya verilerine ne kadar iyi genelleme yaptığını belirlemeye yardımcı olur.
Doğru model değerlendirme, modelin güçlü ve zayıf yönlerini anlamak, aşırı öğrenme veya eksik öğrenme problemlerini tespit etmek ve farklı modeller arasında karşılaştırma yapmak için kritik öneme sahiptir.
Model değerlendirme, probleme özgü metrikler kullanılarak yapılır. Sınıflandırma, regresyon ve kümeleme problemleri için farklı değerlendirme metrikleri ve yöntemleri bulunmaktadır.
Model Değerlendirme Adımları
-
Veri Bölme
Eğitim, doğrulama ve test setlerine ayırma
-
Metrik Seçimi
Probleme uygun değerlendirme metriklerini belirleme
-
Çapraz Doğrulama
Modelin farklı veri alt kümelerinde değerlendirilmesi
-
Hata Analizi
Yanlış tahminlerin incelenmesi ve analizi
-
Model Karşılaştırma
Farklı modellerin performanslarının karşılaştırılması
Sınıflandırma Modeli Değerlendirme Metrikleri
Karmaşıklık Matrisi ve Temel Metrikler
Karmaşıklık matrisi (confusion matrix), sınıflandırma modellerinin performansını değerlendirmek için kullanılan temel bir araçtır. Bu matris, gerçek ve tahmin edilen sınıflar arasındaki ilişkiyi gösterir.
Tahmin: Pozitif | Tahmin: Negatif | |
---|---|---|
Gerçek: Pozitif | Doğru Pozitif (TP) | Yanlış Negatif (FN) |
Gerçek: Negatif | Yanlış Pozitif (FP) | Doğru Negatif (TN) |
Temel Metrikler:
- Doğruluk (Accuracy): (TP + TN) / (TP + TN + FP + FN)
- Kesinlik (Precision): TP / (TP + FP)
- Duyarlılık (Recall/Sensitivity): TP / (TP + FN)
- Özgüllük (Specificity): TN / (TN + FP)
- F1-Skoru: 2 * (Precision * Recall) / (Precision + Recall)
İleri Sınıflandırma Metrikleri
Temel metriklerin ötesinde, sınıflandırma modellerinin performansını daha kapsamlı değerlendirmek için kullanılan ileri metrikler bulunmaktadır.
İleri Metrikler:
- ROC Eğrisi (Receiver Operating Characteristic): Farklı eşik değerlerinde duyarlılık ve özgüllük arasındaki ilişkiyi gösteren grafik
- AUC (Area Under the ROC Curve): ROC eğrisi altında kalan alan, 1'e yakın olması iyi performans göstergesidir
- Precision-Recall Eğrisi: Farklı eşik değerlerinde kesinlik ve duyarlılık arasındaki ilişkiyi gösteren grafik
- Log Loss: Tahmin olasılıklarının doğruluğunu ölçen logaritmik kayıp fonksiyonu
- Cohen's Kappa: Şans eseri doğru sınıflandırmayı hesaba katan bir metrik
- Matthews Correlation Coefficient (MCC): Dengesiz veri setlerinde bile güvenilir sonuçlar veren bir metrik
Çok Sınıflı Metrikler:
- Macro Average: Her sınıf için metriklerin ortalaması
- Weighted Average: Sınıf frekanslarına göre ağırlıklandırılmış ortalama
- Micro Average: Tüm sınıflar için toplam TP, FP, TN, FN değerlerini kullanarak hesaplama
Regresyon Modeli Değerlendirme Metrikleri
Hata Bazlı Metrikler
Regresyon modellerinin performansını değerlendirmek için kullanılan temel metrikler, tahmin edilen değerler ile gerçek değerler arasındaki farkı ölçer.
Temel Hata Metrikleri:
- Ortalama Mutlak Hata (MAE): Tahmin hatalarının mutlak değerlerinin ortalaması
- Ortalama Kare Hata (MSE): Tahmin hatalarının karelerinin ortalaması
- Kök Ortalama Kare Hata (RMSE): MSE'nin karekökü, orijinal birimde hata ölçümü sağlar
- Ortalama Mutlak Yüzde Hata (MAPE): Yüzde olarak ifade edilen ortalama mutlak hata
- Ortalama Kare Logaritmik Hata (MSLE): Logaritmik ölçekte MSE, büyük değerlere daha az ağırlık verir
Açıklayıcılık Metrikleri
Bu metrikler, modelin veri varyansını ne kadar iyi açıkladığını ölçer ve model performansını değerlendirmek için kullanılır.
Açıklayıcılık Metrikleri:
- R-Kare (R²): Modelin açıkladığı varyans oranı, 0-1 arasında değer alır, 1'e yakın olması iyi performans göstergesidir
- Düzeltilmiş R-Kare: Model karmaşıklığını hesaba katan R-Kare versiyonu
- Açıklanan Varyans Skoru: 1 - (Var(y - ŷ) / Var(y))
- Maksimum Hata: En büyük tahmin hatasının mutlak değeri
- Medyan Mutlak Hata: Tahmin hatalarının mutlak değerlerinin medyanı, aykırı değerlere karşı daha dirençlidir
Regresyon Modeli Değerlendirme Teknikleri
Regresyon modellerinin performansını değerlendirmek için kullanılan çeşitli teknikler ve yaklaşımlar.
Değerlendirme Teknikleri:
- Artık Analizi: Tahmin hatalarının (artıkların) dağılımını ve desenlerini inceleme
- Artık Grafikleri: Artıkların tahmin edilen değerlere veya özelliklere göre çizilmesi
- Q-Q Grafikleri: Artıkların normal dağılıma uygunluğunu kontrol etme
- Çapraz Doğrulama: K-katlı çapraz doğrulama ile modelin genelleme yeteneğini değerlendirme
- Öğrenme Eğrileri: Eğitim seti boyutuna göre model performansının değişimini inceleme
- Tahmin vs Gerçek Grafikleri: Tahmin edilen değerler ile gerçek değerlerin karşılaştırılması
Denetimsiz Öğrenme Modeli Değerlendirme
Kümeleme Değerlendirme Metrikleri
Denetimsiz öğrenme modellerinin, özellikle kümeleme algoritmalarının performansını değerlendirmek için kullanılan metrikler.
İç Değerlendirme Metrikleri (Etiket Gerektirmez):
- Silhouette Katsayısı: Kümelerin ne kadar iyi ayrıldığını ve yoğunluğunu ölçer (-1 ile 1 arasında)
- Davies-Bouldin İndeksi: Küme içi benzerlik ve kümeler arası farklılık oranını ölçer (düşük değerler daha iyi)
- Calinski-Harabasz İndeksi: Küme içi yoğunluk ve kümeler arası ayrımı ölçer (yüksek değerler daha iyi)
- Dunn İndeksi: En yakın iki küme arasındaki minimum mesafenin, en büyük küme çapına oranı
- İnertia (WCSS): Küme içi kare mesafelerinin toplamı (düşük değerler daha iyi)
Dış Değerlendirme Metrikleri (Etiket Gerektirir):
- Rand İndeksi: Doğru sınıflandırılan çiftlerin oranı
- Düzeltilmiş Rand İndeksi (ARI): Şans faktörünü hesaba katan Rand İndeksi versiyonu
- Normalize Edilmiş Karşılıklı Bilgi (NMI): Kümeleme ile gerçek etiketler arasındaki bilgi paylaşımını ölçer
- Homojenlik, Tamlık ve V-ölçütü: Kümelerin ne kadar homojen ve tam olduğunu ölçer
Boyut İndirgeme ve Anomali Tespiti Değerlendirme
Boyut indirgeme ve anomali tespiti gibi diğer denetimsiz öğrenme yöntemlerinin değerlendirilmesi için kullanılan yaklaşımlar.
Boyut İndirgeme Değerlendirme:
- Açıklanan Varyans Oranı: Korunan bilgi miktarını ölçer
- Rekonstrüksiyon Hatası: Orijinal veri ile yeniden oluşturulan veri arasındaki fark
- Stres Değeri (MDS için): Orijinal ve indirgenen uzaydaki mesafelerin uyuşma derecesi
- Downstream Task Performansı: İndirgenen özellikler kullanılarak yapılan sınıflandırma veya regresyon performansı
Anomali Tespiti Değerlendirme:
- ROC Eğrisi ve AUC: Farklı eşik değerlerinde anomali tespiti performansını ölçer
- Precision-Recall Eğrisi: Özellikle dengesiz veri setlerinde anomali tespiti performansını değerlendirir
- F1-Skoru: Kesinlik ve duyarlılık arasındaki dengeyi ölçer
- Average Precision Score: Precision-Recall eğrisi altında kalan alan
Değerlendirme Zorlukları:
- Etiket Eksikliği: Denetimsiz öğrenmede genellikle gerçek etiketler bulunmaz
- Subjektif Değerlendirme: Sonuçların yorumlanması genellikle uzmanlık gerektirir
- Çoklu Çözümler: Farklı kümeleme sonuçları eşit derecede geçerli olabilir
- Ölçeklenebilirlik: Büyük veri setlerinde değerlendirme metrikleri hesaplama zorluğu