Model Değerlendirme

Makine öğrenimi modellerinin performansını ölçme, değerlendirme ve karşılaştırma yöntemleri

Model Değerlendirme Nedir?

Model değerlendirme, makine öğrenimi modellerinin performansını ölçme, analiz etme ve karşılaştırma sürecidir. Bu süreç, modelin gerçek dünya verilerine ne kadar iyi genelleme yaptığını belirlemeye yardımcı olur.

Doğru model değerlendirme, modelin güçlü ve zayıf yönlerini anlamak, aşırı öğrenme veya eksik öğrenme problemlerini tespit etmek ve farklı modeller arasında karşılaştırma yapmak için kritik öneme sahiptir.

Model değerlendirme, probleme özgü metrikler kullanılarak yapılır. Sınıflandırma, regresyon ve kümeleme problemleri için farklı değerlendirme metrikleri ve yöntemleri bulunmaktadır.

Model Değerlendirme Adımları

  1. Veri Bölme

    Eğitim, doğrulama ve test setlerine ayırma

  2. Metrik Seçimi

    Probleme uygun değerlendirme metriklerini belirleme

  3. Çapraz Doğrulama

    Modelin farklı veri alt kümelerinde değerlendirilmesi

  4. Hata Analizi

    Yanlış tahminlerin incelenmesi ve analizi

  5. Model Karşılaştırma

    Farklı modellerin performanslarının karşılaştırılması

Sınıflandırma Modeli Değerlendirme Metrikleri

Karmaşıklık Matrisi ve Temel Metrikler

Karmaşıklık matrisi (confusion matrix), sınıflandırma modellerinin performansını değerlendirmek için kullanılan temel bir araçtır. Bu matris, gerçek ve tahmin edilen sınıflar arasındaki ilişkiyi gösterir.

Tahmin: Pozitif Tahmin: Negatif
Gerçek: Pozitif Doğru Pozitif (TP) Yanlış Negatif (FN)
Gerçek: Negatif Yanlış Pozitif (FP) Doğru Negatif (TN)

Temel Metrikler:

  • Doğruluk (Accuracy): (TP + TN) / (TP + TN + FP + FN)
  • Kesinlik (Precision): TP / (TP + FP)
  • Duyarlılık (Recall/Sensitivity): TP / (TP + FN)
  • Özgüllük (Specificity): TN / (TN + FP)
  • F1-Skoru: 2 * (Precision * Recall) / (Precision + Recall)

İleri Sınıflandırma Metrikleri

Temel metriklerin ötesinde, sınıflandırma modellerinin performansını daha kapsamlı değerlendirmek için kullanılan ileri metrikler bulunmaktadır.

İleri Metrikler:

  • ROC Eğrisi (Receiver Operating Characteristic): Farklı eşik değerlerinde duyarlılık ve özgüllük arasındaki ilişkiyi gösteren grafik
  • AUC (Area Under the ROC Curve): ROC eğrisi altında kalan alan, 1'e yakın olması iyi performans göstergesidir
  • Precision-Recall Eğrisi: Farklı eşik değerlerinde kesinlik ve duyarlılık arasındaki ilişkiyi gösteren grafik
  • Log Loss: Tahmin olasılıklarının doğruluğunu ölçen logaritmik kayıp fonksiyonu
  • Cohen's Kappa: Şans eseri doğru sınıflandırmayı hesaba katan bir metrik
  • Matthews Correlation Coefficient (MCC): Dengesiz veri setlerinde bile güvenilir sonuçlar veren bir metrik

Çok Sınıflı Metrikler:

  • Macro Average: Her sınıf için metriklerin ortalaması
  • Weighted Average: Sınıf frekanslarına göre ağırlıklandırılmış ortalama
  • Micro Average: Tüm sınıflar için toplam TP, FP, TN, FN değerlerini kullanarak hesaplama

Regresyon Modeli Değerlendirme Metrikleri

Hata Bazlı Metrikler

Regresyon modellerinin performansını değerlendirmek için kullanılan temel metrikler, tahmin edilen değerler ile gerçek değerler arasındaki farkı ölçer.

Temel Hata Metrikleri:

  • Ortalama Mutlak Hata (MAE): Tahmin hatalarının mutlak değerlerinin ortalaması
  • Ortalama Kare Hata (MSE): Tahmin hatalarının karelerinin ortalaması
  • Kök Ortalama Kare Hata (RMSE): MSE'nin karekökü, orijinal birimde hata ölçümü sağlar
  • Ortalama Mutlak Yüzde Hata (MAPE): Yüzde olarak ifade edilen ortalama mutlak hata
  • Ortalama Kare Logaritmik Hata (MSLE): Logaritmik ölçekte MSE, büyük değerlere daha az ağırlık verir

Açıklayıcılık Metrikleri

Bu metrikler, modelin veri varyansını ne kadar iyi açıkladığını ölçer ve model performansını değerlendirmek için kullanılır.

Açıklayıcılık Metrikleri:

  • R-Kare (R²): Modelin açıkladığı varyans oranı, 0-1 arasında değer alır, 1'e yakın olması iyi performans göstergesidir
  • Düzeltilmiş R-Kare: Model karmaşıklığını hesaba katan R-Kare versiyonu
  • Açıklanan Varyans Skoru: 1 - (Var(y - ŷ) / Var(y))
  • Maksimum Hata: En büyük tahmin hatasının mutlak değeri
  • Medyan Mutlak Hata: Tahmin hatalarının mutlak değerlerinin medyanı, aykırı değerlere karşı daha dirençlidir

Regresyon Modeli Değerlendirme Teknikleri

Regresyon modellerinin performansını değerlendirmek için kullanılan çeşitli teknikler ve yaklaşımlar.

Değerlendirme Teknikleri:

  • Artık Analizi: Tahmin hatalarının (artıkların) dağılımını ve desenlerini inceleme
  • Artık Grafikleri: Artıkların tahmin edilen değerlere veya özelliklere göre çizilmesi
  • Q-Q Grafikleri: Artıkların normal dağılıma uygunluğunu kontrol etme
  • Çapraz Doğrulama: K-katlı çapraz doğrulama ile modelin genelleme yeteneğini değerlendirme
  • Öğrenme Eğrileri: Eğitim seti boyutuna göre model performansının değişimini inceleme
  • Tahmin vs Gerçek Grafikleri: Tahmin edilen değerler ile gerçek değerlerin karşılaştırılması

Denetimsiz Öğrenme Modeli Değerlendirme

Kümeleme Değerlendirme Metrikleri

Denetimsiz öğrenme modellerinin, özellikle kümeleme algoritmalarının performansını değerlendirmek için kullanılan metrikler.

İç Değerlendirme Metrikleri (Etiket Gerektirmez):

  • Silhouette Katsayısı: Kümelerin ne kadar iyi ayrıldığını ve yoğunluğunu ölçer (-1 ile 1 arasında)
  • Davies-Bouldin İndeksi: Küme içi benzerlik ve kümeler arası farklılık oranını ölçer (düşük değerler daha iyi)
  • Calinski-Harabasz İndeksi: Küme içi yoğunluk ve kümeler arası ayrımı ölçer (yüksek değerler daha iyi)
  • Dunn İndeksi: En yakın iki küme arasındaki minimum mesafenin, en büyük küme çapına oranı
  • İnertia (WCSS): Küme içi kare mesafelerinin toplamı (düşük değerler daha iyi)

Dış Değerlendirme Metrikleri (Etiket Gerektirir):

  • Rand İndeksi: Doğru sınıflandırılan çiftlerin oranı
  • Düzeltilmiş Rand İndeksi (ARI): Şans faktörünü hesaba katan Rand İndeksi versiyonu
  • Normalize Edilmiş Karşılıklı Bilgi (NMI): Kümeleme ile gerçek etiketler arasındaki bilgi paylaşımını ölçer
  • Homojenlik, Tamlık ve V-ölçütü: Kümelerin ne kadar homojen ve tam olduğunu ölçer

Boyut İndirgeme ve Anomali Tespiti Değerlendirme

Boyut indirgeme ve anomali tespiti gibi diğer denetimsiz öğrenme yöntemlerinin değerlendirilmesi için kullanılan yaklaşımlar.

Boyut İndirgeme Değerlendirme:

  • Açıklanan Varyans Oranı: Korunan bilgi miktarını ölçer
  • Rekonstrüksiyon Hatası: Orijinal veri ile yeniden oluşturulan veri arasındaki fark
  • Stres Değeri (MDS için): Orijinal ve indirgenen uzaydaki mesafelerin uyuşma derecesi
  • Downstream Task Performansı: İndirgenen özellikler kullanılarak yapılan sınıflandırma veya regresyon performansı

Anomali Tespiti Değerlendirme:

  • ROC Eğrisi ve AUC: Farklı eşik değerlerinde anomali tespiti performansını ölçer
  • Precision-Recall Eğrisi: Özellikle dengesiz veri setlerinde anomali tespiti performansını değerlendirir
  • F1-Skoru: Kesinlik ve duyarlılık arasındaki dengeyi ölçer
  • Average Precision Score: Precision-Recall eğrisi altında kalan alan

Değerlendirme Zorlukları:

  • Etiket Eksikliği: Denetimsiz öğrenmede genellikle gerçek etiketler bulunmaz
  • Subjektif Değerlendirme: Sonuçların yorumlanması genellikle uzmanlık gerektirir
  • Çoklu Çözümler: Farklı kümeleme sonuçları eşit derecede geçerli olabilir
  • Ölçeklenebilirlik: Büyük veri setlerinde değerlendirme metrikleri hesaplama zorluğu

Makine Öğrenimi Bültenimize Abone Olun

Model değerlendirme ve diğer makine öğrenimi konuları hakkında en son gelişmeler için güncel kalın.