Regresyon Algoritmaları

Sürekli değerleri tahmin etmek için kullanılan denetimli öğrenme algoritmaları

Regresyon Nedir?

Regresyon, bağımsız değişkenler (özellikler) ile bağımlı değişken (hedef) arasındaki ilişkiyi modelleyen denetimli öğrenme tekniğidir. Regresyon algoritmaları, sürekli sayısal değerleri tahmin etmek için kullanılır.

Örneğin, ev fiyatlarını tahmin etmek, hisse senedi fiyatlarını öngörmek, hava sıcaklığını tahmin etmek veya bir ürünün satış miktarını belirlemek gibi problemler regresyon ile çözülebilir.

Regresyon modelleri, veri noktaları arasındaki ilişkiyi matematiksel bir fonksiyon olarak ifade eder. Bu fonksiyon, yeni veri noktaları için tahminler yapmak üzere kullanılır.

Regresyon Türleri

  • Basit Doğrusal Regresyon: Tek bağımsız değişken
  • Çoklu Doğrusal Regresyon: Birden fazla bağımsız değişken
  • Polinomiyal Regresyon: Doğrusal olmayan ilişkiler
  • Ridge Regresyon: L2 düzenlileştirme
  • Lasso Regresyon: L1 düzenlileştirme
  • ElasticNet: L1 ve L2 düzenlileştirme
  • Destek Vektör Regresyonu: Maksimum marj
  • Karar Ağacı Regresyonu: Ağaç tabanlı

Doğrusal Regresyon Algoritmaları

Basit Doğrusal Regresyon

Basit doğrusal regresyon, tek bir bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi modelleyen en temel regresyon algoritmasıdır.

Matematiksel Model:

y = β₀ + β₁x + ε

Burada:

  • y: Bağımlı değişken (tahmin edilecek değer)
  • x: Bağımsız değişken (özellik)
  • β₀: Kesişim (y-eksenini kestiği nokta)
  • β₁: Eğim (x'teki bir birim değişimin y üzerindeki etkisi)
  • ε: Hata terimi

Avantajları:

  • Basit ve yorumlanabilir
  • Hesaplama açısından verimli
  • İlişkinin yönü ve gücü hakkında bilgi verir

Dezavantajları:

  • Sadece doğrusal ilişkileri modelleyebilir
  • Aykırı değerlere karşı hassastır
  • Karmaşık veri setleri için yetersiz kalabilir

Çoklu Doğrusal Regresyon

Çoklu doğrusal regresyon, birden fazla bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi modelleyen regresyon algoritmasıdır.

Matematiksel Model:

y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε

Burada:

  • y: Bağımlı değişken
  • x₁, x₂, ..., xₙ: Bağımsız değişkenler
  • β₀, β₁, β₂, ..., βₙ: Regresyon katsayıları
  • ε: Hata terimi

Avantajları:

  • Birden fazla özelliğin etkisini modelleyebilir
  • Her özelliğin bağımlı değişken üzerindeki etkisini ölçer
  • Nispeten basit ve yorumlanabilir

Dezavantajları:

  • Çoklu doğrusallık (multicollinearity) problemi yaşanabilir
  • Doğrusal olmayan ilişkileri modelleyemez
  • Aykırı değerlere karşı hassastır

Düzenlileştirme Teknikleri

Ridge Regresyon (L2 Düzenlileştirme)

Ridge regresyon, aşırı öğrenmeyi önlemek için L2 düzenlileştirme kullanan bir regresyon tekniğidir. Katsayıların karelerinin toplamını ceza terimi olarak ekler.

Matematiksel Model:

Minimize edilecek fonksiyon:

RSS + λ * Σ(βᵢ²)

Burada:

  • RSS: Artık kareler toplamı
  • λ: Düzenlileştirme parametresi
  • βᵢ: Regresyon katsayıları

Avantajları:

  • Aşırı öğrenmeyi azaltır
  • Çoklu doğrusallık durumunda daha kararlı sonuçlar verir
  • Katsayıları sıfıra yaklaştırır ancak tam sıfır yapmaz

Lasso Regresyon (L1 Düzenlileştirme)

Lasso regresyon, aşırı öğrenmeyi önlemek için L1 düzenlileştirme kullanan bir regresyon tekniğidir. Katsayıların mutlak değerlerinin toplamını ceza terimi olarak ekler.

Matematiksel Model:

Minimize edilecek fonksiyon:

RSS + λ * Σ|βᵢ|

Burada:

  • RSS: Artık kareler toplamı
  • λ: Düzenlileştirme parametresi
  • βᵢ: Regresyon katsayıları

Avantajları:

  • Özellik seçimi yapar (bazı katsayıları tam olarak sıfır yapar)
  • Daha seyrek (sparse) modeller oluşturur
  • Aşırı öğrenmeyi azaltır

ElasticNet Regresyon

ElasticNet, Ridge ve Lasso regresyonun avantajlarını birleştiren bir regresyon tekniğidir. Hem L1 hem de L2 düzenlileştirme kullanır.

Matematiksel Model:

Minimize edilecek fonksiyon:

RSS + λ₁ * Σ|βᵢ| + λ₂ * Σ(βᵢ²)

Burada:

  • RSS: Artık kareler toplamı
  • λ₁, λ₂: Düzenlileştirme parametreleri
  • βᵢ: Regresyon katsayıları

Avantajları:

  • Hem özellik seçimi yapar hem de katsayıları küçültür
  • Yüksek korelasyonlu değişken gruplarını birlikte seçer
  • Lasso ve Ridge'in avantajlarını birleştirir

Gelişmiş Regresyon Algoritmaları

Destek Vektör Regresyonu (SVR)

Destek Vektör Regresyonu, destek vektör makinelerinin regresyon problemlerine uyarlanmış halidir. Belirli bir epsilon marjı içinde kalan hataları göz ardı ederek, veri noktalarını en iyi şekilde kapsayan bir tüp oluşturmayı amaçlar.

Özellikler:

  • Epsilon-Tüp: Belirli bir marj içindeki tahminler için ceza uygulanmaz
  • Çekirdek Fonksiyonları: Doğrusal olmayan ilişkileri modellemek için çekirdek fonksiyonları kullanılır (doğrusal, polinomiyal, RBF, sigmoid)
  • Düzenlileştirme: C parametresi ile düzenlileştirme kontrolü sağlanır

Avantajları:

  • Doğrusal olmayan ilişkileri modelleyebilir
  • Aykırı değerlere karşı daha dirençlidir
  • Yüksek boyutlu uzaylarda etkilidir

Ağaç Tabanlı Regresyon Modelleri

Ağaç tabanlı regresyon modelleri, veriyi bölümlere ayırarak tahmin yapan algoritmalardır. Bu modeller, doğrusal olmayan ilişkileri ve özellikler arası etkileşimleri yakalayabilir.

Popüler Ağaç Tabanlı Regresyon Modelleri:

  • Karar Ağacı Regresyonu: Veriyi özyinelemeli olarak bölen basit bir model
  • Rastgele Orman Regresyonu: Birden fazla karar ağacının tahminlerini birleştiren topluluk yöntemi
  • Gradient Boosting Regresyonu: Ardışık ağaçların hataları düzeltmeye odaklandığı ileri bir topluluk yöntemi
  • XGBoost: Gradient boosting'in optimize edilmiş bir uygulaması
  • LightGBM: Daha hızlı ve daha verimli bir gradient boosting uygulaması

Avantajları:

  • Doğrusal olmayan ilişkileri modelleyebilir
  • Özellik ölçeklendirme gerektirmez
  • Özellik önemini belirleyebilir
  • Eksik değerleri işleyebilir

Makine Öğrenimi Bültenimize Abone Olun

Regresyon algoritmaları ve diğer makine öğrenimi konuları hakkında en son gelişmeler için güncel kalın.