Regresyon Nedir?
Regresyon, bağımsız değişkenler (özellikler) ile bağımlı değişken (hedef) arasındaki ilişkiyi modelleyen denetimli öğrenme tekniğidir. Regresyon algoritmaları, sürekli sayısal değerleri tahmin etmek için kullanılır.
Örneğin, ev fiyatlarını tahmin etmek, hisse senedi fiyatlarını öngörmek, hava sıcaklığını tahmin etmek veya bir ürünün satış miktarını belirlemek gibi problemler regresyon ile çözülebilir.
Regresyon modelleri, veri noktaları arasındaki ilişkiyi matematiksel bir fonksiyon olarak ifade eder. Bu fonksiyon, yeni veri noktaları için tahminler yapmak üzere kullanılır.
Regresyon Türleri
- Basit Doğrusal Regresyon: Tek bağımsız değişken
- Çoklu Doğrusal Regresyon: Birden fazla bağımsız değişken
- Polinomiyal Regresyon: Doğrusal olmayan ilişkiler
- Ridge Regresyon: L2 düzenlileştirme
- Lasso Regresyon: L1 düzenlileştirme
- ElasticNet: L1 ve L2 düzenlileştirme
- Destek Vektör Regresyonu: Maksimum marj
- Karar Ağacı Regresyonu: Ağaç tabanlı
Doğrusal Regresyon Algoritmaları
Basit Doğrusal Regresyon
Basit doğrusal regresyon, tek bir bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi modelleyen en temel regresyon algoritmasıdır.
Matematiksel Model:
y = β₀ + β₁x + ε
Burada:
- y: Bağımlı değişken (tahmin edilecek değer)
- x: Bağımsız değişken (özellik)
- β₀: Kesişim (y-eksenini kestiği nokta)
- β₁: Eğim (x'teki bir birim değişimin y üzerindeki etkisi)
- ε: Hata terimi
Avantajları:
- Basit ve yorumlanabilir
- Hesaplama açısından verimli
- İlişkinin yönü ve gücü hakkında bilgi verir
Dezavantajları:
- Sadece doğrusal ilişkileri modelleyebilir
- Aykırı değerlere karşı hassastır
- Karmaşık veri setleri için yetersiz kalabilir
Çoklu Doğrusal Regresyon
Çoklu doğrusal regresyon, birden fazla bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi modelleyen regresyon algoritmasıdır.
Matematiksel Model:
y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε
Burada:
- y: Bağımlı değişken
- x₁, x₂, ..., xₙ: Bağımsız değişkenler
- β₀, β₁, β₂, ..., βₙ: Regresyon katsayıları
- ε: Hata terimi
Avantajları:
- Birden fazla özelliğin etkisini modelleyebilir
- Her özelliğin bağımlı değişken üzerindeki etkisini ölçer
- Nispeten basit ve yorumlanabilir
Dezavantajları:
- Çoklu doğrusallık (multicollinearity) problemi yaşanabilir
- Doğrusal olmayan ilişkileri modelleyemez
- Aykırı değerlere karşı hassastır
Düzenlileştirme Teknikleri
Ridge Regresyon (L2 Düzenlileştirme)
Ridge regresyon, aşırı öğrenmeyi önlemek için L2 düzenlileştirme kullanan bir regresyon tekniğidir. Katsayıların karelerinin toplamını ceza terimi olarak ekler.
Matematiksel Model:
Minimize edilecek fonksiyon:
RSS + λ * Σ(βᵢ²)
Burada:
- RSS: Artık kareler toplamı
- λ: Düzenlileştirme parametresi
- βᵢ: Regresyon katsayıları
Avantajları:
- Aşırı öğrenmeyi azaltır
- Çoklu doğrusallık durumunda daha kararlı sonuçlar verir
- Katsayıları sıfıra yaklaştırır ancak tam sıfır yapmaz
Lasso Regresyon (L1 Düzenlileştirme)
Lasso regresyon, aşırı öğrenmeyi önlemek için L1 düzenlileştirme kullanan bir regresyon tekniğidir. Katsayıların mutlak değerlerinin toplamını ceza terimi olarak ekler.
Matematiksel Model:
Minimize edilecek fonksiyon:
RSS + λ * Σ|βᵢ|
Burada:
- RSS: Artık kareler toplamı
- λ: Düzenlileştirme parametresi
- βᵢ: Regresyon katsayıları
Avantajları:
- Özellik seçimi yapar (bazı katsayıları tam olarak sıfır yapar)
- Daha seyrek (sparse) modeller oluşturur
- Aşırı öğrenmeyi azaltır
ElasticNet Regresyon
ElasticNet, Ridge ve Lasso regresyonun avantajlarını birleştiren bir regresyon tekniğidir. Hem L1 hem de L2 düzenlileştirme kullanır.
Matematiksel Model:
Minimize edilecek fonksiyon:
RSS + λ₁ * Σ|βᵢ| + λ₂ * Σ(βᵢ²)
Burada:
- RSS: Artık kareler toplamı
- λ₁, λ₂: Düzenlileştirme parametreleri
- βᵢ: Regresyon katsayıları
Avantajları:
- Hem özellik seçimi yapar hem de katsayıları küçültür
- Yüksek korelasyonlu değişken gruplarını birlikte seçer
- Lasso ve Ridge'in avantajlarını birleştirir
Gelişmiş Regresyon Algoritmaları
Destek Vektör Regresyonu (SVR)
Destek Vektör Regresyonu, destek vektör makinelerinin regresyon problemlerine uyarlanmış halidir. Belirli bir epsilon marjı içinde kalan hataları göz ardı ederek, veri noktalarını en iyi şekilde kapsayan bir tüp oluşturmayı amaçlar.
Özellikler:
- Epsilon-Tüp: Belirli bir marj içindeki tahminler için ceza uygulanmaz
- Çekirdek Fonksiyonları: Doğrusal olmayan ilişkileri modellemek için çekirdek fonksiyonları kullanılır (doğrusal, polinomiyal, RBF, sigmoid)
- Düzenlileştirme: C parametresi ile düzenlileştirme kontrolü sağlanır
Avantajları:
- Doğrusal olmayan ilişkileri modelleyebilir
- Aykırı değerlere karşı daha dirençlidir
- Yüksek boyutlu uzaylarda etkilidir
Ağaç Tabanlı Regresyon Modelleri
Ağaç tabanlı regresyon modelleri, veriyi bölümlere ayırarak tahmin yapan algoritmalardır. Bu modeller, doğrusal olmayan ilişkileri ve özellikler arası etkileşimleri yakalayabilir.
Popüler Ağaç Tabanlı Regresyon Modelleri:
- Karar Ağacı Regresyonu: Veriyi özyinelemeli olarak bölen basit bir model
- Rastgele Orman Regresyonu: Birden fazla karar ağacının tahminlerini birleştiren topluluk yöntemi
- Gradient Boosting Regresyonu: Ardışık ağaçların hataları düzeltmeye odaklandığı ileri bir topluluk yöntemi
- XGBoost: Gradient boosting'in optimize edilmiş bir uygulaması
- LightGBM: Daha hızlı ve daha verimli bir gradient boosting uygulaması
Avantajları:
- Doğrusal olmayan ilişkileri modelleyebilir
- Özellik ölçeklendirme gerektirmez
- Özellik önemini belirleyebilir
- Eksik değerleri işleyebilir