Regresyon Algoritmaları | Makine Öğrenimi

Regresyon Nedir?

Regresyon, bağımsız değişkenler (özellikler) ile bağımlı değişken (hedef) arasındaki ilişkiyi modelleyen denetimli öğrenme tekniğidir. Regresyon algoritmaları, sürekli sayısal değerleri tahmin etmek için kullanılır.

Örneğin, ev fiyatlarını tahmin etmek, hisse senedi fiyatlarını öngörmek, hava sıcaklığını tahmin etmek veya bir ürünün satış miktarını belirlemek gibi problemler regresyon ile çözülebilir.

Regresyon modelleri, veri noktaları arasındaki ilişkiyi matematiksel bir fonksiyon olarak ifade eder. Bu fonksiyon, yeni veri noktaları için tahminler yapmak üzere kullanılır.

Regresyon Türleri

Basit Doğrusal Regresyon: Tek bağımsız değişken
Çoklu Doğrusal Regresyon: Birden fazla bağımsız değişken
Polinomiyal Regresyon: Doğrusal olmayan ilişkiler
Ridge Regresyon: L2 düzenlileştirme
Lasso Regresyon: L1 düzenlileştirme
ElasticNet: L1 ve L2 düzenlileştirme
Destek Vektör Regresyonu: Maksimum marj
Karar Ağacı Regresyonu: Ağaç tabanlı

Doğrusal Regresyon Algoritmaları

Basit Doğrusal Regresyon

Basit doğrusal regresyon, tek bir bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi modelleyen en temel regresyon algoritmasıdır.

Matematiksel Model:

y = β₀ + β₁x + ε

Burada:

y: Bağımlı değişken (tahmin edilecek değer)
x: Bağımsız değişken (özellik)
β₀: Kesişim (y-eksenini kestiği nokta)
β₁: Eğim (x'teki bir birim değişimin y üzerindeki etkisi)
ε: Hata terimi

Avantajları:

Basit ve yorumlanabilir
Hesaplama açısından verimli
İlişkinin yönü ve gücü hakkında bilgi verir

Dezavantajları:

Sadece doğrusal ilişkileri modelleyebilir
Aykırı değerlere karşı hassastır
Karmaşık veri setleri için yetersiz kalabilir

Çoklu Doğrusal Regresyon

Çoklu doğrusal regresyon, birden fazla bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi modelleyen regresyon algoritmasıdır.

Matematiksel Model:

y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε

Burada:

y: Bağımlı değişken
x₁, x₂, ..., xₙ: Bağımsız değişkenler
β₀, β₁, β₂, ..., βₙ: Regresyon katsayıları
ε: Hata terimi

Avantajları:

Birden fazla özelliğin etkisini modelleyebilir
Her özelliğin bağımlı değişken üzerindeki etkisini ölçer
Nispeten basit ve yorumlanabilir

Dezavantajları:

Çoklu doğrusallık (multicollinearity) problemi yaşanabilir
Doğrusal olmayan ilişkileri modelleyemez
Aykırı değerlere karşı hassastır

Düzenlileştirme Teknikleri

Ridge Regresyon (L2 Düzenlileştirme)

Ridge regresyon, aşırı öğrenmeyi önlemek için L2 düzenlileştirme kullanan bir regresyon tekniğidir. Katsayıların karelerinin toplamını ceza terimi olarak ekler.

Matematiksel Model:

Minimize edilecek fonksiyon:

RSS + λ * Σ(βᵢ²)

Burada:

RSS: Artık kareler toplamı
λ: Düzenlileştirme parametresi
βᵢ: Regresyon katsayıları

Avantajları:

Aşırı öğrenmeyi azaltır
Çoklu doğrusallık durumunda daha kararlı sonuçlar verir
Katsayıları sıfıra yaklaştırır ancak tam sıfır yapmaz

Lasso Regresyon (L1 Düzenlileştirme)

Lasso regresyon, aşırı öğrenmeyi önlemek için L1 düzenlileştirme kullanan bir regresyon tekniğidir. Katsayıların mutlak değerlerinin toplamını ceza terimi olarak ekler.

Matematiksel Model:

Minimize edilecek fonksiyon:

RSS + λ * Σ|βᵢ|

Burada:

RSS: Artık kareler toplamı
λ: Düzenlileştirme parametresi
βᵢ: Regresyon katsayıları

Avantajları:

Özellik seçimi yapar (bazı katsayıları tam olarak sıfır yapar)
Daha seyrek (sparse) modeller oluşturur
Aşırı öğrenmeyi azaltır

ElasticNet Regresyon

ElasticNet, Ridge ve Lasso regresyonun avantajlarını birleştiren bir regresyon tekniğidir. Hem L1 hem de L2 düzenlileştirme kullanır.

Matematiksel Model:

Minimize edilecek fonksiyon:

RSS + λ₁ * Σ|βᵢ| + λ₂ * Σ(βᵢ²)

Burada:

RSS: Artık kareler toplamı
λ₁, λ₂: Düzenlileştirme parametreleri
βᵢ: Regresyon katsayıları

Avantajları:

Hem özellik seçimi yapar hem de katsayıları küçültür
Yüksek korelasyonlu değişken gruplarını birlikte seçer
Lasso ve Ridge'in avantajlarını birleştirir

Gelişmiş Regresyon Algoritmaları

Destek Vektör Regresyonu (SVR)

Destek Vektör Regresyonu, destek vektör makinelerinin regresyon problemlerine uyarlanmış halidir. Belirli bir epsilon marjı içinde kalan hataları göz ardı ederek, veri noktalarını en iyi şekilde kapsayan bir tüp oluşturmayı amaçlar.

Özellikler:

Epsilon-Tüp: Belirli bir marj içindeki tahminler için ceza uygulanmaz
Çekirdek Fonksiyonları: Doğrusal olmayan ilişkileri modellemek için çekirdek fonksiyonları kullanılır (doğrusal, polinomiyal, RBF, sigmoid)
Düzenlileştirme: C parametresi ile düzenlileştirme kontrolü sağlanır

Avantajları:

Doğrusal olmayan ilişkileri modelleyebilir
Aykırı değerlere karşı daha dirençlidir
Yüksek boyutlu uzaylarda etkilidir

Ağaç Tabanlı Regresyon Modelleri

Ağaç tabanlı regresyon modelleri, veriyi bölümlere ayırarak tahmin yapan algoritmalardır. Bu modeller, doğrusal olmayan ilişkileri ve özellikler arası etkileşimleri yakalayabilir.

Popüler Ağaç Tabanlı Regresyon Modelleri:

Karar Ağacı Regresyonu: Veriyi özyinelemeli olarak bölen basit bir model
Rastgele Orman Regresyonu: Birden fazla karar ağacının tahminlerini birleştiren topluluk yöntemi
Gradient Boosting Regresyonu: Ardışık ağaçların hataları düzeltmeye odaklandığı ileri bir topluluk yöntemi
XGBoost: Gradient boosting'in optimize edilmiş bir uygulaması
LightGBM: Daha hızlı ve daha verimli bir gradient boosting uygulaması

Avantajları:

Doğrusal olmayan ilişkileri modelleyebilir
Özellik ölçeklendirme gerektirmez
Özellik önemini belirleyebilir
Eksik değerleri işleyebilir

Regresyon Nedir?

Regresyon Türleri

Doğrusal Regresyon Algoritmaları

Basit Doğrusal Regresyon

Matematiksel Model:

Avantajları:

Dezavantajları:

Çoklu Doğrusal Regresyon

Matematiksel Model:

Avantajları:

Dezavantajları:

Düzenlileştirme Teknikleri

Ridge Regresyon (L2 Düzenlileştirme)

Matematiksel Model:

Avantajları:

Lasso Regresyon (L1 Düzenlileştirme)

Matematiksel Model:

Avantajları:

ElasticNet Regresyon

Matematiksel Model:

Avantajları:

Gelişmiş Regresyon Algoritmaları

Destek Vektör Regresyonu (SVR)

Özellikler:

Avantajları:

Ağaç Tabanlı Regresyon Modelleri

Popüler Ağaç Tabanlı Regresyon Modelleri:

Avantajları:

Makine Öğrenimi Bültenimize Abone Olun