Doğrusal regresyon (linear regression), sosyal bilimlerden mühendisliğe, sağlık bilimlerinden işletmeye kadar sayısız alanda ilk başvurulan modelleme yaklaşımıdır. Basitliği, yorumlanabilirliği ve güçlü kuramsal temelleri nedeniyle “temel model” olarak görülür; ama onu doğru seçmek ve kurmak, sanıldığı kadar basit değildir. Doğrusallık varsayımı, hata yapısının özellikleri (bağımsızlık, homoskedastisite, normalite), değişken seçimi, çoklu-doğrusal bağlantı (multicollinearity), uç/etkili gözlemler (outlier–influence), ölçüm hataları, zaman ve panel yapıları, güçlü (robust) alternatifler, düzenlileştirme (ridge–lasso–elastic net), doğrulama (CV), tahmin–çıkarım ayrımı, nedensellik ve etik raporlama gibi pek çok karar noktası vardır.
Bu rehber, tez yaptırma gibi etik dışı pratikleri kesin biçimde reddeder; bunun yerine, kendi tezinizi akademik bütünlükle yürütmeniz için doğrusal regresyonda yöntem seçimi konusunda kapsamlı, uygulamalı bir yol haritası sunar. Her ana bölümde kontrol listeleri, mini vaka örnekleri ve “karar ağacı” mantığıyla ilerleyen pratik öneriler bulacaksınız.
1) Ne Zaman Doğrusal Regresyonu Seçmeli?
Uygun bağlamlar:
-
Sürekli bir bağımlı değişken (y/b), örn. gelir, süre, sıcaklık, test puanı.
-
Bağımlı değişken ile tahminciler (X’ler) arasında yaklaşık doğrusal ilişki.
-
Model amacınız etkiyi yorumlamak (β katsayıları) veya tahmin üretmekse ve daha karmaşık modellerin marjinal getirisi düşükse.
Yanlış seçim örnekleri:
-
0/1 ikili çıktı → lojistik/probit tercih edilir.
-
Sayım verisi ve düşük ortalama → Poisson/NegBin.
-
Aşırı çarpık, sınırlandırılmış çıktı (0–1) → Beta regresyon.
-
Güçlü doğrusal olmayanlık ve etkileşim ağları → GAM, ağaç tabanlı yöntemler, kernel vb.
2) Modelin Omurgası: OLS ve Yorum
Klasik en küçük kareler (OLS) tahmincisi, ortalama koşullu beklentiyi (E[y|X]) doğrusal formda yakalamayı hedefler:
y=β0+β1X1+⋯+βpXp+ε.
Burada β_j, diğer değişkenler sabitken X_j’deki bir birim artışın y’deki ortalama değişimine işaret eder. Standart hatalar, güven aralıkları ve t-testleriyle çıkarım yapılır.
Tahmin vs çıkarım:
-
Çıkarım odaklı çalışmalarda varsayımlar ve diyagnostikler merkezîdir; β’ların işareti/büyüklüğü/önemi raporlanır.
-
Tahmin odaklı çalışmalarda ise genellenebilirlik (CV), hata metrikleri (RMSE/MAE) ve aşırı uyumun önlenmesi öne çıkar.
3) Varsayımlar: Ne, Neden, Nasıl Test Edilir?
-
Doğrusallık: y ~ X ilişkisinin doğrusal doğası.
-
Test/inceleme: Artık–uygulanmış değer grafiği, parçalı (partial) artık grafikleri, loess eğrileri.
-
Çözüm: Dönüşümler (log, sqrt), polinomsal terimler, splines, GAM.
-
-
Bağımsızlık (otonomluk): Hatalar korelesiz olmalı.
-
İhlal tipik neden: Zaman serisi, kümelenmiş (sınıf/okul, hastane) veri.
-
Çözüm: Zaman bağlamında AR(1)/GLS, panelde karma (mixed) modeller veya küme-robust SE.
-
-
Homoskedastisite (eşvaryans): Hata varyansı sabit.
-
Test: Artık–uygulanmış değer grafiği; Breusch–Pagan, White testleri.
-
Çözüm: Robust (HC) standart hatalar, dönüşüm, ağırlıklı en küçük kareler (WLS).
-
-
Artıkların normalitesi: β’ların küçük örneklem çıkarımı için önemlidir (Büyük örneklemde merkezi limit teoremi rahatlatır).
-
Test: Q–Q plot, Shapiro–Wilk (büyük N’de aşırı hassas).
-
Çözüm: Dönüşüm, bootstrap güven aralıkları.
-
4) Keşifsel Analiz ve Ön İşleme
-
Eksik veri: Liste bazlı silme önyargılı olabilir; çoklu atama (MI) veya FIML tercih edin; atama sonrası uyumluluk (congeniality) ilkesine dikkat.
-
Ölçekleme/standartlaştırma: OLS gerektirmez; ancak düzenlileştirme ve etkileşim/polinom terimlerinde faydalıdır. Katsayı kıyasını kolaylaştırır.
-
Kategorik değişkenler: Doğru referans seçin; nadir kategorileri birleştirmeyi düşünün.
-
Aykırı ve etkili noktalar: Leverage, Cook’s distance, DFBETAS ile tarayın; kaldırmadan önce veri-kayıt ve bağlamsal gerekçeleri kontrol edin (ölçüm hatası mı, gerçek uç durum mu?).
Mini vaka: Konut fiyatı modelinde 3 ultra lüks satış verisi, katsayıları dramatik oynatıyor. Çözüm: log(y), mahalle sabit etkileri, robust SE ve duyarlılık analizi (o üç gözlem çıkarılınca sonuçlar tutarlı mı?).
5) Çoklu-Doğrusal Bağlantı (Multicollinearity)
Yüksek korelasyon, β belirsizliğini büyütür, işaretleri kararsızlaştırır.
-
Teşhis: Korelasyon matrisi/ısı haritası; VIF (genellikle >10 uyarı); özdeğer–koşul indeksi.
-
Çözüm:
-
Teorik olarak kolineer değişkenlerden birini çıkarın veya bileşik endeks oluşturun.
-
Ridge veya Elastic Net gibi düzenlileştirme yöntemlerini kullanın.
-
Boyut indirgeme (PCA) ile bileşenleri modele dahil edin (yorumlanabilirlik–performans takası).
-
6) Fonksiyon Biçimi: Polinomlar, Splines ve Dönüşümler
-
Polinomsal terimler: X,X2,X3 gibi; aşırı dalgalanma riskine dikkat (yüksek dereceden polinomlardan kaçının).
-
Doğal kübik splines: Yerel esneklik; düğüm sayısı CV ile seçilir.
-
Dönüşümler: y veya X üzerinde log/sqrt; Box–Cox y dönüşümü; yorumlamayı düzgün yapın (ör. log–lin → esneklik).
-
GAM: Doğrusalın ötesine yumuşak geçiş; açıklanabilirliği korumak için düzgünlük cezası ayarı önemlidir.
Uygulama ipucu: Önce artık grafikleri → sonra en az karmaşık düzeltmeyi deneyin; CV ile aşırı uyumu test edin.
7) Heteroskedastisite ve Güçlü (Robust) Seçenekler
Eşvaryans ihlali yanlı β vermez ama standart hataları bozar; yanlış çıkarım riski doğar.
-
HC (sandwich) SE: HC0–HC3; pratikte HC3 güvenilirdir.
-
WLS/FGLS: Varyansı modelleyebilirseniz daha verimlidir.
-
Kantitatif alternatifler: Quantile regresyon (medyan/çeyrekler), Huber/M-estimator (robust regresyon) → uç değerlere duyarlılığı azaltır.
Mini vaka: Gelir–harcama modelinde üst uç harcamalar değişken varyans yaratıyor. HC3-robust SE ile β anlamlılıkları değişiyor; ayrıca quantile regresyon yüzde 90’lık dilimde farklı eğim gösteriyor → politika yorumu dilimlere göre değiştiriliyor.
8) Zaman Serisi ve Otokorelasyon
Zaman bağımlı veride hata terimleri otokorelasyonlu olabilir.
-
Teşhis: Artık ACF/PACF, Durbin–Watson.
-
Çözüm: Cochrane–Orcutt, Prais–Winsten, GLS/AR(1); ayrıca Newey–West sağlam SE.
-
Trend/mevsimsellik için deterministik trend terimleri veya fark alma.
-
Nedensellik/etki için ARDL, etkinlik çalışmaları, kesintili zaman serisi alternatifleri.
9) Panel (Enine kesit × Zaman) ve Kümelenmiş Veri
Aynı birimleri tekrarlı gözlüyorsanız bağımsızlık yoktur.
-
Sabit/Rasgele etkiler (FE/RE): Gözlenmeyen sabit özellikleri kontrol eder.
-
Küme-robust SE (ör. firma düzeyinde kümelenmiş) çıkarım güvenilirliğini artırır.
-
Çok seviyeli (karma) modeller: Rastgele kesişim/eğim; hiyerarşik yapıyı doğrudan modeller.
10) Model Seçimi: Ölçütler ve Stratejiler
-
Tahmin performansı: CV RMSE/MAE, dış doğrulama seti.
-
Uyum–ceza dengesi: AIC, BIC (BIC daha “tutucu”).
-
Açıklayıcılık: Düzeltilmiş R², fakat tek başına yeterli değil.
-
Aşamalı seçim (ileri/geri) genellikle önyargılı; onun yerine LASSO/EN + CV önerilir.
-
Model ortalaması (model averaging) ve bootstrap ile kararlılık analizi.
Karar ağacı:
-
Amaç çıkarım ise: Teoriye dayalı model + diyagnostik + robust SE; alternatif belirt.
-
Amaç tahmin ise: CV odaklı pipeline + düzenlileştirme + dış set.
-
Değişken çok, gözlem az ise: Penaltı (ridge/lasso/EN), boyut indirgeme (PCA) + CV.
11) Düzenlileştirme: Ridge–LASSO–Elastic Net’i Ne Zaman?
-
Ridge (L2): Kolineerlikte kararlı; hiçbir β’yı sıfırlamaz; tahmini küçültür.
-
LASSO (L1): Özellik seçimi yapar; seyrek çözüm; yüksek korelasyonlu kümelerde seçim istikrarsız olabilir.
-
Elastic Net (L1+L2): Kümelenmiş korelasyonlarda daha istikrarlı; α ve λ CV ile seçilir.
-
Raporlama: Düzenlileştirme yolu (path), seçilen değişkenler, CV hatası, dış sette performans.
12) Etkileşimler ve Alan Bilgisi
Doğrusal model, etkileşimlerle güçlü hale gelir.
-
Etkileşim (X1×X2): Bağlama dayalı olarak belirleyin; anlamsız “tarama”dan kaçının.
-
Merkezleme: Sürekli değişkenleri merkezlemek yorum kolaylığı sağlar.
-
Görselleştirme: Marjinal etki grafiklerini ve etkileşim ısı haritalarını raporlayın.
13) Tahmin–Güven Aralıkları, Bootstrap ve Belirsizlik
-
Ortalama için güven aralığı: E[y|X*].
-
Yeni gözlem için tahmin aralığı: Daha geniştir (hata + belirsizlik).
-
Bootstrap: Varsayımlara duyarlılığı azaltır; küçük örneklemde güven aralığı için idealdir.
-
Duyarlılık: Alternatif özellik setleriyle kararlılık; jackknife etki analizi.
14) Ölçüm Hataları ve Zayıf Araçlar
-
Ölçüm hatası (X’te) β’ları zayıflatır (attenuation). Mümkünse ölçüm güvenirliğini artırın, latent değişken modelleri (SEM) düşünün.
-
Endojenlik: y↔X karşılıklı etkileşim, atlanan değişken. 2SLS/IV yaklaşımı veya değişim-dizaynları gerektirir (nedensel amaç varsa).
15) Değişim (Change), Farkların Farkı ve Nedensellik
Doğrusal regresyon nedensellik kanıtı değildir; fakat tasarımla yaklaştırılabilir:
-
Farkların Farkı (DiD): Müdahale öncesi–sonrası + kontrol.
-
Eşleştirme/ağırlıklandırma: Eğilim skoru (PSM/IPW) ile denge.
-
Kesintili regresyon (RDD): Eşik etrafında yerel doğrusal.
-
DAG ile karıştırıcı seti belirleme; negatif/pozitif kontroller, duyarlılık analizleri.
16) Değerlendirme Metrikleri: Ne Zaman Hangisi?
-
RMSE: Büyük hatalara duyarlı; tahmin kalitesinde yaygın.
-
MAE: Medyana yakın; uç değerlere daha dayanıklı.
-
MAPE: Sıfıra yakın y’de sorunlu; bağlamla dikkatli.
-
R²/düzeltilmiş R²: Açıklanan varyans; farklı modelleri kıyaslarken yanlılığı azaltmak için düzeltilmiş sürüm.
-
Out-of-sample raporlama: Train/valid/test veya k-kat CV ortalama ± SD.
17) Yazılım Uygulamaları ve Reprodüksiyon
-
R:
lm()
,sandwich
(robust SE),car
(VIF),splines
/mgcv
(GAM),glmnet
(ridge/lasso/EN),boot
,stargazer/modelsummary
. -
Python:
statsmodels
(OLS + robust SE, WLS, GLS),scikit-learn
(Pipeline, CV, Ridge/Lasso/EN),patsy
(formül),linearmodels
(panel). -
İyi pratik: Pipeline ile ölçekleme–dönüşüm–CV; seed ve paket sürümlerini kaydetme; veri sözlüğü ve karar günlüğü.
18) Yaygın Hatalar ve Kaçınma Stratejileri
-
Hata: Diyagnostik grafikleri görmezden gelmek. → Çözüm: Artık, Q–Q, leverage, Cook’s.
-
Hata: Heteroskedastisiteye rağmen klasik SE raporlamak. → Çözüm: HC-robust SE, WLS/GLS.
-
Hata: Kolineer değişken şişmesi. → Çözüm: VIF kontrolü, ridge/EN, teoriyle azaltma.
-
Hata: Train performansına güvenmek. → Çözüm: CV/dış doğrulama, erken durdurma yok ama model sadeleştirme var.
-
Hata: Nedensel iddia için salt OLS. → Çözüm: Tasarım (DiD, IV, RDD), karıştırıcı seti, duyarlılık.
-
Hata: Uç gözlemi körlemesine silmek. → Çözüm: Kayıt/ölçüm hatası mı? Etki analizi ve bağlamsal gerekçe.
19) Uygulamalı Mini Vaka 1 – Fiyat–Talep Elastikiyeti
Bağlam: E-ticaret kategorisinde günlük satış (y), fiyat (X), promosyon kuklaları, mevsimsel göstergeler.
Problemler: Heteroskedastisite (yüksek satış günlerinde varyans artışı), otokorelasyon (hafta döngüsü), kolineer promosyon kuklaları.
Çözüm: log–log (esneklik yorumu), Newey–West SE, kampanyalarda dummy grup sayısını azaltma, dış doğrulama ile RMSE takibi.
Sonuç: Fiyat esnekliği −1.4 (GA: −1.2, −1.6); kampanya günleri için farklı etkileşim terimi anlamlı.
20) Uygulamalı Mini Vaka 2 – Klinik Süre Tahmini
Bağlam: Poliklinik muayene süreleri; y yüksek sağ-kuyruklu.
Problemler: Aykırı uzun ziyaretler, heteroskedastisite, doktor/klinik kümelenmesi.
Çözüm: log(y), karma model (rastgele kesişim: doktor), HC-robust SE; quantile regresyon ile yüzde 90’lık dilim için ek politika önerisi.
Sonuç: Deneyimli doktor + asistan varlığı süreyi ortalamada düşürüyor, üst kuyrukta etkisi daha büyük.
21) Uygulamalı Mini Vaka 3 – Öğrenci Başarısı
Bağlam: y=final puanı; X: devamsızlık, ara sınav, çalışma saati, bölüm sabit etkileri.
Problemler: Doğrusal olmayanlık (çalışma saati ile azalan getiri), aykırılar (0 ve 100).
Çözüm: doğal kübik spline (çalışma saati), robust SE, bölüm sabitleri.
Sonuç: 0–10 saat bandında yüksek marjinal getiri, 20 saatten sonra plato; politika: erken müdahale.
22) Etik, Şeffaflık ve Adalet
-
Model kartı: Amaç, veri kapsamı, dönüşümler, varsayım testleri, performans, sınırlılıklar.
-
Adalet (fairness): Alt gruplar için hata metriklerini kıyaslayın; sistematik sapma varsa düzeltme.
-
Reprodüksiyon: Kodlar (anonim veri/sentetik örnek), tohum, paket sürümleri, karar günlüğü paylaşımı.
-
Akademik dürüstlük: Atıflar, veri/analiz izlenebilirliği; sonuçların “satın alınması” değil üretilmesi.
Sonuç
Doğrusal regresyon, “kolay” diye seçilecek bir reçete değil; bağlam–varsayım–tasarım–diyagnostik–değerlendirmeaşamalarının dikkatle işlendiği bir karar sürecidir. Bu rehber, ne zaman doğrusal regresyon demek gerektiğini; varsayımları nasıl test edip ihlallerde robust/GLS/WLS/quantile gibi seçeneklere nasıl geçileceğini; kolineariteyle başa çıkmak için ridge/elastic net veya PCA gibi yolları; fonksiyon biçiminin polinom/spline/GAM ile esnetilmesini; zaman/panel bağlamında otokorelasyon/kümelenme sorunlarını; CV–AIC/BIC–RMSE/MAE gibi ölçütlerle model seçimini; bootstrap ve duyarlılık analizleriyle belirsizliğin dürüstçe raporlanmasını; nedensel iddialar için tasarım gerekliliğini; etik ve şeffaf raporlama standartlarını adım adım ortaya koydu.
Tezinizde doğrusal regresyonu;
-
Çıkarım için: açık varsayım denetimleri, robust standart hatalar, teoriye dayalı spesifikasyon;
-
Tahmin için: düzenlileştirme ve çapraz doğrulama odaklı, dış sette testli bir pipeline;
-
Nedensellik için: uygun deneysel/yarı-deneysel tasarımlarla desteklenmiş bir çerçeve
olarak konumlandırın. Böyle yaptığınızda, ürettiğiniz β katsayıları yalnız istatistiksel olarak değil, karar verilebilir ve güvenilir hale gelir; akademik bütünlüğünüzü koruyarak literatüre ve uygulamaya kalıcı değer katarsınız.