Lojistik regresyon, ikili (0/1) sonuç değişkenlerini açıklamada en yaygın kullanılan ve yorumlanabilirliği yüksek istatistiksel modellerden biridir. Sağlık bilimlerinden eğitim araştırmalarına, pazarlamadan bilişime dek geniş bir yelpazede “olay oldu/olmadı”, “başardı/başaramadı”, “terk etti/etmedi” gibi çıktıları modellemek için kullanılır. Gücü, olasılık yerine logit (log-odds) düzleminde doğrusal ilişki kurmasında yatar; bu sayede doğrusal regresyonun ihlal ettiği [0,1] sınırı ve sabit varyans varsayımı gibi sorunlar ortadan kalkar. Ancak lojistik regresyonu “seçmek” yalnızca bir menüden yöntem adı işaretlemek değildir. Doğru formülasyon, uygun örneklem büyüklüğü, özellik (değişken) seçimi, çoklu-doğrusal bağlantı (multicollinearity) yönetimi, dengesiz sınıf sorunları, düzenlileştirme (penalizasyon), kalibrasyon, kesme noktası (threshold) ayarı, çapraz doğrulama ve raporlama standartları gibi bir dizi karar içerir.
Bu rehber, tez yaptırma gibi etik dışı yaklaşımlara karşı durur; lojistik regresyonu kendi araştırmanızda doğru, şeffaf ve yinelenebilir biçimde seçip uygulamanız için kapsamlı bir yol haritası sunar. Her bölümde küçük vaka anlatıları, uygulamalı kontrol listeleri ve güçlü sonuçlara giden karar mantığı yer alır.
1) Ne Zaman Lojistik Regresyon?
Uygun bağlamlar:
-
İkili çıktı: hastalık var/yok, terk etti/etmedi, başarı/başarısızlık.
-
Olasılığın 0–1 aralığında olması ve logit dönüşümüyle doğrusal ilişki varsayımı.
-
Denetimli sınıflandırma problemi olup yorumu da kritikse (odds oranları).
Yanlış seçim örneği: Olasılıklar yerine ham sayıları (count) modelleyip lojistiğe zorlamak. Bu durumda Poisson/NegBin(olay oranı) daha uygundur.
Doğru seçim örneği: Öğrenci terk riskini (0/1) demografik, başarı ve etkileşim değişkenleriyle logistik modellemek; yönetim için “odds oranı (OR)” raporlamak.
2) Modelin Temeli: Logit Bağıntısı ve Olasılık
Lojistik regresyon, logit(p) = ln(p/(1−p))’nin bağımsız değişkenlerle doğrusal olduğunu varsayar. Katsayı β_j, ilgili X_j’deki bir birimlik artışın log-odds’taki değişimini gösterir; odds oranı için exp(β_j) kullanılır.
Uygulama ipucu: Raporlamada yalnız p-değeri değil, OR ve %95 güven aralığına mutlaka yer verin. Örn. OR=1.35 [1.10–1.66], p=0.004.
3) Örneklem Büyüklüğü ve Olay Başına Gözlem (EPV)
Klasik kural, her serbest parametre başına ≥10 olay (Events Per Variable) önermektedir (yeni çalışmalar bağlama göre 5–20 arası esneklik gösterir). Çok sayıda tahminci (özellik) kullanmanız gerekiyorsa penalize lojistik (LASSO/Ridge/Elastic Net) ile aşırı uyumu sınırlayın.
Mini vaka: 300 birey, “olay=1” sayısı 60. 12 aday değişkeniniz var → EPV=60/12=5 → yalın model veya LASSO tercih edin; ek veri toplayın ya da özellikleri indirgeme uygulayın.
4) Keşifsel Analiz ve Ön İşleme
-
Eksik veriler: Rastgele eksik (MAR) ise çoklu atama (MI); listwise silme önyargı üretebilir.
-
Ölçekleme: Lojistik regresyon ölçek gerektirmez; ancak düzenlileştirme (L1/L2) ve etkileşim terimlerinde ölçekleme faydalıdır.
-
Kategori kodlama: Dengesiz kategorileri birleştirin; referans kategoriyi raporlayın.
-
Aykırı değerler ve etkili noktalar: Cook’s distance, hataların Pearson/Deviance incelenmesi.
5) Çoklu-Doğrusal Bağlantı (Multicollinearity)
Yüksek korelasyonlu tahminciler katsayı belirsizliğini yükseltir.
-
Teşhis: VIF, korelasyon ısı haritaları, PCA ön analizi.
-
Çözüm: Özellikleri seçici biçimde çıkarmak, birleştirmek (endeks), veya Ridge/Elastic Net ile cezalandırmak.
Mini vaka: Eğitim ve gelir yüksek korelasyonlu. Tezinizde eğitim×gelir etkileşimi kritikse, merkezlenmiş etkileşim ve Ridge ile kararlılığı artırın.
6) Fonksiyon Biçimi: Doğrusallık Varsayımı ve Sıçramalar
Sürekliler için logit düzleminde doğrusal ilişki varsayımı gerçekçi değilse:
-
Dönüşüm: log, karekök, Box–Cox (anlamlı ve yorumlanabilir olduğu sürece).
-
Parçalı doğrusal (splines): Doğrusal olmayan etkiyi yakalamak için doğal kübik splines.
-
Kategorileştirme: Eşiğe dayalı klinik anlam taşıyorsa (bilgi kaybı yaratır, dikkat).
Uygulama: Yaşın riskle U-biçiminde ilişkisi varsa spline kullanın; OR’ları anlamlandırmak için referans noktalarıyla grafikleyin.
7) Etkileşimler (Interactions) ve Bağlamsal Etkiler
Sadece ana etkilerle yetinmeyin; X1×X2 etkileşimi farklı alt gruplarda riskin nasıl değiştiğini gösterir.
-
Örnek: Müdahale×cinsiyet etkileşimi; müdahale etkisi kadınlarda anlamlı, erkeklerde değil çıkabilir.
-
Sunum: Etkileşimli olasılık eğrileri; marjinal etkiler (AME) tabloları.
8) Değerlendirme Ölçütleri: Ayırım, Kalibrasyon ve Fayda
-
Ayırım (discrimination): ROC-AUC, PR-AUC (dengesiz sınıflarda daha bilgilendirici).
-
Kalibrasyon: Kalibrasyon eğrisi, Brier skoru; Platt/Isotonic kalibrasyonu.
-
Karar odaklı ölçüler: Youden J, F1, duyarlılık-özgüllük dengesi; maliyet duyarlı eşik seçimi.
-
Net fayda: Decision Curve Analysis (DCA) ile klinik/operasyonel değer.
Mini vaka: Terk riskinde sınıf 1 azınlık (%12). ROC-AUC 0.84 iyi; PR-AUC’a bakın (ör. 0.41). Yönetime eşik=0.28 ile duyarlılık 0.73, özgüllük 0.72; kabul edilebilir yanlış alarm maliyetiyle hizalayın.
9) Dengesiz Sınıflar: Ağırlıklandırma mı, SMOTE mu?
-
Ağırlıklandırma (class weights): Kayıp fonksiyonunda azınlığa daha fazla ağırlık. Lojistikte kolay ve güvenilir başlangıç.
-
Yeniden örnekleme: SMOTE (sentetik azınlık örnekleri), ancak karar sınırlarını bozma riski vardır; SMOTE+Tomek veya yalnız train set üzerinde dikkatle.
-
Eşik ayarı: İş hedefi ve maliyete göre “olumlu” sınıf eşiğini optimize edin.
-
Metin/görüntü bağlamı: Temsil uzayında SMOTE yerine ağırlık ya da focal loss (genişletilmiş lojistik çerçevelerde) düşünülebilir.
Karar şeması: Önce sınıf ağırlığı, sonra eşik optimizasyonu; halen yetersizse kısıtlı SMOTE ile kıyas ve sağlamlık testi.
10) Düzenlileştirme (Penalizasyon): LASSO mı, Ridge mi, Elastic Net mi?
-
Ridge (L2): Katsayıları küçültür, multicollinearity’ye dayanıklıdır, değişken elemez.
-
LASSO (L1): Kat sayıları sıfıra çekerek özellik seçimi yapar.
-
Elastic Net (L1+L2): Yüksek korelasyonlu gruplarda daha istikrarlı seçim.
-
Seçim: CV ile λ taraması; Elastic Net’te α (L1/L2 karışımı) ayarı.
-
Rapor: Seçilen değişkenler, katsayı yörüngeleri (path), CV-hata grafiği; final model ve tekrar CV performansı.
11) Çapraz Doğrulama (CV) ve Nested-CV
Hiperparametre (λ, α) seçimi ve eşik optimizasyonu için k-kat CV; model seçiminden sonra performans önyargısını azaltmak için nested-CV. Zaman bağımlı veride zaman bloklu CV tercih edin.
Kontrol listesi:
-
Veri sızıntısı engellendi (ölçekleme/SMOTE yalnızca train katında).
-
CV kat sayısı ve tekrar sayısı raporlandı.
-
Nested-CV ile genel performans tahmini verildi.
12) Eşik (Threshold) Seçimi ve İş Kuralları
Sabit 0.5 eşiği çoğu senaryide uygun değildir.
-
Stratejiler: Youden J, F1 maksimizasyonu, maliyet-duyarlı eşik, istenen duyarlılık/özgüllük hedefleri.
-
İş kuralı entegrasyonu: Örn. terk riski >0.35 ise danışman atanır; >0.6 ise telefon araması.
Mini vaka: Klinik testte yanlış negatif maliyeti yüksek → duyarlılığı ≥%90 hedefleyin; buna göre eşik düşürülür, PPV düşer; DCA ile net faydayı gösterin.
13) Kalibrasyon ve Olasılıkların Güvenilirliği
Lojistik modeller sıklıkla iyi kalibre olur; ama penalizasyon, dengesiz veri ve yüksek boyutta sapmalar görülebilir.
-
Araçlar: Kalibrasyon eğrisi, Hosmer–Lemeshow (büyük örneklemde yanıltıcı olabilir), Brier skoru.
-
Düzeltme: Platt scaling, isotonic regression (yalnızca validasyon tahminleri üzerinde).
14) Kümelenmiş ve Hiyerarşik Veriler: Karma (Mixed) Modeller
Öğrenciler sınıflara, hastalar kliniklere gömülüdür → bağımsızlık varsayımı ihlal olur.
-
Çözüm: Rastgele kesişim (random intercept) veya rastgele eğim içeren lojistik karma modeller.
-
Alternatif: Kümelenmiş sağlam SE (cluster-robust) kısa vadede pratik; ama varyans bileşenlerini modellemez.
Uygulama: Okullar arası varyasyon önemliyse çok seviyeli lojistik kurun; okul düzeyi kovaryatları (kaynak, oranlar) ekleyin.
15) Çok Sınıflı ve Sıralı Çıktılar
2’den fazla kategori varsa:
-
Multinomiyal lojistik: Bir referans kategoriye göre OR raporlanır.
-
Sıralı lojistik (proportional odds): Sıralı kategorilerde verimli; eşit oranlar varsayımı test edin. Varsayım bozulursa kısmi proportional odds modelleri.
16) Önyargı, Karıştırıcılar ve Nedensellik
Lojistik regresyon nedensel kanıt değildir; ama özenli tasarımla nedenselliğe yaklaşır.
-
Stratejiler: Ön-kayıtlı hipotez, karıştırıcı kontrolü, eğilim skoru (propensity score) eşleştirme/ağırlıklandırma, enstrümantal değişkenler.
-
Rapor: Karıştırıcı seçimi gerekçesi; duyarlılık analizi ve DAG (sebepsel diyagram) ekleri.
17) Raporlama Standartları ve Şeffaflık
-
Model formu: Bağımlı değişken tanımı, referans kategoriler, dönüşümler, etkileşimler.
-
Seçim süreci: Özellik seçimi (LASSO vb.), CV ayarları, durdurma kriterleri.
-
Performans: ROC/PR-AUC, kalibrasyon, eşik ve karara dayalı metrikler; güven aralıkları.
-
Varsayımlar ve diyagnostik: Doğrusallık, çoklu bağlantı, etkili noktalar.
-
Yinelenebilirlik: Kod, tohum (seed), paket sürümleri; anonim/örnek veri.
18) Uygulamalı Mini Vaka 1 – Öğrenci Terk Riski
Bağlam: 4 fakülte, 6 dönem. Çıktı: 1=terk, 0=devam. Tahminciler: GNO, devamsızlık, burs, bölüme uyum ölçeği, kampüs uzaklığı.
Süreç: Eksik veriler MI; GNO×uyum etkileşimi; sınıf ağırlıkları (azınlık 1= %14). LASSO ile özellik daraltma, 10-kat CV.
Sonuç: ROC-AUC 0.83, PR-AUC 0.39; eşik=0.30’da duyarlılık 0.76, özgüllük 0.70. Kalibrasyon iyi (Brier 0.14).
Uygulama: >0.30 öğrenciler için erken uyarı e-postası + danışman randevusu; >0.55 için telefon çağrısı. 1 dönem sonra terk oranı %2.4 puan azalır (gözlemsel).
19) Uygulamalı Mini Vaka 2 – Klinik Test Pozitifliği
Bağlam: 7 hastane. Çıktı: test pozitif 1/0. Tahminciler: yaş, semptom sayısı, temas öyküsü, aşı durumu, komorbidite indeksi.
Süreç: Çok seviyeli lojistik (rastgele kesişim: hastane). Dengesiz sınıf (%9 pozitif) → sınıf ağırlığı + eşik optimizasyonu.
Sonuç: ROC-AUC 0.88, PR-AUC 0.52; hedef duyarlılık ≥%90 için eşik=0.22 seçildi. Net fayda analizi, düşük kaynaklı senaryoda pozitif katkı gösterdi.
Uygulama: Taramada test önceliklendirmesi; yanlış negatif maliyeti ağırlıklı kesme noktası.
20) Yazılım ve Uygulama Önerileri
-
R:
glm()
(binomial),glmnet
(LASSO/Ridge/EN),caret
/tidymodels
(CV),pROC
,precrec
,rms
(kalibrasyon),lme4
(karma). -
Python:
scikit-learn
(LogisticRegression, Pipeline, CalibratedClassifierCV),imbalanced-learn
(SMOTE),statsmodels
(ayrıntılı çıkışlar). -
Rapor üretimi: Reproducible not defterleri (R Markdown/Jupyter), sürüm ve tohum bilgisi, veri sözlüğü.
21) Yaygın Hatalar ve Kaçınma Stratejileri
-
Hata: Olasılık yerine sınıf etiketlerine CV uygulamak. → Çözüm: Olasılık tahminlerine dayalı metriklerle CV.
-
Hata: 0.5 eşiğine saplanmak. → Çözüm: Maliyet/amaç odaklı eşik.
-
Hata: Doğrusallık varsayımını test etmemek. → Çözüm: Spline/dönüşüm ve diyagnostik.
-
Hata: Veri sızıntısı (scaler/SMOTE tüm veriye). → Çözüm: Sadece train katında fit.
-
Hata: Kalibrasyonu göz ardı etmek. → Çözüm: Brier, kalibrasyon eğrisi ve gerekiyorsa düzeltme.
-
Hata: Multicollinearity’yi yok saymak. → Çözüm: VIF, Ridge/EN ve özelliği azaltma.
-
Hata: Dengesizliği yalnız yeniden örnekleme ile çözmeye çalışmak. → Çözüm: Önce ağırlık + eşik.
22) Etik, Şeffaflık ve Adalet
-
Adalet (fairness): Alt gruplar için duyarlılık/PPV raporlayın; ayrımcı kararları engelleyin.
-
Mahremiyet: Hassas alanlarda minimizasyon; rol-bazlı erişim; anonimleştirme.
-
Şeffaflık: Model kartı (amaç, veri, performans, sınırlılıklar).
23) Sonuçların Karar Destek Sistemlerine Entegrasyonu
-
Eşik ve kuralların kodlaştırılması: Bildirim kanalları, esik-tabanlı eylemler.
-
İzleme: Veri ve dağılım drift’i; periyodik yeniden kalibrasyon.
-
İnsan–döngüde: Uyarılar yanlış pozitifse geri bildirim mekanizması.
Lojistik regresyon, yalnızca “sınıflandırma” aracı değil, yorumlanabilir bir karar destek çerçevesidir. Güçlü bir lojistik model, doğru yöntem seçimi (lojistik mi, alternatif mi?), titiz ön işleme, rasyonel özellik yönetimi, düzenlileştirme ile genellenebilirlik, kalibrasyon ile güvenilir olasılıklar, CV ve nested-CV ile gerçekçi performans tahmini, eşik optimizasyonu ile operasyonel değere dönüşüm ve etik–adalet ilkeleriyle birlikte gelir. Bu rehberde, örneklem ve EPV’den multicollinearity’ye; spline ve etkileşimlerden dengesiz sınıf çözümlerine; LASSO/Ridge/Elastic Net’ten kalibrasyon, DCA ve karma modellere; raporlama ve tekrarlanabilirlikten karar destek entegrasyonuna kadar lojistik regresyonda doğru seçimleri nasıl yapacağınızı gösterdik.
Tezinizde lojistik regresyonu “siyah kutu” değil, şeffaf ve denetlenebilir bir çerçeve olarak konumlandırın. Varsayımları test edin, metrikleri kapsamlı raporlayın, maliyetleri hesaba katarak eşiği belirleyin ve sonuçları paydaşların anlayacağıbir dilde (OR, mutlak risk farkları, senaryolar) sunun. Böylece modeliniz yalnız istatistiksel olarak değil, pratikte de değer üretir; akademik bütünlüğünüzü korurken kurumunuza/alanınıza ölçülebilir katkı sağlarsınız.