Dengesiz veri (imbalanced data), hedef sınıfların dağılımının eşit olmaması—çoğu pratik senaryoda “azınlık sınıfı”nın çok küçük kalması—durumudur. Tıbbi tarama (%1–10 pozitif), sahtekârlık tespiti (%0.1–1 sahte), churn analizi (%5–20 terk), arıza kestirimi (%0.5–3 arıza) ve nadir olay analitiği gibi alanlarda dengesizlik bir kuraldır. Bu koşulda “standart” yöntemleri olduğu gibi uygulamak, yüksek görünen doğruluk ama kullanışsız modeller doğurur: model azınlığı yok sayarak %95+ doğruluk elde eder, fakat asıl ihtiyacınızı—pozitifleri yakalamayı—başaramaz.
Bu rehber, tez yaptırma gibi etik dışı yolları reddederek dengesiz veriyle kendi çalışmanızda nasıl mücadele edeceğinizi, hangi yöntemi ne zaman seçeceğinizi ve nasıl raporlayacağınızı adım adım açıklar. İçerik; metrik seçimi, yeniden örnekleme (SMOTE ailesi, az/çok örnekleme), ağırlıklandırma, eşik (threshold) optimizasyonu, maliyet-duyarlıöğrenme, kalibrasyon, CV tasarımı, etik ve adalet, drift izlemesi, örnek olaylar ve pratik kontrol listeleri ile donatılmıştır.
1) Dengesiz Veriyi Tanımla: Sorun Nerede?
-
Sınıf oranı: Pozitif oran p(y=1) çok düşük (ör. %1–10).
-
Maliyet asimetrisi: Yanlış negatif çoğu kez yanlış pozitiften daha pahalı (ör. hastayı atlamak).
-
Veri kalitesi: Azınlıkta etiket gürültüsü daha yıkıcıdır; ayrıca “sinyal-örnek” azlığı öğrenmeyi zorlar.
İlk karar: Hedef durum, nadir olay tespiti mi (binary sınıflandırma) yoksa anormallik skorlaması mı (tek-sınıf/PU öğrenme)?
2) Metrik Seçimi: ROC Tek Başına Yetmez
-
Dengesiz sınıfta: PR-AUC (Precision–Recall alanı) duyarlılık (recall) ve kesinliği (precision) birlikte değerlendirir; çoğu zaman ROC-AUC’dan daha bilgilendiricidir.
-
Operasyonel metrikler: Recall@k, Precision@k, F1/F2 (yanlış negatife daha fazla ağırlık), Kapsama grafikleri, Net Fayda (Decision Curve Analysis).
-
Kalibrasyon: Brier skoru ve kalibrasyon eğrisi; dengesiz veri olasılık tahminlerini bozar.
Kural: En az PR-AUC + kalibrasyon raporlayın; eşik bazlı metrikleri maliyet senaryolarıyla eşleyin.
3) Veri Bölme ve CV Tasarımı: Strata, Grup ve Zaman
-
Stratified K-Fold: Her fold’da sınıf oranını koru; küçük p(y=1) değerlerinde tekrarlı CV kullan.
-
Grouped CV: Aynı özne/cihaz/kurum kayıtları aynı fold’da kalmalı (leakage önle).
-
Zaman serisi: Rolling/blocked CV; geleceği geçmişe sızdırma.
Yanlış örnek: SMOTE’yi tüm veri üzerinde çalıştırıp sonra CV yapmak → ağır sızıntı.
Doğru: Tüm yeniden örnekleme/ölçekleme/özellik seçimi yalnızca train katında.
4) Basit ve Etkili Başlangıç: Ağırlıklandırma (Class Weights)
-
Fikir: Azınlık hatalarını daha pahalı say (kayıp fonksiyonunda ağırlıklandır).
-
Avantaj: Kolay, hızlı, veri geometrisini bozmaz; lojistik regresyon, SVM, ağaç/boosting ile doğrudan çalışır.
-
Sınırlama: Aşırı dengesizlikte tek başına yeterli olmayabilir; eşik optimizasyonu ile birlikte kullan.
5) Eşik (Threshold) Optimizasyonu: 0.5’i Unut
-
Problem: 0.5 sabiti dengesiz sınıfta nadiren uygun.
-
Çözüm: F1 veya beklenen maliyete (C_FP, C_FN) dayalı optimum eşik seç.
-
Uygulama: CV içinde Youden J, Fβ veya maliyet tablolarına göre eşiği bul; dış testte raporla.
-
Politika bağlama: “Skor > 0.25 → hemşire çağır; > 0.6 → doktor muayenesi” gibi çok kademeli kurallar.
6) Basit Yeniden Örnekleme: Az-Çok Örnekleme
-
Rastgele az örnekleme (RUS): Çoğunluğu azaltır; bilgi kaybı riski. Büyük veri varsa işe yarar.
-
Rastgele çok örnekleme (ROS): Azınlığı kopyalar; overfit riski.
-
İpucu: RUS + topluluk (ensemble) veya ROS + düzenlileştirme ile risk azaltılabilir.
7) SMOTE ve Türevleri: Ne Zaman, Hangi Sürüm?
-
SMOTE: Azınlık örnekleri arasında enterpolasyon ile sentetik noktalar üretir.
-
Borderline-SMOTE: Sınırdaki azınlık örneklerini güçlendirir.
-
SMOTE-Tomek/SMOTE-ENN: Sınır temizleme (noise/overlap azaltma).
-
ADASYN: Zor bölgelerde daha fazla örnek üretir.
-
SMOTE-NC: Karışık sayısal–kategorik özelliklerde.
Uyarı: Yalnız train katında uygulanır; veri uzayını aşırı doldurup karar sınırını bozabilir. Ağırlıklandırma + eşik optimizasyonu sonrası hâlâ düşük PR-AUC varsa deneyin.
8) Maliyet-Duyarlı Öğrenme (Cost-Sensitive Learning)
-
Yaklaşım: Algoritmanın hedefini doğrudan maliyete uydur (kayıp matrisleri, class_weight, custom loss).
-
Avantaj: “Gerçek dünya” maliyetlerini optimize eder; SMOTE’ye gerek kalmadan iyi sonuçlar verebilir.
-
Örnek: Gradient boosting’de pozitif sınıfa α katsayısı; lojistikte farklı yanlış sınıflandırma ağırlıkları.
9) Focal Loss ve Nadir Olaylar
-
Focal loss: Kolay örneklerin etkisini azaltıp zor örneklere odaklanır (özellikle derin öğrenmede).
-
Kullanım: Görüntü/metin gibi yüksek boyutlu alanlarda, SMOTE yerine daha doğal bir çözümdür.
-
Not: Aşırı odaklanma gürültüyü büyütebilir; erken durdurma ve düzenlileştirme önemli.
10) Anormallik Tespiti, One-Class ve PU Öğrenme
-
One-Class SVM / Isolation Forest / Autoencoder: Azınlık “nadirlik/aykırılık” ise ikili etiket yerine aykırılıkskoru.
-
PU (Positive–Unlabeled): Sadece pozitif etiketler güvenilir, geri kalanı “belirsiz” ise uygun.
-
Seçim ölçütü: Etiketleme süreci eksik/yanlıysa bu aileler daha gerçekçi olabilir.
11) Kalibrasyon: Güvenilir Olasılıklar
-
Sorun: Dengesiz sınıfta skorlar “aşırı emin” veya “çekinik” olabilir.
-
Araçlar: Platt scaling (lojistik kalibrasyon), isotonic regression; yalnız CV içinde fit edilir.
-
Rapor: Kalibrasyon eğrisi + Brier; eşik ve karar kuralları kalibrasyon sonrası güncellenir.
12) Özellik Mühendisliği ve Seçimi: Azınlık Sinyalini Yükselt
-
Sinyal-to-noise artır: Alan bilgisinden türetilmiş oranlar, pencereli istatistikler, etkileşimler.
-
Seçim: PR-AUC odaklı RFE, LASSO/Elastic Net + stability selection; grup LASSO korelasyon kümelerinde.
-
Uyarı: Seçim adımlarını nested-CV içinde yap; aksi halde optimist skor.
13) Adalet (Fairness) ve Etik
-
Alt grup performansı: TPR/PPV farkları; dengesiz veri ayrımcı sonuçlar doğurabilir.
-
Stratejiler: Ağırlıkları alt gruplara göre ayarla, eşik ayrı belirle, fairness kısıtları uygula (eşit fırsat, demografik denge).
-
Rapor: Alt grup bazlı PR-Eğrileri ve güven aralıkları.
14) Etiket Gürültüsü ve Veri Kalitesi
-
Gerçeklik: Azınlıkta etiket hatası oranı %2 bile modeli dramatik bozar.
-
Savunma: Uzman çift okuma, belirsiz etiketlere “soft label”, co-teaching (DL), loss correction teknikleri.
-
Temizleme: Tomek links/ENN yalnız sınıf sınır gürültüsünde; aşırı temizlik sinyali siler.
15) Veri Artırma (Augmentation) ve Sentetik Üretim
-
Görüntü/sinyal/metin: Dönüşüm, kırpma, gürültü, mixup/cutmix; etik sınırları gözet.
-
Tablolu veri: SMOTE ailesi dışında GAN tabanlı üretimler risklidir (kalitesiz örnek → overfit).
-
İlke: Ürettiğin sentetik örnek alanda mümkün olmalı; aksi halde kalibrasyon bozulur.
16) Zaman Serisi ve Nadir Olay
-
Anahtar: Olay-öncesi pencereleri mühendisliği; “lead time” belirle.
-
Eğitim: Rolling-origin CV; class-weighted kayıp + eşik optimizasyonu.
-
Değerlendirme: Horizon-wise PR-AUC/Recall; “kaç saat/hafta önceden yakaladın?” raporu.
17) Topluluklar (Ensembles) ve Kademeli Akış
-
Bagging + RUS: Çoğunluğu farklı alt örneklerle azalt → çeşitlilik artar.
-
Balanced Random Forest, EasyEnsemble: Azınlık sinyalini güçlendirir.
-
Stacking: Kalibrasyonlu zayıf öğrenenleri birleştir; aşırı uydurmaya dikkat (nested-CV).
18) Üretime Alma, İzleme ve Drift
-
Skor izleme: Sınıf oranı, PR-AUC, kalibrasyon, eşik sonrası iş yükü.
-
Veri/konsept drift: Pozitif oran değişir → eşik ve sınıf ağırlıkları yeniden ayar.
-
Güncelleme: Periyodik yeniden eğitim/kalibrasyon; uyarı eşiği.
19) Uygulamalı Mini Vaka 1 – Klinik Tarama (%8 Pozitif)
Durum: Çok merkezli veri; hastane bazında dağılım farklı.
Yaklaşım: Group-stratified 10× CV → class-weighted gradient boosting → iç halkada F2 maksimize eden eşik → isotonic kalibrasyon.
Sonuç (temsili): ROC-AUC 0.89, PR-AUC 0.48; eşik=0.22 ile recall %90, PPV %30.
Yorum: Ağırlık + eşik + kalibrasyon üçlüsü, SMOTE olmadan bile klinik hedefe ulaştırdı.
20) Uygulamalı Mini Vaka 2 – Sahtekârlık (%0.4 Pozitif)
Durum: Aşırı dengesizlik; etiket gürültüsü olası.
Yaklaşım: One-Class + denetimli skorların stacking’i; cost-sensitive XGBoost (scale_pos_weight), Recall@k ve Net Fayda odaklı eşik; drift izleme.
Sonuç: İlk ay Recall@k=1% içinde %72 yakalama; yanlış pozitif iş yükü kontrol altında.
Yorum: Aşırı nadir olayda anormallik + maliyet duyarlılığı sinerji verir.
21) Uygulamalı Mini Vaka 3 – Churn (%12 Pozitif)
Durum: Pazarlama aksiyonu maliyetli; yanlış pozitif pahalı.
Yaklaşım: EN-logistic + stability selection → PR-AUC maks. RFE → cost-sensitive eşik; kalibrasyon sonrası upliftdeney tasarımı (A/B).
Sonuç: PR-AUC 0.44→0.51; aynı bütçede %19 daha fazla gerçek churn yakalandı.
Yorum: Seçim + eşik + deneysel doğrulama → ölçülebilir iş değeri.
22) Hızlı Karar Ağacı
-
Önce metrikleri düzelt: PR-AUC + kalibrasyon + maliyetli eşik.
-
Class weights uygula → performans yetersizse
-
Eşik optimizasyonu ekle → hâlâ yetersizse
-
SMOTE-türevi (Borderline/Tomek) yalnız train →
-
Maliyet duyarlı boosting / focal loss →
-
One-Class/PU alternatifini değerlendir (etiket belirsizse) →
-
Topluluk ve rolling/grouped CV ile sağlamlaştır →
-
Adalet–etik ve drift izlemeyi zorunlu kıl.
Sonuç
Dengesiz veriyle mücadele bir “SMOTE düğmesi” değildir; metrik–tasarım–öğrenme–eşik–kalibrasyon–etik–izlemezincirinin bütünüyle ele alınmasıdır. Önce PR-AUC ve kalibrasyon ile başarıyı doğru ölçün; class weights ve eşik optimizasyonunu temel omurga yapın; gerekirse SMOTE ailesini yalnız train katında, sınır temizliğiyle birlikte dikkatle uygulayın. Maliyet-duyarlı öğrenme ve (yüksek boyutlu/nadir olaylarda) focal loss güçlü seçeneklerdir; one-class/PUöğrenme, etiket sürecinin doğasına uygunsa daha doğrucu olabilir. Tüm süreç stratified/grouped/blocked CV, nested seçim, adalet denetimleri ve drift izlemesi ile tamamlanmalıdır.
Bu yaklaşım, yalnız istatistiksel olarak değil; klinik/pazarlama/mühendislik sahasında gerçek fayda üretir. Dengesiz veride “doğruluk %99” masallarına değil, doğru metrikler, etik kararlar ve sürdürülebilir operasyona odaklanın.