Özellik seçimi (feature selection), bir modelin genellenebilirlik kapasitesini yükseltmek, aşırı uyumu (overfitting) azaltmak, hesaplama maliyetini düşürmek, yorumlanabilirlik sağlamak ve kimi durumlarda adalet/etik risklerini azaltmak için aday değişkenler arasından en bilgilendirici alt kümeyi belirleme sürecidir. Sayıltılar net konmazsa, “otomatik seçim” araçları bilimsel gerekçe olmaksızın “önemli” görünen değişkenleri rastgele dalgalanan örneklem sinyaline göre seçer; bu da tezlerde tekrarlanamayan sonuçlara yol açar. Bu rehber, “tez yaptırma” gibi etik dışı pratikleri reddeder; özelliği kendi tezinize uygun biçimde, kuramsal–istatistiksel temele oturtarak nasıl seçeceğinizi, hangi problemde hangi yöntemi neden tercih edeceğinizi adım adım anlatır. Uygulamalı örnekler, mini vakalar, karar ağaçları, kontrol listeleri ve raporlama standartları içerir.
1) Özellik Seçimi Ne Zaman Gerekli? Problem Sınıflandırması
-
p≫n yüksek boyut: Biyobelirteç panelleri, metin/n-gram, sensör akışları.
-
Aşırı korelasyon/çoklu-doğrusal bağlantı: Aynı kavramı ölçen metrik kümeleri.
-
Yorumlanabilirlik gereksinimi: Yönetim/klinik karar destek.
-
Maliyet/enerji kısıtı: Sensör veya laboratuvar ölçümleri pahalı.
-
Adalet ve mahremiyet: Gereksiz hassas nitelikleri dışlama.
Karar: Amaç tahmin mi, çıkarım/yorum mu, nedensel mi? Bu, yöntem seçiminizi belirler.
2) Yöntem Aileleri: Filtre–Sarmalayıcı–Gömülü (Filter–Wrapper–Embedded)
-
Filtre yöntemleri: Modelden bağımsız, hızlı; bilgi kazanımı, korelasyon/MI, χ², ANOVA-F, ReliefF. Artı: Hızlı, p≫n için uygun. Eksi: Etkileşimleri kaçırabilir.
-
Sarmalayıcı (wrapper): Model performansına göre arama (RFE, ileri/geri seçim, genetik algoritmalar). Artı:Model-uyumlu. Eksi: Hesaplama ağır, veri sızıntısı riski.
-
Gömülü (embedded): Modelin eğitiminde ceza/önem üretir (LASSO, Elastic Net, ağaç/GBM/Random Forest önemleri). Artı: Denge; Eksi: Model-özel önyargılar.
Kullanım ilkesi: Filtre ile ön eleme, gömülü ile çekirdek seçim, sarmalayıcı ile ince ayar üçlemesi.
3) Ölçütler: “İyi” Özellik Seti Nasıl Anlaşılır?
-
Genellenebilirlik: CV/dış doğrulama hataları (RMSE/MAE ya da ROC/PR-AUC).
-
Basitlik: Kardinalite (|S|) düşük, açıklama kolay.
-
Sağlamlık: Bootstrap/stability selection ile seçim frekansı yüksek.
-
Aykırı/dağılım kaymasına dayanıklılık: Zaman bloklu CV, domain shift testleri.
-
Adalet: Alt gruplarda performans farklarının sınırda olması.
4) Veri Sızıntısı (Leakage) ve Deney Hijyeni
-
Ölçekleme, SMOTE/ağırlıklandırma, parametre seçimi, özellik seçimi gibi adımlar yalnızca train katı içinde yapılmalı.
-
CV içinde iç içe (nested) yapı: İç halkada seçim/hyperparametre; dış halkada genel performans.
-
Dönemsel veride rolling/origin ayrımı.
5) Filtre Yöntemleri: Hızlı ve Modelden Bağımsız
-
Karşılaştırmalı metrikler: Pearson/Spearman (sayısal–sayısal), ANOVA-F/χ² (kategori–sayı), Mutual Information (nonlineer).
-
Relief/ReliefF: Sınıf komşuluklarına göre özellik ayırt ediciliği.
-
FDR kontrolü: Çoklu testte Benjamini–Hochberg.
Ne zaman? p çok büyük, ilk daraltma gerekiyor; etkileşimler sonra yakalanacaksa.
Mini vaka: Metin sınıflandırmada 200k n-gram → MI ile top-5k; sonra gömülü seçim.
6) Sarmalayıcı Yöntemleri: RFE ve Arama Stratejileri
-
RFE (Recursive Feature Elimination): Model (örn. linear SVM/Ridge) önemlerine göre iteratif eleme.
-
İleri/geri/iki yönlü seçim: Greedy ama hızlı.
-
Heuristik arama: Genetik algoritmalar/simulated annealing (pazarlama sepeti, kimya).
Risk: Hesaplama maliyeti yüksek; nested-CV şart.
İpucu: RFE’de baz model olarak Ridge veya linear SVM kolineariteye dayanıklı.
7) Gömülü Yöntemler: Ceza ve Ağaç Temelli Önemler
-
LASSO/Elastic Net: Seyreklik + grup stabilitesi; katsayı yolu ve λ_1se rapor.
-
Ağaç/Orman/GBM önemleri: Gini/Information Gain; permutation importance daha güvenilir.
-
XGBoost/LightGBM: Şekil önemleri + SHAP ile yerel/küresel açıklama.
Uyarı: Ağaç temelli önemler, korele değişkenlerde paylaşılmış önem hatası yapabilir → permutation + gruplaştırma.
8) Korelasyon Kümeleri ve Grup-Seçimli Yöntemler
-
Clustermap/Graph-Lasso ile korelasyon kümelerini belirleyin.
-
Group LASSO/ Sparse Group LASSO: Faktör değişkenin tüm kuklaları birlikte seçilsin.
-
Hierarchical selection: Üst kavram → alt metrikler (ör. kullanıcı etkileşimi → tıklama, kalış süresi, kaydırma).
Uygulama: Aynı sensör ailesi ölçümlerini grup olarak modele verip grup cezası uygulayın.
9) İstikrar (Stability) Seçimi: Seçim Kararının Güvenilirliği
-
Bootstrap/alt örneklem: 100–1000 tekrar; her tekrarda seçim → seçim frekansı.
-
Eşik: %60–80 üstü istikrarlı.
-
Rapor: Isı haritası; değişkenler arası birlikte seçilme matrisi.
Avantaj: Örneklem dalgalanmasına duyarlı LASSO/filtre sonuçlarını sağlamlaştırır.
10) Sınıf Dengesizliği ve Özellik Seçimi
-
Azınlık sınıfı küçükse, önem metrikleri yanlı olabilir.
-
Çözüm: Class weights, PR-AUC odaklı CV, cost-sensitive RFE.
-
Yeniden örnekleme: SMOTE yalnız train katında; sonra seçim—ama önce ağırlıklandırma denenmeli.
Mini vaka: Tıbbi tanıda %7 pozitif sınıf; RFE’yi weight’li logistic ile çalıştırıp PR-AUC maksimize edin.
11) Zaman Serisi/Panel Veride Özellik Seçimi
-
Kaçak bilgi: Gelecek tarihten özellik üretmeyin (lookahead bias).
-
Rolling CV: Pencereli eğitim–doğrulama.
-
Özellik üretimi: Gecikmeler, hareketli istatistikler; leakage-safe.
-
Seçim: Ridge/EN + RFE (zaman bloklu), ağaç temelli modellerde permutation önemlerini rolling olarak hesaplayın.
12) Ölçüm Maliyeti ve Aktif Seçim
-
Özelliklerin para/zaman/enerji maliyeti varsa, budgeted feature selection: her özelliğe ağırlık–maliyet; Knapsack benzeri optimizasyonla en yüksek fayda.
-
Klinik/lab: Ucuz test + güçlü sinyal kombinasyonu çoğu zaman optimum.
13) Adalet, Etik ve Hassas Nitelikler
-
Hassas değişkenleri (ırk, cinsiyet vb.) doğrudan/ dolaylı seçmek ayrımcılık üretebilir.
-
Yaklaşım:
-
Politikaya bağlı olarak doğrudan dışlama veya
-
Adillik kısıtları (equalized odds) altında seçim,
-
Proxy değişkenlerinin etkisini denetlemek (kausal grafik/DAG).
-
-
Rapor: Alt grup metrikleri (TPR/PPV farkları) ve düzeltici stratejiler.
14) Açıklanabilirlik: SHAP/Permutation ve Kısmi Bağımlılık
-
Seçilen setin neden seçildiğini görselleştirin:
-
Permutation importance (test setinde),
-
SHAP özet/arı kovanı ve PD/ICE eğrileri (nedensel değil, betimleyici!).
-
-
Etkileşim belirleme: SHAP interaction values.
15) Raporlama Standardı ve Kontrol Listesi
-
Amaç: Tahmin/yorum/nedensel ve bağlam.
-
Veri protokolü: Train/valid/test ayrımı; leakage önlemleri; nested-CV.
-
Yöntem: Filtre→Gömülü→Sarmalayıcı sırası ve gerekçesi.
-
Hiperparametre: λ/α/derinlik/öğrenme oranı aralıkları, CV şeması.
-
Kararlılık: Bootstrap/stability selection eşiği ve ısı haritası.
-
Performans: ROC/PR-AUC, RMSE/MAE; alt grup metrikleri.
-
Seçim seti: Kardinalite, isim listesi, gruplar ve yorum.
-
Sınırlılıklar: Ölçüm hataları, veri kayması, korele değişken önyargısı.
-
Açık bilim: Kod, tohum (seed), paket sürümleri, veri sözlüğü.
16) Uygulamalı Mini Vaka 1 – Klinik Risk Paneli (p≫n, yorum gerektiriyor)
Bağlam: 280 hasta (n), 2.000 aday biyobelirteç (p). Çıktı: 12 ay içinde olay 1/0.
Akış: MI → filtre (MI/ANOVA-F ile 2.000→150) → Elastic Net (α taraması) → stability selection (500 bootstrap, eşi̇k %70) → post-EN logistic ile katsayı ve OR raporu.
Sonuç (temsili): 11 belirteç istikrarlı; test ROC-AUC 0.86, PR-AUC 0.47; kalibrasyon iyi (Brier 0.13).
Yorum: Filtre ön eleme + EN + istikrar denetimi, yeniden üretilebilir alt küme verdi.
17) Uygulamalı Mini Vaka 2 – E-Ticaret Terk (dengesiz sınıf, maliyet odaklı)
Bağlam: Terk=1 oranı %9; 300 özellik (davranış + ürün + kampanya).
Akış: Class weights → RFE (base: Ridge) → PR-AUC maksimize eden kardinalite seçimi → permutation importance ile doğrulama → eşik optimizasyonu (cost-sensitive).
Sonuç (temsili): PR-AUC 0.42→0.49; 24 özellik yeterli; haftalık deploy’da drift izleme.
Yorum: Ağırlıklandırma + PR-AUC odaklı seçim, azınlık sınıf yakalamayı iyileştirdi.
18) Uygulamalı Mini Vaka 3 – Enerji Tahmini (zaman serisi)
Bağlam: Akıllı sayaçlardan saatlik tüketim tahmini; yüzlerce “lag/rolling” özellik.
Akış: Leakage-safe özellik üretimi → rolling CV → Ridge + RFE → EN kıyas → permutation importance’ı rolling pencerelerde çalıştırma.
Sonuç (temsili): 60→18 özellik; test RMSE %8 düştü; kış döneminde katsayı istikrarı yüksek.
Yorum: Zaman bloklu CV olmadan seçilen set, gerçek sahada başarısız oluyordu; rolling ile düzeldi.
19) Seçim Sonrası Çıkarım: Post-Selection İstatistiği
-
Post-LASSO OLS: Sapmayı azaltır, standart hataları daha okunaklı kılar.
-
Debiased LASSO/Selective inference: Seçim sonrası güven aralıkları/p-değerleri için ileri düzey çerçeveler (tez ekinde).
-
Denge: Tahmin için gerekmeyebilir; yorum isteyen tezlerde değerlidir.
20) Model-Agnostik Azaltmalar: PCA/PLS vs. Özellik Seçimi
-
PCA/PLS boyut indirger ama seçmez; bileşenler yorumlamayı zorlaştırır.
-
Karma yaklaşım: PCA ile gürültüyü azalt, sonra EN/LASSO ile özellik seç.
-
Kriter: Eğer yöneticiler “hangi değişkenler önemli?” diyorsa, PCA tek başına yetmez.
21) Ekonomik ve Deneysel Tasarım Perspektifi
-
Duyarlılık analizi: Seçilen set farklı maliyet senaryolarında aynı mı?
-
Deneysel doğrulama: A/B ya da alan deneyi ile kritik özelliklerin etkisini test edin (nedensellik iddiası varsa).
22) Yaygın Hatalar ve Kaçınma Stratejileri
-
Hata: Tüm veri üzerinde seçim → sızıntı. → Çözüm: Nested-CV.
-
Hata: Sadece ROC-AUC raporu (dengesiz sınıfta). → Çözüm: PR-AUC + eşik/karar.
-
Hata: Ağaç önemlerine kör güven. → Çözüm: Permutation + grup/korelasyon denetimi.
-
Hata: Kardinaliteyi raporlamamak. → Çözüm: |S| ve performans–basitlik eğrisi.
-
Hata: Seçim kararlılığını göstermemek. → Çözüm: Stability selection ısı haritası.
-
Hata: Hassas nitelikleri gerekçesiz dâhil etmek. → Çözüm: Etik/adillik değerlendirmesi.
23) Yazılım Ekosistemi ve İpuçları
-
Python:
scikit-learn
(SelectKBest, RFE, RFECV, L1/L2/EN, permutation),xgboost
,lightgbm
,shap
,imbalanced-learn
. -
R:
caret
/tidymodels
,glmnet
,Boruta
,vip
,iml
,ranger
,xgboost
. -
Reprodüksiyon: Pipeline’lar,
random_state/seed
, paket sürümleri, karar günlüğü (why log).
24) Hızlı Karar Ağacı (Özet)
-
Amaç? Tahmin—Yorum—Nedensel
-
p≫n mi? Evet → Filtre + EN/LASSO + stability.
-
Korelasyon kümeleri mi? Evet → EN/Group LASSO + permutation.
-
Dengesiz sınıf mı? Evet → Ağırlık + PR-AUC odaklı RFE/EN.
-
Zaman/panel mi? Evet → Rolling CV + leakage-safe üretim.
-
Maliyet/etik kısıt? Evet → Budgeted seçim + adalet metrikleri.
-
Raporlama: Nested-CV, kardinalite, kararlılık, alt grup performansı.
Sonuç
Özellik seçimi, sadece “değişken sayısını azaltma” işi değildir; modelin bilimsel güvenilirliğini ve operasyonel değerinidoğrudan belirleyen bir tasarım kararıdır. Bu rehberde; filtre–sarmalayıcı–gömülü yöntemlerin nerede parladığını, korelasyon kümeleri ve grup cezası ile gerçeğe daha yakın seçimler yapılabileceğini, stability selection ile sonuçların tekrar üretilebilir kılınmasını, dengesiz sınıf ve zaman serisi koşullarında yapılacak ek önlemleri, adalet/etik boyutunu ve nested-CV temelli sızıntı-sız bir değerlendirme çerçevesini ortaya koyduk.
Tezinizde, önce amaç ve kısıtları netleştirin; filtre ile hızlı daraltma, EN/LASSO ile çekirdek seçim, RFE/permütasyon ve stability ile sağlamlaştırma şemasını uygulayın. Seçim kararınızı kardinalite–performans–kararlılık–etikekseninde belgeleyin; kod, tohum ve paket sürümleriyle yeniden üretimi kolaylaştırın. Böylece ortaya çıkan model yalnızca istatistiksel olarak iyi değil, sürdürülebilir, şeffaf ve güvenilir olacaktır.