İlişkili Bileşen Regresyonu ve Uygulaması/ CORRELATED COMPONENT REGRESSIO AND ITS APPLICATION


Keskin S. , Elasan S.

ULUSLARARASI KATILIMLI XV. ULUSAL BİYOİSTATİSTİK KONGRESİ, Aydın, Türkiye, 20 - 23 Ağustos 2013, ss.5

  • Basıldığı Şehir: Aydın
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.5

Özet

Amaç: Açıklayıcı değişken sayısının, örnek genişliğine yaklaştığı veya örnek genişliğini geçtiği
durumlarda, diğer bir ifade ile yüksek boyutlu veri setlerinde, regresyon modelleri ile tahminde,
güvenilirliğin nasıl artırılacağı önemli sorunlardan birisidir. Bu amaçla kullanılabilecek yeni
yöntemlerden birsi, İlişkili Bileşen Regresyonu (Correlated Component Regression) dur. Bu
çalışmada, İlişkili Bileşen Regresyonu hakkında bilgi verilerek, bir uygulama ile birlikte tanıtılması
amaçlanmıştır.
Yöntem: Regresyon analizi yapılması gereken bilimsel çalışmalarda, açıklayıcı değişken sayısı; örnek
genişliğine yaklaştığında veya örnek genişliğini geçtiğinde (yüksek boyutlu veri setlerinde), standart
regresyon analizi yöntemiyle yapılacak tahminlerde, tahmin edilen katsayılar, çoklu bağlantı
(kovaryans matrisinin tekil olması) nedeniyle değişkenlik göstermektedir. Bu tip durumların
çözümünde: 1) Sınırlı model yaklaşımları; örneğin cezalı regresyon yöntemleri (penalized regression
methods, lasso ve elastik ağı), 2) Boyut indirgeme yaklaşımları; örneğin temel bileşenler regresyonu
ya da kısmi en küçük kareler regresyonu, bunlar boyut sayısını K<Min (P, N-1) olarak indirir),
kullanılabilse de, genel bir ifade ile yüksek boyutlu verilerin önemli düzeyde düzenlileştirilmesine
(regularization) ihtiyaç vardır. Bunun için alternatif bir yöntem olarak, “İlişkili Bileşen Regresyonu”
(İBR) problemin çözümüne yardımcı olabilir. İBR, ilk defa Magidson (2010) tarafından geliştirilmiş
bir yöntem olup, yüksek boyutlu verilerde, standart regresyon analizi yöntemleri ile karşılaşılabilecek;
çoklu bağlantı, uyum eksikliği veya aşırı uyum gibi sorunların çözümü için önerilen alternatif bir
yaklaşımdır. Cevap değişkeninin tipine göre değişen İBR’ nin farklı algoritmaları mevcuttur. Cevap
değişkeninin sürekli olması durumunda, İBR-Doğrusal Regresyon ve ikili (binary) olması durumunda,
İBR-Logistik Regresyon kullanılabilirken, sağkalım verilerinde İBR-Cox Regresyonu kullanılabilir.
Yöntem, K adet ilişkili bileşenleri kullanır. Bu ilişkili bileşenler, program tarafından belirlenebileceği
gibi araştırıcı tarafından da belirlenebilir. Temel Bileşenler Analizinde olduğu gibi her bileşen, orijinal
değişkenlerin doğrusal kombinasyonudur ve bu bileşenler tahmin modelinde, orijinal değişkenlerin
yerine düzenlileştirme modeli olarak kullanılır.
Sonuç: Regresyon analizlerinde karşılaşılabilecek; çoklu bağlantı, uyum eksikliği veya aşırı uyum gibi
sorunların çözümü için İBR’nin kullanılabileceği ve daha yüksek gücü yakalayabileceği söylenebilir.
Anahtar kelimeler: Bileşen, çoklu bağlantı, uyum eksikliği, yüksek boyutlu veri