🚌 ☪️ 🐿️ Risiko dan Peringatan Saat Menerapkan Metode Komponen Utama untuk Masalah Pembelajaran yang Diawasi 🎃 🏪 🍻

Terjemahan artikel disiapkan pada malam dimulainya kursus dasar tentang machine learning .

Ruang berdimensi tinggi dan kutukannya

Kutukan dimensionalitas merupakan masalah serius saat bekerja dengan dataset nyata, yang cenderung multidimensi. Dengan bertambahnya dimensi ruang fitur, jumlah konfigurasi dapat bertambah secara eksponensial, dan akibatnya, jumlah konfigurasi yang dicakup oleh pengamatan menurun.

Dalam kasus seperti itu, analisis komponen utama (PCA) akan memainkan peran penting, mengurangi ukuran data secara efektif sambil mempertahankan sebanyak mungkin variasi dalam kumpulan data.

Mari kita lihat sekilas inti dari analisis komponen utama sebelum menyelami masalahnya.

Metode Komponen Utama - definisi

Ide utama di balik analisis komponen utama adalah untuk mengurangi dimensi kumpulan data yang terdiri dari sejumlah besar variabel yang saling terkait, sambil mempertahankan keragaman maksimum yang ada dalam kumpulan data.

Tentukan matriks simetris A ,

dimana X adalah matriks mxn dari variabel bebas, dimana m adalah jumlah kolom dan n adalah jumlah titik data. Matriks A dapat didekomposisi sebagai berikut:

Dimana D adalah matriks diagonal, dan E adalah matriks vektor eigen A , tersusun dalam kolom.

Komponen utama XApakah vektor eigen XX ^T , yang berarti arah vektor eigen / komponen utama bergantung pada variasi variabel bebas (X) .

Mengapa penerapan sembrono analisis komponen utama menjadi kutukan masalah pembelajaran yang diawasi?

Literatur sering menyebutkan penggunaan analisis komponen utama dalam regresi, serta masalah multikolinearitas. Namun, seiring dengan penggunaan regresi pada komponen utama, terdapat banyak kesalahpahaman tentang kemampuan menjelaskan variabel respon oleh komponen utama dan urutan kepentingannya.

Kesalahpahaman umum, yang telah dijumpai beberapa kali dalam berbagai artikel dan buku, adalah bahwa dalam lingkungan pembelajaran yang diawasi dengan regresi komponen utama, komponen utama dari variabel independen dengan nilai eigen kecil tidak akan memainkan peran penting dalam menjelaskan variabel respon, yang mengarahkan kita pada tujuan artikel ini. Idenya adalah bahwa komponen dengan nilai eigen kecil bisa sama pentingnya, atau bahkan jauh lebih penting, daripada komponen dasar dengan nilai eigen besar dalam menjelaskan variabel respons.

Di bawah ini saya akan mencantumkan beberapa contoh publikasi yang saya sebutkan:

[1]. Mansfield et al. (1977, p. 38) menyatakan bahwa jika hanya komponen varian rendah yang dihilangkan, maka regresi tidak kehilangan banyak daya prediksi.

[2]. Dalam Ganst dan Mason (1980), 12 halaman dikhususkan untuk regresi komponen utama, dan sebagian besar diskusi menunjukkan bahwa penghapusan komponen utama hanya didasarkan pada variansnya. (hlm. 327–328).

[3]. Mosteller dan Türki (1977, hlm. 397-398) juga berpendapat bahwa komponen varian rendah tidak mungkin penting dalam regresi, terbukti karena sifatnya "rumit" tetapi tidak "seragam" .

[4]. Hawking (1976, p. 31) bahkan lebih ketat dalam mendefinisikan aturan pelestarian komponen utama dalam regresi berdasarkan varians.

Penjelasan dan pemahaman teoritis

Pertama, mari kita dapatkan justifikasi matematis yang benar untuk hipotesis di atas, kemudian berikan sedikit penjelasan untuk pemahaman yang lebih baik menggunakan visualisasi dan pemodelan geometris.

Misalkan

Y adalah variabel respons,

X adalah Matriks Ruang Fitur

Z adalah Versi Standar X

Biarlah

λ ₁ \geq λ ₂ > \dots . \geq λ p

$λ₁≥λ₂>…. ≥ λp$ adalah nilai eigen dari Z ^T Z (korelasi matriks) dan V - sesuai vektor eigen, maka W = ZV , kolom di W akan mewakili komponen utama Z . Metode standar yang digunakan dalam regresi komponen utama adalah regresi m komponen utama pertama pada Y , dan masalahnya dapat direpresentasikan melalui teorema di bawah ini dan penjelasannya [2].

Dalil:

Mari W = (W₁, ..., Wp) - vektor eigen X . Sekarang pertimbangkan model regresi:

Jika vektor sebenarnya dari koefisien regresi β adalah codirectional dengan vektor eigen ke-j Z ^T Z , maka dalam regresi Y ke W, komponen utama ke- j Wⱼ akan berkontribusi dalam pembelajaran, sedangkan yang lainnya tidak akan berkontribusi secara prinsip ...

Bukti : Misalkan V = (V₁, ..., Vp) - matriks vektor eigen dari Z ^T Z . Kemudian

Sejak

, di mana

koefisien regresi dari ekspresi.

Jika βdiarahkan bersama dengan vektor eigen ke- j V , kemudian Vⱼ = aβ , di mana a adalah nilai skalar bukan nol. Oleh karena itu, θj = Vⱼᵀβ = aβᵀβ dan θᴋ = Vᴋᵀ β = 0, di mana k ≠ j . Dengan demikian, koefisien regresi θᴋ yang bersesuaian dengan Wᴋ sama dengan nol, untuk k ≠ j masing-masing,

Karena variabel W not tidak mereduksi jumlah kuadrat, jika koefisien regresinya adalah 0, maka Wj akan memberikan sumbangan utama, sedangkan komponen utama lainnya tidak akan memberikan sumbangan apa pun.

Signifikansi dan pemodelan geometris

Sekarang mari kita simulasikan dan dapatkan representasi geometris dari perhitungan matematika di atas. Penjelasan tersebut diilustrasikan dengan pemodelan ruang fitur dua dimensi (X) dan satu variabel respon sehingga hipotesis dapat dengan mudah dipahami secara visual.

Gambar 1: Plot satu dimensi dan dua dimensi untuk variabel yang dipertimbangkan X1 dan X2

Pada tahap pertama pemodelan, ruang fitur dimodelkan menggunakan distribusi normal multivariat dengan korelasi yang sangat tinggi antara variabel dan komponen utama.

Gambar 2: Korelasi Peta Panas untuk PC1 dan PC2 (Komponen Utama)

Sangat jelas dari grafik bahwa tidak ada korelasi antara komponen utama. Pada langkah kedua, nilai variabel respon Y dimodelkan sehingga arah koefisien Y komponen utama sama dengan arah komponen utama kedua.

Setelah menerima variabel respon, matriks korelasinya akan terlihat seperti ini.

Gambar 3: Peta Panas untuk Variabel Y dan PC1 dan PC2.

Grafik dengan jelas menunjukkan bahwa korelasi antara Y dan PC2 lebih tinggi daripada antara Y dan PC1 , yang memperkuat hipotesis kami.

Gambar 4: Varians ruang fitur dijelaskan oleh PC1 dan PC2.

Karena gambar menunjukkan PC1 itumenjelaskan 95% dari varian X , maka menurut logika yang diuraikan di atas, kita harus sepenuhnya mengabaikan PC2 dalam regresi.

Jadi mari kita ikuti dan lihat apa yang terjadi!

Gambar 5. Hasil regresi dengan Y dan PC1.

Jadi R² , sama dengan 0 , menyatakan bahwa meskipun PC1 memberikan 95% varian X , namun tetap tidak menjelaskan variabel respon.

Sekarang mari lakukan hal yang sama dengan PC2 , yang hanya menjelaskan 5% varian X , dan lihat apa yang terjadi.

Gambar 6: Hasil regresi dengan Y dan PC2.

Yuhu! Lihat saja apa yang terjadi: komponen utama yang menjelaskan 5% dari X varians memberikan 72% dari Y varians . Ada juga contoh nyata untuk mendukung situasi tersebut:

[1] Smith dan Campbell (1980) memberikan contoh dari teknik kimia, di mana terdapat 9 variabel regresif, dan ketika varians dari komponen utama kedelapan adalah 0,06% dari total varian, yang tidak akan menjadi diperhitungkan karena logika di atas.

[2] Contoh kedua diberikan oleh Kung dan Sharif (1980). Dalam sebuah studi yang memprediksi tanggal mulai musim hujan menggunakan sepuluh variabel meteorologi, hanya komponen kedelapan, kedua dan kesepuluh yang signifikan. Contoh ini menunjukkan bahwa bahkan komponen utama dengan nilai eigen terkecil akan menjadi yang paling signifikan ketiga dalam hal menjelaskan variabilitas variabel respons.

Keluaran

Contoh di atas menunjukkan bahwa tidak tepat untuk menghapus komponen utama dengan nilai eigen kecil, karena mereka hanya mempengaruhi kemampuan menjelaskan dalam ruang fitur, tetapi tidak pada variabel respons. Oleh karena itu, Anda perlu mempertahankan semua komponen dalam teknik reduksi dimensi terawasi, seperti regresi kuadrat terkecil parsial dan regresi sudut terkecil, yang akan kita bicarakan di artikel mendatang.

Sumber

[1] Jolliffe, Ian T. “A Note on the Use of Principal Components in Regression.” Journal of the Royal Statistical Society. Series C (Applied Statistics), vol. 31, no. 3, 1982, pp. 300–303. JSTOR, www.jstor.org/stable/2348005.

[2] Hadi, Ali S., and Robert F. Ling. “Some Cautionary Notes on the Use of Principal Components Regression.” The American Statistician, vol. 52, no. 1, 1998, pp. 15–19. JSTOR, www.jstor.org/stable/2685559.

[3] HAWKINS, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Appl. Statist., 22, 275–286

[4] MANSFIELD, E. R., WEBSTER, J. T. and GUNST, R. F. (1977). An analytic variable selection technique for principal component regression. Appl. Statist., 26, 34–40.

[5] MOSTELLER, F. and TUKEY, J. W. (1977). Data Analysis and Regression: A Second Course in Statistics. Reading, Mass.: Addison-Wesley

[6] GUNST, R. F. and MASON, R. L. (1980). Regression Analysis and its Application: A Data-oriented Approach. New York: Marcel Dekker.

[7] JEFFERS, J. N. R. (1967). Two case studies in the application of principal component analysis. Appl. Statist., 16, 225- 236. (1981). Investigation of alternative regressions: some practical examples. The Statistician, 30, 79–88.

[8] KENDALL, M. G. (1957). A Course in Multivariate Analysis. London: Griffin.

Pelajari lebih lanjut tentang kursus "Machine Learning. Kursus dasar ” , serta mengikuti pelajaran gratis , Anda dapat mendaftar untuk webinar gratis di tautan ini .

Baca lebih banyak:

Entropi: Bagaimana Pohon Keputusan Membuat Keputusan

Risiko dan Peringatan Saat Menerapkan Metode Komponen Utama untuk Masalah Pembelajaran yang Diawasi