๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(17) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_10 : Reduction / ์ฃผ์ฑ๋ถ ๋ถ์
๐งฉ ์ ๋ฒ ํฌ์คํ ๋ถํฐ Dimensionality Reduction์ ๋ค๋ฃจ๊ณ ์๋๋ฐ, ์ด๋ฒ์๋ ๊ฝ์ด๋ผ๊ณ ํ ์ ์๋ Principal Component Analysis, ์ฃผ์ฑ๋ถ ๋ถ์์ ๋ํด์ ์์๋ณด๋๋ก ํ์๐๐.
1. PCA - Dimensionality Reduction
๐งฉ ๋ฐ์ดํฐ๋ง์ด๋ ๋ถ์ผ์ ์กฐ๊ธ์ด๋ผ๋ ๊ด์ฌ์ด ์๊ฑฐ๋, ๊ด๋ จ๋ ์์ ์ ์ฝ์ด๋ณธ ์ฌ๋๋ค์ PCA ๋ผ๋ ๋ง์ ์ด๋์ ๋ ๋ง์ด ์ ํด๋ดค์ ๊ฒ์ด๋ค. ๋๋ถ๋ถ ์๊ณ ์๊ฒ ์ง๋ง, Principal Component Analysis๋ฅผ ์ค์ฌ์ ๋ถ๋ฅธ ๊ฒ ๋ฐ๋ก PCA ๋ถ์์ด๋ค. ๊ทธ๋งํผ ์ ๋ช ํ๊ณ , ๋ฐ์ดํฐ ๋ถ์ผ์์๋ ๋ผ์ด๋์ ์ ์์ ๋งํผ ์ค์ํ์ง๋ง ์ฌ๋ฌ ๋ฐ์ดํฐ๋ง์ด๋ ํ๋ ์ ํ ์ด์ ์ ๋ดค์ ๋ PCA๊ฐ ๋ฌด์์ธ์ง, ์ ํ๋์ง์ ๋ํด ์ ํํ ์๊ณ ๋๋ตํ๋ ๊ฒ์ ๋ค์ ์ ์ ๊ฑฐ์ ์๋ค. ๋ํ ์ธํฐ๋ท์ ์ฐพ์๋ณด์๋ ๋๋ถ๋ถ ์์์ด๋ ๋จธ์ ๋ฌ๋์ ์ฌ์ฉ๋๋ PCA๋ฅผ ๋ค๋ฃจ๊ณ ์๋ค. ์ฆ, ์ ํํ ๊ฐ๋ ์ ๋ํด ๋ค๋ฃจ๋ ๋ด์ฉ์ ๊ฑฐ์ ๋ณธ ์ ์ด ์๋ค. ๋ฐ๋ผ์ ์ด๋ฒ ํฌ์คํ ์์๋ PCA์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๊ฐ๋ ์ ๋ํด ๋ค๋ฃฐ ๊ฒ์ด๋ค. ์ ๋ง ์ฝ๊ฒ ์ค๋ช ํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์ฒ์ฒํ ์ฝ์ด๋ณด์๋ฉด ์ดํดํ๋ ๋ฐ ์ด๋ ค์ด ์ ์ ์์ ๊ฑฐ๋ผ ์๊ฐํ๋ค.
๐งฉ ํ๊ต์์ ๋ฐ์ดํฐ๋ง์ด๋ ๊ณผ๋ชฉ์ ์๊ฐํ ๋ ์ฌ์ฉํ ๊ต์ฌ์์๋ PCA๋ฅผ ์๋์ ๊ฐ์ด ์ ์ํ๋ค.
์ด๋ฅผ ๋จ์ํ ๋ฒ์ญํด๋ณด๋ฉด ๊ด๋ จ๋ ๋ณ์๋ค์ ์๋ก ๊ด๋ จ์ด ์๋ ๋ณ์๋ค์ set์ผ๋ก ๋ณํํ๋ค๋ ๋ด์ฉ์ธ๋ฐ, ์ฌ์ค ์์ ์ ์๋ง ๋ณด๊ณ ์ ํํ ๊ฐ๋
์ ์ดํดํ๊ธฐ๋ ์ด๋ ต๋ค. ๊ทธ๋์ ๊ต์๋๊ป๋ ์ง๋ฌธ๋๋ ค๋ณด๊ณ , ๊ด๋ จ๋ ๊ธ๋ค์ ์ฐพ์ ์ฝ์ ๊ฒฐ๊ณผ ๊ฐ์ฅ ๊น๋ํ๊ฒ ์ ๋ฆฌํ ์ ์๋ ์๋์ ๊ฐ๋ค.
์ด๋ ๊ฒ ์๋ attribute๋ค์ linear combination๋ฑ์ ์ฐ์ฐ์ ํตํด combineํ๋ ๊ณผ์ ์์ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ์ดํฐ๊ฐ ๊ฐ๋ตํด์ง๊ณ , ๊ทธ dimension ์ญ์ ์ค์ด๋ ๋ค๋ ์๋ฏธ์ด๋ค. ์ด๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ๋ค.
๊ทธ๋ฆฌ๊ณ ์์ ๊ทธ๋ฆผ์์ ์๋กญ๊ฒ ๋ง๋ค์ด์ง ๋ฐ์ดํฐ์ ๊ฐ๊ฐ์ attribute์ธ PC1, PC2,โฆ(Principal Component์ ์ฝ์) ๊ฐ ์๋กญ๊ฒ ์ขํ๋ฅผ ๋ง๋ค๊ธฐ ์ํ ์ถ์ ํ์ฑํ๊ฒ ๋๊ณ , ์ฐ๋ฆฌ๊ฐ ์๋ ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ ์๋ก์ด ์ขํํ๋ฉด์์ ํํ๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด์ ํ๋์ ์ง๋ฌธ์ด ์๊ธด๋ค. ์๋ก์ด attribute๋ฅผ ๋ง๋๋ ๊ฒ์ ์ดํด๊ฐ ๊ฐ๋๋ฐ, ๊ทธ๋ฌ๋ฉด ๊ทธ ์์๋ ์ด๋ป๊ฒ ์ ํด์ง๋ ๊ฒ์ผ๊น๐??
2. PCA - New Axis
๐งฉ ์ด๋ฒ ์ ์์๋ ์์ ์ง๋ฌธ์ ๋ํ ๋๋ต๊ณผ ์ ๋ฐ์ ์ธ PCA๋ถ์์ ๊ฒฐ๊ณผ๋ฅผ ๋ค๋ฃฐ ๊ฒ์ด๋ค.
๐ฉ ๊ฐ์ฅ ๋จผ์ ์์ ์ง๋ฌธ์ ๋ํ ๋ต์ ํ์๋ฉด, ์๋ก์ด attribute๊ฐ ๋ง๋ค์ด์ง๋ ์์๋ ๊ธฐ์กด ๋ฐ์ดํฐ์ variance๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช
ํ ์ ์๋ ์ถ์ ์์๋๋ก ์ด๋ฆ์ ๋ถ์ด๋ ๊ฒ์ด๋ค. ์ด ์ ํ๊ด๊ณ๋ฅผ ํผ๋ํ์ง ์์ผ๋ฉด ์ข๊ฒ ๋๋ฐ, ๋ง๋๋ ์กฑ์กฑ ์์๋ฅผ ๋งค๊ธฐ๋ ๊ฒ์ด ์๋๋ผ ์๋ก์ด ์ถ๋ค์ ๋ง๋ ๋ค์ ๊ทธ ์ถ๋ค์ ๊ธฐ์ค์ผ๋ก ์๋ ๋ฐ์ดํฐ์ variance๋ฅผ ์ ์ค๋ช
ํ๋ ์์๋๋ก ๋ฒํธ๋ฅผ ๋งค๊ธฐ๋ ๊ฒ์ด๋ค. ์ฆ PC1 ์ด ์๋ณธ ๋ฐ์ดํฐ์ variance๋ฅผ ๊ฐ์ฅ ์ ๋ํ๋ผ ์ ์๊ณ , ๊ทธ ๋ค์์ PC2๊ฐ, ๊ทธ ๋ค๋ PC3๊ฐโฆ ์ด๋ฐ ์์๋๋ก ์ด๋ฆ์ ๋ถ์ฌ๋๊ฐ๋ ๊ฒ์ผ ๋ฟ์ด๋ค.
๐ฉ ๊ทธ๋ฆฌ๊ณ attribute๋ฅผ combineํด์ ์๋ก์ด ์ถ์ ๋ง๋ค๋ ๊ฐ์ฅ ์ค์ํ ์ ์ด ์๋ค. ๋จผ์ ์์ ๋งํ๋ฏ์ด ์ฐ๋ฆฌ๋ ์ด ์๋ก์ด ์ถ์ ๋ฐํ์ผ๋ก ์๋ ๋ฐ์ดํฐ์ ์๋ก์ด ์ขํ๋ฅผ ๋ถ์ฌํ ๊ฒ์ด๋ค (์ด๋ฅผ projection์ด๋ผ ํ๋ค). ๊ทธ๋ฐ๋ฐ ์ฐ๋ฆฌ๊ฐ ํํ ์๊ณ ์๋ xyํ๋ฉด์ ์๋ก ๋ค์ด๋ณด๋ฉด, ๋ ์ถ์ ์๋ก ์ง๊ตํ๋ค. ์ฆ, ์๋ก orthogonalํ๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์๋ก์ด ํ๋ฉด์์ ํํํ๊ธฐ ์ํด์๋, ๊ฐ๊ฐ์ ๋ง๋ค์ด์ง๋ ์๋ก์ด ์ถ๋ค์ธ Principal Component๋ค ๋ํ ์๋ก orthogonal ํด์ผํ๋ค๋ ๊ฒ์ด๋ค.
๐ฉ ์ ํ๋์ํ์ ์๊ณ ์๋ค๋ฉด eigen vector์ eigen value์ ๋ํด์ ์๊ณ ์์ ๊ฒ์ด๋ค. ๊ฐ๋ตํ ์ค๋ช
ํ์๋ฉด ์ ์ฌ๊ฐ ํ๋ ฌ A๊ฐ ์ฃผ์ด์ก์ ๊ฒฝ์ฐ์ ์ ๋นํ ์ ฮป์ ๋ํ์ฌ Ax๏ผฮปx๋ฅผ ๋ง์กฑํ๋ zero vector ์ด์ธ์ ๋ฒกํฐ x๋ฅผ eigen vector๋ผ ํ๊ณ , ์ด๋ ๊ณฑํด์ง๋ ์ ๋นํ ์ ฮป๋ฅผ eigen value๋ผ๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ PCA ์์๋ ๋ฐ์ดํฐ์ variance๋ฅผ ์ค๋ช
ํ๊ธฐ ์ํด์ ๊ฐ๊ฐ์ Principal Component (eigen vector)์ ์๋ก ๋ค๋ฅธ ์(eigen value)๊ฐ ๊ณฑํด์ง๋๋ฐ, ์ด eigen value๊ฐ ๊ฐ์ฅ ํฐ Principal Component๋ถํฐ PC1, PC2,โฆ ์ด๋ ๊ฒ ์ด๋ฆ์ ๋ถ์ด๊ฒ ๋๋ค.
์ค๋ช ํ๋ค ๋ณด๋ ๊ณ์ ๋น์ทํ ์๊ธฐ๋ฅผ ๋ฐ๋ณตํ๋ ๊ฒ ๊ฐ์๋ฐ, ์ฌ์ด ์ดํด๋ฅผ ์ํด์ ๋ฐ์ ๊ทธ๋ฆผ์ ์ฐธ๊ณ ํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค๐๐.
๐งฉ ์์ ๊ทธ๋ฆผ์์ ํ์ธ ํ ์ ์๋ฏ์ด
- PC1๊ณผ PC2โฆ ๋ ์๋ก orthogonal ํ๋ค.
- ์๋ ๋ฐ์ดํฐ๊ฐ Principal Component๋ก ๋ง๋ค์ด์ง ์ขํํ๋ฉด์์ ์๋กญ๊ฒ ํํ๋๋ค.
โโโ ์์ ๊ทธ๋ฆผ์์ ์๋ณธ ๋ฐ์ดํฐ์์๋ point๊ฐ ์ฌ๋ฌ๊ฐ์ธ๋ฐ ์๋ก์ด ํ๋ฉด์ผ๋ก ์ฎ๊ฒผ์๋ ์ ์ ํ๋๋ง ๊ทธ๋ ค๋์๋ค๊ณ ํด์ ์๋ณธ ๋ฐ์ดํฐ์ ์ ์ด ์ ํ๋์ ์ ์ผ๋ก ํํ๋๋ ๊ฒ์ด ์๋๋ค!! ๊ทธ๋ฅ ๋จ์ํ ๋์ ์ด ๊ธ์ ์ฝ๋ ์ฌ๋๋ค์ด ๋ณด๋ค ์ ๋ณผ ์ ์๋๋ก ์ ๋ ๊ฒ ํํํ ๊ฒ์ด๋ค๐๐.
๐ฉ ์์ ์ค๋ช
ํ๋ฏ์ด ์๋ ๋ฐ์ดํฐ์ variance๋ฅผ ์ ์ค๋ช
ํ๋ ์ ๋๋ฅผ ๊ธฐ์ค์ผ๋ก Principal Component์ ๋๋ฒ๋ง์ ์ ์ํ๋๋ฐ, ์ด์ ๋ฐ๋ผ ๋๋ถ๋ถ์ variance๊ฐ PC1๊ณผ PC2๋ง ๊ฐ์ง๊ณ ์ ์ค๋ช
์ด ๊ฐ๋ฅํ๋ค. ์ด๋ PC1๊ณผ PC2๋ง์ ๊ฐ์ง๊ณ ์ค๋ช
์ด ๋์ง ์์ ๊ฒฝ์ฐ์๋ PC3,PC4โฆ ๋ฅผ ์ฌ์ฉํ๋ฉด ๋๋ค. ๋ํ, ๋ด๊ฐ ์ํ๋ ์ค๋ช
์ ๋๊ฐ ๋์ฌ๋๊น์ง Principal Component๋ฅผ ์ ํํ๊ณ ํฉ์น๋ ๊ฒ๋ ๊ฐ๋ฅํ๋ค. ์ด์ ๊ด๋ จ๋ ๋ด์ฉ์ ์ง๋ ํ๊ธฐ์ ์งํํ (์ํผ์ ๊ฐ์ ๋ฃ์) ๋ฐ์ดํฐ๋ง์ด๋ ํ๋ก์ ํธ๋ฅผ ํตํด ๋ค์ ํฌ์คํ
์์ ์ค๋ช
ํ ์๊ฐ์ด๋ค๐.
๐ฉ ์์ PCA๋ฅผ ํตํด ์๋ attribute๋ฅผ combineํ๋ ๊ณผ์ ์์ ๋ฐ์ดํฐ์ dimension์ด ์ค์ด๋ ๋ค๊ณ ์ค๋ช
ํ๋ค. ํ์ง๋ง ์ด์ ๋ํด์ PCA๋ ๋๋ฒ์งธ๋ก ๊ทธ dimension์ ์ค์ผ ์ ์๋ ๋ถ๋ถ์ด ์๋ค. ๋ฐ๋ก Principal Component๋ฅผ ์ ํํ๋ ๋ถ๋ถ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ ๋๊น์ง๋ง variance๋ฅผ ์ค๋ช
ํ๋ฉด ๋๊ณ , ์ด๋ฅผ ๋ง์กฑํ๋ Principal Component๊น์ง๋ง ์ ํํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ์ ํํ๋ ๊ณผ์ ์์ ์์ฐ์ค๋ฝ๊ฒ Dimensionality Reduction์ ํ๊ฒ ๋๋ ๊ฒ์ด๋ค.
๐งฉ ์ด๋ ๊ฒ ํด์ PCA์ ๋ํด์ ์ค์ํ ๊ฐ๋
์ ๋๋ฆ ์์ธํ ์ง์ด๋ณด์๋ค. ์ด๋ฒ ํฌ์คํ
์ ๋ด์ฉ์ ์์ฝํ๋ฉด ์๋์ ๊ฐ๋ค.
- ๊ธฐ์กด์ attributes๋ฅผ linear combinationํด์ ์๋ก์ด attributes๋ฅผ ๋ง๋๋ ๊ฒ.
- ๊ทธ๋ฆฌ๊ณ ๊ทธ ์๋ก์ด attributes๊ฐ ์๋ก์ด ์ถ์ธ principal component๋ก ์ ์๋จ.
-
๊ธฐ์กด์ ๋ฐ์ดํฐ๋ค์ ์๋ก์ด ์ถ PC1, PC2โฆ์์ ์๋ก์ด ์ขํ๋ฅผ ๊ฐ์ง๊ฒ ๋จ.
- ์๋ก์ด ์ถ๋ค์ ๋ง๋ ๋ค์ ๊ทธ ์ถ๋ค์ ๊ธฐ์ค์ผ๋ก ์๋ ๋ฐ์ดํฐ์ variance๋ฅผ ์ ์ค๋ช ํ๋ ์์๋๋ก ๋ฒํธ๋ฅผ ๋งค๊น.
- ๊ฐ๊ฐ์ ๋ง๋ค์ด์ง๋ ์๋ก์ด ์ถ๋ค์ธ Principal Component๋ค ๋ํ ์๋ก orthogonal ํด์ผํจ.
- ๋๋ถ๋ถ์ variance๊ฐ PC1๊ณผ PC2๋ง ๊ฐ์ง๊ณ ์ ์ค๋ช ์ด ๊ฐ๋ฅํจ.
- ๋ด๊ฐ ์ํ๋ ์ค๋ช ์ ๋๊ฐ ๋์ฌ๋๊น์ง Principal Component๋ฅผ ์ ํํ๊ณ ํฉ์น๋ ๊ฒ๋ ๊ฐ๋ฅํจ.
- ์ฆ, ๋ชจ๋ ๋ณ์๋ค์ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ์ฃผ์ฑ๋ถ์ ์ฐพ๋ ๋ฐฉ๋ฒ
- ์ํ๋ ์ ๋๊น์ง๋ง variance๋ฅผ ์ค๋ช
ํ๋ฉด ๋๊ณ , ์ด๋ฅผ ๋ง์กฑํ๋ Principal Component๊น์ง๋ง ์ ํํ ๊ฒ์ด๋ฏ๋ก, ์ ํ๊ณผ์ ์์ Dimensionality Reduction.
๐งฉ ์ค์ ๋ก PCA์ ๊ด๋ จ๋ ์ฐ์ฐ์ ์ฐ๋ฆฌ์ ์์คํ ์ปดํจํฐ๊ฐ ํด์ค ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์ด๋ฒ์ ๋ฐฐ์ด ๊ฐ๋ ๋ค๋ง ์์ฃผ ์์คํ ๋จธ๋ฆฌ์ ๊ฐ์งํด๋ PCA๊ฐ ๋ฌด์์ด๋๋ ์ง๋ฌธ์ ๋นํฉํ์ง ์๊ณ ๋๋ตํ ์ ์์ ๊ฑฐ๋ผ๊ณ ์๊ฐํ๋ค๐!!
๐งฉ ๋ค์ ํฌ์คํ ์์๋ ์ค์ ๋ก PCA๋ฅผ ํ๋ ๊ณผ์ ๊ณผ ๊ฒฐ๊ณผ์ ๋ํด์ ์์๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ๐โโ๏ธ.
Leave a comment