๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(16) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_9 : Reduction / Subset Selection
๐งฉ ์ด๋ฒ ํฌ์คํ ๋ถํฐ๋ Dimensionality reduction์ ๋ํด ์์ธํ ์์๋ณผ ๊ฒ์ด๋ค. ๋จผ์ subset selection</a>์ ๋ํด์ ์์๋ณด๋๋ก ํ์.
1. Attribute Subset Selection ๊ฐ๋
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ subset selection์ ๋ํด์ ์์๋ณผ ํ ๋ฐ, ๊ทธ๋ฌ๋ฉด ์ด๊ฒ ๋์ฒด ๋ฌด์์ธ๊ฐ๋ถํฐ ๋๋ต์ ์ผ๋ก ์๊ณ ๊ฐ๋ ํธ์ด ์ข์ ๊ฒ ๊ฐ๋ค. ์ด๋ฆ์์ ๋๊ปด์ง ์ ์๊ฒ ์ง๋ง, ๋ฐ์ดํฐ์ attribute์์ ๋ช๊ฐ์ง๋ฅผ ์ถ์ถํด์ ๊ทธ attribute๋ค๋ก ์ด๋ค์ง subset, ์ฆ ๋ถ๋ถ์งํฉ์ ์ฐพ๊ฒ ๋ค๋ ์๋ฏธ์ด๋ค. ์ด๋ ์ ํํ๋ attribute๋ค์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ ์ ์์ด์ผ ํ๋ฉฐ, ์๋ ๋ฐ์ดํฐ์์ ์ค๋ณต๊ฐ์ ์ ๊ฑฐํ๊ฑฐ๋ ํ์์๋ ๊ฐ์ ์ ๊ฑฐํ๋ ๊ณผ์ ์์ ์์ฐ์ค๋ฝ๊ฒ ์๋ณธ ๋ฐ์ดํฐ์ dimensionality๊ฐ ์ค์ด๋ ๋ค.
๐งฉ ๊ทธ ๋ฐฉ๋ฒ์๋ ์๋์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ด ์๋ค.
- Best Subset Selection
- Stepwise Selection
- Forward Stepwise Selection
- Backward Stepwise Selection
- Heuristic Search
๐ ์ฒซ๋ฒ์งธ๋ก Best Subset Selection๋ถํฐ ์์๋ณด๋๋ก ํ์๐โโ๏ธ!!
2. Best Subset Selection
๐งฉ 10๊ฐ์ attribute๋ฅผ ๊ฐ์ง๋ ๋ฐ์ดํฐ๊ฐ ์๋ค๊ณ ์๊ฐํด๋ณด์. ์ด ๋ฐ์ดํฐ์ ๋ํ best subset์ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌํด์ง๋ค.
- attribute๊ฐ ํ๋๋ ์๋ null model ์์ฑ : $ฮผ_0$
- k = 1, 2,โฆ, 10 ์ ๋ํด์ ๊ฐ k์ ๋ํด์ $_{10}C_k$์ ๋ชจ๋ธ์ ์์ฑํจ
- k์ ๋ํด์ $_{10}C_k$ ๊ฐ์ ๋ชจ๋ธ์์ ์ ์ผ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ชจ๋ธ $ฮผ_k$์ ํ๋์ฉ ์ ์
- 3์์ ๋ง๋ค์ด์ง $ฮผ_1, ฮผ_2,โฆ,ฮผ_{10}$ ์ค์์ ๋จ ํ๋์ Best Model์ ์ ํํจ
๐ ์์ฝํ์๋ฉด, ์๋ณธ ๋ฐ์ดํฐ์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ subset์ ์ฐพ๊ธฐ ์ํด ๊ฐ๋ฅํ ๋ชจ๋ attribute ๊ฐ์ ์กฐํฉ์ ๋ชจ๋ ์์ฑํ๊ณ ํ๊ฐํ๋ ๊ณผ์ ์ด๋ค. ์์์๋ attribute๊ฐ 10๊ฐ์ธ ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ง๋ง, ์ค์ ๋ก ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃฐ ๋ฐ์ดํฐ๋ ํจ์ฌ ๊ฑฐ๋ํ ๋ฐ์ดํฐ์ผ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ๊ณผ์ ์ด ๋๋ฌด ๋ง๋ค๋ ๋จ์ ์ ๋์ฑ ํฌ๊ฒ ๋ค๊ฐ์จ๋ค. ๊ทธ๋์ ์ด๋ ๊ฒ ๋ชจ๋ ๊ฒฝ์ฐ๋ฅผ ํ๋ํ๋ ์ฒดํฌํ๋ ๋ฐฉ๋ฒ์ด ์๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ด ์๊ฒจ๋ฌ์ผ๋ฉฐ, ์ด ๋ฐฉ๋ฒ์ ๋ฐ๋ก Stepwise Selection์ด๋ผ๊ณ ํ๋ค.
3. Stepwise Selection
๐งฉ 1์ ์์ ์ธ๊ธํ๋ฏ์ด, Stepwise Selection์ ์ธ๊ฐ์ง ์ข
๋ฅ๋ก ๋๋ ์ง๋ค. ์ธ๊ฐ์ง ๋ฐฉ๋ฒ ๋ชจ๋ ๊ธฐ๋ณธ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ๋น์ทํ๊ณ ๋ชจ๋ธ์ ๊ณ ๋ฅด๋ ๋ฐฉํฅ์ด๋ ๋ฐฉ๋ฒ๋ง ์ด์ง ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ์ฒซ๋ฒ์งธ ๋ฐฉ๋ฒ๋ง ํ์คํ ์ดํดํ๋ฉด ๋๋จธ์ง ๋ถ๋ถ๋ค์ ์ดํดํ๋ ๋ฐ์ ์ด๋ ค์์ ์์ ๊ฒ ๊ฐ๋ค. ๋จผ์ Forward Stepwise Selection์ ๋ํด ์์๋ณด๋๋ก ํ์๐.
- 1. Forward Stepwise Selection
- Best Subset Selection๊ณผ ๊ฐ์ด Null Model๋ถํฐ ์์ํด์ attribute๋ฅผ ์ถ๊ฐํด๋๊ฐ๋ค.
- Null Model $ฮผ_0$์ ํ๋ฒ์ ํ๋์ attribute๋ง์ ์ถ๊ฐํด๊ฐ๋ฉด์ model์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
- ๊ธฐ์กด์ ๋ชจ๋ธ์ ๊ทธ๋๋ก ๊ฐ์ ธ๊ฐ๋ฉด์ ์๋ก์ด attribute๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด๋ค.
- ์ด๋ attribute๋ฅผ ์ถ๊ฐํ๋ ๊ณผ์ ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฅ์๋ ๋ ๊น์ง๋ง ์ด๋ค์ง๋ค. ๋ง์ฝ ์ถ๊ฐํ ๊ฒฝ์ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ ํ๋๋ค๋ฉด, ์ถ๊ฐํ๊ธฐ ์ ์ ๋ชจ๋ธ์ด ์ต์ข
๋ชจ๋ธ์ด ๋๋ ์
์ด๋ค.
- Best Subset Selection๊ณผ ๊ฐ์ด Null Model๋ถํฐ ์์ํด์ attribute๋ฅผ ์ถ๊ฐํด๋๊ฐ๋ค.
๐ ์๋ ๊ทธ๋ฆผ์ ๋ณด๋ฉด์ Best Subset Selection๊ณผ ๋น๊ตํ๋ฉด ์ดํด์ ๋์์ด ๋ ๊ฒ์ด๋ค. ์ด๋ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ ์ง์ถ๊ณผ ๊ฐ์ ์ ๊ด๋ จ๋ ๋ช๊ฐ์ง attribute๋ฅผ ํฌํจํ๋ ๋ฐ์ดํฐ์ด๋ค.
๐ ์์ ์ธ๊ธํ๋ฏ์ด Stepwise Selection์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฅ์๋์ง ์์ผ๋ฉด ๋์ด์์ ์ ํ์ ์งํํ์ง ์๊ณ , ๊ธฐ์กด์ ์ ํ๋ attribute๋ค์ ๊ณ ์ ํด๋ ์ํ์์ ๊ฐ์ ธ๊ฐ๊ธฐ ๋๋ฌธ์ local optimum์ ๋น ์ง ์ ์๋ค. ๋ฐ๋ผ์ ํญ์ ์ ์ผ ์ข์ ๋ชจ๋ธ์ ๋ณด์ฅํ ์๋ ์์ง๋ง, Best Subset Selection์ ๋นํด ์ฐ์ฐ๋์ด ํ์ฐํ ์ค์ด๋ค๊ธฐ ๋๋ฌธ์ ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
๐งฉ ์ด์ ๋๋ฒ์งธ ๋ฐฉ๋ฒ์ธ Backward Stepwise Selection์ ๋ํด ์์๋ณด๋๋ก ํ์.
- 2. Backward Stepwise Selection
- ์์ ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ Null Model์ด ์๋ ๋ชจ๋ attribute๋ฅผ ๊ฐ์ง๊ณ ์๋ Full Model๋ถํฐ ์์ํ๋ค.
- Full Model์์ ๊ฐ์ฅ ์ํฅ์ ๋ ์ฃผ๋ attribute๋ถํฐ ํ๋์ฉ ์ ๊ฑฐํ๋ฉด์ ๋ชจ๋ธ์ ์
๋ฐ์ดํธํ๋ค.
- ์ด ๊ฒฝ์ฐ ์ญ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฅ์๋ ๋๊น์ง๋ง ์
๋ฐ์ดํธ๊ฐ ์ด๋ค์ง๋ค.
- ๋ฐ๋ผ์ Local Optimum์ ๋น ์ง ์ ์๋ค.
- ์์ ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ Null Model์ด ์๋ ๋ชจ๋ attribute๋ฅผ ๊ฐ์ง๊ณ ์๋ Full Model๋ถํฐ ์์ํ๋ค.
๐ Forward Stepwise Selection๊ณผ Backward Stepwise Selection์ ๋น๊ตํด๋ณด๋ฉด ์๊ฒ ์ง๋ง, ๋ชจ๋ธ์ ์
๋ฐ์ดํธํ ๋ attribute๋ฅผ ์ถ๊ฐํ๋๋, ์ญ์ ํ๋๋์ ๋ฐฉํฅ์ฑ์ ์ฐจ์ด์ผ ๋ฟ์ด๋ค. ์ฐ์ฐ๋์ด ์ ๋ค๋ ์ฅ์ ์ ๊ฐ์ง์ง๋ง, Local Optimum์ ๋น ์ง ์ ์๋ค๋, ์ด๋จ๊ฒ ๋ณด๋ฉด ์น๋ช
์ ์ธ ๋จ์ ์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค. ๊ทธ๋์ ๋ฑ์ฅํ ๋ฐฉ๋ฒ์ด ๋ฐ๋ก Heuristic Search ์ด๋ค.
- 3. Heuristic Search
- Best combined attribute selection and elimination
- Forward์ Backward๋ฅผ ๋ฐ๋ณตํ๋ฉด์ ๋ชจ๋ธ์ ์
๋ฐ์ดํธ
- Local Optimum ํ์ถ
- Best combined attribute selection and elimination
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ dimensionality reduction ์ค์์๋ feature extraction ๋ฐฉ๋ฒ์ธ Subset Selection์ ๋ํด ์์๋ณด์๋ค. ๋ฐ์ดํฐ๋ง์ด๋์ ๊ณต๋ถํ๋ฉด์ ํ๋์ ๋ฐฉ๋ฒ์ด ๋์ค๊ณ ๊ทธ ๋ฐฉ๋ฒ์ ๋ณด์ํ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ด ๊ณ์ํด์ ์๊ฒจ๋๋ค๋ ๋๋์ ๋ฐ์๋ค. ์ด๋ ํ ๊ฐ๋ ์ ๊ณต๋ถํ ๋ ๊ทธ ๋ฐฉ๋ฒ์ ๋ํ ์์์ด๋ ์ด๋ก ์ ์๋ ๊ฒ๋ ์ค์ํ์ง๋ง, ๊ทธ ๊ฐ๋ ๊ณผ ๊ด๋ จ๋ ํ๋์ ์คํ ๋ฆฌ๋ฅผ ์๋ ๊ฒ์ด ์ฅ๊ธฐ๊ธฐ์ต์๋ ๋ ๋์์ด ๋ ๊ฑฐ๋ผ๊ณ ์๊ฐํ๋ค. ์ด ๋ธ๋ก๊ทธ๋ฅผ ๋ณด๋ ๋๋ถ๋ถ์ ๋ถ๋ค์ด ๋ฐ์ดํฐ ๋ง์ด๋์ ๋ํ ๊ธฐ์ด๋ฅผ ์๊ธฐ ์ํด์๋ผ๊ณ ์๊ฐํ๋๋ฐ, ์ด๋ ๊ฒ ์คํ ๋ฆฌํ ๋ง์ ์ง์คํด์ ๊ณต๋ถํ๋ฉด ๋ง์ ๊ฐ๋ ์ ์ข ๋ ํจ์จ์ ์ผ๋ก ์ดํดํ ์ ์์ ๊ฒ ๊ฐ๋ค๐๐.
๐งฉ ๋ค์ ํฌ์คํ ์์๋ PCA์ ๋ํด์ ์์๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
Leave a comment