๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(14) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_7 : Reduction / Nonparametric
๐งฉ ์์ ๋ ํฌ์คํ ์ ํตํด์ ๋ฐ์ดํฐ์ object๋ฅผ ์ค์ด๋ Numerosity reduction ์ค์์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ค์ ์ดํด๋ณด์๋ค. ์ด๋ฒ์๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์ง ์๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์๋ณด๋๋ก ํ์.
1. Nonparametric Method 1 : Histogram Analysis
๐งฉ ๋จผ์ Histogram Analysis์ ๋ํด์ ์์๋ณด์. ํ์คํ ๊ทธ๋จ์ด๋ผ๋ฉด ๊ฐ์ฅ ๋จผ์ ๋ ์ฌ๋ฆฌ๋ ๊ฒ์ด ์ฐ๋ฆฌ๊ฐ ์ค๊ณ ๋คํ๊ต๋ ๋ฐฐ์ด ํ์คํ ๊ทธ๋จ ๊ทธ๋ํ์ผ ๊ฒ์ด๋ค. ๋ณ๋์ ๊ฐ ๊ณ๊ธ์ผ๋ก ๋๋ ์ ๋์๋ฅผ ํํ ํ๋ ๊ฒ์ ํ์คํ ๊ทธ๋จ์ด๋ผ๊ณ ๋ฐฐ์ ์ ํ
๋ฐ, ์ฌ๊ธฐ์ ๋ฐฐ์ธ Histogram Analysis๋ ๋๊ฐ๋ค. ์์ผ๋ก์ ์ค๋ช
์ ์ํด์ ๊ฐ ๊ณ๊ธ์ bucket์ด๋ผ๊ณ ๋ถ๋ฅผ ๊ฒ์ด๋ค.
- ๐ Histogram Analysis
- ๋ฐ์ดํฐ๋ฅผ bucket์ผ๋ก ๋๋ ์ ๊ฐ๊ฐ์ bucket์ ๋ณด๊ดํ๋ ๋ฐฉ๋ฒ
- ๋ฐ์ดํฐ๋ฅผ ๋๋๋ ๋ฐฉ๋ฒ์ด๊ธฐ ๋๋ฌธ์ Partitioning Rules๋ผ๊ณ ํ๋ฉฐ, Binning ์ด๋ผ๊ณ ๋ ํจ
- Equal-Width : ๊ฐ bucket์ range๋ฅผ ๋ชจ๋ ๊ฐ๊ฒ ์ค์ ํด์ partition ํ๋ ๋ฐฉ๋ฒ. ๊ทน๊ฐ์ ์ํฅ์ ๋ง์ด ๋ฐ์
- Equal-Frequency : ๊ฐ bucket์ ๋ค์ด๊ฐ๋ ๋ฐ์ดํฐ๊ฐ ๊ฐ๋๋ก bucket์ ์ค์ ํ๋ ๋ฐฉ๋ฒ (= equal depth)
- Equal-Width : ๊ฐ bucket์ range๋ฅผ ๋ชจ๋ ๊ฐ๊ฒ ์ค์ ํด์ partition ํ๋ ๋ฐฉ๋ฒ. ๊ทน๊ฐ์ ์ํฅ์ ๋ง์ด ๋ฐ์
๐ ์์์ ์
๊ธํ ๊ฒ์ฒ๋ผ Histogram Analtsis๋ ๋ ๊ฐ์ง์ ๋ฐฉ๋ฒ์ผ๋ก ๋๋ ์ง๋ค. ๋๋ ๋ฐฐ์ธ ๋ ๊ทธ๋ฌ์ง๋ง, ์ ์ค๋ช
๋ง์ ๊ฐ์ง๊ณ ๋ ์ง๊ด์ ์ธ ์ดํด๊ฐ ์ด๋ ต๋ค. ์ฌ์ด ์ดํด๋ฅผ ์ํด ๊ทธ๋ฆผ์ ํ๋ฒ ์ดํด๋ณด๋๋ก ํ์.
- Equal Width๋ ์ผ๋จ bucket์ range๋ฅผ ๊ฐ์ ์ฌ์ด์ฆ๋ก ๋๋ ๋๊ณ , ๊ทธ์ ๋ง์ทจ ๋์๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ bucket์ ๋๋๊ธฐ ๋๋ฌธ์ ๊ทน๋๊ฐ์ด๋ ๊ทน์๊ฐ์ ์ํฅ์ ๋ง์ด ๋ฐ์ ์ ๋ฐ์ ์๋ค.
- ๋ฐ๋ฉด Equal Frequency๋ ์ฐ์ ์ ์ผ๋ก ๊ฐ bucket์ ๋ค์ด๊ฐ๋ ๋์์ ๊ฐ์๊ฐ ๊ฐ๋๋ก ๋ฏธ๋ฆฌ ๋๋ ํ์, ๋ง์ง๋ง์ bucket์ range๋ฅผ ์ ํ๋ ๊ฒ์ด๋ผ๊ณ ๋ณด๋ฉด ๋ ๊ฒ ๊ฐ๋ค. Equal Width ๋ฐฉ๋ฒ์ ๊ทน๊ฐ์ ์ํ ์ํฅ์ ๋ณด์ํ๊ธฐ ์ํด ๋ง๋ค์ด์ง ๊ฐ๋ ์ด๋ค.
2. Nonparametric Method 2 : Clustering
๐งฉ ์ด๋ฒ์๋ Clustering์ ๋ํด ์์๋ณด์. ์ฌ์ค clustering์ ๋ฐ์ดํฐ๋ง์ด๋์ ์์ด์ ์ ๋ง ์ค์ํ ๋ด์ฉ์ด๊ธฐ ๋๋ฌธ์, ๊ฑฐ์ ๋ฐ ํ๊ธฐ ์ ๋๋ฅผ clustering์ ๋ํด์ ๋ฐฐ์ ๋ ๊ฒ ๊ฐ๋ค. ๋ค์ ์ด์ ๋ํด์ ์ ๋ง ์์ธํ ๋ค๋ฃฐ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์ด๋ฒ์๋ ์ ๋ง ๊ฐ๋จํ ๊ฐ๋ ๋ง ์ดํดํ๊ณ ๊ฐ๋๋ก ํ์.
- ๐ Clustering
- ๋ฐ์ดํฐ๋ฅผ ๋น์ทํ ์ ๋ค๋ผ๋ฆฌ ๋ฌถ์ด์ ๋๋๊ณ representation์ ์ ์ฅํจ. ๊ตฐ์งํ๋ผ๊ณ ๋ ํจ.
- ๋ฐ์ดํฐ๊ฐ ๋ฏธ๋ฆฌ ํด๋ฌ์คํฐ๋ง ๋์ด ์๊ฑฐ๋ ๋๋๊ธฐ ์ข์ ๋ฐ์ดํฐ๋ผ๋ฉด ๊ต์ฅํ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ด์ง๋ง, ๊ตฐ๋ฐ๊ตฐ๋ฐ ํฉ์ด์ง ๋ฐ์ดํฐ๋ผ๋ฉด ์ฝ์ง ์์
- ์ด๋ฅผ ์ํ ๋ค์ํ ๋ฐฉ๋ฒ์ด ์์.
3. Nonparametric Method 3 : Sampling
- ๐ Sampling
- ์ ์ฒด ๋ฐ์ดํฐ N์ ๋ํํ๋ ์์ n๊ฐ์ sample์ ์ป๋ ๊ฒ
- Choose a representive subset of the data : ๋ํ์ฑ์ ๊ฐ์ง๋ sample์ ์ป์
- Types of Sampling
- Simple random sampling : ์ํ๋ง์ ์ํด ๊ฐ์ ํ๋ฅ ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ํํจ
- Sampling without replacement : ๋น๋ณต์์ถ์ถ
- Sampling with replacement : ๋ณต์์ถ์ถ
- Stratified Sampling : partition์ด ์ํ ์ง๋จ์ ํน์ฑ์ ๋ง๊ฒ ์ํ๋ง ์งํ (ex. class ๊ฐ์์ ๋น์จ์ ์ ์ง)
๐งฉ ์ด๋ฒ ํฌ์คํ
๊น์ง ํด์ ๋ฐ์ดํฐ์ object ์๋ฅผ ์ค์ฌ dimension์ ๊ฐ์์ํค๋ ๋ฒ์ ๋ฐฐ์๋ณด์๋ค. ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๊ณผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์ง ์๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌ๋ถ๋๋ค๋ ์ฐจ์ด์ ๋ง ์ดํดํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค. ๋ง์ง๋ง์ผ๋ก ๋ ๋ฐฉ๋ฒ์ ์ฐจ์ด์ ์ ๊ฐ๋จํ ์์๋ณด๊ณ ์ด๋ฒ ํฌ์คํ
์ ๋ง๋ฌด๋ฆฌํด์ผ๊ฒ ๋ค๐๐.
- Parametric / Nonparameric ๋น๊ต
- Parametric Approach
- Assumption โญ, Parameter โญ
- Linear Regression
- Nonlinear Regression
- ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ๋ฅผ ํตํ ๋ชจ๋ธ ํผํ ๊ฐ๋ฅ
- ํ์ง๋ง ๋ชจ๋ธ์ ๊ฐ์ ์ ์ํ ์ํฅ์ ๋ง์ด ๋ฐ์
- Nonparametric Approach
- Assumption โ, Parameter โ
- Histogram
- Clustering
- Sampling
- ๋ชจ๋ธ์ ๋ํ ๊ฐ์ ์ ํ์ง ์์
- Parametric Approach
๐งฉ ๋ค์ ํฌ์คํ ๋ถํฐ๋ Dimension์ ์ค์ด๋ Dimensionality Reduction์ ๋ํด ์์๋ณด์๐โโ๏ธ๐โโ๏ธ.
Leave a comment