๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(19) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_12 : Transformation
๐งฉ ์ค๋๋ง์ ๋ฐ์ดํฐ๋ง์ด๋ ํฌ์คํ ์ด๋ค. ๋ ๋ ๋ฅ๊ณ , ์ด๋์ ๋ ์น๊ตฌ๋ค๋ ๋ง๋๋๋ผ ๊ทธ๋์ ์ด์ง ๋ธํ๋๋ฐ ์์ผ๋ก ๋ ์ค์ํ ๋ด์ฉ๋ค์ด ๋ง๊ธฐ ๋๋ฌธ์ ๋ค์ ์ด์ฌํ ์ ๋ก๋ํ ์์ ์ด๋ค๐โโ๏ธ๐โโ๏ธ.
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๋ง์ง๋ง ๊ฐ๋ ์ธ Data Transformation ์ ๋ํด ์์๋ณด๋๋ก ํ์.
1. Data Transformation Preview
๐งฉ Data Transformation์ ๋ฐ์ดํฐ์ ์ ์ฒด attribute๋ฅผ ์๋ก์ด ๊ฐ์ผ๋ก ๋ณ๊ฒฝํด์ฃผ๋ ์ผ์ข ์ ํจ์ ๋ฅผ ์๋ฏธํ๋ค. ์ฆ, ๊ธฐ์กด์ ๊ฐ์ ์๋ก์ด ๊ฐ์ผ๋ก ๋ฐ๊ฟ์ค๋ค๋ ๊ฒ์ ๊ทธ ์๋ฏธ๊ฐ ์๋ค.
๐งฉ Data Transformation์ ์ํ method๋ก๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ด ์๋ค.
- 1. Smoothing
- ๋ฐ์ดํฐ์ noise ์ ๊ฑฐ
- outlier๋ฅผ ์๋ ๋ฐ์ดํฐ์ ๋ถํฌ์ ๋ง๊ฒ ๋ฐ๊ฟ.
- 2. Attribute / Feature Construction
- ๊ธฐ์กด์ attribute ๋ฅผ ๊ฐ์ง๊ณ ์๋ก์ด attribute๋ฅผ ์์ฑ
- ๊ธฐ์กด์ attribute ๋ฅผ ๊ฐ์ง๊ณ ์๋ก์ด attribute๋ฅผ ์์ฑ
- 3. Aggregation
- ๋ฐ์ดํฐ๋ฅผ ๋ค์ํ ๋ฒ์ฃผ๋ก ๋๋ ์ ์์ฝํจ
- ex) ํ๊ณผ / ์ฑ๋ณ / ํ์กํ
- 4. Normalization
- ๋ฐ์ดํฐ๋ฅผ ๋ด๊ฐ ์ํ๋ ํน์ ํ specified๋ range๋ก scalingํ๋ ๊ฒ.
- Min-Max Normalization : min-max range
- Z-Score Normalization : ํ์ค์ ๊ท๋ถํฌํ
- Normalization by Decimal scaling : ๋ฐ์ดํฐ์ ์ต๋ ์๋ฆฟ์๋ก scaling
- ๋ฐ์ดํฐ๋ฅผ ๋ด๊ฐ ์ํ๋ ํน์ ํ specified๋ range๋ก scalingํ๋ ๊ฒ.
- 5. Discretization
- ๋ฐ์ดํฐ๋ฅผ ์ปจ์ ์ ๋ฐ๋ผ์ ๋ฌถ์ด์ค
- Aggregation๊ณผ ์ ์ฌํจ
- ex) ์ง์ญ์ ์ฐํธ๋ฒํธ์ ๋ฐ๋ผ์ ๋๋
๐ ๋๋ต ๋ค์ฏ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๋๋ ์ง๋ฐ, ์ด ์ค์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ Normalization ๊ณผ Discretization ์ด๋ค. ๋ค์ ์ ๋ถํฐ ์ด ๋๊ฐ์ง ๋ฐฉ๋ฒ์ ๋ํด์ ์์๋ณด๋๋ก ํ์๐๐.
2. Normalization
๐งฉ ๋ฐ์ดํฐ, ์ฃผ๋ก attribute๋ค์ ์ํ๋ ๋ฒ์ ๋ด์์ ์ ๊ทํํ๋ค๊ณ ์ดํดํ๋ฉด ๋ ๊ฒ ๊ฐ๋ค.
๐ฉ 2.1 Min-Max Normalization
๐งฉ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช
ํ๊ณ ์ ํ๋ ์๋ก์ด ์ต๋, ์ต์ ๋ฒ์๋ฅผ ์ค์ ํ์ฌ ์ ๊ทํ ์งํ
๐งฉ ์ค์ ๋ฐ์ดํฐ์ range [$min_{A},\; max_{A}$] ์ ์๋ก์ด range [$new_{-}min_{A},\; new_{-}max_{A}$] ์ ๋ํด์
๐ ์์ ๋ฅผ ํ๋ฒ ์ดํด๋ณด์.
- ์๋ณธ value $v= 73600$
- ์ค์ ๋ฐ์ดํฐ range = $[12000, 98000]$
- ์๋ก์ด range = $[0.0, 1.0]$
$vโ = \frac{73600-12000}{98000-12000}\,(1.0-0.0)\,+\,(0.0) = 0.716$
๐งฉ ์ด๋ ๊ฒ Min-Max Normalization์ ์ฌ์ฉํด์ ์๋ณธ ๋ฐ์ดํฐ์์๋ ์ ํํ ์ ์ ์์๋ ๋ฐ์ดํฐ์ ์์น๋ ๋ถํฌ๋ฅผ ๊ฐ๋จํ๊ฒ ์ ์ ์๋ค. ๋ฐ์ดํฐ๋ฅผ ์๋์ ์ธ ์น๋ก ํํํ๊ณ ์ ํ ๋ ํนํ ์ ์ฉํ ๋ฐฉ๋ฒ์ด๋ค. ๋ฐ๋ผ์ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ค๋ ๋ฒ์๋ฅผ 0๊ณผ 1 ์ฌ์ด๋ก ์ก๊ณ normalizeํ๋ค.
๐ฉ 2.2 Z-Score Normalization
๐งฉ ํต๊ณํ์ ์ด๋ฏธ ์๊ณ ์๋ ์ฌ๋์ด๋ผ๋ฉด ์๋ง ์ต์ํ ๊ฒ์ด๋ผ ์๊ฐํ๋ค. Z-Score ๋ ํ๊ท ์ด 0์ด๊ณ ํ์คํธ์ฐจ๊ฐ 1์ธ ์ ๊ทํ๋ ๋ถํฌ๋ก์จ ๊ฐ์ฐ์์ ๋ถํฌ๋ผ๊ณ ๋ ํ๋ค. ๋๋ถ๋ถ์ ํ๋ณธ์ ๊ท๋ถํฌ๋ฅผ z-score์์ ๊ตฌํ๊ธฐ ๋๋ฌธ์, ํ๋ณธ์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ง์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ๊ทํํ ์ ์์ผ๋ฉด์๋ ์ต์ํ ๋ฐฉ๋ฒ์ด๋ค.
๐ ์์ ๋ฅผ ํ๋ฒ ์ดํด๋ณด์.
- $ฮผ=54000$
- $ฯ=16000$
- $v=73600$
$vโ=\frac{73600-54000}{16000}=1.225$
๐งฉ ์ด๋ ๊ฒ ์ ๊ทํํ ๊ฐ์ ์์ ๊ฐ์ด ํ๊ท ์ด 0์ด๊ณ ํ์คํธ์ฐจ๊ฐ 1์ธ ํ์ค์ ๊ท๋ถํฌํ์์ ์ฐพ์์ผ๋ก์จ ์ด ๋ฐ์ดํฐ์ ์์น๊ฐ ์ด๋์ ๋์ธ์ง, ๊ทธ ํ๋ฅ ์ ์ผ๋ง์ธ์ง ์ ์ ์๋ค.
๐ฉ 2.3 Normalization by Decimal scaling
๐งฉ ์์ ๋ ๋ฐฉ๋ฒ์ ๋นํด์ ์ฒ์์ ๋ค์์ ๋ ๊ต์ฅํ ์์ํ๋ ์ ๊ทํ ๋ฐฉ๋ฒ์ด์๋ค. ํ์ง๋ง ๊ทธ ๊ฐ๋
์ ์๊ฐ๋ณด๋ค ํจ์ฌ ๊ฐ๋จํ๋ค. ๊ทธ๋ฅ ๋ฐ์ดํฐ๋ค์ ๊ทธ ์ค์ $10^{maximum\;decimal}$๋ก ๋๋ ์ ๊ทํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ ๊ฒ ๊ฐ๋
์ ์ค๋ช
ํ๊ธฐ๋ณด๋ค ์์ ๋ฅผ ํ๋ฒ ๋ณด๋ฉด ์ดํด๊ฐ ๋ฐ๋ก ๋ ๊ฒ ๊ฐ๋ค.
๐ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๋ฉด ์๊ฒ ์ง๋ง ๊ฐ ๋ฐ์ดํฐ์ ์๋ฆฟ์๊ฐ $[4,4,4,5,5]$ ์ด๋ค. ๊ทธ๋ฌ๋ฉด ์ด์ ์ฐ๋ฆฌ๋ ๊ฐ ๋ฐ์ดํฐ๋ฅผ $10^{maximum\;decimal}$์ธ $10^{5}$์ผ๋ก ๋๋ ์ฃผ๊ธฐ๋ง ํ๋ฉด ๋๋ค.
๋ฐ๋ผ์ ์ ๊ทํ ํ ๋ฐ์ดํฐ๋ ์๋์ ๊ฐ๋ค.
3. Discretization
๐งฉ ์์ ์ดํด๋ณธ Normalization์ด ๋ฐ์ดํฐ๋ฅผ ์ ๊ทํํด์ ์๋ก์ด ๋ฒ์๋ก ํํํ๋ค๋ฉด Discretization์ ๋ฐ์ดํฐ๋ฅผ ๋ช๊ฐ์ง ๋ฒ์๋ก ๋ถ๋ฅํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ์ด๋๊น์ง ๊ณต๋ถํ ๋ฐ์ดํฐ์ ์๋ฃํ์ ํฌ๊ฒ Nominal, Ordinal, Numeric์ผ๋ก ๋๋ ์ง๋๋ฐ, Discretization์ ์ด ์ค์์ Numeric ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๊ธฐ ์ํด์ ์ฌ์ฉํ๋ค.
๐งฉ ์ ๋ฆฌํ์๋ฉด Discretization์ Continuous attribute์ ๋ฒ์๋ฅผ ๊ตฌ๊ฐ์ผ๋ก ๋ถํ ํด์ ๊ฐ ๋ฐ์ดํฐ์ ๋ฒ์๋ฅผ ๊ธฐ์ค์ผ๋ก Label์ ๋ถ์ฌํ๋ค. ์ดํ ๊ฐ Label์ ์ฌ์ฉํด์ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ํํํ๋ค.
๐งฉ Discretization์ ์ํ ๋ฐฉ๋ฒ๋ค์ ๋ค์๊ณผ ๊ฐ๋ค.
- Binning : unsupervised
- Histogram analysis : unsupervised
- Clustering analysis : unsupervised
- Classification (Decision Tree) : supervised
- Correlation : unsupervised
๐ Clustering๊ณผ Classification, Correlation์ ๋ํด์๋ ๋์ค์ ํ ์ด์ด์ผ์ฌ ๋ ๋น์ค์๊ฒ ๋ค๋ฃฐ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋๊ธฐ๊ณ ์ด๋ฒ ํฌ์คํ
์์๋ Binning์ ๋ํด์๋ง ์์๋ณผ ์๊ฐ์ด๋ค.
๐ฉ 3.1. Binning
๐งฉ Binning์ Discretization์ ๊ฐ์ฅ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก, ๋ฐ์ดํฐ๋ฅผ ๋ฒ์๋ก ๋ถ๋ฅํ์ฌ ๊ฐ๊ฐ์ Label์ ๋ถ์ฌ ํํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์๋ฌด๋๋ ์ ๋ฐ์ ์ธ ๋ฐ์ดํฐ์ ๊ตฌ๊ฐ์ ์ ๊ฒฝ์จ์ผ ํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๊ทน๊ฐ์ ์ํฅ์ ๋ง์ด ๋ฐ๋๋ค๋ ํน์ง์ด ์๋ค.
๐งฉ Binning์ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก ๋ถ๋ฅ๋๋ค.
- Equal-width (Equal-distance) partitioning : ๊ฐ Bin(๊ตฌ๊ฐ)์ ๊ฐ๊ฒฉ์ด ๊ฐ๋๋ก ์ค์
- Equal-depth (Equal-frequency) partitioning : ๊ฐ Bin ๋ง๋ค ๊ฐ์ ๊ฐ์์ ๋ฐ์ดํฐ๊ฐ ๋ค์ด๊ฐ๋๋ก ์ค์
๐งฉ Binning์ ํน์ง์ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- label์ ๊ฐ์๋ฅผ ์ค์์ผ๋ก์จ ๋ฐ์ดํฐ์ ์ฌ์ด์ฆ๋ฅผ ์ค์ผ ์ ์๋ค.
- Equal-width ์ ๊ฒฝ์ฐ์๋ ๊ทน๊ฐ์ ์ํฅ์ ํนํ ๋ง์ด ๋ฐ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๋์จ ๋ฐฉ๋ฒ์ด Equal-depth ์ด๋ค.
- ๋ฐ์ดํฐ์ scaling์ ์ข๋ค.
- ํ์ง๋ง Binning์ ๊ฐ์ง๊ณ ๋ฐ์ดํฐ๋ฅผ ์ ํํ๊ฒ ๊ตฌ๋ถ์ง์ ์๋ ์๋ค.
๐ ์์ ๋ฅผ ํ๋ฒ ์ดํด๋ณด๋๋ก ํ์๐.
$data = [4,8,9,15,21,21,24,25,26,28,29,34]$
1. Equal-depth (Equal-frequency) partitioning
- ๊ฐ Bin ๋ง๋ค ๊ฐ์ ๊ฐ์์ ๋ฐ์ดํฐ๊ฐ ๋ค์ด๊ฐ๋๋ก ์ค์
- Bin 1 : [4,8,9,15]
- Bin 2 : [21,21,24,25]
- Bin 3 : [26,28,29,34]
2. Smoothing by bin means
- Equal-depth์ ๊ฒฐ๊ณผ ๊ฐ Bin์ ๋ํด์ ํ๊ท ์ ์ทจํจ
- Bin 1 : [9,9,9,9]
- Bin 2 : [23,23,23,23]
- Bin 3 : [29,29,29,29]
3. Smoothing by bin boundaries
- Equal-depth์ ๊ฒฐ๊ณผ ๊ฐ ๊ฐ์ ๊ฐ Bin์ ๋ ๊ฐ๊น์ด ์๋ boundary๋ก ๋ณด๋
- Bin 1 : [4,4,4,15]
- Bin 2 : [21,21,25,25]
- Bin 3 : [26,26,26,34]
๐งฉ ์ด๋ฒ ํฌ์คํ
๊น์ง ํด์ ๋๋์ด
- Data Cleaning
- Data Integration
- Data Reduction
- Dimensionality Reduction
- Data Transformation
๊น์ง์ ์ด๋ฅด๋ Preprocessing์ ๋ํด์ ๋ชจ๋ ์์๋ณด์๋ค. ์๋ ๋ง๊ณ ๊ฐ๋ ๋ ๋ง์์ ์ด๋ค ์ํฉ์ ์ ํํ ๋ญ ์ฌ์ฉํ ์ง ํท๊ฐ๋ฆฌ๊ธฐ๋ ํ์ง๋ง, ์ ๋ฐ์ ์ธ ๋ชฉ์ ์ ๋ฐ์ดํฐ๋ฅผ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ํํ๋ก ์ ์ฒ๋ฆฌํ๋ค๋ ๊ฒ์ ์ฃผ๋ก ์๊ณ ์์ผ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค. ๊ฐ๊ฐ์ด ๋ ๋ฆฝ์ ์ด๋ผ๊ธฐ๋ณด๋ค๋ ๋ฐ์ดํฐ๋ฅผ ๊น๋ํ๊ฒ ๋ง๋ค๊ธฐ ์ํด์ ๋ณตํฉ์ ์ผ๋ก ์ฌ์ฉํ๋ค๋ ๋๋์ด ์ค์ํ๋ค๊ณ ์๊ฐํ๋ค๐๐.
๐งฉ ๋ค์ ํฌ์คํ ์์๋ Preprocessing์ ๋ํด์ ๊น๋ํ๊ฒ ํ์ด๋ณด๊ธฐ๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
Leave a comment