๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(11) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_4 : Reduction / Introduce
๐งฉ ์ ๋ฒ ํฌ์คํ ๊น์ง ํด์ Data Integration์ ๋ค๋ค๋ค. ์ด์ ๋ถํฐ๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ฅผ ์ํด ๊ฐ์ฅ ์ค์ํ๋ค๊ณ ํ ์ ์๋ Data Reduction์ ๋ํด ์์๋ณด๋๋ก ํ์.
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ Data Reduction์ ์ ํด์ผ ํ๋์ง, ์ ์ค์ํ์ง. ๊ทธ๋ฆฌ๊ณ ์ด๋ค ์ข ๋ฅ๊ฐ ์๋์ง๋ฅผ ๊ฐ๋ณ๊ฒ ๋ค๋ฃฐ ๊ฒ์ด๋ค.
1. Data Reduction์ด๋??
๐งฉ ์ค์ ๋ก ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃฐ ๋ฐ์ดํฐ์๋ ๋ถํ์ํ ์ ๋ณด๋ค๋ ๋ง์ด ํฌํจ๋์ด ์๊ณ , ์ด๋ฏธ ๊ฐ์ง๊ณ ์๋ ๊ฐ์ ์ค๋ณตํด์ ๊ฐ์ง๊ณ ์๋ ๊ฒฝ์ฐ๋ ์๋ค. ๋ํ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์์ด ํฉ์น ์ ์์ผ๋ ์๋ณธ ๋ฐ์ดํฐ์์๋ ์ฌ๋ฌ ๊ฐ์ attribute๋ก ๋๋ ์ ธ ์๋ ๊ฒฝ์ฐ๋ ์ญ์ ์กด์ฌํ๋ค. ์ด๋ ๊ฒ ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ ๋ฐ์๋ ์๊ฐ๋, ๋ ธ๋ ฅ๋ ๋ง์ด ํ์ํ๊ธฐ ๋๋ฌธ์ ๋ฏธ๋ฆฌ ๋ฐ์ดํฐ๋ฅผ ์ด๋์ ๋ ๊ฐ๋จํ ๋ง๋๋ ๊ณผ์ ์ด ํ์ํ๋ค. ์ด๋ ๊ฒ ๋ถํ์ํ attribute ๋๋ object๋ฅผ ์ค์ฌ ๋ฐ์ดํฐ์ dimension์ ์ค์ด๋ ๊ณผ์ ์ Data Reduction์ด๋ผ๊ณ ํ๋ค.
2. Data Reduction ๋ฐฉ๋ฒ
๐งฉ Data์ ๋ณต์ก๋๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ์๋ object๋ฅผ ์ค์ด๊ฑฐ๋ attribute, ์ฆ dimension์ ์ค์ด๋ ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค. ๋ํ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ฅ ์์ถํ๋ ๋ฐฉ๋ฒ๋ ์๋ค. ๊ฐ๊ฐ์ ๋ํด ๊ฐ๋จํ ์์๋ณด๋๋ก ํ์.
๐ 1. object ์ค์ด๊ธฐ : Numerosity Reduction
- Parametric Methods
- ์
๋ฐ์ดํธ ํ parameter๋ฅผ ๊ฐ์ง๋ ๋ฐฉ๋ฒ
- Reduction์ ์ํ Assumption์ด ํ์ํจ
- ์ฆ, ๋ฐ์ดํฐ๊ฐ ์ด๋ ํ ๋ชจ๋ธ์ fitting๋ ๊ฒ์ด๋ผ๋ ์์์ ๋ชจ๋ธ์ ๊ฐ์ ํ๊ณ ์งํ
- ex) Linear Regeression
- Non-Parametric Methods
- parameter๊ฐ ์๋ ๋ฐฉ๋ฒ
- assumption์ด ์์
- ๋ชจ๋ธ์ ๊ฐ์ ํ์ง ์๊ธฐ ๋๋ฌธ์ ์ด๋ ค์
- ex) Histogram, Clustering, Sampling
๐ 2. Attribute ์ค์ด๊ธฐ : Dimensionality Reduction
- Principal Component Analysis (PCA)
- attribute๋ฅผ combinationํ ์๋ก์ด dimension ์์ฑ
- ์๋ก์ด dimension์ ์ถ์ผ๋ก ํด์ ๊ธฐ์กด์ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช
ํ๋ ๋ฐฉ๋ฒ
- Subset Selection
- ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช
ํ ์ ์๋ subset model์ ์ ํํด์ dimension์ ์ค์ด๋ ๋ฐฉ๋ฒ
๐ 3. Data Compression
- String Compression
- Audio / Video Compression
๐งฉ ์ด๋ ๊ฒ ํด์ ๊ฐ๋จํ๊ฒ Data Reduction์ ์์๋ณด์๋ค. ๋ค์ ํฌ์คํ ์ Parametric Method๋ถํฐ ๋ณธ๊ฒฉ์ ์ผ๋ก ์์๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
Leave a comment