๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(8) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_1 : Cleaning
๐งฉ ์ด๋ฒ ํฌ์คํ ๋ถํฐ๋ Data Preprocessing, ์ฆ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๋ํด์ ๋ค๋ฃฐ ์๊ฐ์ด๋ค. ์ด์ฉ๋ฉด ์ ํํ ๋ฐ์ดํฐ ๋ถ์์ด๋ ๋ง์ด๋์ ์ํด์ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ์ด๋ผ๊ณ ๋ ํ ์ ์๊ธฐ ๋๋ฌธ์, ์ด์ ํ๋ ๊ฑฐ ํ๋ฒ์ ์์ธํ ์์๋ณด๋๋ก ํ์.
๐งฉ Data Preprocessing์ ์๋์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค๋ก ๊ตฌ์ฑ๋๋ค.
- Data Cleaning
- Data Integration
- Data Reduction / TRansformation
- Dimensinality Reduction
๐ Distance ์ฒ๋ผ ์ ์ฒ๋ฆฌ๋ ๊ฐ ์ํฉ์ ๋ง๋ ์ฌ๋ฌ๊ฐ์ง measure๋ค์ ๊ฐ์ง๊ณ ์๋ค. ํ๋ฒ ์ฒ์ฒํ ์์๋ณด์๐.
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ ์ฒซ๋ฒ์งธ ๋ฐฉ๋ฒ์ธ Data Cleaning์ ๋ค๋ฃฐ ๊ฒ์ด๋ค.
1. Data Cleaning ์๊ฐ
๐งฉ ์ฐ๋ฆฌ๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ ๋๋ถ๋ถ ๋ถํ์ํ ๋ถ๋ถ์ ๊ฐ์ง๊ณ ์๊ฑฐ๋, ์ ํํ์ง ์์ ๋ถ๋ถ์ ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ์ผ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ์ด๋ฐ ๋ถ๋ถ๋ค์ ๋ง๋๋ ์์ธ๋ค์ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์๋๋ฐ, ์ด ์ค์์ ๋ํ์ ์ธ ๋ช๊ฐ์ง๋ฅผ ๊ฐ์ ธ์๋ค.
- Incomplete : ๋ฐ์ดํฐ๋ค ์ฌ์ด์ missing value ์กด์ฌ
- Noisy: ๋ฐ์ดํฐ ์ค๊ฐ์ ์์ฌ์๋ noise, errors, outliers
- Inconsistent : ๋ feature์ ๋ถ์ผ์น - ex) age = 56, birth = 2020
- Intentional : ์ผ๋ฐํ - ex) 1์ 1์ผ์ ๋ชจ๋ ์ฌ๋๋ค์ ์์ผ์ด๋ค.
๋ฐ๋ผ์ ์ด ๋ถ๋ถ๋ค์ ์ ์ ํ ์ฒ๋ฆฌํด์ ๋ฐ์ดํฐ๋ฅผ ๊นจ๋์ด ๋ง๋ค์ด์ค์ผ ํ๋ค. ๋ํ์ ์ผ๋ก ๋ฐ์ํ๋ ์์ ๋๊ฐ์ง ๊ฒฝ์ฐ๋ฅผ ์์ฃผ๋ก ์ดํด๋ณด์.
2. Incomplete (Missing) Data
- ๋ช๋ช attribute์์ value๊ฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํ๋ค.
- ์ด๋ฌํ missing value๊ฐ ๋ํ๋๋ ์์ธ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ธก์ ์ฅ๋น์ ์ค์๋
- ๊ธฐ๋ก๋ ๋ค๋ฅธ ์๋ฃ์์ ๋ถ์ผ์น์ ์ํ ์ญ์
- ์คํด๋ก ์ธํ ๋ฐ์ดํฐ ๋ฏธ์ ๋ ฅ
- ํน์ ๋ฐ์ดํฐ๊ฐ ์
๋ ฅ ์์ ๋ถํ์ํ๋ค๊ณ ์๊ฐ๋๋ ๊ฒฝ์ฐ
-
์ด๋ฌํ ๋ฐ์ดํฐ๋ค์ ๋น ์๋ฆฌ์ ์์์ ๊ฐ์ ์ฑ์๋ฃ์ด ์ฒ๋ฆฌํด์ค ์ ์๋ค. ์ด๋ ์ฑ์๋ฃ๋ ๊ฐ๋ค์ ์๋์ ๋ฐฉ๋ฒ์ ๊ธฐ์ค์ผ๋ก ์ ํด์ง๋ค.
- ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
- ํด๋น ํํ(object) ๋ฌด์ : ๋ณดํต class์ label์ด ์กด์ฌํ์ง ์๋ ํํ์ธ ๊ฒฝ์ฐ ๋ฌด์ํ๋ค.
- ๋น value๋ฅผ ์๋์ผ๋ก ์ผ์ผ์ด ์ ๋ ฅ : ์์ ๋์ด ๋๋ฌด ๋ง๊ณ , ์ฌ์ค์ ๋ถ๊ฐ๋ฅํ๋ค.
- ๋น value์ ์๋์ผ๋ก ์
๋ ฅ
- global constanct : ์์์ ์ซ์ / ๋ฌธ์ ์ ๋ ฅ ex) 1, 0, โNaNโโฆ
- attribute mean : attribute์ ํ๊ท ์ ๋ ฅ
- attribute mean - same class : ๊ฐ์ class๋ฅผ ๊ฐ์ง object์ ํ๊ท ์ ๋ ฅ
- Bayesian formula or Decision Tree : inference ๊ธฐ๋ฐ - prediction ์ ๋ ฅ
3. Noisy Data
- ๋ฐ์ดํฐ์์ Noise๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
- ์ธก์ ๋ ๋ณ์์ random error / variance
- Duplicated records(์ค๋ณต๊ธฐ๋ก)
- Incomplete / Inconsistent
- ์ฒ๋ฆฌ๋ฐฉ๋ฒ
- Binning : ์ ๋ ฌ๋์ด ์๋ ๋ฐ์ดํฐ์ ๋ํด ๊ฐ์ ์ฌ์ด์ฆ์ bins๋ก ๋๋(equal-frequency)
- smooth by bin means / median / boundaries
- Regression : ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก noise๋ฅผ fittingํด์ noise ๋ณด์
- smooth by fitting the data into regression functions
- Clustering : outlier ๋ฐ๊ฒฌ / ์ ๊ฑฐ
- Semi-Supervised : ์ปดํจํฐ + ์ฌ๋์ noise ๋ฐ๊ฒฌ / ์ฒ๋ฆฌ
- Binning : ์ ๋ ฌ๋์ด ์๋ ๋ฐ์ดํฐ์ ๋ํด ๊ฐ์ ์ฌ์ด์ฆ์ bins๋ก ๋๋(equal-frequency)
๐งฉ ๊ฐ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ ์์ผ๋ก ์ข ๋ ์์ธํ ๋ค๋ฃฐ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ฌ๊ธฐ์๋ ๊ฐ๋จํ ๊ฐ๋ ๋ง ์ง์ด๋ณด์๋ค.
4. Data Cleaning Process
- 1. Data Discrepancy Detection : ๋ฐ์ดํฐ ๋ถ์ผ์น ๋ฐ๊ฒฌ
- Using Metadata : ๋ฐ์ดํฐ์ ๋ํ ์ ๋ณด
- ๋ฐ์ดํฐ์ ์์ domain, ๋ฐ์ดํฐ ๋ฒ์, ๋ฐ์ดํฐ์ distribution
- Checking Uniqueness Rule : ๋ฐ์ดํฐ๊ฐ ์ ์ผํ๊ฐ
- ex) ์ฃผ๋ฏผ๋ฑ๋ก๋ฒํธ
- Consecutive Rule : ๋ฐ์ดํฐ๊ฐ ์ฐ์์ ์ธ๊ฐ. ์ด์ํ์ง ์์๊ฐ.
- Null Rule : ๋ฐ์ดํฐ์ null ๊ฐ์ด ์กด์ฌํ๋๊ฐ.
- Data Scrubbing : ๋๋ฉ์ธ์ ๋ํ ๊ธฐ๋ณธ ์ง์์ ๋ฐํ์ผ๋ก ์ค๋ฅ๊ฒ์ถ / ์์
- ex) ์ฐํธ๋ฒํธ / ์ฒ ์๊ฒ์ฌ
- Data Auditing : ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ๊ท์น์ ๊ฒ์ถํ๊ณ ์ค๋ฅ๋ฅผ ๊ฒ์ถ
- ex) Clustering
- ex) Clustering
- Using Metadata : ๋ฐ์ดํฐ์ ๋ํ ์ ๋ณด
- 2. Data Migration & Integration : ๋ฐ์ดํฐ ์ด๋ / ํตํฉ
- Data Migration Tools : ๋ณํํ attribute ์ง์
- ex) sex $\rightarrow$ gender
- ETL tools : Extraction / Transformation / Loading
- ์ฌ์ฉ์ ์ธํฐํ์ด์ค(UI)๋ฅผ ํตํ ๋ฐ์ดํฐ ๋ณํ ์ง์
- ์ฌ์ฉ์ ์ธํฐํ์ด์ค(UI)๋ฅผ ํตํ ๋ฐ์ดํฐ ๋ณํ ์ง์
- Data Migration Tools : ๋ณํํ attribute ์ง์
- 3. Integration of the two Process : ๋ถ์ผ์น ๊ฒ์ถ / ๋ณํ
- ๋ฐ๋ณต์ ์ด๊ณ ์ํธ์ ์ธ ๋จ๊ณ๋ฅผ ํตํด ๋ ๋ฐ์ดํฐ ๊ฐ์ Integration ์งํ
๐งฉ ์ด๋ ๊ฒ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์ธ Data Cleaning์ ๋ํด์ ์์๋ณด์๋ค. ๊ฐ๋จํ๊ฒ ๊ฐ๋ ๋ง์ ๋ค๋ฃจ์๊ณ ํน์ ์์๋ฅผ ๋ค์ง ์์๊ธฐ ๋๋ฌธ์ ์ด๊ฒ๋ง ๋ณด๊ณ ๋ฐ๋ก ์ดํดํ๋ ๊ฒ์ ์ด๋ ต๋ค๊ณ ์๊ฐํ์ง๋ง, ๊ทธ๋ฅ ์ด๋ฐ ๊ฒ๋ค์ด ์๊ตฌ๋~~ ์ ๋๋ง ์๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค. ์ด์ฐจํผ ์ด๋ฒ์ ๋๋ต์ ์ผ๋ก ๋ค๋ฃฌ ๊ฐ๋ ๋ค์ ์์ผ๋ก ๋ ์ธ๋ถ์ ์ผ๋ก ๋ค๋ฃฐํ ๋, ์ฒ์ฒํ ํจ๊ป ๋ฐฐ์๊ฐ๋๋ก ํ์๐. ๋ค์ ํฌ์คํ ๋ถํฐ๋ Data Integration์ ๋ค๋ฃฐ ๊ฒ์ด๋ค๐โโ๏ธ๐โโ๏ธ.
Leave a comment