๐Ÿงฉ ์ด๋ฒˆ ํฌ์ŠคํŒ…๋ถ€ํ„ฐ๋Š” Data Preprocessing, ์ฆ‰ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ์— ๋Œ€ํ•ด์„œ ๋‹ค๋ฃฐ ์ƒ๊ฐ์ด๋‹ค. ์–ด์ฉŒ๋ฉด ์ •ํ™•ํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„์ด๋‚˜ ๋งˆ์ด๋‹์„ ์œ„ํ•ด์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ด๋ผ๊ณ ๋„ ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ด์™• ํ•˜๋Š” ๊ฑฐ ํ•œ๋ฒˆ์— ์ž์„ธํžˆ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

๐Ÿงฉ Data Preprocessing์€ ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•๋“ค๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

  • Data Cleaning
  • Data Integration
  • Data Reduction / TRansformation
  • Dimensinality Reduction

๐Ÿ‘‰ Distance ์ฒ˜๋Ÿผ ์ „์ฒ˜๋ฆฌ๋„ ๊ฐ ์ƒํ™ฉ์— ๋งž๋Š” ์—ฌ๋Ÿฌ๊ฐ€์ง€ measure๋“ค์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ํ•œ๋ฒˆ ์ฒœ์ฒœํžˆ ์•Œ์•„๋ณด์ž๐Ÿ˜€.

๐Ÿงฉ ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ฒซ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์ธ Data Cleaning์„ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค.


1. Data Cleaning ์†Œ๊ฐœ

๐Ÿงฉ ์šฐ๋ฆฌ๊ฐ€ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋Š” ๋Œ€๋ถ€๋ถ„ ๋ถˆํ•„์š”ํ•œ ๋ถ€๋ถ„์„ ๊ฐ€์ง€๊ณ  ์žˆ๊ฑฐ๋‚˜, ์ •ํ™•ํ•˜์ง€ ์•Š์€ ๋ถ€๋ถ„์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ์ด๋Ÿฐ ๋ถ€๋ถ„๋“ค์„ ๋งŒ๋“œ๋Š” ์›์ธ๋“ค์€ ์—ฌ๋Ÿฌ๊ฐ€์ง€๊ฐ€ ์žˆ๋Š”๋ฐ, ์ด ์ค‘์—์„œ ๋Œ€ํ‘œ์ ์ธ ๋ช‡๊ฐ€์ง€๋ฅผ ๊ฐ€์ ธ์™”๋‹ค.

  • Incomplete : ๋ฐ์ดํ„ฐ๋“ค ์‚ฌ์ด์— missing value ์กด์žฌ
  • Noisy: ๋ฐ์ดํ„ฐ ์ค‘๊ฐ„์— ์„ž์—ฌ์žˆ๋Š” noise, errors, outliers
  • Inconsistent : ๋‘ feature์˜ ๋ถˆ์ผ์น˜ - ex) age = 56, birth = 2020
  • Intentional : ์ผ๋ฐ˜ํ™” - ex) 1์›” 1์ผ์€ ๋ชจ๋“  ์‚ฌ๋žŒ๋“ค์˜ ์ƒ์ผ์ด๋‹ค.

๋”ฐ๋ผ์„œ ์ด ๋ถ€๋ถ„๋“ค์„ ์ ์ ˆํžˆ ์ฒ˜๋ฆฌํ•ด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๊นจ๋—์ด ๋งŒ๋“ค์–ด์ค˜์•ผ ํ•œ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๋Š” ์•ž์˜ ๋‘๊ฐ€์ง€ ๊ฒฝ์šฐ๋ฅผ ์œ„์ฃผ๋กœ ์‚ดํŽด๋ณด์ž.


2. Incomplete (Missing) Data

  • ๋ช‡๋ช‡ attribute์—์„œ value๊ฐ€ ์—†๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์˜๋ฏธํ•œ๋‹ค.
  • ์ด๋Ÿฌํ•œ missing value๊ฐ€ ๋‚˜ํƒ€๋‚˜๋Š” ์›์ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.
    • ์ธก์ • ์žฅ๋น„์˜ ์˜ค์ž‘๋™
    • ๊ธฐ๋ก๋œ ๋‹ค๋ฅธ ์ž๋ฃŒ์™€์˜ ๋ถˆ์ผ์น˜์— ์˜ํ•œ ์‚ญ์ œ
    • ์˜คํ•ด๋กœ ์ธํ•œ ๋ฐ์ดํ„ฐ ๋ฏธ์ž…๋ ฅ
    • ํŠน์ • ๋ฐ์ดํ„ฐ๊ฐ€ ์ž…๋ ฅ ์‹œ์— ๋ถˆํ•„์š”ํ•˜๋‹ค๊ณ  ์ƒ๊ฐ๋˜๋Š” ๊ฒฝ์šฐ
  • ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ๋“ค์€ ๋นˆ ์ž๋ฆฌ์— ์ž„์˜์˜ ๊ฐ’์„ ์ฑ„์›Œ๋„ฃ์–ด ์ฒ˜๋ฆฌํ•ด์ค„ ์ˆ˜ ์žˆ๋‹ค. ์ด๋•Œ ์ฑ„์›Œ๋„ฃ๋Š” ๊ฐ’๋“ค์€ ์•„๋ž˜์˜ ๋ฐฉ๋ฒ•์„ ๊ธฐ์ค€์œผ๋กœ ์ •ํ•ด์ง„๋‹ค.

  • ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•
    • ํ•ด๋‹น ํŠœํ”Œ(object) ๋ฌด์‹œ : ๋ณดํ†ต class์˜ label์ด ์กด์žฌํ•˜์ง€ ์•Š๋Š” ํŠœํ”Œ์ธ ๊ฒฝ์šฐ ๋ฌด์‹œํ•œ๋‹ค.
    • ๋นˆ value๋ฅผ ์ˆ˜๋™์œผ๋กœ ์ผ์ผ์ด ์ž…๋ ฅ : ์ž‘์—…๋Ÿ‰์ด ๋„ˆ๋ฌด ๋งŽ๊ณ , ์‚ฌ์‹ค์ƒ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค.
    • ๋นˆ value์— ์ž๋™์œผ๋กœ ์ž…๋ ฅ
      • global constanct : ์ž„์˜์˜ ์ˆซ์ž / ๋ฌธ์ž ์ž…๋ ฅ ex) 1, 0, โ€˜NaNโ€™โ€ฆ
      • attribute mean : attribute์˜ ํ‰๊ท  ์ž…๋ ฅ
      • attribute mean - same class : ๊ฐ™์€ class๋ฅผ ๊ฐ€์ง„ object์˜ ํ‰๊ท  ์ž…๋ ฅ
      • Bayesian formula or Decision Tree : inference ๊ธฐ๋ฐ˜ - prediction ์ž…๋ ฅ

3. Noisy Data

  • ๋ฐ์ดํ„ฐ์—์„œ Noise๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋œ๋‹ค.
    • ์ธก์ •๋œ ๋ณ€์ˆ˜์˜ random error / variance
    • Duplicated records(์ค‘๋ณต๊ธฐ๋ก)
    • Incomplete / Inconsistent
  • ์ฒ˜๋ฆฌ๋ฐฉ๋ฒ•
    • Binning : ์ •๋ ฌ๋˜์–ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ฐ™์€ ์‚ฌ์ด์ฆˆ์˜ bins๋กœ ๋‚˜๋ˆ”(equal-frequency)
      • smooth by bin means / median / boundaries
    • Regression : ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ noise๋ฅผ fittingํ•ด์„œ noise ๋ณด์ •
      • smooth by fitting the data into regression functions
    • Clustering : outlier ๋ฐœ๊ฒฌ / ์ œ๊ฑฐ
    • Semi-Supervised : ์ปดํ“จํ„ฐ + ์‚ฌ๋žŒ์˜ noise ๋ฐœ๊ฒฌ / ์ฒ˜๋ฆฌ

๐Ÿงฉ ๊ฐ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์€ ์•ž์œผ๋กœ ์ข€ ๋” ์ž์„ธํžˆ ๋‹ค๋ฃฐ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ์—ฌ๊ธฐ์„œ๋Š” ๊ฐ„๋‹จํžˆ ๊ฐœ๋…๋งŒ ์งš์–ด๋ณด์•˜๋‹ค.


4. Data Cleaning Process

  • 1. Data Discrepancy Detection : ๋ฐ์ดํ„ฐ ๋ถˆ์ผ์น˜ ๋ฐœ๊ฒฌ
    • Using Metadata : ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ •๋ณด
      • ๋ฐ์ดํ„ฐ์˜ ์†Œ์† domain, ๋ฐ์ดํ„ฐ ๋ฒ”์œ„, ๋ฐ์ดํ„ฐ์˜ distribution
    • Checking Uniqueness Rule : ๋ฐ์ดํ„ฐ๊ฐ€ ์œ ์ผํ•œ๊ฐ€
      • ex) ์ฃผ๋ฏผ๋“ฑ๋ก๋ฒˆํ˜ธ
    • Consecutive Rule : ๋ฐ์ดํ„ฐ๊ฐ€ ์—ฐ์†์ ์ธ๊ฐ€. ์–ด์ƒ‰ํ•˜์ง€ ์•Š์€๊ฐ€.
    • Null Rule : ๋ฐ์ดํ„ฐ์— null ๊ฐ’์ด ์กด์žฌํ•˜๋Š”๊ฐ€.
    • Data Scrubbing : ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ๊ธฐ๋ณธ ์ง€์‹์„ ๋ฐ”ํƒ•์œผ๋กœ ์˜ค๋ฅ˜๊ฒ€์ถœ / ์ˆ˜์ •
      • ex) ์šฐํŽธ๋ฒˆํ˜ธ / ์ฒ ์ž๊ฒ€์‚ฌ
    • Data Auditing : ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๊ทœ์น™์„ ๊ฒ€์ถœํ•˜๊ณ  ์˜ค๋ฅ˜๋ฅผ ๊ฒ€์ถœ
      • ex) Clustering
  • 2. Data Migration & Integration : ๋ฐ์ดํ„ฐ ์ด๋™ / ํ†ตํ•ฉ
  • 3. Integration of the two Process : ๋ถˆ์ผ์น˜ ๊ฒ€์ถœ / ๋ณ€ํ™˜
    • ๋ฐ˜๋ณต์ ์ด๊ณ  ์ƒํ˜ธ์ ์ธ ๋‹จ๊ณ„๋ฅผ ํ†ตํ•ด ๋‘ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ Integration ์ง„ํ–‰

๐Ÿงฉ ์ด๋ ‡๊ฒŒ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ์˜ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์ธ Data Cleaning์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด์•˜๋‹ค. ๊ฐ„๋‹จํ•˜๊ฒŒ ๊ฐœ๋…๋งŒ์„ ๋‹ค๋ฃจ์—ˆ๊ณ  ํŠน์ • ์˜ˆ์‹œ๋ฅผ ๋“ค์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฒƒ๋งŒ ๋ณด๊ณ  ๋ฐ”๋กœ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ต๋‹ค๊ณ  ์ƒ๊ฐํ•˜์ง€๋งŒ, ๊ทธ๋ƒฅ ์ด๋Ÿฐ ๊ฒƒ๋“ค์ด ์žˆ๊ตฌ๋‚˜~~ ์ •๋„๋งŒ ์•Œ๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค. ์–ด์ฐจํ”ผ ์ด๋ฒˆ์— ๋Œ€๋žต์ ์œผ๋กœ ๋‹ค๋ฃฌ ๊ฐœ๋…๋“ค์„ ์•ž์œผ๋กœ ๋” ์„ธ๋ถ€์ ์œผ๋กœ ๋‹ค๋ฃฐํ…Œ๋‹ˆ, ์ฒœ์ฒœํžˆ ํ•จ๊ป˜ ๋ฐฐ์›Œ๊ฐ€๋„๋ก ํ•˜์ž๐Ÿ˜Š. ๋‹ค์Œ ํฌ์ŠคํŒ…๋ถ€ํ„ฐ๋Š” Data Integration์„ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค๐Ÿƒโ€โ™‚๏ธ๐Ÿƒโ€โ™‚๏ธ.


๐Ÿ’ก์œ„ ํฌ์ŠคํŒ…์€ ํ•œ๊ตญ์™ธ๊ตญ์–ด๋Œ€ํ•™๊ต ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ๊ณตํ•™๋ถ€ ๊ณ ์œคํฌ ๊ต์ˆ˜๋‹˜์˜ [์ƒ๋ช…์ •๋ณดํ•™์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹] ๊ฐ•์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Leave a comment