๐Ÿงฉ ์ €๋ฒˆ ํฌ์ŠคํŒ…์—์„œ Data Cleaning์— ๋Œ€ํ•ด์„œ ๊ฐ„๋‹จํ•˜๊ฒŒ ์•Œ์•„๋ณด์•˜๋‹ค. ์ด์ œ๋Š” ๋ณธ๊ฒฉ์ ์ธ ์ „์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋“ค์„ ๋ฐฐ์›Œ๋‚˜๊ฐˆ ๊ฒƒ์ธ๋ฐ, ๋จผ์ € categorical data์˜ integration์„ ์œ„ํ•œ chi-square test๋ฅผ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.


1. Data Integration

๐Ÿงฉ ๋จผ์ € Data Interation์ด ๋ฌด์—‡์ธ์ง€, ์™œ ํ•˜๋Š”์ง€ ์งš์–ด๋ณด์ž.

๐Ÿงฉ Data Integration์€ ์—ฌ๋Ÿฌ ์ถœ์ฒ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ผ๊ด€๋œ ์ €์žฅ์†Œ๋กœ ํ†ตํ•ฉํ•˜๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๊ฐ๊ฐ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๋‹ค ์ถ•์†Œ๋œ ๋ฒ”์œ„์—์„œ ํ•œ๋ฒˆ์— ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์ด๋‹ค. ์ด๋Š” ๊ธฐ์—…์ด๋‚˜ ํฐ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๊ฐœ๋…์ด๊ณ , ๋ณดํ†ต Data Integration์ด๋ผ๋ฉด ๋ฐ์ดํ„ฐ์˜ attribute๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๋ณต์žกํ•  ์ˆ˜ ์žˆ๋Š” ์—ฐ์‚ฐ์„ ์ค„์ด๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ์˜ dimension์„ ์ค„์—ฌ ๋ถ„์„ํ•˜๋Š” ๊ฒƒ์— ์˜๋ฏธ๋ฅผ ๋‘”๋‹ค.

๐Ÿ‘‰ ์ฆ‰, ์•ž์œผ๋กœ ์šฐ๋ฆฌ๊ฐ€ ๋ฐฐ์›Œ๋‚˜๊ฐˆ ์—ฌ๋Ÿฌ๊ฐ€์ง€ measure๋“ค์€ attribute๋“ค์˜ Integration์„ ์œ„ํ•œ ๊ธฐ์ค€์„ ์ •ํ•˜๋Š” ๊ฒƒ์ด๋ผ ์ดํ•ดํ•˜๋ฉด ๋  ๋“ฏ ํ•˜๋‹ค.


2. Categorical Data : chi-square test

๐Ÿงฉ Data Integration์˜ ์ •์˜๋„ ์•Œ์•˜์œผ๋‹ˆ ์ด์ œ ์ฒซ๋ฒˆ์งธ measure๋ฅผ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž. ์ฒซ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์€ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์˜ ํ†ตํ•ฉ์„ ์œ„ํ•œ chi-square test ($ฯ‡^2-test$) ์ด๋‹ค.

๐Ÿงฉ ์นด์ด์ œ๊ณฑ๊ฒ€์ •์„ ํ†ตํ•ด attirubutei์™€ attributej์— ๋Œ€ํ•ด์„œ ๋‘ feature ๊ฐ„์˜ correlation(์—ฐ๊ด€์„ฑ)์ด ์žˆ๋Š”๊ฐ€ ์•Œ์•„๋ณด๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ•œ ๊ฐ€์ง€ ๊ฐ€์„ค์ด ํ•„์š”ํ•˜๋‹ค. ์ด๋ฅผ ์šฐ๋ฆฌ๋Š” Null ๊ฐ€์„ค์ด๋ผ๊ณ  ๋ถ€๋ฅผ ๊ฒƒ์ด๋‹ค.

โญ Null hypothesis : ๋‘ attribute i, j๊ฐ€ ์„œ๋กœ ๋…๋ฆฝ์ด๋‹ค. ์ฆ‰, ์„œ๋กœ ์•„๋ฌด๋Ÿฐ ์—ฐ๊ด€์„ฑ์ด ์—†๋‹ค.

๐Ÿ‘‰ ์ด์ œ ์นด์ด์ œ๊ณฑ๊ฒ€์ •์„ ์œ„ํ•œ ์ค€๋น„๋ฅผ ๋ชจ๋‘ ๋๋ƒˆ๋‹ค. ๋ณธ๊ฒฉ์ ์œผ๋กœ ์•Œ์•„๋ณด์ž.

๐Ÿ“ $ฯ‡^{2}-test$

๐Ÿ‘‰ ๊ฐ attribute A์™€ B๊ฐ€ i, j์˜ case๋ฅผ ๊ฐ€์งˆ๋•Œ ํ†ต๊ณ„๊ฐ’์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•ด์ง„๋‹ค.


$e_{ij} = \frac{count(A=a_i)\times{count(B=b_j)}}{n}\;\,,$


$ฯ‡^{2} = \sum_{i=1}^c\sum_{j=1}^r\frac{(o_{ij}-e_{ij})^2}{e_{ij}}$


โญ $e_{ij}$๋ฅผ ๊ตฌํ•  ๋•Œ Null ๊ฐ€์„ค์ด ์ ์šฉ๋œ๋‹ค. ์ฆ‰, $e_{ij}$๋Š” ๋‘ attribute๊ฐ€ ์„œ๋กœ ๋…๋ฆฝ์ด๋ผ๋Š” ๊ฐ€์ • ํ•˜์— ๊ตฌํ•ด์ง€๋Š” ํ†ต๊ณ„๊ฐ’์ด๊ณ , $o_{ij}$๋Š” ์–ด๋– ํ•œ ๊ฐ€์ • ์—†์ด ํ‘œ๋ณธ์˜ ์กฐ์‚ฌ ๊ฒฐ๊ณผ ๊ตฌํ•ด์ง€๋Š” ์‹ค์ œ ๊ฐ’์ด๋‹ค.

โญ ์ฆ‰, $o_{ij}$ (์‹ค์ œ ๊ด€์ธก๊ฐ’)์™€ $e_{ij}$ (๋…๋ฆฝ ๊ฐ€์ •์— ์˜ํ•œ ๊ฐ’)์˜ ์ฐจ์ด๊ฐ€ ํฌ๋‹ค๋Š” ๊ฒƒ์€ ์‹ค์ œ attribute i์™€ j๊ฐ€ ์„œ๋กœ ๋…๋ฆฝ์ด ์•„๋‹ˆ๋ผ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ๋”ฐ๋ผ์„œ $ฯ‡^{2}$ ๊ฐ€ ํด์ˆ˜๋ก ๋‘ attribute๊ฐ„์˜ correlation์ด ํฌ๋‹ค.

๐Ÿงฉ $ฯ‡^{2}$ ์˜ ์—ฐ์‚ฐ์‹์„ ๋ณด๋ฉด ์•Œ๊ฒ ์ง€๋งŒ, ๋‘ ์‹œ๊ทธ๋งˆ์˜ ์œ„๋์ด ๋‹ค๋ฅด๋‹ค. ์ฆ‰, ๊ฐ๊ฐ์˜ attribute๊ฐ€ ๊ฐ€์ง€๋Š” case์˜ ์ˆ˜์— ์ƒ๊ด€์—†์ด chi-square ๊ฐ’์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค. ๋”ฐ๋ผ์„œ ํ™œ์šฉ๋„๊ฐ€ ๊ต‰์žฅํžˆ ์ข‹์€ ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.

๐Ÿ‘‰ ๊ฐ€๋ณ๊ฒŒ ์—์‹œ๋ฅผ ํ•œ๋ฒˆ ์‚ดํŽด๋ณด๊ณ  ๋งˆ๋ฌด๋ฆฌํ•˜๋„๋ก ํ•˜์ž.


3. ๐Ÿ“ chi-square test ์˜ˆ์ œ

๐Ÿงฉ ์–ด๋–ค ์ •์ฑ…์— ์„ฑ๋ณ„ attribute A์™€ ์ฐฌ์„ฑ / ๋ฐ˜๋Œ€ case๋ฅผ ๊ฐ€์ง€๋Š” attribute B ๊ฐ„์˜ correlation์„ chi-sqare test๋ฅผ ํ†ตํ•ด ๊ตฌํ•ด๋ณด์ž.

๊ฐ attribute๋ฅผ ์ •๋ฆฌํ•œ ๊ฐ’์€ ์œ„์˜ ํ‘œ์™€ ๊ฐ™๋‹ค. ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ฐ๊ฐ์˜ $e_{ij}$๋ฅผ ๊ตฌํ•ด๋ณด์ž.

$e_{11} = \frac{M\times{Y}}{n} = \frac{450\times{300}}{1500}=90$


$e_{21} = \frac{F\times{Y}}{n} = \frac{1050\times{300}}{1500}=210$


$e_{12} = \frac{M\times{N}}{n} = \frac{450\times{1200}}{1500}=360$


$e_{22} = \frac{F\times{N}}{n} = \frac{1200\times{1050}}{1500}=840$


์ด์ œ ์ด ๊ฐ’๋“ค๋กœ chi-square ๊ฐ’์„ ๊ตฌํ•ด์ฃผ๋ฉด ๋œ๋‹ค. ๋ณด๋‹ค ํŽธํ•œ ์ดํ•ด๋ฅผ ์œ„ํ•ด์„œ $e_{ij}$๋ฅผ ํ‘œ์— ๋„ฃ์–ด ํ‘œํ˜„ํ•ด์ฃผ์—ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ chi-square๊ฐ’์„ ๊ตฌํ•ด์ฃผ์ž.

$ฯ‡^{2} = \frac{(250-90)^2}{90}+\frac{(200-360)^2}{360}+\frac{(50-210)^2}{210}+\frac{(1000-840)^2}{840}=507.93$


๐Ÿ‘‰ ์ด ์ •๋„๋ฉด ์ •๋ง ๋ง๋„ ์•ˆ๋˜๊ฒŒ ํฐ ๊ฐ’์ด๋‹ค. ์ฆ‰, ๋…๋ฆฝ์ด๋ผ๋Š” ๊ฐ€์ • (Null hypothesis) ํ•˜์—์„œ๋Š ์ ˆ๋Œ€๋กœ ๋‚˜์˜ฌ ์ˆ˜ ์—†๋Š” ๊ฐ’์ด๋ฏ€๋กœ, ๋‘ attribute๊ฐ€ ์„œ๋กœ ๋†’์€ correlation์„ ๊ฐ€์ง„๋‹ค๋Š” ์˜๋ฏธ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.


๐Ÿงฉ ์ด๋ ‡๊ฒŒ ์ˆ˜์‹๋„ ๋ฐฐ์šฐ๊ณ , ์˜ˆ์ œ๋ฅผ ํ•˜๋‚˜ ๋‹ค๋ฃธ์œผ๋กœ์จ chi-square test๋ฅผ ์•Œ์•„๋ณด์•˜๋‹ค. ์ง์ ‘ ํ•˜๊ธฐ์—๋Š” ๊ณ„์‚ฐํ•  ์–‘์ด ์ ์€ ํŽธ์€ ์•„๋‹ˆ๊ณ , attribute์˜ case๊ฐ€ ๋Š˜์–ด๋‚ ์ˆ˜๋ก ์—ฐ์‚ฐ๋Ÿ‰์ด ๋Š˜์–ด๋‚˜๊ฒ ์ง€๋งŒ, ์šฐ๋ฆฌ์˜ ์ฃผ๋ณ€์— ์žˆ๋Š” ์ˆ˜๋งŽ์€ ๋˜‘๋˜‘ํ•œ ๋ถ„๋“ค ๋•๋ถ„์— ์ด๋ฅผ ์ปดํ“จํ„ฐ์—์„œ ํ•œ๋ฒˆ์— ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋„ ์žˆ๊ณ , ํ•จ์ˆ˜๋„ ์žˆ๋‹ค. ์ •๋ง ๋ฉ‹์ง€๊ณ  ์†Œ์ค‘ํ•œ ๋ถ„๋“ค์ด๋‹ค(๋„™์ฃฝ๐Ÿ™‡โ€โ™‚๏ธ๐Ÿ™‡โ€โ™‚๏ธ).

๐Ÿงฉ ํ†ต๊ณ„๋ฅผ ๋ฐฐ์šด ๋ถ„๋“ค์ด๋ผ๋ฉด ์•„์‹ค ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ, ํ†ต๊ณ„์—์„œ์˜ ์นด์ด์ œ๊ณฑ๊ฒ€์ •๊ณผ ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„๋‹ค. ๋‹ค๋งŒ ํ†ต๊ณ„์—์„œ๋Š” ์œ ์˜์ˆ˜์ค€๊ณผ p-value๋ฅผ ํ†ตํ•ด์„œ ์ฃผ๋กœ ๊ฒ€์ •์„ ์ˆ˜ํ–‰ํ•˜์ง€๋งŒ, ์˜ค๋Š˜ ๋ฐฐ์šด ๋‚ด์šฉ์—์„œ๋Š” $ฯ‡^{2}$ ๊ฐ’์„ ์ง์ ‘ ๊ตฌํ•ด์„œ ๊ทธ ํฌ๊ธฐ๋กœ correlation์„ ๋ถ„์„ํ•˜๋‹ค๋Š” ์ ์ด ์‚ด์ง ๋‹ค๋ฅด๋‹ค.

๐Ÿงฉ ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” categorical data๋ฅผ ์œ„ํ•œ measure๋ฅผ ์•Œ์•„๋ณด์•˜๋‹ค. ๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ๋Š” Numerical Data๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋“ค์„ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž๐Ÿ˜€.


๐Ÿ’ก์œ„ ํฌ์ŠคํŒ…์€ ํ•œ๊ตญ์™ธ๊ตญ์–ด๋Œ€ํ•™๊ต ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ๊ณตํ•™๋ถ€ ๊ณ ์œคํฌ ๊ต์ˆ˜๋‹˜์˜ [์ƒ๋ช…์ •๋ณดํ•™์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹] ๊ฐ•์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Leave a comment