๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(9) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_2 : Integration / chi-square test
๐งฉ ์ ๋ฒ ํฌ์คํ ์์ Data Cleaning์ ๋ํด์ ๊ฐ๋จํ๊ฒ ์์๋ณด์๋ค. ์ด์ ๋ ๋ณธ๊ฒฉ์ ์ธ ์ ์ฒ๋ฆฌ๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ค์ ๋ฐฐ์๋๊ฐ ๊ฒ์ธ๋ฐ, ๋จผ์ categorical data์ integration์ ์ํ chi-square test๋ฅผ ์์๋ณด๋๋ก ํ์.
1. Data Integration
๐งฉ ๋จผ์ Data Interation์ด ๋ฌด์์ธ์ง, ์ ํ๋์ง ์ง์ด๋ณด์.
๐งฉ Data Integration์ ์ฌ๋ฌ ์ถ์ฒ์ ๋ฐ์ดํฐ๋ฅผ ์ผ๊ด๋ ์ ์ฅ์๋ก ํตํฉํ๊ฑฐ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ํตํฉํ์ฌ ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๋ค ์ถ์๋ ๋ฒ์์์ ํ๋ฒ์ ๋ค๋ฃจ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ ๊ธฐ์ ์ด๋ ํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ๊ฐ๋ ์ด๊ณ , ๋ณดํต Data Integration์ด๋ผ๋ฉด ๋ฐ์ดํฐ์ attribute๋ฅผ ํตํฉํ์ฌ ๋ณต์กํ ์ ์๋ ์ฐ์ฐ์ ์ค์ด๊ฑฐ๋ ๋ฐ์ดํฐ์ dimension์ ์ค์ฌ ๋ถ์ํ๋ ๊ฒ์ ์๋ฏธ๋ฅผ ๋๋ค.
๐ ์ฆ, ์์ผ๋ก ์ฐ๋ฆฌ๊ฐ ๋ฐฐ์๋๊ฐ ์ฌ๋ฌ๊ฐ์ง measure๋ค์ attribute๋ค์ Integration์ ์ํ ๊ธฐ์ค์ ์ ํ๋ ๊ฒ์ด๋ผ ์ดํดํ๋ฉด ๋ ๋ฏ ํ๋ค.
2. Categorical Data : chi-square test
๐งฉ Data Integration์ ์ ์๋ ์์์ผ๋ ์ด์ ์ฒซ๋ฒ์งธ measure๋ฅผ ์์๋ณด๋๋ก ํ์. ์ฒซ๋ฒ์งธ ๋ฐฉ๋ฒ์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ํตํฉ์ ์ํ chi-square test ($ฯ^2-test$) ์ด๋ค.
๐งฉ ์นด์ด์ ๊ณฑ๊ฒ์ ์ ํตํด attirubutei์ attributej์ ๋ํด์ ๋ feature ๊ฐ์ correlation(์ฐ๊ด์ฑ)์ด ์๋๊ฐ ์์๋ณด๊ธฐ ์ํด์๋ ํ ๊ฐ์ง ๊ฐ์ค์ด ํ์ํ๋ค. ์ด๋ฅผ ์ฐ๋ฆฌ๋ Null ๊ฐ์ค์ด๋ผ๊ณ ๋ถ๋ฅผ ๊ฒ์ด๋ค.
โญ Null hypothesis : ๋ attribute i, j๊ฐ ์๋ก ๋ ๋ฆฝ์ด๋ค. ์ฆ, ์๋ก ์๋ฌด๋ฐ ์ฐ๊ด์ฑ์ด ์๋ค.
๐ ์ด์ ์นด์ด์ ๊ณฑ๊ฒ์ ์ ์ํ ์ค๋น๋ฅผ ๋ชจ๋ ๋๋๋ค. ๋ณธ๊ฒฉ์ ์ผ๋ก ์์๋ณด์.
๐ $ฯ^{2}-test$
โญ $e_{ij}$๋ฅผ ๊ตฌํ ๋ Null ๊ฐ์ค์ด ์ ์ฉ๋๋ค. ์ฆ, $e_{ij}$๋ ๋ attribute๊ฐ ์๋ก ๋ ๋ฆฝ์ด๋ผ๋ ๊ฐ์ ํ์ ๊ตฌํด์ง๋ ํต๊ณ๊ฐ์ด๊ณ , $o_{ij}$๋ ์ด๋ ํ ๊ฐ์ ์์ด ํ๋ณธ์ ์กฐ์ฌ ๊ฒฐ๊ณผ ๊ตฌํด์ง๋ ์ค์ ๊ฐ์ด๋ค.
โญ ์ฆ, $o_{ij}$ (์ค์ ๊ด์ธก๊ฐ)์ $e_{ij}$ (๋ ๋ฆฝ ๊ฐ์ ์ ์ํ ๊ฐ)์ ์ฐจ์ด๊ฐ ํฌ๋ค๋ ๊ฒ์ ์ค์ attribute i์ j๊ฐ ์๋ก ๋ ๋ฆฝ์ด ์๋๋ผ๋ ๊ฒ์ ์๋ฏธํ๋ค. ๋ฐ๋ผ์ $ฯ^{2}$ ๊ฐ ํด์๋ก ๋ attribute๊ฐ์ correlation์ด ํฌ๋ค.
๐งฉ $ฯ^{2}$ ์ ์ฐ์ฐ์์ ๋ณด๋ฉด ์๊ฒ ์ง๋ง, ๋ ์๊ทธ๋ง์ ์๋์ด ๋ค๋ฅด๋ค. ์ฆ, ๊ฐ๊ฐ์ attribute๊ฐ ๊ฐ์ง๋ case์ ์์ ์๊ด์์ด chi-square ๊ฐ์ ๊ณ์ฐํ ์ ์๋ค๋ ์๋ฏธ์ด๋ค. ๋ฐ๋ผ์ ํ์ฉ๋๊ฐ ๊ต์ฅํ ์ข์ ๋ฐฉ๋ฒ ์ค ํ๋๋ผ๊ณ ํ ์ ์์ ๊ฒ ๊ฐ๋ค.
๐ ๊ฐ๋ณ๊ฒ ์์๋ฅผ ํ๋ฒ ์ดํด๋ณด๊ณ ๋ง๋ฌด๋ฆฌํ๋๋ก ํ์.
3. ๐ chi-square test ์์
๐งฉ ์ด๋ค ์ ์ฑ ์ ์ฑ๋ณ attribute A์ ์ฐฌ์ฑ / ๋ฐ๋ case๋ฅผ ๊ฐ์ง๋ attribute B ๊ฐ์ correlation์ chi-sqare test๋ฅผ ํตํด ๊ตฌํด๋ณด์.
๊ฐ attribute๋ฅผ ์ ๋ฆฌํ ๊ฐ์ ์์ ํ์ ๊ฐ๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ๊ฐ์ $e_{ij}$๋ฅผ ๊ตฌํด๋ณด์.
์ด์ ์ด ๊ฐ๋ค๋ก chi-square ๊ฐ์ ๊ตฌํด์ฃผ๋ฉด ๋๋ค. ๋ณด๋ค ํธํ ์ดํด๋ฅผ ์ํด์ $e_{ij}$๋ฅผ ํ์ ๋ฃ์ด ํํํด์ฃผ์๋ค.
๋ง์ง๋ง์ผ๋ก chi-square๊ฐ์ ๊ตฌํด์ฃผ์.
๐ ์ด ์ ๋๋ฉด ์ ๋ง ๋ง๋ ์๋๊ฒ ํฐ ๊ฐ์ด๋ค. ์ฆ, ๋ ๋ฆฝ์ด๋ผ๋ ๊ฐ์ (Null hypothesis) ํ์์๋ ์ ๋๋ก ๋์ฌ ์ ์๋ ๊ฐ์ด๋ฏ๋ก, ๋ attribute๊ฐ ์๋ก ๋์ correlation์ ๊ฐ์ง๋ค๋ ์๋ฏธ๋ผ๊ณ ํ ์ ์์ ๊ฒ์ด๋ค.
๐งฉ ์ด๋ ๊ฒ ์์๋ ๋ฐฐ์ฐ๊ณ , ์์ ๋ฅผ ํ๋ ๋ค๋ฃธ์ผ๋ก์จ chi-square test๋ฅผ ์์๋ณด์๋ค. ์ง์ ํ๊ธฐ์๋ ๊ณ์ฐํ ์์ด ์ ์ ํธ์ ์๋๊ณ , attribute์ case๊ฐ ๋์ด๋ ์๋ก ์ฐ์ฐ๋์ด ๋์ด๋๊ฒ ์ง๋ง, ์ฐ๋ฆฌ์ ์ฃผ๋ณ์ ์๋ ์๋ง์ ๋๋ํ ๋ถ๋ค ๋๋ถ์ ์ด๋ฅผ ์ปดํจํฐ์์ ํ๋ฒ์ ๊ณ์ฐํ ์ ์๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์๊ณ , ํจ์๋ ์๋ค. ์ ๋ง ๋ฉ์ง๊ณ ์์คํ ๋ถ๋ค์ด๋ค(๋์ฃฝ๐โโ๏ธ๐โโ๏ธ).
๐งฉ ํต๊ณ๋ฅผ ๋ฐฐ์ด ๋ถ๋ค์ด๋ผ๋ฉด ์์ค ์ ์๊ฒ ์ง๋ง, ํต๊ณ์์์ ์นด์ด์ ๊ณฑ๊ฒ์ ๊ณผ ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค. ๋ค๋ง ํต๊ณ์์๋ ์ ์์์ค๊ณผ p-value๋ฅผ ํตํด์ ์ฃผ๋ก ๊ฒ์ ์ ์ํํ์ง๋ง, ์ค๋ ๋ฐฐ์ด ๋ด์ฉ์์๋ $ฯ^{2}$ ๊ฐ์ ์ง์ ๊ตฌํด์ ๊ทธ ํฌ๊ธฐ๋ก correlation์ ๋ถ์ํ๋ค๋ ์ ์ด ์ด์ง ๋ค๋ฅด๋ค.
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ categorical data๋ฅผ ์ํ measure๋ฅผ ์์๋ณด์๋ค. ๋ค์ ํฌ์คํ ์์๋ Numerical Data๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ค์ ์์๋ณด๋๋ก ํ์๐.
Leave a comment