๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(24) ํจํด๋ถ์_4 : Pattern Evaluation(1)
๐งฉ ์ ๋ฒ ํฌ์คํ ๋ค์์ support, confidence๊ฐ ๋ฌด์์ธ์ง ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ฌ์ฉํด์ pattern์ ๋ฐ๊ฒฌํ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ฌด์์ธ์ง์ ๋ํด์ ์์๋ณด์๋ค. ์ด๋ฒ ํฌ์คํ ์์๋ ๋ด๊ฐ ์ฐพ์๋ธ ํจํด์ด ๋ฐ์ดํฐ๋ฅผ ์ ์ค๋ช ํ๋๊ฐ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด์ ์์๋ณด๋๋ก ํ์.
1. Pattern Evaluation Index
๐งฉ ์ด๋ป๊ฒ ๋ณด๋ฉด ํจํด์ ์ฐพ์๋ด๋ ๊ฒ๋ณด๋ค ์ค์ํ ๋ด์ฉ์ด๋ผ๊ณ ์๊ฐํ๋ค. ์ด๋ฒ ํฌ์คํ
๊ณผ ๋ค์ ํฌ์คํ
์ ๊ฑธ์ณ์ ๋ค๋ฃฐ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ๋ชฉ์ฐจ ๋๋์ผ๋ก ํ๋ฒ ์ดํด๋ณด๋๋ก ํ์.
- 1. Limitaion of the Support-Confidence framework
- 2. Interestingness Measures : Lift, chi-square
- 3. Null-Invariant measures โญ
๐งฉ ์์ ๋ ํฌ์คํ
์์ ๋ดค๋ฏ์ด Pattern Mining์ ๋ค์ํ Pattern๊ณผ Rule์ ๋ง๋ค ์ ์๋ค. ํ์ง๋ง ๋ด๊ฐ ๋ฐ๊ฒฌํ Rule๋ค์ด ํญ์ ์๋ฏธ์์ ๊ฒ์ด๋ผ ๋จ์ ์ง์ ์๋ ์๊ณ , ์ด์ ๋ํด์ ์ข ๋ ์จ๊ฒจ์ ธ ์๋ ๊ฒ๋ค์ ์ฐพ์๋ด๊ธฐ ์ํด ์ฌ๋ฌ๊ฐ์ง measure๋ฅผ ์์๋ณธ๋ค๊ณ ์๊ฐํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค๐. ์ด๋ฒ ํฌ์คํ
์์๋ 1,2 ์ฃผ์ ์ ๋ํด์ ๋ค๋ฃฐ ๊ฒ์ด๋ค.
2. Limitaion of the Support-Confidence framework
๐งฉ ์ด๋๊น์ง ์ฐ๋ฆฌ๊ฐ ํจํด์ ์ฐพ๊ธฐ ์ํด ์ฌ์ฉํ Measure๋ Support, Confidence ์ด๋ค. ํ์ง๋ง ์ด ์น๊ตฌ๋ค์๊ฒ๋ ๊ฝค๋ ํฐ ํ๊ณ๊ฐ ์๋ค. ์ด ์ ์์๋ ๊ทธ์ ๋ํด์ ์์๋ณผ ๊ฒ์ด๋ค. ์ง๊ด์ ์ธ ์ดํด๋ฅผ ์ํด ๋จผ์ ์ฑ๋ณ์ ๋ฐ๋ฅธ ์ ์ฑ
์ฐฌ๋ฐ์ ๋ํ ์์๋ฅผ ํ๋ ์ดํด๋ณด์.
๐งฉ ์ด๋ ๊ฐ attribute์ itemset๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ์์๋ณผ ํ
๋ฐ, ์ผ๋จ ์ฐ๋ฆฌ๊ฐ ๋ฐฐ์ด ๊ฑด support์ confidence ๋ฟ์ด๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ํตํด์ ๊ตฌํด๋ณด๋๋ก ํ์.
๐งฉ ์ด ์์์์ ์ฐ๋ฆฌ๊ฐ ์๊ณ ์ถ์ ๊ฒ์ Male๊ณผ attribute B ๊ฐ์ ์ฐ๊ด๊ด๊ณ์ด๋ค. <๐1>์ ๋จผ์ ์ดํด๋ณด๋ฉด ์ ์ฒด ํ๋ณธ์ ๋ํ Male์ ๋น์จ์ $750/1000=75\%$ ์ธ ๋ฐ๋ฉด์, 1์ ์กฐ๊ฑด์ ์ํ confidence๋ $400/600=66.7\%$ ๋ก ๋จ์ด์ง ๊ฒ์ ์ ์ ์๋ค. ๋ํ <๐2>์ ์กฐ๊ฑด์ ์ํ confidence๋ $350/400=87.5\%$ ๋ก ์์นํ ๊ฒ์ ์ ์ ์๋ค. ์ฆ, Support์ Confidence๋ ๊ทธ ํ๋ณธ์ด ๋ฌ๋ผ์ง์ ๋ฐ๋ผ์ ์๊ณ ์ ํ๋ ๋น์จ์ด ํฌ๊ฒ ๋ณ๋ํ๋ค. ๋ฐ๋ผ์ ๊ทธ ๊ฐ๋ง ๊ฐ์ง๊ณ ๋ attribute ๊ฐ์ ์ ํํ Association Rule์ ์์๋ด๊ธฐ ์ด๋ ต๋ค.
๐งฉ ์์ ์์ ์์ ์์๋ณธ ์ด๋ฌํ ํ๊ณ ๋๋ฌธ์ ์ฐ๋ฆฌ๋ ์ด๋ฅผ ๋ณด์ํ ์ ์๋ Measure ๊ฐ ํ์ํด์ก๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ก์จ ๋ฑ์ฅํ ๋ฐฉ๋ฒ๋ค์ด ๋ค์ ์ ์์ ์ดํด๋ณผ Lift์ chi-square ์ด๋ค.
3. Interestingness Measures
๐ฉ 3.1. Lift
๐งฉ Lift๋ ๊ฐ itemset๊ฐ ์๋ก positive ํ๋ negative ํ๋์ ๋ฐ๋ผ ๊ทธ ์ฐ๊ด๊ด๊ณ๋ฅผ ํ์
ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ณ์ฐ์์ ์๋์ ๊ฐ๋ค.
๐งฉ ์์ ๋ค๋ฃฌ ์์๋ฅผ ๊ฐ์ง๊ณ ์ง์ Lift ๊ฐ์ ๊ตฌํด๋ณด์.
๐งฉ ์์ ์์์์ ์ผํ ๋ดค์ ๋ ์ ์ฑ
์ ์ฐฌ๋ฐ ์ฌ๋ถ์ ์ข ๋ ๊ด๋ จ์ด ์์ด ๋ณด์ด๋ ์ฑ๋ณ์ M ์ด์ง๋ง, ์ค์ ๋ก Lift๋ฅผ ํตํด ์ฐ๊ด๊ด๊ณ๋ฅผ ๋ถ์ํด๋ณด๋ฉด ์คํ๋ ค F๊ฐ ๋ positiveํ ๊ด๊ณ๊ฐ ์์์ ์ ์ ์๋ค.
๐ฉ 3.2. Chi-square ($ฯ^2-test$)
๐งฉ Chi-square ์ ๋ํด์๋ ์์์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๋ํด ๋ฐฐ์ธ๋ ์ด๋ฏธ ํ๋ฒ ์ง์๋ ์ ์ด ์๋ค. ๋งํฌ๋ฅผ ์ฒจ๋ถํด ๋ํ
๋ ์ด ํฌ์คํ
๊ณผ ๊ฐ์ด ๊ณต๋ถํ๋ฉด ๋์์ด ๋ ๊ฒ ๊ฐ๋ค.
๐Chi-square Data prerocessing
๐งฉ ์์์ ์์๋ณธ Lift๋ ๊ทธ ๊ฐ์ 1์ ๊ธฐ์ค์ผ๋ก positive ํ ๊ด๊ณ๊ฐ ์๋์ง negative ํ ๊ด๊ณ๊ฐ ์๋์ง๋ฅผ ํ์
ํ๋ ๊ฒ์ด๋ผ๋ฉด, Chi-square ๋ ๋จ์ํ ์ฐ๊ด๊ด๊ณ๊ฐ ์๋์ง๋ฅผ ์์๋ณด๊ธฐ ์ํด ์ฌ์ฉํ๋ค. ๋จผ์ ์์์ ๋ณด๋๋ก ํ์.
๐งฉ ๊ทธ๋ฆฌ๊ณ ์ด๋ chi-sqare ๊ฐ์ด ํด์๋ก ๋ itemset ๊ฐ์ ์ฐ๊ด๊ด๊ณ๊ฐ ํผ์ ์๋ฏธํ๋ค. ์ฆ, ๋
๋ฆฝ์ด ์๋๋ค. ์์๋ฅผ ํ๋ ๋ณด๊ณ ๋์ด๊ฐ์.
๐ ์์์ ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ Observed ๊ฐ๋ง ๋ค์ด๊ฐ ์ํ์ด๋ค. ์ด ๋ฐ์ดํฐ์ Expected ๊ฐ์ ๊ตฌํด์ ํ๊ธฐํด์ฃผ๋ฉด ์๋์ ๊ฐ๋ค. ๊ฒ์ ๊ธ์จ๊ฐ Observed, ๋นจ๊ฐ ๊ธ์จ๊ฐ Expected๋ฅผ ๋ํ๋ธ๋ค.
๐ ์ด ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ chi-sqare ๊ฐ์ ๊ตฌํ๋ฉด
๐ $55.56$ ์ด๋ผ๋ ๊ต์ฅํ ํฐ ๊ฐ์ด ๋์จ๋ค. ์ฆ, attrubute A์ B๊ฐ ์๋ก ๋
๋ฆฝ์ผ ๊ฐ๋ฅ์ฑ์ ํ์ ํ ๋จ์ด์ง๋ค๋ ๊ฒฐ๋ก ์ ์ป์ ์ ์๋ค.
4. Limitation of Lift / chi-sqare
๐งฉ ์ด๋ ๊ฒ Lift ์ Chi-square ๊ฐ๋ค์ ๊ฐ์ง๊ณ ๊ฐ itemset์ ์ฐ๊ด๊ด๊ณ๋ฅผ ๋ณด๋ค ์ ํํ๊ฒ ์์๋ผ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์ด๋ ํ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์์๊น?? ์์๋ฅผ ํ๋ฒ ์ดํด๋ณด๋๋ก ํ์.
๐ ์ด ๋ฐ์ดํฐ์์ $Lift\;(Y,M)$ ๊ฐ์ ๊ตฌํ๋ฉด ๋ฌด๋ ค $8.44$๋ก ์๋ ๊ธฐ์ค์น์ธ $1$๋ณด๋ค ํจ์ฌ ํฐ ๊ฐ์ด ๋์จ๋ค. ๋ํ Observed ๊ฐ์ ๋นํด Expected ๊ฐ์ด ๋ชน์ ์์ ๊ฒฝ์ฐ ์ญ์ ์กด์ฌํ๋ค.
๐งฉ ์ฐ๋ฆฌ๊ฐ ์์ ์ดํด๋ณธ ๋ฐ์ดํฐ์ ์ด ๋ฐ์ดํฐ์ ๊ฐ์ฅ ํฐ ์ฐจ์ด๋ $N-F\;\;pattern$ ๊ฐ์ ์ฐจ์ด์ด๋ค. ์ฆ, ๋ itemset ๋ชจ๋ ์์ฑ (์ด ๋ฐ์ดํฐ์์ ์ฐ๋ฆฌ๊ฐ ์๊ณ ์ถ์ ๊ฒ์ด ์ฑ๋ณ M ์ ๋ํ ๋ถ์์ด๋ฏ๋ก ์ฑ๋ณ F ๋ฅผ ์์ฑ์ด๋ผ๊ณ ํ๊ฒ ๋ค๐) ์ธ ๊ฒฝ์ฐ๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ์ ๋นํด ํฐ๋ฌด๋์์ด ํฐ ๊ฐ์ ๊ฐ์ง๋ฉด ์ด๋ฐ ๊ฒฝ์ฐ๊ฐ ์๊ธธ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋ ๊ฒ์ด๋ค.
๐งฉ ๊ทธ๋ฆฌ๊ณ ์ด๋ ๊ฒ ๋ itemset์ด ๋ชจ๋ ์์ฑ์ธ ๊ฒฝ์ฐ๋ฅผ Null-transaction ์ด๋ผ๊ณ ํ๋ค. ์ ๋ฆฌํ์๋ฉด, Lift ์ Chi-square ๋ Null-transaction ์ ์ํฅ์ ๋๋ฌด ๋ง์ด ๋ฐ์ ์ ํํ itemset ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์
ํ๋ ๋ฐ์๋ ํ๊ณ๊ฐ ์๋ค. ๋ฐ๋ผ์ ์ค์ ๋ก ์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์ถ์ ํจํด์ ์ ๋๋ก ์ฐพ๊ธฐ ์ด๋ ค์ธ ์ ์๋ค๐ฅ๐ฅ. ์ด์ ๋ค๋ฅธ ๋ช๊ฐ์ง ๋ฐฉ๋ฒ๋ค์ด ๊ณ ์๋์๋๋ฐ, ์ด ๋ฐฉ๋ฒ๋ค์ Null-Invariant measure ๋ผ๊ณ ํ๋ค. ์ด๋ฅผ ๋ค์ ํฌ์คํ
์์ ๋ค๋ฃฐ ๊ฒ์ด๋ค.
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ support ์ confidence ๋ฅผ ๋ณด์ํ ์ ์๋ ๋๊ฐ์ง ๋ฐฉ๋ฒ์ธ Lift ์ Chi-square ์ ๋ํด์ ์์๋ณด์๋ค. ๋ค์ ํฌ์คํ ์์๋ ์ด ์น๊ตฌ๋ค์ ๋ณด์ํ ์ ์๋ ๋ช๊ฐ์ง ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
Leave a comment