๐Ÿงฉ ์ €๋ฒˆ ํฌ์ŠคํŒ…๋“ค์—์„œ support, confidence๊ฐ€ ๋ฌด์—‡์ธ์ง€ ๊ทธ๋ฆฌ๊ณ  ์ด๋ฅผ ์‚ฌ์šฉํ•ด์„œ pattern์„ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด ๋ฌด์—‡์ธ์ง€์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด์•˜๋‹ค. ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋‚ด๊ฐ€ ์ฐพ์•„๋‚ธ ํŒจํ„ด์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ์„ค๋ช…ํ•˜๋Š”๊ฐ€ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.


1. Pattern Evaluation Index

๐Ÿงฉ ์–ด๋–ป๊ฒŒ ๋ณด๋ฉด ํŒจํ„ด์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ๋ณด๋‹ค ์ค‘์š”ํ•œ ๋‚ด์šฉ์ด๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ์ด๋ฒˆ ํฌ์ŠคํŒ…๊ณผ ๋‹ค์Œ ํฌ์ŠคํŒ…์— ๊ฑธ์ณ์„œ ๋‹ค๋ฃฐ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๋ชฉ์ฐจ ๋Š๋‚Œ์œผ๋กœ ํ•œ๋ฒˆ ์‚ดํŽด๋ณด๋„๋ก ํ•˜์ž.

  • 1. Limitaion of the Support-Confidence framework
  • 2. Interestingness Measures : Lift, chi-square
  • 3. Null-Invariant measures โญ

๐Ÿงฉ ์•ž์„  ๋‘ ํฌ์ŠคํŒ…์—์„œ ๋ดค๋“ฏ์ด Pattern Mining์€ ๋‹ค์–‘ํ•œ Pattern๊ณผ Rule์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ๋‚ด๊ฐ€ ๋ฐœ๊ฒฌํ•œ Rule๋“ค์ด ํ•ญ์ƒ ์˜๋ฏธ์žˆ์„ ๊ฒƒ์ด๋ผ ๋‹จ์ •์ง€์„ ์ˆ˜๋Š” ์—†๊ณ , ์ด์— ๋”ํ•ด์„œ ์ข€ ๋” ์ˆจ๊ฒจ์ ธ ์žˆ๋Š” ๊ฒƒ๋“ค์„ ์ฐพ์•„๋‚ด๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ๊ฐ€์ง€ measure๋ฅผ ์•Œ์•„๋ณธ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค๐Ÿ™‚. ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” 1,2 ์ฃผ์ œ์— ๋Œ€ํ•ด์„œ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค.

2. Limitaion of the Support-Confidence framework

๐Ÿงฉ ์ด๋•Œ๊นŒ์ง€ ์šฐ๋ฆฌ๊ฐ€ ํŒจํ„ด์„ ์ฐพ๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•œ Measure๋Š” Support, Confidence ์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด ์นœ๊ตฌ๋“ค์—๊ฒŒ๋Š” ๊ฝค๋‚˜ ํฐ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ์ด ์ ˆ์—์„œ๋Š” ๊ทธ์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณผ ๊ฒƒ์ด๋‹ค. ์ง๊ด€์ ์ธ ์ดํ•ด๋ฅผ ์œ„ํ•ด ๋จผ์ € ์„ฑ๋ณ„์— ๋”ฐ๋ฅธ ์ •์ฑ… ์ฐฌ๋ฐ˜์— ๋Œ€ํ•œ ์˜ˆ์‹œ๋ฅผ ํ•˜๋‚˜ ์‚ดํŽด๋ณด์ž.

๐Ÿงฉ ์ด๋•Œ ๊ฐ attribute์˜ itemset๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์•Œ์•„๋ณผ ํ…๋ฐ, ์ผ๋‹จ ์šฐ๋ฆฌ๊ฐ€ ๋ฐฐ์šด ๊ฑด support์™€ confidence ๋ฟ์ด๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ํ†ตํ•ด์„œ ๊ตฌํ•ด๋ณด๋„๋ก ํ•˜์ž.

๐Ÿ”‘ $A\rightarrow{B}(support,\;\,confidence)$


๐Ÿ“Œ $1.\;\;Y\rightarrow{M}(400/1000,\;\,400/600)$


๐Ÿ“Œ $2.\;\;N\rightarrow{M}(350/1000,\;\,350/400)$


๐Ÿงฉ ์ด ์˜ˆ์‹œ์—์„œ ์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์‹ถ์€ ๊ฒƒ์€ Male๊ณผ attribute B ๊ฐ„์˜ ์—ฐ๊ด€๊ด€๊ณ„์ด๋‹ค. <๐Ÿ“Œ1>์„ ๋จผ์ € ์‚ดํŽด๋ณด๋ฉด ์ „์ฒด ํ‘œ๋ณธ์— ๋Œ€ํ•œ Male์˜ ๋น„์œจ์€ $750/1000=75\%$ ์ธ ๋ฐ˜๋ฉด์—, 1์˜ ์กฐ๊ฑด์— ์˜ํ•œ confidence๋Š” $400/600=66.7\%$ ๋กœ ๋–จ์–ด์ง„ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ <๐Ÿ“Œ2>์˜ ์กฐ๊ฑด์— ์˜ํ•œ confidence๋Š” $350/400=87.5\%$ ๋กœ ์ƒ์Šนํ•œ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, Support์™€ Confidence๋Š” ๊ทธ ํ‘œ๋ณธ์ด ๋‹ฌ๋ผ์ง์— ๋”ฐ๋ผ์„œ ์•Œ๊ณ ์ž ํ•˜๋Š” ๋น„์œจ์ด ํฌ๊ฒŒ ๋ณ€๋™ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ๊ทธ ๊ฐ’๋งŒ ๊ฐ€์ง€๊ณ ๋Š” attribute ๊ฐ„์˜ ์ •ํ™•ํ•œ Association Rule์„ ์•Œ์•„๋‚ด๊ธฐ ์–ด๋ ต๋‹ค.

๐Ÿงฉ ์œ„์˜ ์˜ˆ์ œ์—์„œ ์•Œ์•„๋ณธ ์ด๋Ÿฌํ•œ ํ•œ๊ณ„ ๋•Œ๋ฌธ์— ์šฐ๋ฆฌ๋Š” ์ด๋ฅผ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋Š” Measure ๊ฐ€ ํ•„์š”ํ•ด์กŒ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋กœ์จ ๋“ฑ์žฅํ•œ ๋ฐฉ๋ฒ•๋“ค์ด ๋‹ค์Œ ์ ˆ์—์„œ ์‚ดํŽด๋ณผ Lift์™€ chi-square ์ด๋‹ค.

3. Interestingness Measures

๐Ÿšฉ 3.1. Lift


๐Ÿงฉ Lift๋Š” ๊ฐ itemset๊ฐ€ ์„œ๋กœ positive ํ•˜๋ƒ negative ํ•˜๋ƒ์— ๋”ฐ๋ผ ๊ทธ ์—ฐ๊ด€๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ณ„์‚ฐ์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

๐Ÿ“Œ $Lift\;(A,\;B) = \frac{C\;(A\rightarrow{B})}{S\;(B)}=\frac{S\;({A}\cup{B})}{S\;(A)\;\times{\;S\;(B)}}$


$when\;\;S(A)=support(A)\;\;and\;\;C(A)=confidence(A)$


๊ทธ๋ฆฌ๊ณ  ์ด๋•Œ,


$0\lt{Lift}\lt{\infty}$


$If\;\;Lift(A,B)=1,\;\;A\;\;and\;\;B\;\;is\;\;Independent\;\;each\;\;other$


$If\;\;Lift(A,B)\gt{1},\;\;A\;\;and\;\;B\;\;is\;\;Positively\;\;correlated$


$If\;\;Lift(A,B)\lt{1},\;\;A\;\;and\;\;B\;\;is\;\;Negatively\;\;correlated$



๐Ÿงฉ ์•ž์„œ ๋‹ค๋ฃฌ ์˜ˆ์‹œ๋ฅผ ๊ฐ€์ง€๊ณ  ์ง์ ‘ Lift ๊ฐ’์„ ๊ตฌํ•ด๋ณด์ž.

๐Ÿ“Œ $1.\;\;Lift\;(Y,M)=\frac{S\;(Y\cup{M})}{S\;(Y)\;\times{\;S\;(M)}}=\frac{400/1000}{(600/1000)\;\times\;(750/1000)}=0.89\;\;\rightarrow{Negatively\;\;correlated}$


๐Ÿ“Œ $2.\;\;Lift\;(Y,F)=\frac{S\;(Y\cup{F})}{S\;(Y)\;\times{\;S\;(F)}}=\frac{200/1000}{(600/1000)\;\times\;(250/1000)}=1.33\;\;\rightarrow{Positively\;\;correlated}$


๐Ÿงฉ ์œ„์˜ ์˜ˆ์‹œ์—์„œ ์–ผํ• ๋ดค์„ ๋–„ ์ •์ฑ…์˜ ์ฐฌ๋ฐ˜ ์—ฌ๋ถ€์— ์ข€ ๋” ๊ด€๋ จ์ด ์žˆ์–ด ๋ณด์ด๋Š” ์„ฑ๋ณ„์€ M ์ด์ง€๋งŒ, ์‹ค์ œ๋กœ Lift๋ฅผ ํ†ตํ•ด ์—ฐ๊ด€๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•ด๋ณด๋ฉด ์˜คํžˆ๋ ค F๊ฐ€ ๋” positiveํ•œ ๊ด€๊ณ„๊ฐ€ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.


๐Ÿšฉ 3.2. Chi-square ($ฯ‡^2-test$)


๐Ÿงฉ Chi-square ์— ๋Œ€ํ•ด์„œ๋Š” ์•ž์„œ์„œ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ์— ๋Œ€ํ•ด ๋ฐฐ์šธ๋•Œ ์ด๋ฏธ ํ•œ๋ฒˆ ์งš์—ˆ๋˜ ์ ์ด ์žˆ๋‹ค. ๋งํฌ๋ฅผ ์ฒจ๋ถ€ํ•ด ๋‘˜ํ…Œ๋‹ˆ ์ด ํฌ์ŠคํŒ…๊ณผ ๊ฐ™์ด ๊ณต๋ถ€ํ•˜๋ฉด ๋„์›€์ด ๋  ๊ฒƒ ๊ฐ™๋‹ค.

๐Ÿ“Chi-square Data prerocessing

๐Ÿงฉ ์œ„์—์„œ ์•Œ์•„๋ณธ Lift๋Š” ๊ทธ ๊ฐ’์„ 1์„ ๊ธฐ์ค€์œผ๋กœ positive ํ•œ ๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€ negative ํ•œ ๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด๋ผ๋ฉด, Chi-square ๋Š” ๋‹จ์ˆœํžˆ ์—ฐ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€๋ฅผ ์•Œ์•„๋ณด๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•œ๋‹ค. ๋จผ์ € ์ˆ˜์‹์„ ๋ณด๋„๋ก ํ•˜์ž.

๐Ÿ“Œ $ฯ‡^2=\sum{\frac{(Observed-Expected)^2}{Expected}}\;\;\;when\;\;\;Expected=\frac{A\;\times{\;B}}{N}$


$and\;\;\;0\lt{ฯ‡^2}\lt{\infty}$


๐Ÿงฉ ๊ทธ๋ฆฌ๊ณ  ์ด๋•Œ chi-sqare ๊ฐ’์ด ํด์ˆ˜๋ก ๋‘ itemset ๊ฐ„์˜ ์—ฐ๊ด€๊ด€๊ณ„๊ฐ€ ํผ์„ ์˜๋ฏธํ•œ๋‹ค. ์ฆ‰, ๋…๋ฆฝ์ด ์•„๋‹ˆ๋‹ค. ์˜ˆ์‹œ๋ฅผ ํ•˜๋‚˜ ๋ณด๊ณ  ๋„˜์–ด๊ฐ€์ž.


๐Ÿ“Œ ์œ„์—์„œ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋Š” Observed ๊ฐ’๋งŒ ๋“ค์–ด๊ฐ„ ์ƒํƒœ์ด๋‹ค. ์ด ๋ฐ์ดํ„ฐ์— Expected ๊ฐ’์„ ๊ตฌํ•ด์„œ ํ‘œ๊ธฐํ•ด์ฃผ๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค. ๊ฒ€์€ ๊ธ€์”จ๊ฐ€ Observed, ๋นจ๊ฐ„ ๊ธ€์”จ๊ฐ€ Expected๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

๐Ÿ“Œ ์ด ์ „์ฒ˜๋ฆฌ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  chi-sqare ๊ฐ’์„ ๊ตฌํ•˜๋ฉด

$ฯ‡^2=\frac{(400-450)^2}{450}+\frac{(350-300)^2}{300}+\frac{(200-150)^2}{150}+\frac{(50-100)^2}{100}=55.56$


๐Ÿ“Œ $55.56$ ์ด๋ผ๋Š” ๊ต‰์žฅํžˆ ํฐ ๊ฐ’์ด ๋‚˜์˜จ๋‹ค. ์ฆ‰, attrubute A์™€ B๊ฐ€ ์„œ๋กœ ๋…๋ฆฝ์ผ ๊ฐ€๋Šฅ์„ฑ์€ ํ˜„์ €ํžˆ ๋–จ์–ด์ง„๋‹ค๋Š” ๊ฒฐ๋ก ์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.


4. Limitation of Lift / chi-sqare

๐Ÿงฉ ์ด๋ ‡๊ฒŒ Lift ์™€ Chi-square ๊ฐ’๋“ค์„ ๊ฐ€์ง€๊ณ  ๊ฐ itemset์˜ ์—ฐ๊ด€๊ด€๊ณ„๋ฅผ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ฒŒ ์•Œ์•„๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์ด ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด ์–ด๋– ํ•œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋„ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค„ ์ˆ˜ ์žˆ์„๊นŒ?? ์˜ˆ์‹œ๋ฅผ ํ•œ๋ฒˆ ์‚ดํŽด๋ณด๋„๋ก ํ•˜์ž.

๐Ÿ“Œ ์ด ๋ฐ์ดํ„ฐ์—์„œ $Lift\;(Y,M)$ ๊ฐ’์„ ๊ตฌํ•˜๋ฉด ๋ฌด๋ ค $8.44$๋กœ ์›๋ž˜ ๊ธฐ์ค€์น˜์ธ $1$๋ณด๋‹ค ํ›จ์”ฌ ํฐ ๊ฐ’์ด ๋‚˜์˜จ๋‹ค. ๋˜ํ•œ Observed ๊ฐ’์— ๋น„ํ•ด Expected ๊ฐ’์ด ๋ชน์‹œ ์ž‘์€ ๊ฒฝ์šฐ ์—ญ์‹œ ์กด์žฌํ•œ๋‹ค.

๐Ÿงฉ ์šฐ๋ฆฌ๊ฐ€ ์•ž์„œ ์‚ดํŽด๋ณธ ๋ฐ์ดํ„ฐ์™€ ์ด ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์žฅ ํฐ ์ฐจ์ด๋Š” $N-F\;\;pattern$ ๊ฐ’์˜ ์ฐจ์ด์ด๋‹ค. ์ฆ‰, ๋‘ itemset ๋ชจ๋‘ ์Œ์„ฑ (์ด ๋ฐ์ดํ„ฐ์—์„œ ์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์‹ถ์€ ๊ฒƒ์ด ์„ฑ๋ณ„ M ์— ๋Œ€ํ•œ ๋ถ„์„์ด๋ฏ€๋กœ ์„ฑ๋ณ„ F ๋ฅผ ์Œ์„ฑ์ด๋ผ๊ณ  ํ•˜๊ฒ ๋‹ค๐Ÿ™‚) ์ธ ๊ฒฝ์šฐ๊ฐ€ ๋‹ค๋ฅธ ๊ฒฝ์šฐ์— ๋น„ํ•ด ํ„ฐ๋ฌด๋‹ˆ์—†์ด ํฐ ๊ฐ’์„ ๊ฐ€์ง€๋ฉด ์ด๋Ÿฐ ๊ฒฝ์šฐ๊ฐ€ ์ƒ๊ธธ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๐Ÿงฉ ๊ทธ๋ฆฌ๊ณ  ์ด๋ ‡๊ฒŒ ๋‘ itemset์ด ๋ชจ๋‘ ์Œ์„ฑ์ธ ๊ฒฝ์šฐ๋ฅผ Null-transaction ์ด๋ผ๊ณ  ํ•œ๋‹ค. ์ •๋ฆฌํ•˜์ž๋ฉด, Lift ์™€ Chi-square ๋Š” Null-transaction ์˜ ์˜ํ–ฅ์„ ๋„ˆ๋ฌด ๋งŽ์ด ๋ฐ›์•„ ์ •ํ™•ํ•œ itemset ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฐ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‹ค์ œ๋กœ ์šฐ๋ฆฌ๊ฐ€ ์ฐพ๊ณ  ์‹ถ์€ ํŒจํ„ด์„ ์ œ๋Œ€๋กœ ์ฐพ๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ๋‹ค๐Ÿ˜ฅ๐Ÿ˜ฅ. ์ด์— ๋‹ค๋ฅธ ๋ช‡๊ฐ€์ง€ ๋ฐฉ๋ฒ•๋“ค์ด ๊ณ ์•ˆ๋˜์—ˆ๋Š”๋ฐ, ์ด ๋ฐฉ๋ฒ•๋“ค์„ Null-Invariant measure ๋ผ๊ณ  ํ•œ๋‹ค. ์ด๋ฅผ ๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค.


๐Ÿงฉ ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” support ์™€ confidence ๋ฅผ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋Š” ๋‘๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ธ Lift ์™€ Chi-square ์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด์•˜๋‹ค. ๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ด ์นœ๊ตฌ๋“ค์„ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ช‡๊ฐ€์ง€ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž๐Ÿƒโ€โ™‚๏ธ๐Ÿƒโ€โ™‚๏ธ.


๐Ÿ’ก์œ„ ํฌ์ŠคํŒ…์€ ํ•œ๊ตญ์™ธ๊ตญ์–ด๋Œ€ํ•™๊ต ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ๊ณตํ•™๋ถ€ ๊ณ ์œคํฌ ๊ต์ˆ˜๋‹˜์˜ [์ƒ๋ช…์ •๋ณดํ•™์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹] ๊ฐ•์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Leave a comment