🧩 μ˜€λžœλ§Œμ— λΈ”λ‘œκ·Έμ— 글을 μ“΄λ‹€. κ°œκ°•ν•˜κ³  이것저것 μ²˜λ¦¬ν•  것도 μžˆμ—ˆκ³ , μ•Œμ•„λ³Ό 것도 μžˆμ–΄μ„œ 잠깐 λœΈν–ˆλ‹€. 이번 ν•™κΈ°λŠ” κ·Έλž˜λ„ μ €λ²ˆ ν•™κΈ°λ³΄λ‹€λŠ” 살짝 μ—¬μœ λ‘­κ²Œ μˆ˜μ—…μ„ 듀을 수 μžˆμ–΄μ„œ λΈ”λ‘œκ·Έμ— μ’€ 더 신경을 μ“Έ 수 μžˆμ„ 것 κ°™μ•„ λ‹€ν–‰μ΄λ‹€πŸ˜ŠπŸ˜Š. κ·Έλ™μ•ˆ λ“£κ³  μ‹Άμ—ˆλ˜ νŒŒμ΄λ‚ΈμŠ€μ–΄λ‚Όλ¦¬ν‹±μŠ€μ™€ 생λͺ…정보학을 λ“œλ””μ–΄ λ“£κ²Œ λ˜μ„œ κΈ°λŒ€κ°€ λ˜λŠ” 학기이닀. 두근두근!!

🧩 μ €λ²ˆ ν¬μŠ€νŒ…μ—μ„œλŠ” support와 confidenceλ₯Ό 보완할 수 μžˆλŠ” Lift와 chi-square test에 λŒ€ν•΄μ„œ μ•Œμ•„λ³΄μ•˜λ‹€. ν•˜μ§€λ§Œ 이 μΉœκ΅¬λ“€μ€ null ransaction의 영ν–₯을 λ„ˆλ¬΄ 많이 λ°›κΈ° λ•Œλ¬Έμ— λ‹€λ₯Έ 방법이 ν•„μš”ν–ˆλ‹€λŠ” 것이 μ €λ²ˆ ν¬μŠ€νŒ…μ˜ λ‚΄μš©μ΄μ—ˆλ‹€. 이번 ν¬μŠ€νŒ…μ—μ„œλŠ” κ·Έ λ‹€λ₯Έ 방법듀인 Null-Invariant Measure에 λŒ€ν•΄μ„œ μ•Œμ•„λ³Ό 것이닀.


1. Null-Invariant Measure

🧩 μœ„μ˜ λ°μ΄ν„°μ²˜λŸΌ 두 itemset이 λͺ¨λ‘ null 값을 κ°€μ§€λŠ” κ²½μš°μ—λŠ” μ•žμ„œμ„œ 배운 Lift와 chi-square testκ°€ 쒋은 방법이 아닐 κ°€λŠ₯성이 크닀. λ”°λΌμ„œ μ•žμ„œμ„œ λ§ν–ˆλ“―μ΄ λ‹€λ₯Έ 방법듀이 ν•„μš”ν•΄μ‘Œκ³ , μ΄λ•Œ μ‚¬μš©ν•˜λŠ” 방법듀과 μˆ˜μ‹μ€ μ•„λž˜μ™€ κ°™λ‹€.

πŸ“Œ $Allconf(A,B)\;\;=\;\;\frac{s(A\cup{B})}{max(s(A),\,s(B))}\;\;and\;\;\;range\,:\,[0,1]$

πŸ“Œ $Jaccard(A,B)\;\;=\;\;\frac{s(A\cup{B})}{s(A)+s(B)-s(A\cup{B})}\;\;and\;\;\;range\,:\,[0,1]$

πŸ“Œ $Cosine(A,B)\;\;=\;\;\frac{s(A\cup{B})}{\sqrt{s(A)\times{s(B)}}}\;\;and\;\;\;range\,:\,[0,1]$

πŸ“Œ $Kulczynski(A,B)\;\;=\;\;\frac{1}{2}(\frac{s(A\cup{B})}{s(A)}+\frac{s(A\cup{B})}{s(B)})\;\;and\;\;\;range\,:\,[0,1]$

πŸ“Œ $MaxConf(A,B)\;\;=\;\;max(\frac{s(A\cup{B})}{s(A)}, \frac{s(A\cup{B})}{s(B)})\;\;and\;\;\;range\,:\,[0,1]$

🧩 null transaction의 영ν–₯을 받지 μ•ŠλŠ” μ΄λŸ¬ν•œ 방법듀을 ν†΅ν•΄μ„œ itemset A와 B μ‚¬μ΄μ˜ 보닀 μ •ν™•ν•œ 관계λ₯Ό ν‘œν˜„ν•  μˆ˜κ°€ μžˆλ‹€. 이 μ€‘μ—μ„œλ„ 특히 Kulczynski Measure λ₯Ό 많이 μ‚¬μš©ν•œλ‹€. μ΄λŠ” 두 itemset이 μ„œλ‘œ μ–Όλ§ˆλ‚˜ 쀑립적인 관계λ₯Ό 가지고 μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚΄λŠ” κ²ƒμœΌλ‘œ, κ·Έ 값이 0.5에 κ°€κΉŒμšΈμˆ˜λ‘ neutral ν•˜λ‹€κ³  ν•  수 μžˆλ‹€. 결과적으둜 μ΄λ“€μ˜ 관계가 positiveν•œμ§€, negativeν•œμ§€λ„ μ•Œ 수 μžˆλŠ” μ€‘μš”ν•œ 방법이닀. 두 itemset κ°„μ˜ 관계λ₯Ό 잘 ν‘œν˜„ν•˜κΈ° μœ„ν•΄ 이 방법과 λ™μ‹œμ— μ‚¬μš©ν•˜λŠ” Measureκ°€ ν•˜λ‚˜ μžˆλ‹€. 이λ₯Ό Imbalance Ratio 라고 ν•˜λŠ”λ°, μˆ˜μ‹μ€ μ•„λž˜μ™€ κ°™λ‹€.

πŸ“Œ $Imbalanced\;Ratio\;=\;IR(A,B)\;=\;\frac{\left\vert{s(A)-s(B)}\right\vert}{s(A)+s(B)-s(A\cup{B})}\;\;and\;\;\;range\,:\,[0,1]$

🧩 IR 은 두 itemset 쀑 ν•˜λ‚˜μ˜ λ°œμƒλΉˆλ„κ°€ λ‹€λ₯Έ κ²ƒμ˜ λ°œμƒλΉˆλ„λ³΄λ‹€ 큰지 μž‘μ€μ§€λ₯Ό λ‚˜νƒ€λ‚΄λŠ” measure 이닀. 값이 0에 κ°€κΉŒμšΈμˆ˜λ‘ balanced, 1에 κ°€κΉŒμšΈμˆ˜λ‘ imbalanced 라고 ν•  수 μžˆλ‹€.

⭐ Kulczynskiλ₯Ό ν†΅ν•΄μ„œ 데이터가 μ–Όλ§ˆλ‚˜ neutral ν•œμ§€λŠ” μ•Œ 수 μžˆμ§€λ§Œ, λ°μ΄ν„°λ‚˜ itemset이 μ–΄λŠ ν•œμͺ½μœΌλ‘œ μΉ˜μš°μ³€λŠ”κ°€ μ—¬λΆ€λŠ” μ •ν™•νžˆ μ•Œ 수 μ—†κΈ° λ•Œλ¬Έμ—, IR을 ν•¨κ»˜ μ‚¬μš©ν•¨μœΌλ‘œμ¨ 두 itemset의 balance 함을 νŒλ‹¨ν•œλ‹€.


🧩 Kulczynski와 Imbalanced Ratio λ₯Ό ν†΅ν•œ λΆ„μ„μ˜ 예λ₯Ό 보고 가도둝 ν•˜μž.


🧩 κ²°κ΅­ μš°λ¦¬κ°€ μ΄λ•ŒκΉŒμ§€ 배운 μˆ˜λ§Žμ€ 방법듀 μ€‘μ—μ„œ 데이터가 null transaction의 영ν–₯을 많이 받을 수 μžˆλŠ” κ²½μš°μ—λ„ κ°€μž₯ 잘 적용될 수 μžˆλŠ” 방법은 Kulczynski와 Imbalanced Ratio 라고 ν•  수 μžˆμ„ 것 κ°™λ‹€πŸ˜€πŸ˜€.


🧩 μ΄λ ‡κ²Œ ν•΄μ„œ νŒ¨ν„΄λΆ„μ„μ— λŒ€ν•œ λ‚΄μš©κΉŒμ§€ μ•Œμ•„λ³΄μ•˜λ‹€. λ‹€μŒ ν¬μŠ€νŒ…μ—μ„œλŠ” μ§€λ‚œ 학기에 μ§„ν–‰ν•œ ν”„λ‘œμ νŠΈλ₯Ό λ°”νƒ•μœΌλ‘œ 이 방법듀을 μ–΄λ–»κ²Œ κ΅¬ν˜„ν•˜κ³  κ²°κ³Όλ₯Ό 뢄석할 수 μžˆλŠ”μ§€ μ•Œμ•„λ³΄λ„λ‘ ν•˜μž.


πŸ’‘μœ„ ν¬μŠ€νŒ…μ€ ν•œκ΅­μ™Έκ΅­μ–΄λŒ€ν•™κ΅ λ°”μ΄μ˜€λ©”λ””μ»¬κ³΅ν•™λΆ€ 고윀희 κ΅μˆ˜λ‹˜μ˜ [생λͺ…정보학을 μœ„ν•œ λ°μ΄ν„°λ§ˆμ΄λ‹] κ°•μ˜ λ‚΄μš©μ„ λ°”νƒ•μœΌλ‘œ 함을 λ°νž™λ‹ˆλ‹€.

Leave a comment