๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(21) ํจํด๋ถ์_1 : Preview
๐งฉ ์ด๋ฒ ํฌ์คํ ๋ถํฐ๋ Dataset์์ Pattern์ ์ฐพ๋ Pattern Discovery ์ ๋ํด์ ๋ค๋ฃฐ ๊ฒ์ด๋ค. ํนํ ์ด ๋ถ๋ถ์ ์๋ช ์ ๋ณดํ ๋ถ์ผ์ ์์ด์ ๊ฝค๋ ํฐ ๋น์ค์ ์ฐจ์งํ๊ณ , ๋ฐ์ดํฐ๋ง์ด๋์ ๊ด๋ จ๋ ์ค์ํ ๊ธฐ๋ฒ ์ญ์ ๋ง์ด ๋์ค๊ธฐ ๋๋ฌธ์ ์ฃผ์๊น๊ฒ ๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค (๋น์ฐํ ์๋ ๋ง๋คโฆ๐จ๐จ).
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ Pattern Discovery์ ๊ด๋ จ๋ ๊ธฐ์ด ๊ฐ๋ ์ ์์๋ณด๋๋ก ํ์.
1. Pattern Doscovery ๋??
- Patterns : ํ๋์ dataset์์ ํจ๊ป ๋ฐ์ํ๊ฑฐ๋ ์ฐ๊ด๊ด๊ณ๊ฐ ๊น์ ๊ฒ๋ค.
- ex) ํจ๊ป ํ๋ฆฐ ๋ฌผ๊ฑด๋ค / ๊ฐ์ด ๋ํ๋๋ ๋จ์ด๋ค / ํจ๊ป ๋ํ๋๋ sequence
- ex) ํจ๊ป ํ๋ฆฐ ๋ฌผ๊ฑด๋ค / ๊ฐ์ด ๋ํ๋๋ ๋จ์ด๋ค / ํจ๊ป ๋ํ๋๋ sequence
-
Pattern Doscovery : dataset์์ inherent reqularities๋ฅผ ์ฐพ๋ ๊ฒ. ์ฆ, ๊ณ ์ ํ ๊ท์น์ ์ฐพ๋ ๊ฒ.
- ๋ฐ์ดํฐ๋ง์ด๋์ ์ํ ๊ธฐ์ด ์์
์ด๋ผ๊ณ ํ ์ ์์.
- Association / Correlation / Casuality analysis
- Mining Sequential / Structure Patterns
- ํจํด๋ถ์ : ์๊ณต๊ฐ / ๋ฉํฐ๋ฏธ๋์ด / ์๊ณ์ด / ์คํธ๋ฆผ๋ฐ์ดํฐ
- Classification : pattern based analysis - Discriminative
- Cluster analysis : pattern based clustering - subspace
- ์ ์ฉ๊ฐ๋ฅํ ๋ถ์ผ : Market basket / Cross marketing / Catalog design / Biological Sequence
๐งฉ ์ด๋ ๊ฒ ํด์ Pattern Discovery์ ๊ฐ๋
์ ๋ํด์ ๊ฐ๋ตํ๊ฒ ์์๋ณด์๋ค. ์ด์ ๋ ๊ธฐ๋ณธ์ ์ธ ์ฉ์ด๋ค์ ์ดํด๋ณด๋๋ก ํ์.
2. Pattern Doscovery ๊ธฐ์ด
๐ฉ 2.1. K-itemsets and Support
- itemset : ํ๋ ์ด์ itemset์ set
-
K-itemset : K๊ฐ๋ก ๊ตฌ์ฑ๋ itemset
-
- sup{X}.
- itemset X์ ์ถํ๋น๋. ์ผ๋ง๋ ๋ง์ด ๋ฑ์ฅํ๋๊ฐ.
- Frequency
- relative-support
- s{X}.
- itemset X๋ฅผ ํฌํจํ transaction์ ๋น์จ.
- $\frac{Sup}{total\;transaction}$
๐งฉ ์ ๋ฆฌํด๋ณด๋ฉด absolute-support ๋ itemset X์ ๋น๋๋ฅผ ๋ํ๋ด๊ณ , relative-suppor ๋ itemset X์ ๋น์จ์ ๋ํ๋ธ๋ค. ์ ์ค๋ช
๋ง ๋ณด๊ณ ๋ ๊ฐ๋
์ ๋ํ ์ฐจ์ด๊ฐ ๋ฐ๋ก ๋๊ปด์ง๊ธฐ์๋ ์ด๋ ค์ธ ๊ฑฐ๋ผ ์๊ฐํด์ ์์
์๊ฐ์ ๋ค๋ฃฌ ์์ ๋ฅผ ํ๋ ๊ฐ์ ธ์๋ดค๋ค.
๐งฉ ์์ ์ฒจ๋ถํ ํ์ ๊ฑ์ ๋ฐ์ดํฐ๋ฅผ ๋ง์ผ์์ ๊ตฌ๋งคํ ๋ฌผํ์ ๋ํ ์ ๋ณด๋ฅผ ๋ด์ ๋ฐ์ดํฐ๋ผ ํด์ Transaction DB ๋ผ๊ณ ํ๋ค.
๐ฉ 2.2. Frequent Itemsets (Patterns)
-
minsup : ์์๋ก ์ค์ ํ relative-support์ Thresholds
-
๋ง์ฝ itemset X ์ relative-support s{X} ๊ฐ ์ค์ ํ minsup ์ด์์ด๋ฉด X๋ Frequentํ๋ค๊ณ ํ๋ค.
-
์ฆ, Transaction DB์์ ํจ๊ป, ์์ฃผ ๋ํ๋๋ K-itemset ์ ์ด๋ป๊ฒ ์ฐพ์๋ผ ๊ฒ์ธ๊ฐ์ ๋ํ ๊ฐ๋ ์ด๋ค.
๐งฉ ์ด ๊ฐ๋
์ญ์ ์์ ๋ฅผ ํ๋ฒ ์ดํด๋ณด๋๋ก ํ์!!
๐ ์์ ์์์์ $minsup=50\%$ ์ด์์ frequent ํ itemset X๋ {Beer} {Nuts} {Diapper} {Eggs} {Beer,Diapper} ์ ํด๋นํ๋ค. ๋ฐ๋ฉด {Milk} ๋ $40\%$ ๋ก $minsup$ ๋ณด๋ค ์๊ธฐ ๋๋ฌธ์ frequent ํ์ง ์๋ค. ์ฌ๊ธฐ์ ์ฃผ์๊น๊ฒ ๋ด์ผํ ์ ์ด ์๋๋ฐ, 2-itemset {Beer,Diapper} ๊ฐ frequent ํ๋ค๋ ๊ฒ์ 1-itemset {Beer}{Diapper} ๊ฐ๊ฐ์ด frequentํ๋ค๋ ๊ฒ๋ ์๋ฏธํ๋ค. ๋ฐ๋ผ์ 2-itemset์ frequent ๋ฅผ ํ๋จํจ์ผ๋ก์จ ๊ฐ sub itemset์ frequent ์ญ์ ํ๋จํ ์ ์๋ค๐๐. ์์ ์์์์ 3๊ฐ์ item ์ด ๋ ๊ฐ ์ด์์ transaction์์ ๋์ค๋ ๊ฒฝ์ฐ๋ ์๊ธฐ ๋๋ฌธ์ 2-itemset๊น์ง๋ง ๊ตฌํด์ฃผ์๋ค.
๐ฉ 2.3. Association Rule Mining
๐งฉ Association Rule Mining ์ ๋ํด์ ์์๋ณด๊ธฐ ์ ์ ์์์ผ ํ ๊ฐ๋
์ด ํ๋ ์๋ค. ์ด ์น๊ตฌ ๋จผ์ ์ฌ์ฉ ์ดํด๋ณด๊ณ ๊ฐ๋๋ก ํ์.
๐ Support
- transaction ์ด $X\cup{Y}$ ๋ฅผ contain ํ ํ๋ฅ . ์ฆ, $X,Y$ ๋ itemset์ ๋ชจ๋ ํฌํจํ ํ๋ฅ .
- ex) s{Beer,Diapper}=60%
๐ Confidence
- conditional probability : $X\cup{Y}$ ์ ๋ํ ์กฐ๊ฑด๋ถํ๋ฅ
- $c=sup(X\cup{Y})/sup(X)$
-
confidence ๊ณ์ฐ์ ์ํด ์ฌ์ฉํ๋ support๋ absolute-support์์ ์ ์.
- ํํ์ $X\rightarrow{Y}(support,confidence)$ ๋ก ํ๋ค.
- $X\rightarrow{Y}(s,c) : c=sup(X\cup{Y})/sup(X)$
- $Y\rightarrow{X}(s,c) : c=sup(X\cup{Y})/sup(Y)$
- $X\rightarrow{Y}(s,c)$ ์์ ํ์ดํ์ ์์ ๋ถ๋ถ์ ์๋ itemset X๊ฐ confidence์ ์กฐ๊ฑด์ ์๋ฏธํ๋ค.
- $X\rightarrow{Y}(s,c) : c=sup(X\cup{Y})/sup(X)$
๐งฉ support, confidence ๋ผ๋ ๊ฐ๋
์ ์์๋ณด์๋ค. ์ด์ ๋ Association Rule Mining์ ์์๋ณด๋๋ก ํ์๐.
๐งฉ Association Rule Mining ์์๋ ๋ ๊ฐ์ ์๊ณ์น๋ฅผ ์ฌ์ฉํ๋ค. ์๊น ์ฌ์ฉํ๋ minsup๊ณผ confidence์ ๋ํ ์๊ณ์น์ธ minconf ์ด๋ค. ๊ทธ ๋ชฉ์ ์ minsup๊ณผ minconf๋ฅผ ๋ง์กฑํ๋ ์ฐ๊ด์ฑ์ ํ์
ํ๋ ๊ฒ์ด๋ฉฐ, ์ต์ข
์ ์ผ๋ก ๊ทธ ์ฐ๊ด์ฑ์ ๋ํ๋ด๋ ๋ชจ๋ rule์ ์ฐพ์์ผ ํ๋ค.
๐ Association Rule Mining
- ๋ ๊ฐ์ ์๊ณ์น : minsup, minconf ์ฌ์ฉ
-
ํจ๊ป ๋ฑ์ฅํ๋ itemset ๊ฐ์ ์ฐ๊ด์ฑ์ ํ์ ํด์ผ ํ๋ฏ๋ก 2-itemset์ด ์กด์ฌํด์ผ ํ๋ค.
- Find all rules : $X\rightarrow{Y}(s,c)\;\;that\;\;s\geq{minsup}\;\;and\;\;c\geq{minconf}$
๐งฉ ์์์ ์ฌ์ฉํ Transaction Data๋ฅผ ๊ฐ์ง๊ณ Association Rule์ ์ฐพ์๋ณด์.
๐ ์ฐ์ minsup์ ๋ง์กฑํ๋ itemset์ ๋จผ์ ์ฐพ์๋ณด๋๋ก ํ์.
๐ ์ด๋ $minsup = 50\%$ ์ด์์ธ itemset์ {Beer} {Nuts} {Diapper} {Eggs} {Beer,Diapper} ์ด๋ค.
๐ minsup์ ๋ง์กฑํ๋ itemset์ ์ฐพ์์ผ๋ ์ด๋ฒ์๋ minconf๋ฅผ ๋ง์กฑํ๋ itemset์ ์ฐพ์์ผ ํ๋ค. ๋ ์๊ณ์น๋ฅผ ๋ชจ๋ ๋ง์กฑํ๋ ๊ฒฝ์ฐ๊ฐ ์ฐ๋ฆฌ๊ฐ ์ฐพ๋ rule์ด๊ธฐ ๋๋ฌธ์, ์์์ ์ฐพ์ itemset์์ confidence๋ฅผ ๊ณ์ฐํ๋ฉด ๋๋ค.
๐ ์ด๋ ๊ฒ ๊ตฌํ support์ confidence๋ก Association Rule์ ํํํ๋ฉด ์๋์ ๊ฐ๋ค.
๐ $Beer$๊ฐ ์ ํ์กฐ๊ฑด์ธ ๊ฒฝ์ฐ์ $Diapper$๊ฐ ์ ํ์กฐ๊ฑด์ธ ๊ฒฝ์ฐ ๋ชจ๋ minconf๋ฅผ ๋ง์กฑํ๊ธฐ ๋๋ฌธ์, ์์ Transaction Data์์ Association Rule์ ๋ค์๊ณผ ๊ฐ์ด ์กด์ฌํ๋ค.
3. Summary
๐งฉ ์ด๋ ๊ฒ ํด์
- itemset
- absolute-support
- relative-support
- Frequent Itemsets
- Confidence
- Association Rule Mining
์ ๋ํด์ ์์๋ณด์๋ค.
๐งฉ ๊ฒฐ๋ก ์ ์ผ๋ก Transaction Data ์ K-itemset ์ผ๋ก๋ถํฐ support ์ confidence ๋ฅผ ๊ตฌํ๊ณ , ๊ทธ ๊ฐ๋ค์ ๋ฐํ์ผ๋ก Association Rule Mining ์ ๋ง์กฑํ๋ rule์ ์ฐพ๋ ๊ฒ์ด ์ค๋ ๋ฐฐ์ด ๋ด์ฉ์ ๋ชฉ์ ์ด๋ผ ํ ์ ์์ ๊ฒ ๊ฐ๋ค. ํ์ง๋ง ์ค๋ ์ค๋ช ์ ์ํด ์ฌ์ฉํ ์์ ๋ 2-itemset์ด ์ต๋์ธ ๊ฒฝ์ฐ์๊ธฐ ๋๋ฌธ์, ๋ค์ ํฌ์คํ ์์๋ frequent pattern์ด ๋๋ฌด ๋ง์ ๊ฒฝ์ฐ์ ๋ํด์ ์์๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
๐งฉ ์ ์ฒ๋ฆฌ๋ Classification, Clustering์ ํ์์ ๊ณต๋ถํ๋ฉด์ ์ด๋์ ๋ ์ต์ํ ๋๋์ด ์์๋๋ฐ, ํจํด๋ถ์์ ์ง๋ ํ๊ธฐ์ ์์ ์ฒ์ ๋ฐฐ์ด ๋ด์ฉ์ด์๊ณ ์ค๋๋ง์ ๊ณต๋ถํ๋ค ๋ณด๋ ๋ง์ด ํท๊ฐ๋ ธ๋ ๊ฒ ๊ฐ๋ค. ์์ ํ ์๋ก ๋ฐฐ์ฐ๋(โฆ๐จ) ๋๋์ด ๋์ ํฌ์คํ ํ๋ ๋ฐ์ ์ ๋ง ๋ง์ ์๊ฐ์ด ๊ฑธ๋ ธ์ง๋ง, ์ด๋ ๊ฒ ์ ๋ฆฌํ๊ณ ๋๋ ๊ทธ๋๋ ์ด๋ ์ ๋ ์ ๋ฆฌ๋๋ ๊ฒ ๊ฐ์ ์ข์๋ค. ์์ผ๋ก์ ํจํด๋ถ์ ๋ด์ฉ์ด ์ด๋ฒ ํฌ์คํ ์์ ๋ค๋ฃฌ ๊ฐ๋ณธ์ ์ธ ๊ฐ๋ ์ ๋ฐํ์ผ๋ก ์งํ๋๊ธฐ ๋๋ฌธ์ ๋๋ฆ ๊ผผ๊ผผํ๊ฒ ์ ๋ฆฌํ๋๋ฐ ์ด๋จ์ง ๋ชจ๋ฅด๊ฒ ๋ค. ์๋ฌด์ชผ๋ก ๋์์ด ๋๋ฉด ์ข๊ฒ ๋คใ ใ ๐๐.
Leave a comment