๐Ÿงฉ ์ €๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ํŒจํ„ด๋ถ„์„์— ์žˆ์–ด ๊ฐ€์žฅ ๊ธฐ์ดˆ์ ์ธ ๊ฐœ๋…๋“ค์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜๋‹ค. ์„ค๋ช…์„ ์œ„ํ•ด ์‚ฌ์šฉํ•œ ์˜ˆ์ œ์—์„œ ๊ณตํ†ต์ ์œผ๋กœ ๋ฐœ๊ฒฌ๋˜๋Š” ํŒจํ„ด์˜ ์ˆ˜๊ฐ€ ๊ทธ๋ ‡๊ฒŒ ๋งŽ์€ ์˜ˆ์‹œ๋“ค์ด ์•„๋‹ˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ํŒจํ„ด์˜ ์ˆ˜๊ฐ€ ๋งŽ์€ ํŠธ๋žœ์žญ์…˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณผ ๊ฒƒ์ด๋‹ค.


1. Too Many Frequent Patterns

๐Ÿงฉ ๊ณตํ†ต์ ์ธ itemset ํŒจํ„ด์˜ ์ˆ˜๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‘๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค. ์ฒซ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์€ Closed Patterns ์ด๊ณ , ๋‘๋ฒˆ์งธ ๋ฐฉ๋ฒ•์€ Max-Patterns ์ด๋‹ค. ์ด์ œ ์ด ๊ฐ๊ฐ์˜ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์„ค๋ช…ํ•  ํ…๋ฐ, ์„ค๋ช…์„ ์œ„ํ•œ ํŠธ๋žœ์žญ์…˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋จผ์ € ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

ํŠธ๋žœ์žญ์…˜ ๋ฐ์ดํ„ฐ TDB


T1 : {a1,...,a50}


T2 : {a1,...,a100}


minsup = 1


๐Ÿงฉ ์ด ํŠธ๋žœ์žญ์…˜ ๋ฐ์ดํ„ฐ T1, T2 ์— ๋Œ€ํ•ด์„œ ๊ณตํ†ต์ ์ธ itemset, ์ฆ‰ ํŒจํ„ด์„ ์ฐพ์•„๋ณด์ž.

1 - itemsets = {a1} : 2 / {a2} : 2 โ€ฆ {a50} : 2 / {a51} : 1 / {a52} : 1 โ€ฆ {a100} : 1

2 - itemsets = {a1, a2} : 2 โ€ฆ {a1, a50} : 2 โ€ฆ {a1, a51} : 1 โ€ฆ {a1, a100} : 1 โ€ฆ {a99, a100} : 1

โ€ฆ

99 - itemsets = {a1, a2, โ€ฆ, a99} : 1 / {a2, a3, โ€ฆ, a100} : 1

100 - itemsets = {a1, a2, โ€ฆ, a100} : 1

๐Ÿ‘‰ ์–ผํ• ๋ณด๊ธฐ๋งŒ ํ•ด๋„ ์•Œ ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ, ์ •๋ง ๋งŽ์€ ํŒจํ„ด์ด ์กด์žฌํ•œ๋‹ค. 1๊ฐœ์งœ๋ฆฌ๋ถ€ํ„ฐ 100๊ฐœ์งœ๋ฆฌ๊นŒ์ง€ T1, T2 ์—์„œ ๊ตฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฒฝ์šฐ์˜ ์ˆ˜๋ฅผ ๋”ฐ์ ธ๋ณด๋ฉด

$\begin{pmatrix}100\\1\\ \end{pmatrix}\;+\;\begin{pmatrix}100\\2\\ \end{pmatrix} +\;...\;+\;\begin{pmatrix}100\\100\\ \end{pmatrix}\;=\;2^{100}-1$


๋งŒํผ์˜ ๊ฒฝ์šฐ์˜ ์ˆ˜๊ฐ€ ์กด์žฌํ•˜๋ฉฐ, ์‹ฌ์ง€์–ด ์—ฌ๊ธฐ์„œ ๋‘๊ฐœ์”ฉ ์กด์žฌํ•˜๋Š” ํŒจํ„ด์„ ๊ณ ๋ คํžˆ๋ฉด ๊ตฌํ•ด์ง€๋Š” ํŒจํ„ด์˜ ์ˆ˜๋Š” ์ฒœ๋ฌธํ•™์ ์ธ ์ˆซ์ž๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ ‡๊ฒŒ ๋งŽ์€ ํŒจํ„ด๋“ค์„ ์••์ถ•ํ•  ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•˜๊ณ , ์ด์ œ ๊ทธ ํŒจํ„ด๋“ค์„ ์•Œ์•„๋ณผ ๊ฒƒ์ด๋‹ค.


๐Ÿšฉ 1.1. Closed Patterns

๐Ÿงฉ ์ฒซ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์ธ Closed Patterns ์— ๋Œ€ํ•ด์„œ ๋จผ์ € ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž. ๊ธฐ๋ณธ์ ์ธ ๊ฐœ๋…์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

X โŠ‚ Y ์ธ itemset_X ๊ฐ€ frequentํ•˜๊ณ , X์™€ support ๊ฐ€ ๊ฐ™์€ itemset_Y๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š์•„์•ผ ํ•œ๋‹ค.
์ด๋•Œ ์šฐ๋ฆฌ๋Š” itemset_X ๊ฐ€ closed ํ•˜๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, Y ๋Š” Superset ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.


๐Ÿงฉ ์„ค๋ช…์ด ๊ต‰์žฅํžˆ ๋‚œ๊ฐ์“ฐํ•˜๋‹คโ€ฆ๐Ÿ˜ฅ ์œ„์˜ ํŠธ๋žœ์žญ์…˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด์„œ Closed Pattern์„ ์ฐพ์•„๋ณด์ž

itemset_X ๋ฅผ {a1, a2, ..., a50} ์ด๋ผ ํ•˜๋ฉด X ์˜ support๋Š” 2 ์ด๋ฉฐ, itemset_Y ๋ฅผ {a1, a2, ..., a100} ์ด๋ผ ํ•˜๋ฉด ๊ทธ๋•Œ์˜ support๋Š” 1์ด๋‹ค. ์ด๋•Œ X ๋Š” Y์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ์ด๊ณ , ๋‘ itemset์˜ support๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— Y ๋ฅผ superset ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, Closed Pattern ์ธ itemset_X {a1, a2, ..., a50} ๊ฐ€ T1๊ณผ T2 ๋ชจ๋‘์— ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์šฐ๋ฆฌ๊ฐ€ ๊ตฌํ•˜๋Š” closed pattern์˜ ์ˆ˜๋Š” 2๊ฐœ๊ฐ€ ๋œ๋‹ค.


๐Ÿงฉ ์ด๋•Œ itemset_Y ๊ฐ€ {a1, a2, โ€ฆ, a99} ์ธ ๊ฒฝ์šฐ๋ผ๋„ ์ƒ๊ด€์ด ์—†์ง€ ์•Š๋ƒ๋Š” ์˜๊ตฌ์‹ฌ์ด ๋“ค ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด itemset_Y ๋Š” ๊ฒฐ๊ตญ {a1, a2, โ€ฆ, a100} ์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ์ด๊ธฐ ๋•Œ๋ฌธ์— Superset์ด๋ผ๊ณ  ํ•˜๊ธฐ์—๋Š” ์ ์ ˆํ•˜์ง€ ์•Š๋‹ค. ๋”ฐ๋ผ์„œ ์ตœ๋Œ€ ๋ฒ”์œ„๋ฅผ ํฌํ•จํ•˜๋Š” itemset์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๐Ÿงฉ ๋˜ํ•œ Closed Pattern์€ Superset์—์„œ ๊ณตํ†ต์ ์œผ๋กœ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ํŒจํ„ด์„ ๊ณ ๋ คํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๊ธฐ ๋•Œ๋ฌธ์— Lossless Compression ์ด๋ผ๊ณ  ํ•œ๋‹ค.


๐Ÿšฉ 1.2. Max-Patterns

๐Ÿงฉ ์ด๋ฒˆ์—๋Š” ๋‘ ๋ฒˆ์งธ Max-Patterns ์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

itemset_X ๊ฐ€ frequentํ•˜๊ณ , X โŠ‚ Y ์ธ frequent super pattern Y๊ฐ€ ์—†์œผ๋ฉด
์ด๋•Œ ์šฐ๋ฆฌ๋Š” itemset_X ๊ฐ€ max-pattern ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.


๐Ÿงฉ ์ด ์นœ๊ตฌ ์—ญ์‹œ ์˜ˆ์ œ๋ฅผ ์‚ดํŽด๋ณด์ž.

์œ„์˜ T1, T2 ์—์„œ max pattern์˜ ๊ฐœ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•ด์ง„๋‹ค. ๋งŒ์•ฝ Closed pattern์„ ๊ตฌํ•  ๋•Œ ์ฒ˜๋Ÿผ itemset_X ๊ฐ€ {a1, a2, ..., a50}๊ฐ€ ๋˜๋ฉด ์ด๋ฅผ ํฌํ•จํ•˜๋Š” frequent super pattern Y๊ฐ€ ์–ผ๋งˆ๋“ ์ง€ ์กด์žฌํ• ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ณด๋‹ค ํฐ ๋ฒ”์œ„์˜ ํŒจํ„ด์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ minsup = 1์— ๋Œ€ํ•ด์„œ max-pattern์„ ๊ตฌํ•˜๋ฉด {a1, a2, ..., a100} ๊ฐ€ ๋ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ทธ๋•Œ์˜ ๊ฐœ์ˆ˜๋Š” 1๊ฐœ๊ฐ€ ๋œ๋‹ค.


๋ฐ˜๋ฉด์— minsup = 2์ธ ๊ฒฝ์šฐ์—๋Š” frequent ๋ฅผ ๋งŒ์กฑํ•˜๋Š” ์ตœ๋Œ€ itemset_X ๊ฐ€ {a1, a2, ..., a50}์ด๋ฉฐ, ์ด๋•Œ X๋ฅผ ํฌํ•จํ•˜๋Š” subset์€ ๋งŽ์ง€๋งŒ ์ด ๊ฒฝ์šฐ minsup = 2๋ฅผ ๋งŒ์กฑํ•  ์ˆ˜ ์—†์œผ๋ฏ€๋กœ frequent ํ•˜์ง€ ์•Š๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋•Œ์˜ max-pattern์˜ ์ˆ˜๋Š” 2๊ฐœ์ด๋‹ค.


๐Ÿงฉ Max-pattern์€ Closed pattern๊ณผ๋Š” ๋‹ฌ๋ฆฌ ๊ณตํ†ต์ ์ธ ๋ชจ๋“  ํŒจํ„ด์„ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ ์ด๋ฅผ ํฌํ•จํ•˜๋Š” ์ตœ๋Œ€ ํŒจํ„ด์„ ๊ตฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ์˜ ์†์‹ค์ด ์ƒ๊ธธ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ Lossy Compression ์ด๋ผ๊ณ  ํ•œ๋‹ค. ์ด์— ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ์— Max-pattern๋ณด๋‹ค Closed pattern์„ ์“ฐ๋Š” ๊ฒŒ ๋ฐ”๋žŒ์งํ•˜๋‹ค๐Ÿ˜ƒ.


๐Ÿงฉ ์ด๋ ‡๊ฒŒ ํ•ด์„œ ๋„ˆ๋ฌด ๋งŽ์€ ํŒจํ„ด์„ ๊ฐ€์ง„ ๊ฒฝ์šฐ์— ๋Œ€ํ•ด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜๋‹ค. ๊ฐœ๋… ์ž์ฒด๊ฐ€ ๊ฝค๋‚˜ ํ—ท๊ฐˆ๋ฆฌ๊ณ , ๊ด€๋ จ๋œ ์˜ˆ์‹œ๋„ ๋งŽ์€ ํŽธ์€ ์•„๋‹ˆ์ง€๋งŒ ์œ„์— ์žˆ๋Š” ๊ฒƒ๋“ค๋งŒ ์ œ๋Œ€๋กœ ์ดํ•ดํ•˜๊ณ  ์ง์ ‘ minsup๋„ ๋ฐ”๊ฟ”๊ฐ€๋ฉด์„œ ๊ตฌํ•ด๋ณด๋ฉด ์ƒ๊ฐ๋ณด๋‹ค๋Š” ์‰ฝ๊ฒŒ ์ดํ•ด ํ•  ์ˆ˜ ์žˆ์„ ๊ฑฐ๋ผ ์ƒ๊ฐํ•œ๋‹ค.

๐Ÿงฉ ๋Œ€๋ถ€๋ถ„์˜ ํŒจํ„ด๋ถ„์„์€ ํฐ ๋ฐ์ดํ„ฐ๋‚˜ ์ผ๋ จ์˜ ์‹œํ€€์Šค์—์„œ ์ง„ํ–‰ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋Ÿฐ ๋ฐฉ๋ฒ•๋“ค์„ ํšจ์œจ์ ์œผ๋กœ ์ง„ํ–‰ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ํ•„์š”ํ•œ๋ฐ, ๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž๐Ÿƒโ€โ™‚๏ธ๐Ÿƒโ€โ™‚๏ธ.


๐Ÿ’ก์œ„ ํฌ์ŠคํŒ…์€ ํ•œ๊ตญ์™ธ๊ตญ์–ด๋Œ€ํ•™๊ต ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ๊ณตํ•™๋ถ€ ๊ณ ์œคํฌ ๊ต์ˆ˜๋‹˜์˜ [์ƒ๋ช…์ •๋ณดํ•™์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹] ๊ฐ•์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Leave a comment