๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(5) Distance_2 : Categorical / Binary
๐งฉ ์ ๋ฒ ํฌ์คํ ์ ํตํด์ object๋ค ๊ฐ์ Distance๋ฅผ ๋ํ๋ด๋ Matrix๋ฅผ ๋ง๋๋ ๋ฒ์ ๋ํด ์์๋ณด์๋ค. ์ด์ ๋ ๋ณธ๊ฒฉ์ ์ผ๋ก Distance measure์ ๋ํด ์์๋ณผํ ๋ฐ, ์ด measure๋ค์ feature์ ์๋ฃํ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์ ์ฉ๋๋ค. ๋จผ์ categorical feature์ binary feature์ ๋ํ measure์ ๋ํด ์์๋ณด๋๋ก ํ์.
1. Categorical Attributes - Nominal
- Simple Matching
- ๋จผ์ ์์๋ณผ ๋ฐฉ๋ฒ์ simple matching์ด๋ผ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ํตํ object ์ฌ์ด์ distance๋ ์๋์ ๊ฐ์ด ํํ๋๋ค.
$d(i,j)=\frac{(p-m)}{p}$ - ์ด๋ $m$์ feature์ ๋ํด ๊ฐ์ ๊ฐ์ ๊ฐ์์ด๊ณ , $p$๋ ์ ์ฒด ๊ฐ์๋ฅผ ์๋ฏธํ๋ค.
- ์ฌ์ค ์์ ์์๋ง ๋ณด๊ณ ์ดํดํ๊ธฐ๊ฐ ์ฝ์ง ์๊ธฐ ๋๋ฌธ์, ์๋ฅผ ํ๋ฒ ๋ณด๋๋ก ํ์.
์์์ student 2์ 3์ Blood Type์ ๊ฐ์ง๋ง Hair Color๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ distance๋ ์๋์ ๊ฐ๋ค.
๋ฐ๋ฉด student 2์ student 4๋ ๋ feature๊ฐ ๋ชจ๋ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ distacne๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ด๋ ๊ฒ ํ๋ฉด ๊ฐ๋จํ๊ฒ simple matching ์ ํตํด distance๋ฅผ ๊ตฌํ ์ ์๋ค.
- Use a large number of binary attributes
- ๊ฐ nominal state์ ๋ํด ์๋ก์ด binary attribute๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฆ, categorical ํํ๋ก ์ฃผ์ด์ง ๊ฐ feature๋ค์ binary ํํ๋ก ๋ฐ๊ฟ์ฃผ๊ฒ ๋ค๋ ์๋ฏธ์ด๋ค. ์ด๋ฅผ ์ ์์์ student 1๊ณผ student 2์ ์ ์ฉํ๋ฉด ์๋์ ๊ฐ์ด ๋ฐ๋๋ค. Blodd type A๋ฅผ 0์ผ๋ก, B๋ฅผ 1๋ก ๋ฐ๊ฟ์คฌ์ผ๋ฉฐ, Hair Color Black์ 1๋ก, Brown์ 0์ผ๋ก ๋ฐ๊ฟ ๋ํ๋ด์๋ค.
๐ ๊ทธ ํ์ distance๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ simple matching๊ณผ ๊ฐ๋ค.
2. Categorical Attributes - Ordinal
์์์ ๋ค๋ฃฌ nominal data์๋ ๋ค๋ฅด๊ฒ ์์๊ฐ ์๋ ์๋ฃํ์ด๋ค.
๐งฉ ์ด ๋ฐ์ดํฐ์ distance๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ ordinal variables๋ฅผ ๊ทธ๊ฒ์ ์์๋ก ๋ณ๊ฒฝํด์ฃผ๋ ๊ฒ์ธ๋ฐ, ์ด๋ ์๋์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์ ํด์ง๋ค.
๐ ์์๋ง ๋ณด๋ฉด ๋ญ๊ฐ ๋ณต์กํด๋ณด์ด๋๋ฐ, ๊ทธ๋ฅ ๋จ์ํ ์์๋ฅผ ๋งค๊ธด๋ค๊ณ ์๊ฐํ๋ฉด ํธํ ๊ฒ ๊ฐ๋ค. ์์๋ฅผ ํ๋ฒ ์ดํด๋ณด๋๋ก ํ์.
freshman 1 / sopomore 2 / junior 3 / senior 4 ์ ๋ํด์ ๊ฐ๊ฐ์ $Z$๊ฐ์ ๋จผ์ ๋ณด๋ฉด,
$Z_{if}=0\;\;/\;\;\frac{1}{3}\;\;/\;\;\frac{2}{3}\;\;/\;\;1$ ๋ก ๊ณ์ฐ์ด ๋๋ค.
์ด $Z$๊ฐ์ ๋ฐํ์ผ๋ก ํด์ distance๋ฅผ ๊ตฌํ๊ฒ ๋๋๋ฐ, ๊ทธ ๊ณ์ฐ์ ๋จ์ ๋บผ์ ์ฐ์ฐ์ด๋ค.
3. Binary Attributes - 0/1
- binary attribute๋ค์ 0๋๋ 1์ ๊ฐ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ๊ฐ๋จํ๊ฒ ํฉ์ณ์ ํ๋์ table๋ก ๋ง๋ค ์ ์๋ค. ์ด table์ Contingency Table์ด๋ผ๊ณ ํ๋๋ฐ, ๊ทธ ๋ชจ์ต์ ์๋์ ๊ฐ์ด ๋ํ๋๋ค.
๐ Contingency Table
๐ ๋ object๊ฐ ๋ชจ๋ 1์ธ ๊ฒฝ์ฐ์๋ q, ๋ชจ๋ 0์ด๋ฉด t, (i,j) = (1,0) ์ด๋ฉด s, (0,1) ์ด๋ฉด r๋ก ๊ฐ๊ฐ ๊ทธ ๊ฐ์ด ์ง๊ณ๋๋ค.์์ธกํ ์ ์๊ฒ ์ง๋ง, distance๋ฅผ ๊ตฌํ ๋๋ ์ฃผ๋ก s์ r์, similarity๋ฅผ ๊ตฌํ ๋๋ q์ t๋ฅผ ์ฌ์ฉํ๋ค.
โญโญ contingency table์ ์์ด์ ๋ฐ๋์ ๊ณ ๋ คํด์ผ ํ ์ ์ด ํ๋ ์๋ค. ์ฐ๋ฆฌ๊ฐ binary๋ก ๋ํ๋ด๋ ๋ฐ์ดํฐ๋ ๋ ๊ฐ์ง ๊ฒฝ์ฐ๋ก ๋ช ํํ ๋๋ ์ ธ์ผ ํ๋ค. ํ์ง๋ง ์ด๋ฌํ ๊ฒฝ์ฐ๊ฐ ๊ทธ๋ ๊ฒ ๋ง์ด ์กด์ฌํ์ง๋ ์๋๋ฐ, ์ฃผ๋ก ๋ํ๋๋ ๋๋ฉ์ธ์ด ์ง๋ณ์ ์์ฑ / ์์ฑ์ ํ๋จํ๋ ๋๋ฉ์ธ์ด๋ค. ์๋ฅผ ๋ค๋ฉด ์ฝ๋ก๋ ๊ฒ์ฌ ๊ฒฐ๊ณผ๊ฐ ์์ฑ(1)์ด๋ ์์ฑ(0)์ด๋๋ฅผ ๋ค๋ฃจ๋ ๊ฒฝ์ฐ๋ผ ํ ์ ์๊ฒ ๋ค. ๊ทธ๋ฆฌ๊ณ ์ง๋ณ ๊ด๋ จ ์กฐ์ฌ์์ ์ฐ๋ฆฌ๊ฐ ๊ด์ฌ์๋ ๋์์ ์์ฑ์ธ ๊ฒฝ์ฐ์ด์ง, ์์ฑ์ธ ๊ฒฝ์ฐ์ผ ๊ฐ๋ฅ์ฑ์ ๊ทธ๋ ๊ฒ ํฌ์ง ์๋ค. ํ์ง๋ง ๋ ์กฐ์ฌ ๋์์ด ๋ชจ๋ ์์ฑ์ธ ๊ฒฝ์ฐ(q)๋ณด๋ค๋ ๋น์ฐํ ์์ฑ(t)์ผ ๊ฐ๋ฅ์ฑ์ด ๋๊ธฐ์, ์์ contingency table์์ q๋ณด๋ค t๊ฐ ์๋ฑํ ํฐ ๊ฐ์ ๊ฐ์ง ๊ฒ์ด๋ค. ์ด๋ ๊ฒ asymmetricํ table์ ๋ํด์๋ ๋น์ฐํ ์ด ๊ฒฝ์ฐ๋ฅผ ๊ณ ๋ คํด์ผ ํ๋คโญโญ.
๐ ์ด์ ๊ฐ๊ฐ์ ๊ฒฝ์ฐ์ ๋ํ distance๋ฅผ ๊ตฌํด๋ณด๋๋ก ํ์.
๐งฉ Distance measure for symmetric binary variables
๐งฉโญDistance measure for asymmetric binary variablesโญ
๐งฉโญSimilarity measure for asymmetric binary variablesโญ
๐งฉ ์์๋ฅผ ํ๋ฒ ์ดํด๋ณด๋๋ก ํ์!!
๐ ์ด๋ค ์ง๋ณ์ ๊ด๋ จ๋ 7๊ฐ์ feature๋ฅผ ๊ฐ์ง 3๊ฐ์ object๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์์ ํ์ธํ ์ ์๋ค. ์ด๋ gender๋ symmetricํ ํน์ง์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ์ด๋ ์ ์ธํ๊ณ distance๋ฅผ ๊ณ์ฐํด ์ค ๊ฒ์ด๋ค. ๋ํ test์ ๊ฒฐ๊ณผ์์ ๋์ค๋ P๋ 1๋ก, N์ 0์ผ๋ก ๊ธด์ฃผํ๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก contingency table์ ๋ง๋ค๋ฉด ์๋์ ๊ฐ๋ค.
๐งฉ ์์ ๊ณต์์ ๋ฐ๋ผ์ distance๋ฅผ ๊ตฌํด๋ณด์.
๐งฉ ์ด๋ ๊ฒ ํด์ binary data์ ๋ํ distance measure ์ญ์ ๋ค๋ค๋ดค๋ค. ๊ณ ๋ คํด์ผ ํ ๊ฒ๋ ์๊ณ , ๊ทธ ๊ฒฝ์ฐ๋ง๋ค ์ ์ฉ๋๋ ๊ณต์๋ ์ด์ง์ฉ ๋ฌ๋ผ์ง์ง๋ง ์๋ก ๋ค๋ฅธ ๊ฒ๋ค๋ก distance๋ฅผ ๊ณ์ฐํ๊ณ ๊ฐ์ ๊ฒ์ผ๋ก similarity๋ฅผ ๊ฒ์ฐํ๋ค๋ ๊ฒ๋ง ์๊ฐํ๋ฉด ๊ทธ๋ ๊ฒ ์ด๋ ค์ด ๊ฐ๋ ์ ์๋ ๊ฒ ๊ฐ๋ค.
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ categorical data์ ๋ํ distance measure๋ฅผ ์์๋ณด์๋ค. ์ข ๋ฅ๊ฐ ๋ค์ํ๊ณ , ๋ฐ์ดํฐ์ ๋๋ฉ์ธ์ ๋ฐ๋ผ์ ์ ์ฉํ๋ ๋ฒ์ด ๋ค๋ฅด์ง๋ง ์์ ์์๋ค๋ง ์ ์ดํด๋ด๋ ๋๋ฆ ์ค๊ทผํ๊ฒ ๋์ด๊ฐ ์ ์๋ ๋ด์ฉ๋ค์ธ ๊ฒ ๊ฐ๋ค๐. ์์ผ๋ก ๋์ฌ ๋ด์ฉ๋ค์ ๊ธฐ์ด๊ฐ ๋๋ ๋ถ๋ถ๋ค์ด๊ธฐ ๋๋ฌธ์ ๋๋ฆ ์์ธํ ๋ค๋ค๋ณด์๋๋ฐ, ์ถฉ๋ถํ ์ค๋ช ์ด ๋์์ผ๋ฉด ์ข๊ฒ ๋ค. ์ด์ ๋ค์ ํฌ์คํ ์์๋ Numerical Data์ distance๋ฅผ ๊ตฌํด๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
Leave a comment