๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(6) Distance_3 : Minkowski
๐งฉ ์ ๋ฒ ํฌ์คํ ์์๋ categorical data์ ๋ํ distance measure๋ฅผ ์์๋ณด์๋ค. ์ด๋ฒ์๋ Numerical Data๋ฅผ ์ํ measure์ธ Minkowski Distance๋ฅผ ๋ฐฐ์๋ณด๋๋ก ํ์.
1. Basic Minkowski Distance
๐ Minkowski Distance ์ญ์ ๋ object๋ค ์ฌ์ด์ distance๋ฅผ ๊ณ์ฐํ ๋ ์ฌ์ฉ๋๋ค. ์๋ฅผ ๋ค๋ฉด,
์ด์ ๊ฐ์ด $l$๊ฐ์ feature๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ์ ๋ชจ๋ feature์ ๋ํด์ Basic Minkowski Distance๋ ์๋์ ๊ฐ์ด ์ ์๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋์ $p$๊ฐ์ ๋ํด์ Minkowski Distance๋ฅผ $L-p\;norm$ ์ด๋ผ ํ๋ค.
Minkowski Distance ๋ ๋ช๊ฐ์ง ์ฑ์ง์ ๊ฐ์ง๊ณ ์๋๋ฐ,
- $d(i,j)>0\;\;(when\;\;i\neq{j})$
- $d(i,i)=0\;\;\,(positivity)$
- $d(i,j)=d(j,i)\;\;(symmetry)$
- $d(i,j)\leqq{d(i,k)}+d(k,j)\;\;(Triangle\;Inequality)$
๋งจ ๋ง์ง๋ง ์ฑ์ง์ด ์ดํด๊ฐ ์ ๊ฐ ์ ์๋๋ฐ, ์ด๋ $i,j,k$ ์ธ ์ ์ด ์ผ๊ฐํ์ ์ด๋ฃฐ ๋๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. ํ ๋ณ์ ๊ธธ์ด๊ฐ ๋๋ณ์ ๊ธธ์ด์ ํฉ๋ณด๋ค ์์์ผ ํ๋ค๋ ์ผ๊ฐํ์ ์์ฑ์กฐ๊ฑด์ ์ํ ์ฑ์ง์ด๋ค.
๐งฉ ์์์ ์ธ๊ธํ๋ฏ์ด Minkowski distance๋ $p$๊ฐ์ ์ํด ์์๊ณผ ์ด๋ฆ์ด ๋ฌ๋ผ์ง๋ค. ์ด์ ๋ ๊ทธ ๊ฒฝ์ฐ์ ๋ํด ์์๋ณด๋๋ก ํ์.
2. L-p Norm
- p = 1 ์ธ ๊ฒฝ์ฐ
- L1 Norm, Manhattan Distance
- ๋จ์ ๊ฑฐ๋ฆฌ์ ํฌ๊ธฐ์ ํฉ.
- p = 2 ์ธ ๊ฒฝ์ฐ
- L2 Norm, Euclidean Distance
- ํํ ์ํ์์ ์ ํ ์ ์๋ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ ๊ณต์.
- L2 Norm, Euclidean Distance
- p $\rightarrow$ โ ์ธ ๊ฒฝ์ฐ
- Lmax Norm, Lโ Norm, Supremum Distance
- ๊ฑฐ๋ฆฌ์ ํฌ๊ธฐ๋ค ์ค ์ต๋๊ฐ์ ์ ํ.
๐งฉ ๋น์ฐํ, ์ด Mimkowski Distance์ ๊ฒฐ๊ณผ ์ญ์ Distance Matrix์ ํํ๋ก ๋ง๋ค์ด ์ค ์ ์๋ค. ๊ด๋ จ ๋งํฌ๋ฅผ ์ฒจ๋ถํด ๋์์ผ๋ ํ์ํ ์ฌ๋์ ์ฐธ๊ณ ํด๋ ์ข์ ๊ฒ ๊ฐ๋ค๐.
๐ Distance Matrix ๊ด๋ จ ํฌ์คํ .
๐งฉ ์ด๋ฒ ํฌ์คํ ์์๋ Numerical Attribute์ distance measure๋ฅผ ๋ค๋ค๋ณด์๋ค. ์์์ ๋ฃจํธ๋ ๋ค์ด๊ฐ ์์ด์ ์ฝ๊ฐ ๊ท์ฐฎ์๋ณด์ผ ์ ์์ง๋ง, ๊ทธ ๋ฐฉ์์ ์๊ฐ๋ณด๋ค ๊ฐ๋จํ๊ธฐ ๋๋ฌธ์ ์ง์ ๊ตฌํํด ๋ณด๋ ๊ฒ๋ ์ด๋ ต์ง ์์ ๊ฒ์ด๋ผ ์๊ฐํ๋ค. ๋ค์ ํฌ์คํ ์์๋ Document frequency๋ฅผ ์ํ distance measure๋ฅผ ๋ฐฐ์๋ณด์๐โโ๏ธ๐โโ๏ธ.
Leave a comment