๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(4) Distance_1 : Distance Matrix
๐งฉ ์ ๋ฒ ํฌ์คํ ๋ค์ ํตํด์ ๋ฐ์ดํฐ๋ค์ ๊ธฐ๋ณธ์ ์ธ ํน์ง๋ค์ ์์๋ณด์๋ค. ์ด๋ฒ ํฌ์คํ ๋ถํฐ๋ ๋ณธ๊ฒฉ์ ์ผ๋ก Distance measure์ ๋ํด ์์๋ณด๋๋ก ํ์.
1. Similarity / Dissimilarity
- Similarity
- ๋ฐ์ดํฐ๋ค์ ์ ์ฌํ ์ ๋
- ๋ฒ์ : [0,1]
- 0 : No Similarity
- 1 : Completely Similar
- Dissimilarity
- ๋ฐ์ดํฐ๋ค์ ๋ค๋ฅธ ์ ๋ (= distance)
- ๋ฒ์ : [0,1]
- 0 : No Distance
- 1 : Completely Dissimilar
๐งฉ ์์ ๋ ์น๊ตฌ๋ค์ ๋น๊ตํด๋ณด๋ฉด ์๊ฒ ์ง๋ง ์๋ก ์ ๋ฐ๋์ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค. ๋ ๊ฐ๋ ๋ชจ๋ ๊ฐ์ ๋ฒ์๋ฅผ ๊ฐ์ง์ง๋ง, ๊ทธ ๊ฐ์ด ์๋ฏธํ๋ ๋ฐ๋ ์ ๋ฐ๋๋ผ๊ณ ์ดํดํ๋ฉด ๋ ๋ฏ ํ๋ค. ์ด ๋ ๊ฐ๋ ์ ๋จผ์ ๋ค๋ฃจ๋ ์ด์ ๋, ์์ผ๋ก ์ค๋ช ํ ๋ด์ฉ๋ค์์ ๊ณ์ํด์ ๋ฑ์ฅํ๊ธฐ ๋๋ฌธ์ด๋ค.
๐งฉ ๊ทธ๋ฆฌ๊ณ ์์ ๋ ๊ฐ๋ ๋ค์ ํตํฉํด์ Proximity๋ผ๊ณ ํ๋ค.
2. Dissimilarity Matrix
๐งฉ ์ด๋ฒ์๋ ๋ object ๋ค ์ฌ์ด์ Distance๋ฅผ ๋ํ๋ด๋ Matrix์ธ Dissimilarity Matrix์ ๋ํด ์์๋ณด์. ๋ณด๋ค ํธํ ์ดํด๋ฅผ ์ํด ์์์ ์ค๋ช ํ Data Set์ ๊ตฌ์กฐ๋ฅผ ์ข ๋ ์์ธํ ๋ํ๋ด์ค ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์์ผ๋ก๋ ์ด ๊ตฌ์กฐ๋ฅผ Data Matrix๋ผ๊ณ ๋ถ๋ฅด์.
๐Data Matrix
ย | feature 1 | feature2 | feature3 | โฆ | feature m |
---|---|---|---|---|---|
d 1 | x11 | x12 | x13 | โฆ | x1m |
d 2 | x21 | x22 | x23 | โฆ | x2m |
โฆ | โฆ | โฆ | โฆ | โฆ | โฆ |
d n | xn1 | xn2 | xn3 | โฆ | xnm |
๐ ์์ Data Matrix๋ฅผ ๋ณด๋ฉด ์ ์ ์์ง๋ง ์ ๊ตฌ์กฐ๋ m๊ฐ์ feature๋ก ํํ๋๋ n๊ฐ์ object๋ก ์ด๋ฃจ์ด์ง๋ค. ์ฆ, (n x m) matrix์ด๋ค.
๐งฉ ์ด์ ๋ ์ด๋ฅผ ๋ฐํ์ผ๋ก ํด์ Dissimilarity Matrix๋ฅผ ๋ง๋ค ์๊ฐ์ธ๋ฐ, ์ด๋ฅผ ์ํด์ ์ฐ๋ฆฌ๋ ๋น๊ตํ๊ณ ์ถ์ ํ๋์ feature๋ฅผ ๊ณจ๋ผ์ฌ ๊ฒ์ด๋ค. ๊ทธ๋ ๊ฒ ๋ง๋ค์ด์ง๋ ๊ตฌ์กฐ๋ ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค.
๐Dissimilarity Matrix
ย | d 1 | d 2 | d 3 | โฆ | d n |
---|---|---|---|---|---|
d 1 | d(1,1) | d(1,2) | d(1,3) | โฆ | d(1,n) |
d 2 | d(2,1) | d(2,2) | d(2,3) | โฆ | d(2,n) |
d 3 | d(3,1) | d(3,2) | d(3,3) | โฆ | d(3,n) |
โฆ | โฆ | โฆ | โฆ | โฆ | โฆ |
d n | d(n,1) | d(n,2) | d(n,3) | โฆ | d(n,n) |
๐ ๊ฐ๊ฐ์ d(i,j)๋ ํ๋์ feature์ ๋ํด ์ ํด๋ Distance Measure๋ฅผ ํตํด ๊ตฌํ objec i์ object j์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ํ๋ธ๋ค. ์ด๋ฅผ ํตํฉํด์ Matrix ํํ๋ก ํํํ๋ค. ์ด๋ ์๊ธฐ ์์ ๊ณผ์ distance๋ ๋น์ฐํ 0์ด๊ณ , d(1,2)์ d(2,1)์ ์๋ก ๊ฐ์ object๋ค ๊ฐ์ ๋น๊ต์ด๊ธฐ ๋๋ฌธ์ ์๋ก ๊ฐ์ ๊ฐ์ ๊ฐ์ง๋ค. ๋ฐ๋ผ์, Symmetric(๋์นญ์ฑ)์ ์ํด ์ด Matrix๋ ์๋์ ๊ฐ์ด ํํ๋๊ธฐ๋ ํ๋ค.
ย | d 1 | d 2 | d 3 | โฆ | d n |
---|---|---|---|---|---|
d 1 | 0 | ย | ย | ย | ย |
d 2 | d(2,1) | 0 | ย | ย | ย |
d 3 | d(3,1) | d(3,2) | 0 | ย | ย |
โฆ | โฆ | โฆ | โฆ | 0 | ย |
d n | d(n,1) | d(n,2) | d(n,3) | โฆ | 0 |
๐งฉ ์์ ๋งํ๋ฏ์ด ์ด distance๋ฅผ ๊ตฌํ๊ธฐ ์ํ measure๋ฅผ ๋ฏธ๋ฆฌ ์ ํด์ฃผ๋๋ฐ, ์ด measure๋ค์ variables์ ์๋ฃํ์ ๋ฐ๋ผ ์ ํํ๋ ๊ธฐ์ค์ด ๋ฌ๋ผ์ง๋ค. ์ด ๋ด์ฉ๋ค์ ๋ค์ ํฌ์คํ ์์ ์๊ฐํ ๊ฒ์ด๋ค.
๐งฉ ์ด๋ ๊ฒ ํด์ ์์ผ๋ก Distance๋ค์ ์ ๋ฆฌํ Matrix์ ์์ฑ๊น์ง ๋ฐฐ์๋ณด์๋ค. ๋ค์ ํฌ์คํ ๋ถํฐ๋ ์ด๋ฅผ ์ํ Distance Measure๋ฅผ ์์ฐจ๊ฒ ๋ฐฐ์๋ณด๋๋ก ํ์๐๐.
Leave a comment