๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(7) Distance_4 : Cosine ์ ์ฌ๋
๐งฉ Distance Measure ๋ง์ง๋ง ํฌ์คํ ์ด๋ค๐. Document Frequency๋ฅผ ์ํ Cosine Similarity์ ๋ํด ์์๋ณด์.
1. Cosine Similarity of two vectors
๐งฉ Document Frequency๊ฐ ๋ฌด์์ธ์ง ๊ถ๊ธํ ์ ์์ ํ ๋ฐ, ์ ๋ฌธ๊ธฐ์ฌ๋ ์ธํฐ๋ท ๊ธฐ์ฌ๋ฅผ ๊ฐ์ฅ ๋ํ์ ์ธ ์์๋ก ์๊ฐํ๋ฉด ๋ ๊ฒ ๊ฐ๋ค. ์ฐ์๊ธฐ์ฌ์๋ ์ฐ์๊ธฐ์ฌ๋ง์ ์์ฃผ ๋์ค๋ ์ฉ์ด๋ค์ด ์์ ๊ฒ์ด๊ณ , ์คํฌ์ธ ๊ธฐ์ฌ์๋ ๊ทธ๋ง์ ์์ฃผ ๋ฑ์ฅํ๋ ์ฉ์ด๋ค์ด ์์ ๊ฒ์ด๋ค. ์๋ก ๋ค๋ฅธ ๋ ๊ธฐ์ฌ๋ค ๊ฐ์ similarity๋ฅผ ๊ณ์ฐํด์ ์ ์ฌ์์ ์์๋ณด๋ ๊ฒ์ด Cosine Similarity์ ๋ชฉ์ ์ด๋ค. ๋ํ ๋จ์ํ ํ ์คํธ๋ค์ ์ ์ฌ์ฑ ๋ฟ๋ง ์๋๋ผ ์ ์ ์ฒด์ ๋ํ ๋ถ์๋ ์งํํ ์ ์๋ measure์ด๊ธฐ ๋๋ฌธ์ Gene feature ํน์ biologic toxonomy๋ฑ์ ๋๋ฉ์ธ์์๋ ์ฌ์ฉํ๋ ์ถ์ธ์ด๋ค.
๐งฉ ์์๋ถํฐ ์ดํด๋ณด๋๋ก ํ์.
๐ ์์ ์์์์ ๊ฐ๊ฐ์ Document๋ค์ด ์ ๋ฌธ๊ธฐ์ฌ๋ฅผ ์๋ฏธํ๊ณ , ๊ฐ column๋ค์ด ์ ๋ฌธ๊ธฐ์ฌ์์ ๋์ค๋ ์ฉ์ด๋ค์ ๋น๋๋ฅผ ๋ํ๋ธ๋ค. ์ด์ ์ฐ๋ฆฌ๋ Frequency๋ฅผ ๋ถ์ํ๊ธฐ ์ํด์ ๊ฐ document์ ๋น๋๋ฅผ vector๋ก ํํํ ๊ฒ์ด๋ค. ๊ฐ๊ฐ์ ๋ฒกํฐ๋ ์๋์ ๊ฐ์ด ํํ๋๋ค.
์์ผ๋ก ์ด ๋ฒกํฐ๋ค์ term-frquency vector ๋ผ๊ณ ๋ถ๋ฅผ ๊ฒ์ด๋ค. ์ด์ ์ด ๋ฒกํฐ๋ค์ ๊ฐ์ง๊ณ similarity๋ฅผ ๊ตฌํ๊ธฐ ์ํ measure๋ฅผ ์ดํด๋ณด์.
๐ Cosine Measure
๋ ๋ฒกํฐ $\overrightarrow{d_{1}}$, $\overrightarrow{d_{2}}$์ ๋ํ์ฌ (๋จ, ๋ ๋ฒกํฐ๋ term-frquency vector)
๐ ๋ฒกํฐ๋ ๋์ค๊ณ , ๋ด์ ๋ ๋์์ ์ผํ๋ณด๋ฉด ๋ณต์กํด๋ณด์ด๋ ์์ด๊ธด ํ์ง๋ง ๊ทธ๋ฅ ๋จ์ํ ๋ด์ ๊ณ์ฐ ์์์ ํ์๋๋ measure์ด๋ค. ๋ด์ ๊ฐ์ ๋ ๋ฒกํฐ์ ํฌ๊ธฐ์ ๊ณฑ์ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ์ธ ฮธ์ ์ฝ์ฌ์ธ ๊ฐ์ ๊ตฌํด ๊ณฑํด์ฃผ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ๊ทธ๋ฅ ๊ทธ ์์ ๋๊ฒจ์ฃผ๋ ๊ฒ ๋ฟ์ด๋ค.
๐ ์ฝ์ฌ์ธ ๊ทธ๋ํ๋ฅผ ์๊ฐํด๋ณด๋ฉด ์ฝ์ฌ์ธ ๊ฐ์ ฮธ๊ฐ ์์์๋ก ์ปค์ง๋ค. ๋ฐ๋ผ์ cosine similarity ๊น์ธ $cos(\overrightarrow{d_{1}}, \overrightarrow{d_{2}})$ ๊ฐ ์ปค์ง๋ฉด ๋ ๋ฒกํฐ ์ฌ์๊ฐ์ธ ฮธ๊ฐ ์์์ ๋ ๋ฒกํฐ๊ฐ ์๋ก ๊ฐ๊น๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
-
$cos(\overrightarrow{d_{1}}, \overrightarrow{d_{2}})$๊ฐ ํฌ๋ค = ์ฌ์๊ฐ ฮธ๊ฐ ์๋ค = ๋ ๋ฒกํฐ๊ฐ ์๋ก ๊ฐ๊น๋ค
-
$cos(\overrightarrow{d_{1}}, \overrightarrow{d_{2}})$๊ฐ ์๋ค = ์ฌ์๊ฐ ฮธ๊ฐ ํฌ๋ค = ๋ ๋ฒกํฐ๊ฐ ์๋ก ๋ฉ๋ค
๐งฉ ์์ ์์์์ ์ง์ cosine similarity๋ฅผ ๊ตฌํด๋ณด๋ ๊ฒ์ผ๋ก ๋๋ด์๐.
$cos(\overrightarrow{d_{1}}, \overrightarrow{d_{2}})$ ์ ๋ํด์
$\overrightarrow{d_{1}}\cdot\overrightarrow{d_{2}} = 15+0+6+0+2+0=23$
$|\overrightarrow{d_{1}}| = \sqrt{25+0+9+0+4+0} = \sqrt{38}$
$|\overrightarrow{d_{2}}| = \sqrt{9+0+4+0+1+1} = \sqrt{15}$
$cos(\overrightarrow{d_{1}}, \overrightarrow{d_{2}})=\frac{23}{\sqrt{38}\times\sqrt{15}} = 0.963$
- cosine similarity ๊ฐ์ด 1์ ๊ฐ๊น์ด ํฐ ๊ฐ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋ ๋ฒกํฐ๋ ์๋ก ๊ฐ๊น๋ค๊ณ ํ ์ ์๋ค.
2. Distance Measure ์์ฝ
- Distance Matrix
- Q-Q plot
- Scatter plot
- Categorical Attributes : Simple Matching
- Binary Attributes : contingency table
- Numeric Data : Minkowski Distance
- Manhattan (1)
- Euclidean (2)
- Supremum (โ)
- Document / Term Frequency : Cosine Similarity
๐งฉ Distance Measure ๊ด๋ จ ๋งํฌ๋ฅผ ์๋์ ์ฒจ๋ถํด๋์์ผ๋ ํ์ํ ์ฌ๋์ ์ฐธ๊ณ ํ๋ฉด ์ ๋ฆฌ์ ๋์์ด ๋ ๊ฒ ๊ฐ๋ค๐.
๐ 1. QQ plot / Scatter plot ๊ด๋ จ ํฌ์คํ
๐ 2. Distance Matrix ๊ด๋ จ ํฌ์คํ
๐ 3. Categorical / Binary Attributes ๊ด๋ จ ํฌ์คํ
๐ 4. Numeric Data - Minkowski Distance ๊ด๋ จ ํฌ์คํ
๐งฉ ์ด๋ ๊ฒ ํด์ Distance Measure๋ฅผ ๋ชจ๋ ์์๋ณด์๋ค. ์์์ด ๋ณต์กํด๋ณด์ด๋ ๊ฒฝ์ฐ๋ ์๊ณ , ๊ทธ ๊ฐ๋ ์ด ํท๊ฐ๋ฆฌ๋ ๊ฒฝ์ฐ๋ ์์ง๋ง ์ด๋ค ์๋ฃํ์ ๋ฐ์ดํฐ์ ์ด๋ ํ measure๋ฅผ ์ฌ์ฉํ๋์ง ์๊ณ ์์ผ๋ฉด distance๋ฅผ ๊ณ์ฐํ๋ ๋ฐ์๋ ์ ํ ์ด๋ ค์์ด ์์ ๊ฒ ๊ฐ๋ค. ๋๋ถ๋ถ์ measure๊ฐ ํ์ด์ฌ์ด๋ R์ ๊ตฌํ๋์ด ์์ผ๋ ๋ง์ด๋ค๐๐ใ ใ .
๐งฉ ๋ค์ ํฌ์คํ ๋ถํฐ๋ Data Preprocessing์ ์ํ ๋ฐฉ๋ฒ๋ค์ ์์๋ณด์!!
Leave a comment