🧩 μ €λ²ˆ ν¬μŠ€νŒ…μ—μ„œλŠ” λ²”μ£Όν˜• 데이터에 λŒ€ν•œ data integration 방법인 chi-square test에 λŒ€ν•΄ μ•Œμ•„λ³΄μ•˜λ‹€. μ΄λ²ˆμ—λŠ” Numerical Data, 즉 μˆ˜μΉ˜ν˜• 데이터에 λŒ€ν•œ 방법듀을 μ•Œμ•„λ³΄λ„λ‘ ν•˜μž.

🧩 이 방법듀은 μ•„λž˜μ™€ 같이 정리할 수 μžˆλ‹€.
- 뢄산뢄석 (Variance)
- 곡뢄산 뢄석 (Covariance)
- 상관관계 뢄석 (Correlation)

πŸ‘‰ 이제 variance measureλΆ€ν„° μ°¨κ·Όμ°¨κ·Ό μ•Œμ•„λ³΄λ„λ‘ ν•˜μž.


1. Variance for single numerical data variable

🧩 λΆ„μ‚°, 즉 varianceλ₯Ό 닀루기 전에 기초적인 톡계 κ΄€λ ¨ 지식을 짚고 갈 ν•„μš”κ°€ μžˆμ„ λ“― ν•˜λ‹€. 닀름 μ•„λ‹Œ 평균 이닀. 각 ν‘œλ³Έμ˜ 합을 ν‘œλ³Έμ˜ 수둜 λ‚˜λˆˆ 것을 μ˜λ―Έν•˜λ©°, 보톡 $E(X)$, $ΞΌ$ λΌλŠ” 기호λ₯Ό 톡해 μ‚¬μš©ν•˜λŠ” κ²½μš°κ°€ λ§Žλ‹€. 사싀 κ±°μ°½ν•˜κ²Œ 톡계 지식이라고 말은 ν•΄λ’€μ§€λ§Œ, ν‰κ· λ§Œ μ•Œλ©΄ 뒀에 λ‚˜μ˜¬ λ‚΄μš©λ“€μ„ μ΄ν•΄ν•˜λŠ” λ°μ—λŠ” μ „ν˜€ 어렀움이 없을 것이닀. λ˜ν•œ νŽΈμ°¨λΌλŠ” κ°œλ…μ„ μ•Œμ•„μ•Όν•œλ‹€. νŽΈμ°¨λŠ” κ΄€μΈ‘κ°’ - 평균 을 μ˜λ―Έν•˜λ©°, 주둜 $X-ΞΌ$ 라고 ν‘œν˜„λœλ‹€.

🧩 μœ„μ˜ 두 κ°œλ…λ“€μ„ μ‚¬μš©ν•˜λ©΄ 뢄산을 μ‰½κ²Œ μ„€λͺ…ν•  수 μžˆλ‹€. 뢄산은 편차의 제곱의 ν‰κ· μœΌλ‘œ κ³„μ‚°λ˜λ©°, ν‘œλ³Έμ΄ 흩어진 정도λ₯Ό μ˜λ―Έν•œλ‹€. μˆ˜μ‹μ€ μ•„λž˜μ™€ κ°™λ‹€.

$Οƒ^2 = Var(X) = E((X-ΞΌ)^2)=E(X^2)-(E(X))^2$


$if\;\,X\;\,is\;\,discrete,\;\;Οƒ^2 =\sum{(X-ΞΌ)^2}f(X),\;\;\,and\;\,f(X):$ ν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜


$if\;\,X\;\,is\;\,continuous,\;\;Οƒ^2 =\int_{-\infty}^\infty{(X-ΞΌ)^2}f(X),\;\;\,and\;\,f(X):$ ν™•λ₯ λ°€λ„ν•¨μˆ˜


πŸ‘‰ μœ„μ˜ 두 μ‹μ—μ„œ λ³Ό 수 μžˆλ“―μ΄ $X$λΌλŠ” λ³€μˆ˜κ°€ 연속이냐, λΆˆμ—°μ†μ΄λƒμ— λ”°λΌμ„œ μ •μ˜λ˜λŠ” ν™•λ₯  ν•¨μˆ˜μ˜ ν˜•νƒœλ„ λ‹€λ₯΄κ³  κ·Έ 계산 방식도 λ‹€λ₯΄κΈ° λ•Œλ¬Έμ— 이λ₯Ό κ³ λ €ν•΄μ€˜μ•Όν•œλ‹€. ν•˜μ§€λ§Œ 이λ₯Ό λ°μ΄ν„°λ§ˆμ΄λ‹μ—μ„œ μ„€λͺ…ν•˜κΈ°μ—λŠ” λ‚΄μš©μ΄ 톡계학μͺ½μ— 많이 가깝기 λ•Œλ¬Έμ—, λ‚˜μ€‘μ— κΈ°νšŒκ°€ 되면 ν•œλ²ˆ 정리해야겠닀.

🧩 μ΄λ ‡κ²Œ 뢄산을 κ΅¬ν•œ ν›„μ—λŠ” ν‘œμ€€νŽΈμ°¨, 즉 Standard Deviationλ₯Ό κ΅¬ν•œλ‹€. ν‘œμ€€νŽΈμ°¨λŠ” 뢄산에 μ œκ³±κ·Όμ„ μ·¨ν•œ 값을 μ˜λ―Έν•˜λ©°, μˆ˜μ‹μ€ μ•„λž˜μ™€ κ°™λ‹€.

$Οƒ = \sqrt{Οƒ^2}$


⭐ λΆ„μ‚°κ³Ό ν‘œμ€€νŽΈμ°¨λ₯Ό κ΅¬ν•¨μœΌλ‘œμ¨ μš°λ¦¬κ°€ μ•Œκ³  싢은 valueκ°€ 평균 $ΞΌ$λ‘œλΆ€ν„° μ–Όλ§ˆλ‚˜ λ–¨μ–΄μ ΈμžˆλŠ”μ§€λ₯Ό ν™•μΈν•˜κ³ , κ·Έ 데이터λ₯Ό 선택해도 될지, 톡합해도 될지 μ—¬λΆ€λ₯Ό μ•Œμ•„λ‚Ό 수 μžˆλ‹€.


2. Covariance for two variables

🧩 μœ„μ—μ„œ μ‚΄νŽ΄λ³Έ varianceλŠ” 단일 variable의 데이터 뢄포λ₯Ό μ•Œμ•„λ³΄λŠ” 데에 μ‚¬μš©ν–ˆλ‹€λ©΄, μ΄λ²ˆμ— μ•Œμ•„λ³Ό Covariacne, 즉 곡뢄산은 두 variable μ‚¬μ΄μ˜ 관계λ₯Ό μ•Œμ•„λ³΄κΈ° μœ„ν•΄ μ‚¬μš©ν•œλ‹€. μˆ˜μ‹μ€ μ•„λž˜μ™€ κ°™λ‹€.

$Οƒ_{12} = E[(X_1-ΞΌ_1)(X_2-ΞΌ_2)] = E(X_1X_2)-ΞΌ_1ΞΌ_2=E(X_1X_2)-E(X_1)E(X_2)$


즉,

$Οƒ_{12} = \frac{1}{n}\sum_{i=1}^n(X_{i1}-ΞΌ_1)(X_{i2}-ΞΌ_2)$

그리고 μ΄λ•Œ,

$if\;\;Οƒ_{12}\,>\,0\;:\;positive\;covariance$


$if\;\;Οƒ_{12}\,<\,0\;:\;negative\;covariance$


$if\;\,X_1,\,X2\;\,is\;\,independent\;\,for\;\,each\;\,other,\;\,Οƒ_{12}\,=\,0$


🧩 μ˜ˆμ‹œλ₯Ό ν•œλ²ˆ μ‚΄νŽ΄λ³΄λ„λ‘ ν•˜μž.

ex) $(X_1,X_2) = (2,5)\;(3,8)\;(5,10)\;(4,11)\;(6,14)$

$ΞΌ_1 = (2+3+5+4+6) / 5= 4,\;\;\;\;\;ΞΌ_2=(5+8+10+11+14)/5=9.6$

$Οƒ_{12}=\frac{1}{5}\times{((2-4)(5-9.6)+(3-4)(8-9.6)+(5-4)(10-9.6)+(4-4)(11-9.6)+(6-4)(14-9.6))}=4$

🧩 $E(X_1X_2)-E(X_1)E(X_2)$ 곡식을 μ‚¬μš©ν•΄μ„œ 더 μ‰½κ²Œ ꡬ할 μˆ˜λ„ μžˆλ‹€.

$Οƒ_{12}=E(X_1X_2)-E(X_1)E(X_2)=\frac{(10+24+50+44+84)}{5}-4\times9.6 = 42.4-38.4=4$

πŸ‘‰ κ΅¬ν•œ 곡뢄산 $Οƒ_{12}$이 4둜 0보닀 크기 λ•Œλ¬Έμ— 두 variable 은 μ„œλ‘œ positiveν•œ κ΄€κ³„μž„μ„ μ•Œ 수 μžˆλ‹€.

🧩 μ΄λ ‡κ²Œ 곡뢄산을 톡해 두 variable, 즉 attributeλ“€ κ°„μ˜ 관계λ₯Ό μ•Œ 수 μžˆμ§€λ§Œ, μ΄λŠ” λ‹¨μœ„μ˜ 영ν–₯을 λ°›λŠ”λ‹€λŠ” 단점을 가지고 μžˆλ‹€. 예λ₯Ό λ“€μ–΄ ν•˜λ‚˜μ˜ λ³€μˆ˜κ°€ cm λ‹¨μœ„μ΄κ³  λ””λ₯Έ λ³€μˆ˜λŠ” mλ‹¨μœ„λΌκ³  κ°€μ •ν•˜λ©΄, 곡뢄산은 이λ₯Ό λ³΄μ •ν•΄μ£ΌλŠ” 역할은 해주지 λͺ»ν•œλ‹€. μ΄λŸ¬ν•œ 이유둜 λ‹€λ₯Έ 방법이 ν•„μš”ν•΄μ‘Œκ³ , κ·Έλ ‡κ²Œ λ‚˜μ˜¨ κ°œλ…μ΄ ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜μ΄λ‹€.


3. Correlation between two numerical variables

🧩 μƒκ΄€κ³„μˆ˜λŠ” μˆ˜μ‹λΆ€ν„° λ¨Όμ € 보도둝 ν•˜μž.

$ρ_{12} = \frac{Οƒ_{12}}{Οƒ_1Οƒ_2} = \frac{\sum{(X_{i1}-ΞΌ_1)(X_{i2}-ΞΌ_2)}}{\sqrt{\sum{(X_{i1}-ΞΌ_1)^2(X_{i2}-ΞΌ_2)^2}}}$


μœ„μ˜ μ‹λ§Œ 보면 μƒλ‹Ήνžˆ λ³΅μž‘ν•΄λ³΄μ΄μ§€λ§Œ, 사싀은 곡뢄산을 ν‘œμ€€νŽΈμ°¨1κ³Ό ν‘œμ€€νŽΈμ°¨2의 곱으둜 λ‚˜λˆ μ€ŒμœΌλ‘œμ¨ μ •κ·œν™”ν•΄μ£ΌλŠ” 것이닀. 그리고 이 κ³Όμ •μ—μ„œ λΆ„λͺ¨μ™€ λΆ„μžμ˜ λ‹¨μœ„κ°€ 약뢄이 λ˜μ–΄ λ‚ μ•„κ°€λ―€λ‘œ μƒκ΄€κ³„μˆ˜λŠ” λ‹¨μœ„μ˜ 영ν–₯을 받지 μ•ŠλŠ”λ‹€.

🧩 μƒκ΄€κ³„μˆ˜μ˜ μ„±μ§ˆμ€ μ•„λž˜μ™€ κ°™λ‹€.

- $\;\;-1\leqqρ_{12}\leqq1$

- $\;\;if\;\;ρ_{12}>0\;\,:\;\,positive\;\;correlation$

- $\;\;if\;\;ρ_{12}=0\;\,:\;\,independent\;\,for\;\,each\;\,other$

- $\;\;if\;\;ρ_{12}<0\;\,:\;\,negative\;\;correlation$

- 그리고 μƒκ΄€κ³„μˆ˜μ˜ 크기가 클수둝 κ°•ν•œ 상관관계가 μžˆμŒμ„ μ˜λ―Έν•œλ‹€.

🧩 μƒκ΄€κ³„μˆ˜ λ˜ν•œ μ•žμ—μ„œ λ‹€λ€˜λ˜ λ‹€μ–‘ν•œ measureλ“€κ³Ό 같이 이미 λ§Œλ“€μ–΄μ§„ ν•¨μˆ˜κ°€ μžˆλ‹€. ν•™κΈ° 쀑에 μˆ˜ν–‰ν•œ λ°μ΄ν„°λ§ˆμ΄λ‹ ν”„λ‘œμ νŠΈμ—μ„œ ν•΄λ‹Ή ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•œ 적이 있기 λ•Œλ¬Έμ—, ν•¨μˆ˜μ˜ 좜λ ₯κ²°κ³Όλ₯Ό λ³΄λŠ” κ²ƒμœΌλ‘œ 이번 ν¬μŠ€νŒ…μ„ λ§ˆλ¬΄λ¦¬ν•˜λ„λ‘ ν•˜μž.

⭐ .corr ν•¨μˆ˜ λ₯Ό μ‚¬μš©ν•΄μ„œ 각 attribute κ°„μ˜ μƒκ΄€κ³„μˆ˜λ₯Ό 계산해주고, 파이썬의 seaborn 라이브러리λ₯Ό μ‚¬μš©ν•˜λ©΄ μ‹œκ°ν™”κΉŒμ§€ 이쁘게 ν•΄μ£ΌλŠ” 것을 확인 ν•  수 μžˆλ‹€πŸ˜ŠπŸ˜Š.

🚩 2022.09.08 μΆ”κ°€ - correlation 은 μˆ˜μΉ˜ν˜• λ³€μˆ˜μ™€ μˆ˜μΉ˜ν˜• λ³€μˆ˜ μ‚¬μ΄μ˜ 관계λ₯Ό μ•Œμ•„λ³΄κΈ° μœ„ν•œ 방법이닀. λ‚˜λŠ” ν”„λ‘œμ νŠΈ 진행 μ‹œμ— λ²”μ£Όν˜• λ³€μˆ˜κ°„μ˜ 관계에 λŒ€ν•΄μ„œλ„ 상관관계 뢄석을 μ§„ν–‰ν–ˆκΈ° λ•Œλ¬Έμ—, ν˜Ήμ‹œ 이 글을 μ½μœΌμ‹  뢄듀은 λ‚˜μ™€ 같은 μ‹€μˆ˜λ₯Ό 저지λ₯΄μ§€ μ•Šμ•˜μœΌλ©΄ ν•œλ‹€πŸ€₯. λ²”μ£Όν˜• λ³€μˆ˜ κ°„μ˜ 상관관계 λΆ„μ„μ—λŠ” Phi-correlation coefficientκ°€ μžˆλ‹€κ³  ν•œλ‹€. λ‚˜μ€‘μ— ν•œλ²ˆ 닀뀄봐야겠닀.


🧩 μ΄λ ‡κ²Œ ν•΄μ„œ λΆ„μ‚°κ³Ό 곡뢄산, 그리고 μƒκ΄€κ³„μˆ˜μ— 이λ₯΄λŠ” λ‚΄μš©λ“€μ„ λ°°μ› λ‹€. μˆ˜μ‹μ€ λ³΅μž‘ν•˜κ³  κ°„λ‹¨ν•œ ν‘œλ³Έμ΄λΌ 해도 계산이 λ³΅μž‘ν•œ κ²½μš°κ°€ λ§Žμ§€λ§Œ, μœ„μ˜ ν•¨μˆ˜μ²˜λŸΌ νŽΈλ¦¬ν•œ ν•¨μˆ˜κ°€ 많이 있기 λ•Œλ¬Έμ— μ–˜λ“€μ„ 잘 μ‚¬μš©ν•  쀄 μ•„λŠ” 것이 λ”μš± μ€‘μš”ν•  것이라 μƒκ°ν•œλ‹€.

🧩 μ›λž˜λŠ” λ°μ΄ν„°λ§ˆμ΄λ‹ κ°œλ…μ„ λ¨Όμ € ν•œλ²ˆμ”© μ‚΄νŽ΄λ³΄κ³  ν”„λ‘œμ νŠΈλ₯Ό λ‹€λ£° μƒκ°μ΄μ—ˆλŠ”λ° μ΄λ ‡κ²Œ 쀑간쀑간에 κ΄€λ ¨ κ²°κ³Όλ₯Ό λ„£λŠ” 것도 이해에 쒋을 것 κ°™λ‹€. μ•žμœΌλ‘œλŠ” μ΅œλŒ€ν•œ λ‹€μ–‘ν•œ 자료λ₯Ό μ‚¬μš©ν•΄μ„œ ν¬μŠ€νŒ…μ„ ν•˜λ„λ‘ λ…Έλ ₯해봐야겠닀.

🧩 이번 ν¬μŠ€νŒ…μœΌλ‘œ Data Integration은 ν•œλ²ˆμ”© 흝어봀닀. λ‹€μŒ ν¬μŠ€νŒ…λΆ€ν„°λŠ” Data Reduction에 λŒ€ν•΄ λ°°μ›Œλ³΄λ„λ‘ ν•˜μžπŸƒβ€β™‚οΈπŸƒβ€β™‚οΈ.


πŸ’‘μœ„ ν¬μŠ€νŒ…μ€ ν•œκ΅­μ™Έκ΅­μ–΄λŒ€ν•™κ΅ λ°”μ΄μ˜€λ©”λ””μ»¬κ³΅ν•™λΆ€ 고윀희 κ΅μˆ˜λ‹˜μ˜ [생λͺ…정보학을 μœ„ν•œ λ°μ΄ν„°λ§ˆμ΄λ‹] κ°•μ˜ λ‚΄μš©μ„ λ°”νƒ•μœΌλ‘œ 함을 λ°νž™λ‹ˆλ‹€.

Leave a comment