𧩠λ°μ΄ν°λ§μ΄λ(10) λ°μ΄ν° μ μ²λ¦¬_3 : Integration / Numerical
𧩠μ λ² ν¬μ€ν μμλ λ²μ£Όν λ°μ΄ν°μ λν data integration λ°©λ²μΈ chi-square testμ λν΄ μμ보μλ€. μ΄λ²μλ Numerical Data, μ¦ μμΉν λ°μ΄ν°μ λν λ°©λ²λ€μ μμ보λλ‘ νμ.
π§© μ΄ λ°©λ²λ€μ μλμ κ°μ΄ μ 리ν μ μλ€.
- λΆμ°λΆμ (Variance)
- 곡λΆμ° λΆμ (Covariance)
- μκ΄κ΄κ³ λΆμ (Correlation)
π μ΄μ variance measureλΆν° μ°¨κ·Όμ°¨κ·Ό μμ보λλ‘ νμ.
1. Variance for single numerical data variable
𧩠λΆμ°, μ¦ varianceλ₯Ό λ€λ£¨κΈ° μ μ κΈ°μ΄μ μΈ ν΅κ³ κ΄λ ¨ μ§μμ μ§κ³ κ° νμκ° μμ λ― νλ€. λ€λ¦ μλ νκ· μ΄λ€. κ° νλ³Έμ ν©μ νλ³Έμ μλ‘ λλ κ²μ μλ―Ένλ©°, λ³΄ν΅ $E(X)$, $ΞΌ$ λΌλ κΈ°νΈλ₯Ό ν΅ν΄ μ¬μ©νλ κ²½μ°κ° λ§λ€. μ¬μ€ κ±°μ°½νκ² ν΅κ³ μ§μμ΄λΌκ³ λ§μ ν΄λμ§λ§, νκ· λ§ μλ©΄ λ€μ λμ¬ λ΄μ©λ€μ μ΄ν΄νλ λ°μλ μ ν μ΄λ €μμ΄ μμ κ²μ΄λ€. λν νΈμ°¨λΌλ κ°λ μ μμμΌνλ€. νΈμ°¨λ κ΄μΈ‘κ° - νκ· μ μλ―Ένλ©°, μ£Όλ‘ $X-ΞΌ$ λΌκ³ ννλλ€.
𧩠μμ λ κ°λ
λ€μ μ¬μ©νλ©΄ λΆμ°μ μ½κ² μ€λͺ
ν μ μλ€. λΆμ°μ νΈμ°¨μ μ κ³±μ νκ· μΌλ‘ κ³μ°λλ©°, νλ³Έμ΄ ν©μ΄μ§ μ λλ₯Ό μλ―Ένλ€. μμμ μλμ κ°λ€.
π μμ λ μμμ λ³Ό μ μλ―μ΄ $X$λΌλ λ³μκ° μ°μμ΄λ, λΆμ°μμ΄λμ λ°λΌμ μ μλλ νλ₯ ν¨μμ ννλ λ€λ₯΄κ³ κ·Έ κ³μ° λ°©μλ λ€λ₯΄κΈ° λλ¬Έμ μ΄λ₯Ό κ³ λ €ν΄μ€μΌνλ€. νμ§λ§ μ΄λ₯Ό λ°μ΄ν°λ§μ΄λμμ μ€λͺ νκΈ°μλ λ΄μ©μ΄ ν΅κ³νμͺ½μ λ§μ΄ κ°κΉκΈ° λλ¬Έμ, λμ€μ κΈ°νκ° λλ©΄ νλ² μ 리ν΄μΌκ² λ€.
𧩠μ΄λ κ² λΆμ°μ ꡬν νμλ νμ€νΈμ°¨, μ¦ Standard Deviationλ₯Ό ꡬνλ€. νμ€νΈμ°¨λ λΆμ°μ μ κ³±κ·Όμ μ·¨ν κ°μ μλ―Ένλ©°, μμμ μλμ κ°λ€.
β λΆμ°κ³Ό νμ€νΈμ°¨λ₯Ό ꡬν¨μΌλ‘μ¨ μ°λ¦¬κ° μκ³ μΆμ valueκ° νκ· $ΞΌ$λ‘λΆν° μΌλ§λ λ¨μ΄μ Έμλμ§λ₯Ό νμΈνκ³ , κ·Έ λ°μ΄ν°λ₯Ό μ νν΄λ λ μ§, ν΅ν©ν΄λ λ μ§ μ¬λΆλ₯Ό μμλΌ μ μλ€.
2. Covariance for two variables
𧩠μμμ μ΄ν΄λ³Έ varianceλ λ¨μΌ variableμ λ°μ΄ν° λΆν¬λ₯Ό μμ보λ λ°μ μ¬μ©νλ€λ©΄, μ΄λ²μ μμλ³Ό Covariacne, μ¦ κ³΅λΆμ°μ λ variable μ¬μ΄μ κ΄κ³λ₯Ό μμ보기 μν΄ μ¬μ©νλ€. μμμ μλμ κ°λ€.
μ¦,
κ·Έλ¦¬κ³ μ΄λ,
𧩠μμλ₯Ό νλ² μ΄ν΄λ³΄λλ‘ νμ.
ex) $(X_1,X_2) = (2,5)\;(3,8)\;(5,10)\;(4,11)\;(6,14)$
$ΞΌ_1 = (2+3+5+4+6) / 5= 4,\;\;\;\;\;ΞΌ_2=(5+8+10+11+14)/5=9.6$
$Ο_{12}=\frac{1}{5}\times{((2-4)(5-9.6)+(3-4)(8-9.6)+(5-4)(10-9.6)+(4-4)(11-9.6)+(6-4)(14-9.6))}=4$
𧩠$E(X_1X_2)-E(X_1)E(X_2)$ 곡μμ μ¬μ©ν΄μ λ μ½κ² ꡬν μλ μλ€.
$Ο_{12}=E(X_1X_2)-E(X_1)E(X_2)=\frac{(10+24+50+44+84)}{5}-4\times9.6 = 42.4-38.4=4$
π ꡬν 곡λΆμ° $Ο_{12}$μ΄ 4λ‘ 0λ³΄λ€ ν¬κΈ° λλ¬Έμ λ variable μ μλ‘ positiveν κ΄κ³μμ μ μ μλ€.
𧩠μ΄λ κ² κ³΅λΆμ°μ ν΅ν΄ λ variable, μ¦ attributeλ€ κ°μ κ΄κ³λ₯Ό μ μ μμ§λ§, μ΄λ λ¨μμ μν₯μ λ°λλ€λ λ¨μ μ κ°μ§κ³ μλ€. μλ₯Ό λ€μ΄ νλμ λ³μκ° cm λ¨μμ΄κ³ λλ₯Έ λ³μλ mλ¨μλΌκ³ κ°μ νλ©΄, 곡λΆμ°μ μ΄λ₯Ό 보μ ν΄μ£Όλ μν μ ν΄μ£Όμ§ λͺ»νλ€. μ΄λ¬ν μ΄μ λ‘ λ€λ₯Έ λ°©λ²μ΄ νμν΄μ‘κ³ , κ·Έλ κ² λμ¨ κ°λ μ΄ νΌμ΄μ¨ μκ΄κ³μμ΄λ€.
3. Correlation between two numerical variables
𧩠μκ΄κ³μλ μμλΆν° λ¨Όμ 보λλ‘ νμ.
μμ μλ§ λ³΄λ©΄ μλΉν 볡μ‘ν΄λ³΄μ΄μ§λ§, μ¬μ€μ 곡λΆμ°μ νμ€νΈμ°¨1κ³Ό νμ€νΈμ°¨2μ κ³±μΌλ‘ λλ μ€μΌλ‘μ¨ μ κ·νν΄μ£Όλ κ²μ΄λ€. κ·Έλ¦¬κ³ μ΄ κ³Όμ μμ λΆλͺ¨μ λΆμμ λ¨μκ° μ½λΆμ΄ λμ΄ λ μκ°λ―λ‘ μκ΄κ³μλ λ¨μμ μν₯μ λ°μ§ μλλ€.
𧩠μκ΄κ³μμ μ±μ§μ μλμ κ°λ€.
- $\;\;-1\leqqΟ_{12}\leqq1$
- $\;\;if\;\;Ο_{12}>0\;\,:\;\,positive\;\;correlation$
- $\;\;if\;\;Ο_{12}=0\;\,:\;\,independent\;\,for\;\,each\;\,other$
- $\;\;if\;\;Ο_{12}<0\;\,:\;\,negative\;\;correlation$
- κ·Έλ¦¬κ³ μκ΄κ³μμ ν¬κΈ°κ° ν΄μλ‘ κ°ν μκ΄κ΄κ³κ° μμμ μλ―Ένλ€.
𧩠μκ΄κ³μ λν μμμ λ€λ€λ λ€μν measureλ€κ³Ό κ°μ΄ μ΄λ―Έ λ§λ€μ΄μ§ ν¨μκ° μλ€. νκΈ° μ€μ μνν λ°μ΄ν°λ§μ΄λ νλ‘μ νΈμμ ν΄λΉ ν¨μλ₯Ό μ¬μ©ν μ μ΄ μκΈ° λλ¬Έμ, ν¨μμ μΆλ ₯κ²°κ³Όλ₯Ό 보λ κ²μΌλ‘ μ΄λ² ν¬μ€ν μ λ§λ¬΄λ¦¬νλλ‘ νμ.
β .corr ν¨μ λ₯Ό μ¬μ©ν΄μ κ° attribute κ°μ μκ΄κ³μλ₯Ό κ³μ°ν΄μ£Όκ³ , νμ΄μ¬μ seaborn λΌμ΄λΈλ¬λ¦¬λ₯Ό μ¬μ©νλ©΄ μκ°νκΉμ§ μ΄μκ² ν΄μ£Όλ κ²μ νμΈ ν μ μλ€ππ.
π© 2022.09.08 μΆκ° - correlation μ μμΉν λ³μμ μμΉν λ³μ μ¬μ΄μ κ΄κ³λ₯Ό μμ보기 μν λ°©λ²μ΄λ€. λλ νλ‘μ νΈ μ§ν μμ λ²μ£Όν λ³μκ°μ κ΄κ³μ λν΄μλ μκ΄κ΄κ³ λΆμμ μ§ννκΈ° λλ¬Έμ, νΉμ μ΄ κΈμ μ½μΌμ λΆλ€μ λμ κ°μ μ€μλ₯Ό μ μ§λ₯΄μ§ μμμΌλ©΄ νλ€π€₯. λ²μ£Όν λ³μ κ°μ μκ΄κ΄κ³ λΆμμλ Phi-correlation coefficientκ° μλ€κ³ νλ€. λμ€μ νλ² λ€λ€λ΄μΌκ² λ€.
𧩠μ΄λ κ² ν΄μ λΆμ°κ³Ό 곡λΆμ°, κ·Έλ¦¬κ³ μκ΄κ³μμ μ΄λ₯΄λ λ΄μ©λ€μ λ°°μ λ€. μμμ 볡μ‘νκ³ κ°λ¨ν νλ³Έμ΄λΌ ν΄λ κ³μ°μ΄ 볡μ‘ν κ²½μ°κ° λ§μ§λ§, μμ ν¨μμ²λΌ νΈλ¦¬ν ν¨μκ° λ§μ΄ μκΈ° λλ¬Έμ μλ€μ μ μ¬μ©ν μ€ μλ κ²μ΄ λμ± μ€μν κ²μ΄λΌ μκ°νλ€.
𧩠μλλ λ°μ΄ν°λ§μ΄λ κ°λ μ λ¨Όμ νλ²μ© μ΄ν΄λ³΄κ³ νλ‘μ νΈλ₯Ό λ€λ£° μκ°μ΄μλλ° μ΄λ κ² μ€κ°μ€κ°μ κ΄λ ¨ κ²°κ³Όλ₯Ό λ£λ κ²λ μ΄ν΄μ μ’μ κ² κ°λ€. μμΌλ‘λ μ΅λν λ€μν μλ£λ₯Ό μ¬μ©ν΄μ ν¬μ€ν μ νλλ‘ λ Έλ ₯ν΄λ΄μΌκ² λ€.
𧩠μ΄λ² ν¬μ€ν μΌλ‘ Data Integrationμ νλ²μ© νμ΄λ΄€λ€. λ€μ ν¬μ€ν λΆν°λ Data Reductionμ λν΄ λ°°μ보λλ‘ νμπββοΈπββοΈ.
Leave a comment