๐Ÿงฉ ์•ž์˜ ๋‘ ํฌ์ŠคํŒ…์„ ํ†ตํ•ด์„œ ๋ฐ์ดํ„ฐ์˜ object๋ฅผ ์ค„์ด๋Š” Numerosity reduction ์ค‘์—์„œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค์„ ์‚ดํŽด๋ณด์•˜๋‹ค. ์ด๋ฒˆ์—๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์›Œ๋ณด๋„๋ก ํ•˜์ž.


1. Nonparametric Method 1 : Histogram Analysis

๐Ÿงฉ ๋จผ์ € Histogram Analysis์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด์ž. ํžˆ์Šคํ† ๊ทธ๋žจ์ด๋ผ๋ฉด ๊ฐ€์žฅ ๋จผ์ € ๋– ์˜ฌ๋ฆฌ๋Š” ๊ฒƒ์ด ์šฐ๋ฆฌ๊ฐ€ ์ค‘๊ณ ๋“คํ•™๊ต๋•Œ ๋ฐฐ์šด ํžˆ์Šคํ† ๊ทธ๋žจ ๊ทธ๋ž˜ํ”„์ผ ๊ฒƒ์ด๋‹ค. ๋ณ€๋Ÿ‰์„ ๊ฐ ๊ณ„๊ธ‰์œผ๋กœ ๋‚˜๋ˆ ์„œ ๋„์ˆ˜๋ฅผ ํ‘œํ˜„ ํ•˜๋Š” ๊ฒƒ์„ ํžˆ์Šคํ† ๊ทธ๋žจ์ด๋ผ๊ณ  ๋ฐฐ์› ์„ ํ…๋ฐ, ์—ฌ๊ธฐ์„œ ๋ฐฐ์šธ Histogram Analysis๋„ ๋˜‘๊ฐ™๋‹ค. ์•ž์œผ๋กœ์˜ ์„ค๋ช…์„ ์œ„ํ•ด์„œ ๊ฐ ๊ณ„๊ธ‰์„ bucket์ด๋ผ๊ณ  ๋ถ€๋ฅผ ๊ฒƒ์ด๋‹ค.

  • ๐Ÿ“ Histogram Analysis
    • ๋ฐ์ดํ„ฐ๋ฅผ bucket์œผ๋กœ ๋‚˜๋ˆ ์„œ ๊ฐ๊ฐ์˜ bucket์— ๋ณด๊ด€ํ•˜๋Š” ๋ฐฉ๋ฒ•
    • ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆ„๋Š” ๋ฐฉ๋ฒ•์ด๊ธฐ ๋•Œ๋ฌธ์— Partitioning Rules๋ผ๊ณ  ํ•˜๋ฉฐ, Binning ์ด๋ผ๊ณ ๋„ ํ•จ
      • Equal-Width : ๊ฐ bucket์˜ range๋ฅผ ๋ชจ๋‘ ๊ฐ™๊ฒŒ ์„ค์ •ํ•ด์„œ partition ํ•˜๋Š” ๋ฐฉ๋ฒ•. ๊ทน๊ฐ’์˜ ์˜ํ–ฅ์„ ๋งŽ์ด ๋ฐ›์Œ
      • Equal-Frequency : ๊ฐ bucket์— ๋“ค์–ด๊ฐ€๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ™๋„๋ก bucket์„ ์„ค์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• (= equal depth)

๐Ÿ‘‰ ์œ„์—์„œ ์—…๊ธ‰ํ•œ ๊ฒƒ์ฒ˜๋Ÿผ Histogram Analtsis๋Š” ๋‘ ๊ฐ€์ง€์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ๋‚˜๋ˆ ์ง„๋‹ค. ๋‚˜๋„ ๋ฐฐ์šธ ๋•Œ ๊ทธ๋žฌ์ง€๋งŒ, ์ € ์„ค๋ช…๋งŒ์„ ๊ฐ€์ง€๊ณ ๋Š” ์ง๊ด€์ ์ธ ์ดํ•ด๊ฐ€ ์–ด๋ ต๋‹ค. ์‰ฌ์šด ์ดํ•ด๋ฅผ ์œ„ํ•ด ๊ทธ๋ฆผ์„ ํ•œ๋ฒˆ ์‚ดํŽด๋ณด๋„๋ก ํ•˜์ž.

  • Equal Width๋Š” ์ผ๋‹จ bucket์˜ range๋ฅผ ๊ฐ™์€ ์‚ฌ์ด์ฆˆ๋กœ ๋‚˜๋ˆ ๋‘๊ณ , ๊ทธ์— ๋งž์ทจ ๋„์ˆ˜๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  bucket์„ ๋‚˜๋ˆ„๊ธฐ ๋•Œ๋ฌธ์— ๊ทน๋Œ“๊ฐ’์ด๋‚˜ ๊ทน์†Ÿ๊ฐ’์˜ ์˜ํ–ฅ์„ ๋งŽ์ด ๋ฐ›์„ ์ˆ˜ ๋ฐ–์— ์—†๋‹ค.
  • ๋ฐ˜๋ฉด Equal Frequency๋Š” ์šฐ์„ ์ ์œผ๋กœ ๊ฐ bucket์— ๋“ค์–ด๊ฐ€๋Š” ๋„์ˆ˜์˜ ๊ฐœ์ˆ˜๊ฐ€ ๊ฐ™๋„๋ก ๋ฏธ๋ฆฌ ๋‚˜๋ˆˆ ํ›„์—, ๋งˆ์ง€๋ง‰์— bucket์˜ range๋ฅผ ์ •ํ•˜๋Š” ๊ฒƒ์ด๋ผ๊ณ  ๋ณด๋ฉด ๋  ๊ฒƒ ๊ฐ™๋‹ค. Equal Width ๋ฐฉ๋ฒ•์˜ ๊ทน๊ฐ’์— ์˜ํ•œ ์˜ํ–ฅ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๋งŒ๋“ค์–ด์ง„ ๊ฐœ๋…์ด๋‹ค.

2. Nonparametric Method 2 : Clustering

๐Ÿงฉ ์ด๋ฒˆ์—๋Š” Clustering์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž. ์‚ฌ์‹ค clustering์€ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹์— ์žˆ์–ด์„œ ์ •๋ง ์ค‘์š”ํ•œ ๋‚ด์šฉ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๊ฑฐ์˜ ๋ฐ˜ ํ•™๊ธฐ ์ •๋„๋ฅผ clustering์— ๋Œ€ํ•ด์„œ ๋ฐฐ์› ๋˜ ๊ฒƒ ๊ฐ™๋‹ค. ๋’ค์— ์ด์— ๋Œ€ํ•ด์„œ ์ •๋ง ์ž์„ธํžˆ ๋‹ค๋ฃฐ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ฒˆ์—๋Š” ์ •๋ง ๊ฐ„๋‹จํ•œ ๊ฐœ๋…๋งŒ ์ดํ•ดํ•˜๊ณ  ๊ฐ€๋„๋ก ํ•˜์ž.

  • ๐Ÿ“ Clustering
    • ๋ฐ์ดํ„ฐ๋ฅผ ๋น„์Šทํ•œ ์• ๋“ค๋ผ๋ฆฌ ๋ฌถ์–ด์„œ ๋‚˜๋ˆ„๊ณ  representation์„ ์ €์žฅํ•จ. ๊ตฐ์ง‘ํ™”๋ผ๊ณ ๋„ ํ•จ.
    • ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฏธ๋ฆฌ ํด๋Ÿฌ์Šคํ„ฐ๋ง ๋˜์–ด ์žˆ๊ฑฐ๋‚˜ ๋‚˜๋ˆ„๊ธฐ ์ข‹์€ ๋ฐ์ดํ„ฐ๋ผ๋ฉด ๊ต‰์žฅํžˆ ํšจ์œจ์ ์ธ ๋ฐฉ๋ฒ•์ด์ง€๋งŒ, ๊ตฐ๋ฐ๊ตฐ๋ฐ ํฉ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ผ๋ฉด ์‰ฝ์ง€ ์•Š์Œ
    • ์ด๋ฅผ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์ด ์žˆ์Œ.

3. Nonparametric Method 3 : Sampling

  • ๐Ÿ“ Sampling
    • ์ „์ฒด ๋ฐ์ดํ„ฐ N์„ ๋Œ€ํ‘œํ•˜๋Š” ์ž‘์€ n๊ฐœ์˜ sample์„ ์–ป๋Š” ๊ฒƒ
    • Choose a representive subset of the data : ๋Œ€ํ‘œ์„ฑ์„ ๊ฐ€์ง€๋Š” sample์„ ์–ป์Œ
    • Types of Sampling
      • Simple random sampling : ์ƒ˜ํ”Œ๋ง์„ ์œ„ํ•ด ๊ฐ™์€ ํ™•๋ฅ ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒํ•จ
      • Sampling without replacement : ๋น„๋ณต์›์ถ”์ถœ
      • Sampling with replacement : ๋ณต์›์ถ”์ถœ
      • Stratified Sampling : partition์ด ์†ํ•œ ์ง‘๋‹จ์˜ ํŠน์„ฑ์— ๋งž๊ฒŒ ์ƒ˜ํ”Œ๋ง ์ง„ํ–‰ (ex. class ๊ฐœ์ˆ˜์˜ ๋น„์œจ์„ ์œ ์ง€)

๐Ÿงฉ ์ด๋ฒˆ ํฌ์ŠคํŒ…๊นŒ์ง€ ํ•ด์„œ ๋ฐ์ดํ„ฐ์˜ object ์ˆ˜๋ฅผ ์ค„์—ฌ dimension์„ ๊ฐ์†Œ์‹œํ‚ค๋Š” ๋ฒ•์„ ๋ฐฐ์›Œ๋ณด์•˜๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๊ตฌ๋ถ„๋œ๋‹ค๋Š” ์ฐจ์ด์ ๋งŒ ์ดํ•ดํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ๋‘ ๋ฐฉ๋ฒ•์˜ ์ฐจ์ด์ ์„ ๊ฐ„๋‹จํžˆ ์•Œ์•„๋ณด๊ณ  ์ด๋ฒˆ ํฌ์ŠคํŒ…์„ ๋งˆ๋ฌด๋ฆฌํ•ด์•ผ๊ฒ ๋‹ค๐Ÿ˜ƒ๐Ÿ˜ƒ.

  • Parametric / Nonparameric ๋น„๊ต
    • Parametric Approach
      • Assumption โญ•, Parameter โญ•
      • Linear Regression
      • Nonlinear Regression
      • ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ๋ฅผ ํ†ตํ•œ ๋ชจ๋ธ ํ”ผํŒ… ๊ฐ€๋Šฅ
      • ํ•˜์ง€๋งŒ ๋ชจ๋ธ์˜ ๊ฐ€์ •์— ์˜ํ•œ ์˜ํ–ฅ์„ ๋งŽ์ด ๋ฐ›์Œ
    • Nonparametric Approach
      • Assumption โŒ, Parameter โŒ
      • Histogram
      • Clustering
      • Sampling
      • ๋ชจ๋ธ์— ๋Œ€ํ•œ ๊ฐ€์ •์„ ํ•˜์ง€ ์•Š์Œ

๐Ÿงฉ ๋‹ค์Œ ํฌ์ŠคํŒ…๋ถ€ํ„ฐ๋Š” Dimension์„ ์ค„์ด๋Š” Dimensionality Reduction์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž๐Ÿƒโ€โ™‚๏ธ๐Ÿƒโ€โ™‚๏ธ.


๐Ÿ’ก์œ„ ํฌ์ŠคํŒ…์€ ํ•œ๊ตญ์™ธ๊ตญ์–ด๋Œ€ํ•™๊ต ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ๊ณตํ•™๋ถ€ ๊ณ ์œคํฌ ๊ต์ˆ˜๋‹˜์˜ [์ƒ๋ช…์ •๋ณดํ•™์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹] ๊ฐ•์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Leave a comment