๐ก Index
1. ๋ชจ์ง๋จ๊ณผ ํ๋ณธ
๋ชจ์ง๋จ์ ๋ฐ์ดํฐ ๋ถ์์์ ์๊ณ ์ ํ๋ ๋์ ์ ์ฒด๋ฅผ ๊ฐ๋ฆฌํค๊ธฐ ๋๋ฌธ์ ๋ชจ์ง๋จ์ ์ฑ์ง์ ์ ์ ์๋ค๋ฉด ๋์์ ์ค๋ช ํ๊ฑฐ๋ ์ดํดํ ์ ์๊ณ , ๋ฏธ์ง์ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ ์๋ ์๊ฒ ๋๋ค. ๋ชจ์ง๋จ์ ์ฑ์ง์ ์๋ ๋ฐฉ๋ฒ์ ํ๋๋ก, ๋ชจ์ง๋จ์ ํฌํจ๋ ๋ชจ๋ ์์๋ฅผ ์กฐ์ฌํ๋ ์ ์์กฐ์ฌ๊ฐ ์๋ค. ์ด๋ ๋ชจ์ง๋จ์ ํฌํจ๋ ์์์ ๊ฐ์๊ฐ ํ์ ๋, ์ ํ ๋ชจ์ง๋จ์ผ ๋ ์ ํํ ์ ์๋ ์กฐ์ฌ ๋ฐฉ๋ฒ์ด๋ค. ์ ์์กฐ์ฌ์ ๊ฒฝ์ฐ '๋ถ์ํ ๋ฐ์ดํฐ = ๋ชจ์ง๋จ' ์ด๊ธฐ ๋๋ฌธ์ ํ๋ํ ๋ฐ์ดํฐ์ ํน์ง์ ํ์ ํ๊ณ ๊ธฐ์ ํ๊ธฐ๋ง ํด๋ ๋ชจ์ง๋จ์ ์ฑ์ง์ ์ค๋ช ํ๊ณ ์ดํดํ ์ ์๋ค. ์๋ฅผ ๋ค์ด ํ๊ตญ ์ฑ์ธ ๋จ์ฑ์ ํ๊ท ํค๋ฅผ ์๊ณ ์ถ๋ค๋ฉด ๋ชจ๋ ์ฑ์ธ ๋จ์ฑ์ ํค๋ฅผ ์ธก์ ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ป์ ํ์ ๊ทธ ํ๊ท ๊ฐ์ ๊ณ์ฐํ๋ฉด ๋๋ค. ๊ทธ๋ฌ๋ ์ ์์กฐ์ฌ๋ฅผ ์ด๋ ๊ฒ ์ค์ํ๋ ค๋ฉด ๋น์ฉ์ด๋์๊ฐ ๋ฉด์์ ๋ถ๋ด์ด ๋ง๋ํ์ฌ ์คํ ๋ถ๊ฐ๋ฅํ ๋๊ฐ ๋๋ถ๋ถ์ด๋ค.
๋ฐ๋ผ์ ํต๊ณํ์๋ ๋ชจ์ง๋จ์ ์ผ๋ถ๋ฅผ ๋ถ์ํ์ฌ ๋ชจ์ง๋จ ์ ์ฒด์ ์ฑ์ง์ ์ถ์ ํ๋ ์ถ๋ก ํต๊ณ(inferential statistics) ๋ถ์ผ๊ฐ ์๋ค. ์ถ๋ก ํต๊ณ์์ ์กฐ์ฌํ๋ ๋ชจ์ง๋จ์ ์ผ๋ถ๋ฅผ ํ๋ณธ(sample)์ด๋ผํ๋ฉฐ ๋ชจ์ง๋จ์์ ํ๋ณธ์ ๋ฝ๋ ๊ฒ์ ํ๋ณธ์ถ์ถ(sampling)์ด๋ผ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋ณธ์ ํฌํจ๋ ์์์ ๊ฐ์๋ฅผ ํ๋ณธํฌ๊ธฐ(sample size)๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ ๋ณดํต n = 30๊ณผ ๊ฐ์ด ํ๊ธฐํ๋ค.
2. ํต๊ณ๋๊ณผ ํ๋ฅ ๋ถํฌ
1) ๋ณ์
- ๋ณ์ : ๊ณตํต์ ์ธก์ ๋ฐฉ๋ฒ์ผ๋ก ์ป์ ๊ฐ์ ์ฑ์ง์ ๊ฐ
- ๋ณ์์ ๊ฐ์ = ์ฐจ์(dimension)
- ๋ณ์์ ์ ํ
- ์์ ๋ณ์ : ์ซ์๋ก ๋ํ๋ผ ์ ์๋ ๋ณ์
- ์ฐ์๋ณ์ : ํค, ๋ชธ๋ฌด๊ฒ ๋ฑ
- ์ด์ฐ๋ณ์ : ์ฃผ์ฌ์ ๋, ํ์ ๋ฑ
- ์ง์ ๋ณ์ : ๋ฒ์ฃผ๋ก ๋ํ๋ด๋ ๋ณ์ e.g) ์/์๋์, ์๋น ๋ฉ๋ด(์ง์ฅ, ์งฌ๋ฝ ,,) ๋ฑ
- ์์ ๋ณ์ : ์ซ์๋ก ๋ํ๋ผ ์ ์๋ ๋ณ์
2) ํต๊ณ๋
- ๊ธฐ์ ํต๊ณ๋ : ๋ฐ์ดํฐ ๊ทธ ์์ฒด์ ์ฑ์ง์ ๊ธฐ์ ํ๊ณ ์์ฝํ๋ ํต๊ณ๋
๊ธฐ์ ํต๊ณ๋์๋ ๋๋ต์ ์ธ ๋ถํฌ ์์น๋ฅผ ๋ํ๋ด๋ ๋ํฏ๊ฐ์ธ ํ๊ท ๊ฐ, ์ค์๊ฐ, ์ต๋น๊ฐ์ด ์์ผ๋ฉฐ ๋ฐ์ดํฐ ํผ์ง ์ ๋๋ฅผ ๋ํ๋ด๋ ๋ถ์ฐ๊ณผ ํ์คํธ์ฐจ๊ฐ ์๋ค.
(1) ๋ํฏ๊ฐ(representative value) : ๋๋ต์ ์ธ ๋ถํฌ ์์น, ์ฆ ๋ํ์ ์ธ ๊ฐ์ ์ ๋ํํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ํต๊ณ๋
- ํ๊ท ๊ฐ (mean)
- ์ค์๊ฐ (median) : ํฌ๊ธฐ ์์ผ๋ก ๊ฐ์ ์ ๋ ฌํ์ ๋ ํ๊ฐ์ด๋ฐ ์์นํ ๊ฐ
- ์ต๋น๊ฐ (mode)
์ด์๊ฐ(outlier)์ด ๋ํฏ๊ฐ์ ๋ฏธ์น๋ ์ํฅ
ํ๊ท ๊ฐ์ ๊ณ์ฐ ์ ๋ชจ๋ ๊ฐ์ ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ์ด์๊ฐ์ ์ํฅ์ ๋ฐ๊ธฐ ์ฝ๋ค. ๋ฐ๋ฉด ์ค์๊ฐ์ ์๋์ ์ธ ํฌ๊ธฐ๋ก๋ถํฐ ๊ตฌํด์ง๋ฉฐ ๊ฐ์ด๋ฐ์ ์๋ ๊ฐ๋ง ์ฐธ์กฐํ๋ฏ๋ก ์ด์๊ฐ์๋ ์ ์ํฅ์ ๋ฐ์ง ์๋๋ค. ๋ํ ์ด์๊ฐ์ ๋น๋๊ฐ ๋ฎ์ผ๋ฏ๋ก ์ต๋น๊ฐ์๋ ์ํฅ์ ์ฃผ์ง ์๋๋ค.
(2) ๋ถ์ฐ๊ณผ ํ์คํธ์ฐจ
- ๋ถ์ฐ (variance)
- ํ์คํธ์ฐจ (standard deviation)
3) ๋ถํฌ์ ์๊ฐํ
์ด๋ค ๋ฐ์ดํฐ์ ์ด๋ค ๊ทธ๋ํ๋ฅผ ์ฌ์ฉํด์ผ ํ๋๊ฐ
- ์ผ๋ณ๋
- ์ฐ์ํ ๋ฐ์ดํฐ : ํ์คํ ๊ทธ๋จ(Histogram), ์ปค๋๋ฐ๋๊ณก์ (Kernel Density Curve), ๋ฐ์ค๊ทธ๋ํ(Box Plot), ๋ฐ์ด์ฌ๋ฆฐ ๊ทธ๋ํ(Violin Plot)
- ๋ฒ์ฃผํ ๋ฐ์ดํฐ : ๋ง๋๊ทธ๋ํ(Bar Chart), ์ ๊ทธ๋ํ(Pie Chart)
- ๋ค๋ณ๋
- ์ฐ์ํ ๋ฐ์ดํฐ : ์ ๊ทธ๋ํ(Line Chart), ์ฐ์ ๋(Scatter)
- ๋ฒ์ฃผํ ๋ฐ์ดํฐ : ํํธ๋งต(Hearmap)
(1) ํ์คํ ๊ทธ๋จ(Histogram)
์ด์ฐํ ์์ ๋ณ์์ ํ์คํ ๊ทธ๋จ์ ๊ฒฝ์ฐ ๊ฐ๋ก์ถ์ ์ซ์, ์ธ๋ก์ถ์ ๋ฐ์ดํฐ์ ๋ํ๋ธ ๊ฐ์(๋์, ๋น๋, ํ์)๋ฅผ ํ์ํ๋ค. ์ฐ์ํ ์์ ๋ณ์์ ๊ฒฝ์ฐ, ์์์ ์ดํ ์๋ฆฌ๊ฐ ์ผ๋ง๋ ์ง ์ง์๋๊ธฐ ๋๋ฌธ์ ์๋ฐํ๊ฒ ๊ฐ์ ๊ฐ์ ์กด์ฌํ์ง ์๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ๋ฒ์๋ฅผ ์ค์ ํ๊ณ ๊ทธ ๋ฒ์์ ํฌํจ๋๋ ์ซ์ ๊ฐ์๋ฅผ ์ธ์ด ์ด๋ฅผ ์ธ๋ก์ถ์ ๋๋ค. ์ด ๋ฒ์์ ๋์ด๋ฅผ ๊ตฌ๊ฐํญ(bin width)์ด๋ผ ํ๋ค.
์ด ๊ตฌ๊ฐํญ์ ์ด๋ป๊ฒ ์ค์ ํ๋์ง์ ๋ฐ๋ผ ์ธ์์ด ๋ฌ๋ผ์ง์ ์ฃผ์ํด์ผํ๋ค. ๊ตฌ๊ฐํญ์ด ๋๋ฌด ์ข์ผ๋ฉด ๊ทธ๋ฆผ์ด ์ง๋์น๊ฒ ์ธ์ธํ๊ฒ ๊ทธ๋ ค์ง๋ฏ๋ก ์ด๋ค ํํ์ ๋ถํฌ์ธ์ง ์ฝ๊ธฐ ์ด๋ ต๋ค. ๋ฐ๋๋ก ๊ตฌ๊ฐํญ์ด ๋๋ฌด ๋์ผ๋ฉด ๋ถํฌ ํํ ์ ๋ณด๊ฐ ์ฌ๋ผ์ง๋ค. ๋ฐ๋ผ์ ์ ์ ํ ๊ตฌ๊ฐํญ์ ์ค์ ํด์ผํจ์ ์ฃผ์ํ๋๋ก ํ๋ค.
(2) ์์๊ทธ๋ฆผ(Box Plot)
- IQR : Q3 - Q1
- ์ผ์ชฝ ๊ฒฝ๊ณ(min) : Q1 - 1.5*IQR ๋ฒ์์ ์ต์๊ฐ
- ์ค๋ฅธ์ชฝ ๊ฒฝ๊ณ(max) : Q3 + 1.5*IQR ๋ฒ์์ ์ต๋๊ฐ
(3) ๋ฐ์ด์ฌ๋ฆฐ ํ๋กฏ (Violin Plot) : ํ์คํ ๊ทธ๋จ์ ๋ถ๋๋ฝ๊ฒ ํํํ ๊ทธ๋ํ๋ก box plot๊ณผ ๋น์ทํ์ง๋ง ๋ ์ค์ ์ ๊ฐ๊น์ด ๋ถํฌ๋ฅผ ์ ์ ์๋ค.
4) ํ๋ฅ ๋ถํฌ
- ํ๋ฅ ๋ถํฌ : ๊ฐ๋ก์ถ์ ํ๋ฅ ๋ณ์, ์ธ๋ก์ถ์ ๊ทธ ํ๋ฅ ๋ณ์์ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ํ์ํ ๋ถํฌ
ํต๊ณํ์์ ํ๋ฅ ๋ถํฌ๊ฐ ์ ์ค์ํ๊ฐ
์ถ๋ก ํต๊ณ๋ ๋ชจ์ง๋จ์ ์ผ๋ถ์ธ ํ๋ณธ์์ ๋ชจ์ง๋จ์ ์ฑ์ง์ ์ถ์ ํ๊ณ ์ํ๋ค. ๊ทธ๋ฌ๋ ๋ชจ์ง๋จ์ ์ง์ ๊ด์ธกํ ์ ์๊ณ ์ดํดํ๊ธฐ๋ ์ด๋ ค์ด ๋์์ด๊ธฐ์ ํ๋ณธ์ผ๋ก ์ถ์ ํ๋ ์ผ ์ญ์ ์ด๋ ต๋ค. ์ด์ ํ์ค ์ธ๊ณ์ ๋ชจ์ง๋จ์ ํ๋ฅ ๋ถํฌ๋ก ๊ฐ์ ํ๊ณ ํ๋ณธ ๋ฐ์ดํฐ๋ ๊ทธ ํ๋ฅ ๋ถํฌ์์ ์์ฑ๋ ์คํ๊ฐ์ธ ๊ฒ์ผ๋ก ๊ฐ์ ํ์ฌ ๋ถ์์ ์งํํ๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ '๋ชจ์ง๋จ <-> ํ๋ณธ๋ฐ์ดํฐ' ์ฒ๋ผ ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ด ๋์์ด 'ํ๋ฅ ๋ถํฌ <-> ์คํ๊ฐ'์ฒ๋ผ ๋ค๋ฃฐ ์ ์๋ ๋์์ผ๋ก ์นํ๋๋ ๊ฒ์ด๋ค.
- ๊ธฐ๋๊ฐ(Expected Value)
- ์๋(Skewness) : ๋ถํฌ๊ฐ ์ข์ฐ๋์นญ์์ ์ด๋์ ๋ ๋ฒ์ด๋ฌ๋์ง (์์: ์ค๋ฅธ์ชฝ๊ผฌ๋ฆฌ, ์์: ์ผ์ชฝ๊ผฌ๋ฆฌ ํํ)
- ์ฒจ๋(Kurfosis) : ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋พฐ์กฑํ์ง, ํธ์ฐจ์ ํฌ๊ธฐ ํ๋จ (์์: ๊ธ์ฒจ=๋ณ๋์ฑ↓, 0:์ค์ฒจ, ์์: ํ์ฒจ=๋ณ๋์ฑ↑)
'๐๏ธ ๋ฐ์ดํฐ ๋ถ์ > ๐ก ํต๊ณ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ฐ์ดํฐ ๋ถ์์ ์ํ ํต๊ณ๊ฐ๋ 2] ๊ฐ์ค๊ฒ์ (with A/B Test) (0) | 2024.12.21 |
---|