๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ›‹๏ธ ๋ฐ์ดํ„ฐ ๋ถ„์„/๐Ÿก ํ†ต๊ณ„

[๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ ํ†ต๊ณ„ ๊ฐœ๋…1] ๋ชจ์ง‘๋‹จ๊ณผ ํ‘œ๋ณธ, ํ™•๋ฅ ๋ถ„ํฌ์™€ ์‹ ๋ขฐ๊ตฌ๊ฐ„

by ์œ ์Šค :) 2024. 11. 16.
๋ฐ˜์‘ํ˜•

๐Ÿ’ก Index

    1. ๋ชจ์ง‘๋‹จ๊ณผ ํ‘œ๋ณธ

    ๋ชจ์ง‘๋‹จ์€ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ์•Œ๊ณ ์ž ํ•˜๋Š” ๋Œ€์ƒ ์ „์ฒด๋ฅผ ๊ฐ€๋ฆฌํ‚ค๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ์ง‘๋‹จ์˜ ์„ฑ์งˆ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค๋ฉด ๋Œ€์ƒ์„ ์„ค๋ช…ํ•˜๊ฑฐ๋‚˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ณ , ๋ฏธ์ง€์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜๋„ ์žˆ๊ฒŒ ๋œ๋‹ค. ๋ชจ์ง‘๋‹จ์˜ ์„ฑ์งˆ์„ ์•„๋Š” ๋ฐฉ๋ฒ•์˜ ํ•˜๋‚˜๋กœ, ๋ชจ์ง‘๋‹จ์— ํฌํ•จ๋œ ๋ชจ๋“  ์š”์†Œ๋ฅผ ์กฐ์‚ฌํ•˜๋Š” ์ „์ˆ˜์กฐ์‚ฌ๊ฐ€ ์žˆ๋‹ค. ์ด๋Š” ๋ชจ์ง‘๋‹จ์— ํฌํ•จ๋œ ์š”์†Œ์˜ ๊ฐœ์ˆ˜๊ฐ€ ํ•œ์ •๋œ, ์œ ํ•œ ๋ชจ์ง‘๋‹จ์ผ ๋•Œ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋Š” ์กฐ์‚ฌ ๋ฐฉ๋ฒ•์ด๋‹ค. ์ „์ˆ˜์กฐ์‚ฌ์˜ ๊ฒฝ์šฐ '๋ถ„์„ํ•  ๋ฐ์ดํ„ฐ = ๋ชจ์ง‘๋‹จ' ์ด๊ธฐ ๋•Œ๋ฌธ์— ํš๋“ํ•œ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ํŒŒ์•…ํ•˜๊ณ  ๊ธฐ์ˆ ํ•˜๊ธฐ๋งŒ ํ•ด๋„ ๋ชจ์ง‘๋‹จ์˜ ์„ฑ์งˆ์„ ์„ค๋ช…ํ•˜๊ณ  ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.  ์˜ˆ๋ฅผ ๋“ค์–ด ํ•œ๊ตญ ์„ฑ์ธ ๋‚จ์„ฑ์˜ ํ‰๊ท  ํ‚ค๋ฅผ ์•Œ๊ณ ์‹ถ๋‹ค๋ฉด ๋ชจ๋“  ์„ฑ์ธ ๋‚จ์„ฑ์˜ ํ‚ค๋ฅผ ์ธก์ •ํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป์€ ํ›„์— ๊ทธ ํ‰๊ท  ๊ฐ’์„ ๊ณ„์‚ฐํ•˜๋ฉด ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ „์ˆ˜์กฐ์‚ฌ๋ฅผ ์ด๋ ‡๊ฒŒ ์‹ค์‹œํ•˜๋ ค๋ฉด ๋น„์šฉ์ด๋‚˜์‹œ๊ฐ„ ๋ฉด์—์„œ ๋ถ€๋‹ด์ด ๋ง‰๋Œ€ํ•˜์—ฌ ์‹คํ˜„ ๋ถˆ๊ฐ€๋Šฅํ•  ๋•Œ๊ฐ€ ๋Œ€๋ถ€๋ถ„์ด๋‹ค. 

     

    ๋”ฐ๋ผ์„œ ํ†ต๊ณ„ํ•™์—๋Š” ๋ชจ์ง‘๋‹จ์˜ ์ผ๋ถ€๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๋ชจ์ง‘๋‹จ ์ „์ฒด์˜ ์„ฑ์งˆ์„ ์ถ”์ •ํ•˜๋Š” ์ถ”๋ก ํ†ต๊ณ„(inferential statistics) ๋ถ„์•ผ๊ฐ€ ์žˆ๋‹ค. ์ถ”๋ก ํ†ต๊ณ„์—์„œ ์กฐ์‚ฌํ•˜๋Š” ๋ชจ์ง‘๋‹จ์˜ ์ผ๋ถ€๋ฅผ ํ‘œ๋ณธ(sample)์ด๋ผํ•˜๋ฉฐ ๋ชจ์ง‘๋‹จ์—์„œ ํ‘œ๋ณธ์„ ๋ฝ‘๋Š” ๊ฒƒ์„ ํ‘œ๋ณธ์ถ”์ถœ(sampling)์ด๋ผ ํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ‘œ๋ณธ์— ํฌํ•จ๋œ ์š”์†Œ์˜ ๊ฐœ์ˆ˜๋ฅผ ํ‘œ๋ณธํฌ๊ธฐ(sample size)๋ผ๊ณ  ๋ถ€๋ฅด๋ฉฐ ๋ณดํ†ต n = 30๊ณผ ๊ฐ™์ด ํ‘œ๊ธฐํ•œ๋‹ค. 

     

     

    2. ํ†ต๊ณ„๋Ÿ‰๊ณผ ํ™•๋ฅ ๋ถ„ํฌ

    1) ๋ณ€์ˆ˜

    • ๋ณ€์ˆ˜ : ๊ณตํ†ต์˜ ์ธก์ • ๋ฐฉ๋ฒ•์œผ๋กœ ์–ป์€ ๊ฐ™์€ ์„ฑ์งˆ์˜ ๊ฐ’
    • ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜ = ์ฐจ์›(dimension)
    • ๋ณ€์ˆ˜์˜ ์œ ํ˜•
      • ์–‘์ ๋ณ€์ˆ˜ : ์ˆซ์ž๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š” ๋ณ€์ˆ˜
        • ์—ฐ์†๋ณ€์ˆ˜ : ํ‚ค, ๋ชธ๋ฌด๊ฒŒ ๋“ฑ
        • ์ด์‚ฐ๋ณ€์ˆ˜ : ์ฃผ์‚ฌ์œ„ ๋ˆˆ, ํšŸ์ˆ˜ ๋“ฑ
      • ์งˆ์ ๋ณ€์ˆ˜ : ๋ฒ”์ฃผ๋กœ ๋‚˜ํƒ€๋‚ด๋Š” ๋ณ€์ˆ˜ e.g) ์˜ˆ/์•„๋‹ˆ์š”, ์‹๋‹น ๋ฉ”๋‰ด(์งœ์žฅ, ์งฌ๋ฝ• ,,) ๋“ฑ

    2) ํ†ต๊ณ„๋Ÿ‰

    • ๊ธฐ์ˆ ํ†ต๊ณ„๋Ÿ‰ : ๋ฐ์ดํ„ฐ ๊ทธ ์ž์ฒด์˜ ์„ฑ์งˆ์„ ๊ธฐ์ˆ ํ•˜๊ณ  ์š”์•ฝํ•˜๋Š” ํ†ต๊ณ„๋Ÿ‰

    ๊ธฐ์ˆ  ํ†ต๊ณ„๋Ÿ‰์—๋Š” ๋Œ€๋žต์ ์ธ ๋ถ„ํฌ ์œ„์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋Œ€ํ‘ฏ๊ฐ’์ธ ํ‰๊ท ๊ฐ’, ์ค‘์•™๊ฐ’, ์ตœ๋นˆ๊ฐ’์ด ์žˆ์œผ๋ฉฐ ๋ฐ์ดํ„ฐ ํผ์ง ์ •๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ถ„์‚ฐ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ์žˆ๋‹ค.

     

    (1) ๋Œ€ํ‘ฏ๊ฐ’(representative value) : ๋Œ€๋žต์ ์ธ ๋ถ„ํฌ ์œ„์น˜, ์ฆ‰ ๋Œ€ํ‘œ์ ์ธ ๊ฐ’์„ ์ •๋Ÿ‰ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๋Š” ํ†ต๊ณ„๋Ÿ‰

     

    • ํ‰๊ท ๊ฐ’ (mean) 
    • ์ค‘์•™๊ฐ’ (median) : ํฌ๊ธฐ ์ˆœ์œผ๋กœ ๊ฐ’์„ ์ •๋ ฌํ–ˆ์„ ๋•Œ ํ•œ๊ฐ€์šด๋ฐ ์œ„์น˜ํ•œ ๊ฐ’
    • ์ตœ๋นˆ๊ฐ’ (mode)

    ์ด์ƒ๊ฐ’(outlier)์ด ๋Œ€ํ‘ฏ๊ฐ’์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ

    ํ‰๊ท ๊ฐ’์€ ๊ณ„์‚ฐ ์‹œ ๋ชจ๋“  ๊ฐ’์„ ๊ณ ๋ คํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด์ƒ๊ฐ’์˜ ์˜ํ–ฅ์„ ๋ฐ›๊ธฐ ์‰ฝ๋‹ค. ๋ฐ˜๋ฉด ์ค‘์•™๊ฐ’์€ ์ƒ๋Œ€์ ์ธ ํฌ๊ธฐ๋กœ๋ถ€ํ„ฐ ๊ตฌํ•ด์ง€๋ฉฐ ๊ฐ€์šด๋ฐ์— ์žˆ๋Š” ๊ฐ’๋งŒ ์ฐธ์กฐํ•˜๋ฏ€๋กœ ์ด์ƒ๊ฐ’์—๋Š” ์ž˜ ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๋Š”๋‹ค. ๋˜ํ•œ ์ด์ƒ๊ฐ’์€ ๋นˆ๋„๊ฐ€ ๋‚ฎ์œผ๋ฏ€๋กœ ์ตœ๋นˆ๊ฐ’์—๋„ ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๋Š”๋‹ค. 

     

    (2) ๋ถ„์‚ฐ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ

     

    • ๋ถ„์‚ฐ (variance) 
    • ํ‘œ์ค€ํŽธ์ฐจ (standard deviation)

     

    3) ๋ถ„ํฌ์˜ ์‹œ๊ฐํ™”

     

    ์–ด๋–ค ๋ฐ์ดํ„ฐ์— ์–ด๋–ค ๊ทธ๋ž˜ํ”„๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š”๊ฐ€

    • ์ผ๋ณ€๋Ÿ‰
      • ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ : ํžˆ์Šคํ† ๊ทธ๋žจ(Histogram), ์ปค๋„๋ฐ€๋„๊ณก์„ (Kernel Density Curve), ๋ฐ•์Šค๊ทธ๋ž˜ํ”„(Box Plot), ๋ฐ”์ด์˜ฌ๋ฆฐ ๊ทธ๋ž˜ํ”„(Violin Plot)
      • ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ : ๋ง‰๋Œ€๊ทธ๋ž˜ํ”„(Bar Chart), ์› ๊ทธ๋ž˜ํ”„(Pie Chart)
    • ๋‹ค๋ณ€๋Ÿ‰
      • ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ : ์„  ๊ทธ๋ž˜ํ”„(Line Chart), ์‚ฐ์ ๋„(Scatter)
      • ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ : ํžˆํŠธ๋งต(Hearmap)

     

    (1) ํžˆ์Šคํ† ๊ทธ๋žจ(Histogram)

    ์ด์‚ฐํ˜• ์–‘์  ๋ณ€์ˆ˜์˜ ํžˆ์Šคํ† ๊ทธ๋žจ์˜ ๊ฒฝ์šฐ ๊ฐ€๋กœ์ถ•์€ ์ˆซ์ž, ์„ธ๋กœ์ถ•์€ ๋ฐ์ดํ„ฐ์— ๋‚˜ํƒ€๋‚ธ ๊ฐœ์ˆ˜(๋„์ˆ˜, ๋นˆ๋„, ํšŸ์ˆ˜)๋ฅผ ํ‘œ์‹œํ•œ๋‹ค. ์—ฐ์†ํ˜• ์–‘์  ๋ณ€์ˆ˜์˜ ๊ฒฝ์šฐ, ์†Œ์ˆ˜์  ์ดํ•˜ ์ž๋ฆฌ๊ฐ€ ์–ผ๋งˆ๋“ ์ง€ ์ง€์†๋˜๊ธฐ ๋•Œ๋ฌธ์— ์—„๋ฐ€ํ•˜๊ฒŒ ๊ฐ™์€ ๊ฐ’์€ ์กด์žฌํ•˜์ง€ ์•Š๋Š”๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ ๋ฒ”์œ„๋ฅผ ์„ค์ •ํ•˜๊ณ  ๊ทธ ๋ฒ”์œ„์— ํฌํ•จ๋˜๋Š” ์ˆซ์ž ๊ฐœ์ˆ˜๋ฅผ ์„ธ์–ด ์ด๋ฅผ ์„ธ๋กœ์ถ•์— ๋‘”๋‹ค. ์ด ๋ฒ”์œ„์˜ ๋„“์ด๋ฅผ ๊ตฌ๊ฐ„ํญ(bin width)์ด๋ผ ํ•œ๋‹ค. 

    ์ด ๊ตฌ๊ฐ„ํญ์„ ์–ด๋–ป๊ฒŒ ์„ค์ •ํ•˜๋Š”์ง€์— ๋”ฐ๋ผ ์ธ์ƒ์ด ๋‹ฌ๋ผ์ง์— ์ฃผ์˜ํ•ด์•ผํ•œ๋‹ค. ๊ตฌ๊ฐ„ํญ์ด ๋„ˆ๋ฌด ์ข์œผ๋ฉด ๊ทธ๋ฆผ์ด ์ง€๋‚˜์น˜๊ฒŒ ์„ธ์„ธํ•˜๊ฒŒ ๊ทธ๋ ค์ง€๋ฏ€๋กœ ์–ด๋–ค ํ˜•ํƒœ์˜ ๋ถ„ํฌ์ธ์ง€ ์ฝ๊ธฐ ์–ด๋ ต๋‹ค. ๋ฐ˜๋Œ€๋กœ ๊ตฌ๊ฐ„ํญ์ด ๋„ˆ๋ฌด ๋„“์œผ๋ฉด ๋ถ„ํฌ ํ˜•ํƒœ ์ •๋ณด๊ฐ€ ์‚ฌ๋ผ์ง„๋‹ค. ๋”ฐ๋ผ์„œ ์ ์ ˆํ•œ ๊ตฌ๊ฐ„ํญ์„ ์„ค์ •ํ•ด์•ผํ•จ์— ์ฃผ์˜ํ•˜๋„๋ก ํ•œ๋‹ค. 

     

    (2) ์ƒ์ž๊ทธ๋ฆผ(Box Plot)

    • IQR : Q3 - Q1
    • ์™ผ์ชฝ ๊ฒฝ๊ณ„(min) : Q1 - 1.5*IQR ๋ฒ”์œ„์˜ ์ตœ์†Ÿ๊ฐ’
    • ์˜ค๋ฅธ์ชฝ ๊ฒฝ๊ณ„(max) : Q3 + 1.5*IQR ๋ฒ”์œ„์˜ ์ตœ๋Œ“๊ฐ’

    (3) ๋ฐ”์ด์˜ฌ๋ฆฐ ํ”Œ๋กฏ (Violin Plot) : ํžˆ์Šคํ† ๊ทธ๋žจ์„ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ํ‘œํ˜„ํ•œ ๊ทธ๋ž˜ํ”„๋กœ box plot๊ณผ ๋น„์Šทํ•˜์ง€๋งŒ ๋” ์‹ค์ œ์— ๊ฐ€๊นŒ์šด ๋ถ„ํฌ๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

     

    4) ํ™•๋ฅ ๋ถ„ํฌ

    • ํ™•๋ฅ ๋ถ„ํฌ : ๊ฐ€๋กœ์ถ•์— ํ™•๋ฅ ๋ณ€์ˆ˜, ์„ธ๋กœ์ถ•์— ๊ทธ ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ๋ฐœ์ƒ ๊ฐ€๋Šฅ์„ฑ์„ ํ‘œ์‹œํ•œ ๋ถ„ํฌ

    ํ†ต๊ณ„ํ•™์—์„œ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ์™œ ์ค‘์š”ํ•œ๊ฐ€

    ์ถ”๋ก ํ†ต๊ณ„๋Š” ๋ชจ์ง‘๋‹จ์˜ ์ผ๋ถ€์ธ ํ‘œ๋ณธ์—์„œ ๋ชจ์ง‘๋‹จ์˜ ์„ฑ์งˆ์„ ์ถ”์ •ํ•˜๊ณ ์žํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ชจ์ง‘๋‹จ์€ ์ง์ ‘ ๊ด€์ธกํ•  ์ˆ˜ ์—†๊ณ  ์ดํ•ดํ•˜๊ธฐ๋„ ์–ด๋ ค์šด ๋Œ€์ƒ์ด๊ธฐ์— ํ‘œ๋ณธ์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ์ผ ์—ญ์‹œ ์–ด๋ ต๋‹ค. ์ด์— ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ชจ์ง‘๋‹จ์„ ํ™•๋ฅ ๋ถ„ํฌ๋กœ ๊ฐ€์ •ํ•˜๊ณ  ํ‘œ๋ณธ ๋ฐ์ดํ„ฐ๋Š” ๊ทธ ํ™•๋ฅ ๋ถ„ํฌ์—์„œ ์ƒ์„ฑ๋œ ์‹คํ˜„๊ฐ’์ธ ๊ฒƒ์œผ๋กœ ๊ฐ€์ •ํ•˜์—ฌ ๋ถ„์„์„ ์ง„ํ–‰ํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ '๋ชจ์ง‘๋‹จ <-> ํ‘œ๋ณธ๋ฐ์ดํ„ฐ' ์ฒ˜๋Ÿผ ๋‹ค๋ฃจ๊ธฐ ์–ด๋ ค์šด ๋Œ€์ƒ์ด 'ํ™•๋ฅ ๋ถ„ํฌ <-> ์‹คํ˜„๊ฐ’'์ฒ˜๋Ÿผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ๋Œ€์ƒ์œผ๋กœ ์น˜ํ™˜๋˜๋Š” ๊ฒƒ์ด๋‹ค. 

     

    • ๊ธฐ๋Œ“๊ฐ’(Expected Value) 

    • ์™œ๋„(Skewness) : ๋ถ„ํฌ๊ฐ€ ์ขŒ์šฐ๋Œ€์นญ์—์„œ ์–ด๋А์ •๋„ ๋ฒ—์–ด๋‚ฌ๋Š”์ง€ (์–‘์ˆ˜: ์˜ค๋ฅธ์ชฝ๊ผฌ๋ฆฌ, ์Œ์ˆ˜: ์™ผ์ชฝ๊ผฌ๋ฆฌ ํ˜•ํƒœ)
    • ์ฒจ๋„(Kurfosis) : ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋พฐ์กฑํ•œ์ง€, ํŽธ์ฐจ์˜ ํฌ๊ธฐ ํŒ๋‹จ (์–‘์ˆ˜: ๊ธ‰์ฒจ=๋ณ€๋™์„ฑ↓, 0:์ค‘์ฒจ, ์Œ์ˆ˜: ํ‰์ฒจ=๋ณ€๋™์„ฑ↑)
    ๋ฐ˜์‘ํ˜•