빅데이터 분석/통계 분석

모집단과 표본, 모집단은 표준정규분포를 따른다

김 리안 2022. 8. 31. 16:23

모집단과 표본
모집단 : 전체 집합
표본 : 모집단의 일부
모수 : 모집단의 특성
통계량 : 표본의 특성(표본평균, 표본분산, 표본비율 )
추론 : 통계랑으로부터 모수 확인하는 과정


모집단에서 추출한 표본(샘플)의 표본평균(xbar)은 
평균이 mu, sigma^2/n인 정규분포 따른다.
1. 표본평균의 분포는 정규분포를 따른다

2. 표본평균의 평균은 모평균에 근사

3. 표본평균의 분산은 모분산을 샘플크기로 나눈 sigma^2/n에 근사 

 

# [ 증명 ]
모집단이 표준정규분포를 따른다는 가정 하에
이로부터 1000개의 샘플 추출, 1000개의 표본평균이 갖는 분포 확인

step1) 난수 추출
1) n = 10인 샘플 1000번 추출
v10 <- rnorm(10, 0, 1)

2) n = 50인 샘플 1000번 추출
v50 <- rnorm(50, 0, 1)

3) n = 100인 샘플 1000번 추출
v100 <- rnorm(100, 0, 1)

step2) 한 번 샘플링한 결과로 표본평균 확인, 모평균에 근사한지 확인
mean(v10) # 0.5470736
mean(v50) # -0.07297122
mean(v100)# -0.02167353
=> 한 번 샘플링해서 얻은 표본평균으로 모평균을 추정하는 것은 오차가 꽤 클 수 있음.

step3) 샘플링 과정을 1000번 반복(1000개의 표본 평균)

m10 <- c(); m50 <- c();  m100 <- c(); 

for ( i in 1:1000) {
  m10 <-   c(m10, mean(rnorm(10, 0, 1)))
  m50 <-   c(m50, mean(rnorm(50, 0, 1)))
  m100 <-  c(m100, mean(rnorm(100, 0, 1)))
}

step4) 위 표본평균이 갖는 실제 분포 시각화
par(mfrow = c(1,3))
hist(m10, prob = T)
hist(m50, prob = T)
hist(m100, prob = T)

 

step5) 표본평균의 평균(기대값)이 모평균(0)에 근사해짐을 확인
mean(m10)   #-0.008970309
mean(m50)   #-0.01073794
mean(m100)  #0.001664003

step6) 표본평균의 변동량(분산)이 sigma^2/n에 근사해짐 확인
var(m10)  #0.09481467  #sigma^2/n = 0.1에 가까움
var(m50)  #0.0206038   #sigma^2/n = 0.02에 가까움
var(m100) #0.01032226  #sigma^2/n = 0.01에 가까움

step7) 위 분포 시각화와 함께 이론적 분포 함께 표현
# 1) n= 10
vx1 <- seq(-1, 1, 0.01)
vy1 <- dnorm(vx1, mean = 0, sd = sqrt(0.1))

par(mfrow = c(1,3))
hist(m10, prob = T, ylim= c(0,1.5))
lines (vx1, vy1, type = 'l', col = 2)

# 2) n= 50
vx2 <- seq(-0.5,0.5, 0.01)
vy2 <- dnorm(vx2, mean = 0, sd = sqrt(0.02))
hist(m50, prob = T)
lines (vx2, vy2, type = 'l', col = 2)

# 3) n= 100
vx3 <- seq(-0.3,0.3, 0.01)
vy3 <- dnorm(vx3, mean = 0, sd = sqrt(0.01))
hist(m100, prob = T)
lines(vx3, vy3, type = 'l', col = 2)

#모평균의 추정
1. 점추정
2. 구간추정

xbar ~ N(mu, sigma^/2)
#표준화된 확률변수는 표준정규분포를 따름
Z = (xbar - mu) / (sigma / sqrt(n))
P(-1.96 <= z <= 1.96)  = 95%
P(-1.96 <= (xbar - mu) / (sigma / sqrt(n)) <= 1.96)  = 95%

-1.96 <= (xbar - mu) / (sigma / sqrt(n)) <= 1.96
-1.96 * (sigma / sqrt(n)) <=  (xbar - mu) <= 1.96 *(sigma / sqrt(n))
-xbar -1.96 * (sigma / sqrt(n)) <= - mu <= xbar + 1.96 *(sigma / sqrt(n))
xbar - 1.96 *(sigma / sqrt(n)) <= - mu <= xbar +1.96 * (sigma / sqrt(n))

#모평균에 대한 95% 구간 추정값
[xbar - 1.96 *(sigma / sqrt(n)), xbar +1.96 * (sigma / sqrt(n))]

#[연습문제]
# 우리나라 2세 영아의 머리둘레는 작년과 분산이 동일할 것으로 확인(500)\
# 한 번 추출한 샘플의 평균이 250일 때 (n=10) 95% 신뢰구간을 구하여라
xbar <- 250
n <- 10
sigma <- sqrt(500)

c(xbar - 1.96 *(sigma / sqrt(n)), xbar +1.96 * (sigma / sqrt(n)) )
#236.1407 263.8593

'빅데이터 분석 > 통계 분석' 카테고리의 다른 글

가설검정  (0) 2022.09.02
R : 정규분포 시각화  (0) 2022.08.30
R을 이용한 확률분포 시각화  (0) 2022.08.29