기업경제학 실습 제2회
蟻川靖浩
해답
- 해결책 1 : 일본 전역의 중학생에게 시험을 치르게 한다
→ 이 방법은 비용이 너무 많이 든다.
→ 대안적인 방법은 무엇인가? - 해결책 2 : 정확성을 희생하더라도 일부 학생들만 시험을 치르게 함.
예 : TV 시청률 조사 등
모집단과 표본
- '전국의 중학생' → 원래 관심의 대상이었던 데이터 전체이며, 이를 모집단(population)이라고 한다.
- '일부 학생들만' → 모집단의 일부를 추출한 것이며, 이를 표본(Sample)이라고 한다.
- 모집단에서 표본을 꺼내는 것 = 표본 추출
- 모집단의 성질을 나타내는 통계적 지표(평균, 분산, 상관계수 등)를 모수(매개변수)라고 한다.
추측 통계의 분류 : 추정
- 추정 통계에 포함되는 방법은 크게 2개
1) 추정:구체적인 값을 사용하여 '파라미터의 값은 ○○정도일 것이다'라는 결론을 도출하는 방법- 점 추정 : 하나의 값으로 결과를 나타내는 것
(예: 일본 중학생 전체의 평균 점수는 60점) - 구간 추정 : 어느 정도의 폭을 가진 구간으로 결과를 나타내는 것
(예: 일본 중학생 전체의 평균 점수는 50점에서 70점)
- 점 추정 : 하나의 값으로 결과를 나타내는 것
추측 통계의 분류 : 검정
2) 검정: 모집단에 대해 서술된 서로 다른 두 가지 주장(가설이라고 함) 중 어느 쪽을 채택할 것인가를 결정하는 것
예: '일본 중학생 전체의 학력이 1년에 1.5배 성장했다' vs '일본 중학생 전체의 학력은 1년에 1.5배 성장하지 않았다'
어느 쪽이 옳은가?
점추정 : 추정량과 추정치
- 표본에서 계산되는 것: 표본 통계량
- 같은 평균이라도 모집단의 평균(모평균)과 표본의 평균(표본평균)은 같지 않다.
- '모집단 평균'은 '표본 평균'과 다르다.
- 표본 평균은 모집단의 매개변수인 모평균을 추정하기 위해 사용된다
→ 추정량이라고 한다.
(예: 표본평균은 모평균의 추정량)
표본을 이용하여 추정된 값 : 추정치
모집단 | Sample추출 | Sample |
↓ | ||
모수(Parameter) (진짜 알고 싶은 것) - 모평균 - 모분산 - 모표준편차 등 |
추정 ← |
표본통계량 (Sample에서 계산되는 것) - 표본평균 - 표본분산 - 불편분산 등 |
가설검정의 필요성
- 이제 GDP와 주가 사이에 상관관계가 있다는 것을 주장하기 위해 실제로 데이터를 수집하기로 했다.
- 전 세계 국가의 GDP와 주가를 모으는 것은 불가능하기 때문에
10개국만 무작위로 선정하여 데이터를 수집한 결과, 두 변수의 상관계수는 0.5였다. - 그런데 이 결과에 대해
"전 세계라는 모집단 전체를 사용하면 상관계수가 0인데,
우연히 양의 상관계수가 관찰되는 표본을 선택한 것 아니냐?"는 비판이 제기되었다.
→어떻게 반박하면 좋을까?
가설검정의 필요성
"모집단에 전혀 상관관계가 없다면, 이번에 추출한 샘플에서 나타난 것과 같은 결과가 나올 가능성은 매우 적다"
를 나타낼 수 있다면 좋다.
→ 이것이 가설검정의 개념
가설검정의 수순
수순 | 작업내용 | ||||
1 | 모집단에 대한 귀무가설과 대립가설(양측 또는 한쪽)을 설정한다. | ||||
2 | 검정통계량 선택하기 | ||||
3 | 유의수준 α 값 결정하기 | ||||
4 | (데이터 수집 후) 데이터로부터 검정통계량의 실현값을 구한다. | ||||
5 | 검정통계량의 실현값이 기각 영역에 들어가면 귀무가설을 기각하고 대립가설을 채택한다. 기각 영역에 들어가지 않으면 귀무가설을 채택한다. |
귀무가설과 대립가설
- 가설검정에서는 먼저 '평균값은 0과 차이가 없다' 또는 '재정지출의 효과는 0으로 효과가 없다'와 같은 가설을 세운다.
→이러한 가설을 '귀무가설(Null Hypothesis)'이라고 한다.
귀무가설과 대립가설
- 귀무가설은 일반적으로 원래 주장하고자 하는 것과 반대되는 가설이 된다 → 귀무가설은 H₀로 표시된다.
예: '그룹 A와 그룹 B의 평균값은 다르다'
를 주장하고 싶은 경우 귀무가설은
'평균값은 다르지 않다'가 된다. - 귀무가설이 기각되었을 때 채택되는 가설을 '대립가설'이라고 한다 → 대립가설은 H₁으로 표시된다.
귀무가설과 대립가설
- 가설검정에서는 먼저 귀무가설과 대립가설을 정한다.
- 다음으로 귀무가설이 옳다고 가정하고 이야기를 진행한다.
- 실제 데이터에서 계산된 검정 통계량의 값이 극단적인 값이고,
그런 값은 거의 얻을 수 없는 값이라는 것을 알게 되었다고 가정한다.
→ 이는 귀무가설이 맞다면 거의 일어날 수 없는 결과가 나왔다는 것을 의미한다.
→ 귀무가설이 옳다는 전제가 틀렸다고 생각하고 귀무가설을 기각한다.
검정통계량
- 가설검증을 위해 사용되는 표본 통계를 검정통계량이라고 한다.
- 실제 데이터에서 검정통계량의 값을 계산하는데,
이렇게 표본에서 계산된 검정통계량의 구체적인 값을 검정통계량의 실현값이라고 한다. - 대표적인 검정통계량은 t, χ², F 등이 있다. (χ = 카이)
유의수준과 기각범위
- 귀무가설을 기각하고 대립가설을 채택할지 여부를 결정할 때
'어느 정도 낮은 확률의 결과가 나타나면 귀무가설을 기각할 것인가'의 기준이 되는 것이 유의수준이다. - 유의수준은 1% 혹은 5%로 설정하는 경우가 많다
유의수준 α = 0.01, 혹은 α = 0.05로 쓴다. - 귀무가설 하에서 매우 발생하기 어려운(특정 값 α에서만 발생하는) 검정통계량 값의 범위를 기각범위라고 한다.
- 기각범위에 검정통계량 값이 들어가면 귀무가설을 기각한다.
가설검정의 결과의 보고
- 검정통계량의 실현값이 기각범위에 들어갔을 경우
'재정정책은 효과가 없다'는 귀무가설을 기각하고 '효과가 있다'는 대립가설을 채택한다. - 이러한 판단을 '검정 결과는 5% 수준(1% 수준)에서 유의하다'라든지,
' p < 0.05 ( p < 0.01 ) 에서 유의미한 차이가 나타났다'라고 표현한다(significant).
※ p값이 유의수준 α보다 작을 때 ( p < α ) 귀무가설을 기각한다.
제1종 오류
- 제1종 오류란
"귀무가설이 맞을 때, 그것을 기각하는 것"
예: 사실은 귀무가설인 '두 나라의 GDP에 차이가 없다'가 맞는데,
그것을 기각하고 '두 나라의 GDP에 차이가 있다'고 판단해버리는 것 - 이 경우 종의 오류를 범할 확률이 유의수준
→ 유의수준 5%라는 것은 5% 혹은 그 이하의 확률로 제1종의 오류를 범한다는 것
제2종 오류
- 제2종 오류란?
"귀무가설이 틀렸을 때 그것을 기각하지 않고 채택해 버리는 것"
예: 귀무가설인 '두 나라의 GDP에 차이가 없다'가 틀렸음에도 불구하고
이를 기각하지 않고 '두 나라의 GDP에 차이가 없다'고 판단해 버리는 것
실제로 검정해보다
- 표준 정규분포를 이용한 검정을 소개합니다.
- 여기서는 표본에서 얻은 평균값에 대해 그 값이 모집단의 평균값과 차이가 없는지,
즉 가정하고 있는 모집단에서 얻은 값인지 검증한다. - 검증하고자 하는 모집단의 평균과 분산에 대해서는 미리 알고 있는 것으로 분석을 한다.
표준화에 대하여
- 확률변수 X의 평균(μ)과 표준편차(σ)가 각각 평균 = 0, 표준편차 = 1이 되도록
모든 변수를 동일한 공식을 사용하여 변환하는 것을 '표준화'라고 한다. - 표준화된 변수 Z란?
Z = ( X - μ ) / σ - 참고로, 테스트 점수를 X라고 가정하고 이를 표준화한 Z를 사용하면, [ 편차값 = Z × 10 + 50 ] 이 된다.
→ Z의 평균은 0이므로, 편차는 50이 기준이 된다.
R 사용법: 작업 디렉토리에 대하여
- R에서는 다양한 데이터를 저장하고 사용하는 장소를 '작업 디렉토리'(working directory)라고 부른다.
- 작업 디렉토리에 있는 데이터는 그 파일명을 R에 입력하기만 하면 사용할 수 있다.
- 초기 단계에서는 작업 디렉토리가 임의로 정해져 있기 때문에, 사용자가 자신이 원하는 위치로 변경해야 한다.
R 사용법: 작업 디렉토리에 대하여
- 예를 들어, 문서 홀더 안에 "Rdata"라는 홀더를 생성(아무 곳이나 상관없음)
getwd() 현재 작업 디렉토리를 확인 - 그 안에 데이터를 넣은 후 먼저 아래 코드를 작성한다
예를 들어
setwd("C:/Rdata")
굵게 표시된 부분은 각자의 PC환경에 따라 달라질 수 있다.
R 사용법: 외부 데이터 불러오기
- 이제 분석용 데이터 파일로
test.csv를 사용한다.
→ 파일명은 test
※ 파일명은 무엇이든 상관없으니, 여기서는 연습용 파일로 생각하시면 됩니다. - 이 파일에는 '변수'가 4개
1 : No 2:test1 3 :test2 4: test3
R 사용법: 외부 데이터 불러오기
- 실제 통계 분석에서 데이터는
텍스트 파일, CSV 파일, 엑셀 파일 등 외부 파일로 저장되는 경우가 많다. - 외부에 저장된 파일을 가져와서 분석한다.
R 사용법: 외부 데이터 불러오기
test <- read.csv ( " test.csv " , header = TRUE )
를 입력
- csv ( "test.csv" ) 라는 CSV 파일을 컴퓨터로 불러온다 ( read라는 명령어를 사용하여 ).
- header = TRUE 는 데이터 파일의 첫 번째 줄은 헤더(변수 이름이 들어있다)임을 나타낸다.
→ 변수명을 넣지 않으려면 header=FALSE로 설정하면 된다.
R 사용법: 외부 데이터 불러오기
- 디렉터리를 설정하지 않아도 다음과 같이 데이터를 직접 지정하여 불러올 수 있다.
test <- read.csv ( file.choose ( ) )
R 사용법: 파일 내 변수의 특징
- 파일 내에는 변수가 두 개 있으므로, 그 중 test1을 변수로 사용하고자 한다.
table ( test $ test1 ) 로 입력
이 경우 test 내의 변수 test1에 대해 그 특징을 살펴본다는 의미
- $는 달러 기호
R 사용법: 파일 내 변수의 특징
table ( test $ test1 ) 이라고 입력하면
- (4 5 6 7 8 8 9 10 12 13 14 15)는 test1에 포함된 데이터를 나타낸다.
- (1 1 2 1 3 1 2 4 1 2 2)는 각 값의 개수를 나타낸다.
table(test$test2), table(test$test3)을 입력하면 다른 변수에 대해서도 비슷한 작업을 할 수 있다.
R 사용법: 파일 내 변수의 특징
- (4 5 6 7 8 8 9 10 12 13 14 15)는 test1에 포함된 데이터를 나타낸다.
- (4 5 6 7 8 9 10 12 13 14 15)의 '합계'를 알고 싶다면,
sum(test$test1)
[1] 200
- (4 5 6 7 8 8 9 10 12 13 14 15)의 데이터 '개수'를 알고 싶다면,
length(test$test1)
[1] 20
예제
- 과거 데이터의 축적을 통해 '테스트'의 점수가 평균이 12, 분산이 10인 정규분포를 따른다는 것을 알고 있다고 하자.
- 테스트의 모집단 분포는
X ~ N ( 12 ,10 )
→ test A의 20명의 점수는 이 모집단에서 무작위로 추출된 점수라고 생각해도 될까?
→ 평균점을 이용하여 검증한다.
귀무가설과 대립가설의 설정
- 귀무가설: H₀ : μ = 12
→ 추출한 표본의 모평균은 12점이다. - 대립가설: H₁ : μ ≠ 12
→ 추출한 표본의 모평균은 12점이 아니다.
검정통계량
- 정규 모집단에서 무작위로 표본을 추출하면 표본 분포의 평균 X도 정규분포를 따른다.
- 그 분포는
X ~ N ( μ , σ² / n )
→ 평균 X을 '표준화'한다.
Z = ( X - μ ) / ( σ / √n ) ~ N ( 0 , 1 )
→ 이를 검정 통계량으로 사용한다.
검정통계량의 실현치
- 모집단의 분포는 X ~ N ( 12 , 10 )
→ 평균점의 표본분포는 n = 20 하에서는
X ~ N ( 12 , 10 / 20 )
→ 검정 통계량을 구한다
Z 분자 <- mean(test$test1) - 12 → 검정 통계량의 분자를 계산
Z 분자
를 입력하면 -2를 얻을 수 있다.
검정통계량의 실현치
Z 분모 <- sqrt(10/length(test$test1))
→ 샘플 수
→ 검정 통계량의 분모 계산
Z 분모
를 입력하면 0.7071068을 얻을 수 있다.
검정통계량의 실현치
Z 통계량 <- Z 분자 / Z 분모
Z 통계량
로서
-2.828427
⇒ 이것이 검정 통계량의 실현값이다.
귀무가설 기각 or 채택 결정
- 표준 정규분포에서 양측 검정, 유의수준 5%의 기각구간을 구해본다.
- 구체적으로 다음과 같이 입력한다.
curve ( dnorm ( x ) , -3 , 3 )
abline ( v = qnorm ( 0.025 ) )
abline ( v = qnorm ( 0.975 ) )
※ abline()은 그림에 직선을 추가하는 함수, v=명령은 y축에 평행한 직선을 추가한다.
※ curve(dnorm(x,mean = 0, sd = 1),-3,3)도 동일
표준 정규분포에서 기각 영역: 검정 통계량이 기각 영역에 들어가는지 여부
기각 영역에 들어간다는 것은 계산된 검정 통계량을 거의 얻지 못한다는 것을 의미합니다.
귀무가설 기각 or 채택 결정
- 하측확률 : 표준 정규분포를 따르는 확률변수 Z가 어떤 값 z 이하가 될 확률
- 상측확률 : 표준정규분포를 따르는 확률변수 Z가 어떤 값 z 이상일 확률
→ 아래쪽 확률을 0.025, 위쪽 확률을 0.975로 설정하면
귀무가설 기각 or 채택 결정
- 하부확률 0.025가 되는 z의 값을 구한다.
qnorm ( 0.025 )
1.959964
- 아래쪽 확률 0.975가 되는 z의 값을 구한다.
qnorm ( 0.975 )
-1.959964
귀무가설 기각 or 채택 결정
- 이로인해 기각 영역은
Z < -1.959964, Z > 1.959964
로 얻을 수 있다. - 검정 통계량의 실현값은 Z = -2.82427이므로 기각 영역에 들어간다.
→ 귀무가설은 기각되고, 테스트 점수의 모평균이 12라고 할 수 없다는 것을 의미한다.
모집단의 분포를 알 수 없는 경우
- 지금까지는 모집단의 분포를 알고 있다는 전제로 논의해 왔다.
→ 모집단의 분포를 모르는 경우에는 어떻게 해야 할까? - 중요한 정리로 '중심극한정리'라는 것이 있는데, 이를 바탕으로 하면,
"표본 수가 충분히 크면 확률변수 Z의 분포는 표준정규분포 ( N ( 0 , 1 ) ) 로 근사화할 수 있다."
→ 지금까지와 검정방법은 동일하다.
중심극한정리(Central Limit Theorem)
- 모평균과 모분산이 유한하다면, 무작위로 추출한 표본 { X1, X2, ... , Xn }에서 구한 표본 평균을 표준화 한 통계량
Z = { √n ( X - μ ) } / σ
Z = ( X - μ ) / √(σ²/n)
의 분포는 n이 충분히 크다면 N ( 0 , 1 ) 의 표준 정규분포로 근사할 수 있다.
예시: 모집단의 분산을 모르는 경우
- 과거 데이터 축적을 통해 '테스트' 점수가 평균이 12의 정규분포를 따른다는 것을 알고 있다고 가정하자.
- 모집단의 분산은 알 수 없으므로, 모집단의 분포는
X ~ N ( 12 , σ² )
→ test A의 20명의 점수는 이 모집단에서 무작위로 추출된 점수라고 생각해도 될까?
→ 전과 마찬가지로 평균점을 이용하여 검증한다.
- 포인트는 '모집단의 분산을 모른다고 해서 작업이 어떻게 달라지는가'라는 것이다
귀무가설과 대립가설의 설정
귀무가설: H₀ : μ = 12
→ 추출한 표본의 모평균은 12점이다.
대립가설: H₁ : μ ≠ 12
→ 추출한 표본의 모평균은 12점이 아니다.
검정통계량
- 앞서 사용한 검정 통계량은
Z = ( X - μ ) / ( σ / √n ) ~ N ( 0 , 1 )
이었으나, 분모의 σ를 모르기 때문에 Z를 계산할 수 없다.
→ 그래서 표본에서 계산한 표준편차를 사용하기로 한다(이 표준편차를 σ^로 한다). - 표본에서 계산한 표준편차를 사용하면 무엇이 달라질까?
t통계량
- 평균이 μ, 분산이 (σ^)²인 모집단에서 무작위 표본 { X1 , X2 , ... , Xn }의
표본 평균 X
불편 분산 (σ^)²
(σ^)² = { 1 / ( n - 1) } Σ ( Xi - X ) ²
를 계산하는데, 여기서 분산은 샘플에서 계산
t통계량
- 검정통계량은
t = ( X - μ ) / ( σ^ / √n )
t통계량이라고 하며, 자유도 n - 1의 t분포를 따르는 것으로 알려져 있다. - 자유도(degrees of freedom)는 df = n - 1 로 표현되며, 분포의 형태를 결정하는 값이고, n은 표본 수이다.
- t분포는 통계학에서 자주 이용되는 확률분포 중 하나이다.
t분포
- 아래에서 다양한 자유도에 대한 t분포를 그릴 수 있다.
curve ( dt ( x , 8 ) , -5 , 5 , col = " red " ) #자유도 df = 8
curve ( dt ( x , 4 ) , -5 , 5 , add = TRUE ) #자유도 df = 4
curve ( dt ( x , 2 ) , -5 , 5 , add = TRUE ) #자유도 df = 2
curve ( dt ( x , 1 ) , -5 , 5 , col = " blue " , add = TRUE ) #자유도 df = 1
다른 자유도에 대한 t 분포
정규분포와 t분포
정규분포의 밀도 함수
curve ( dnorm ( x ) , -5 , 5 , col = " red " )
t분포의 밀도 함수
curve ( dt ( x , 4 ) , -5 , 5 , add = TRUE )
※ x의 범위를 -5에서 5 사이로 좁혀서 사용함.
정규분포와 t분포의 비교
빨간색 분포는 정규분포, 검은색 분포는 t 분포
검정 통계량의 실현값 구하기
→ 검정 통계량은
t = ( X - μ ) / ( σ^ / √n )
t분자 <- mean ( test $ test1 ) -12
→ 검정 통계량의 분자를 계산
t분자
를 입력하면 -2를 얻을 수 있다.
검정 통계량의 실현값 구하기
t 분모 <- sqrt ( var ( test $ test1 ) / length ( test $ test1 ) )
→ 검정 통계량의 분모 계산
t분모
를 입력하면 0.7643367을 얻을 수 있다.
검정 통계량의 실현값 구하기
t통계량 <- t 분자/t 분모
t통계량
를 넣으면 t = -2.616648
이것이 검정 통계량의 실현값이다.
귀무가설 기각 or 채택 결정
- 이 검정 통계량은 자유도 df = n - 1 = 20 - 1 = 19 의 t분포를 따른다.
- qt ( p , df ) 라고 입력하면 자유도 df의 분포 상에서 확률 p에 해당하는 t의 값을 얻을 수 있다.
- 유의수준 5%, 양측 검정 시 기각범위를 구한다.
귀무가설 기각 or 채택 결정
- 하측확률 0.025가 되는 t값을 구한다.
qt ( 0.025 , 19 )
-2.093024
- 하측확률 0.975가 되는 t의 값을 구한다.
qt ( 0.975 , 19 )
2.093024
귀무가설 기각 or 채택 결정
- t분포로 양측검정, 유의수준 5%의 기각구간을 구해봅니다.
- 구체적으로 다음과 같이 입력합니다.
curve ( dt ( x ,19 ) , -3 , 3 )
abline ( v = qt ( 0.025 ,19 ) )
abline ( v = qt ( 0.975 , 19 ) )
※ abline()은 그림에 직선을 추가하는 함수, v=명령은 y축에 평행한 직선을 추가합니다.
t분포에서 기각 영역: 검정 통계량이 기각 영역에 들어가는지 여부
귀무가설 기각 or 채택 결정
- 이로부터 기각 영역은
t < -2.093024, t > 2.093024
로 얻을 수 있다. - 검정 통계량의 실현값은 t = -2.616648 이므로 5% 유의수준에서 기각 영역에 들어간다.
→ 귀무가설은 기각되고,
샘플 테스트의 점수는 평균이 12인 정규 모집단에서 무작위로 추출된 것이 아니라고 할 수 있다.
귀무가설 기각 or 채택 결정
- 검정통계량 = -2.616648 에 대한 p값도 계산할 수 있다.
- p값 : 귀무가설이 옳다는 가정 하에 표본에서 계산한 검정 통계량의 실현값 이상(절대값으로)의 값을 얻을 확률
- 양측 검정이므로,
prob ( t <= -2.616648 ) : t가 -2.616648보다 낮아질 확률
prob ( t >= 2.616648 ) : t가 2.616648보다 클 확률
를 모두 계산한다.
p값 계산
pt ( -2.616648 , 19 )
0.00848546
pt ( 2.616648, 19, lower.tail=FALSE )
0.00848546
- 직접 p값을 도출하면, 양측검정이기 때문에 2배
2*pt(2.616648, 19, lower.tail=FALSE )
p = 0.01697092
⇒ 유의수준 5%에서 귀무가설이 기각됨.
t-검정은 다음과 같은 함수가 제공된다.
t.test ( test$test1, mu = 12 ) ← 모평균 μ=12가 귀무가설
One Sample t-test ← 하나의 표본에 대한 t검정이라는 의미
data: test$test1
t = -2.6166, df = 19, p-value = 0.01697
Alternative Hypothesis: true mean is not equal to 12 ← 대립 가설
95 percent confidence interval:
8.400225 11.599775
sample estimates:
mean of x ← 표본에서 계산된 표본 평균의 실현 값
10
※ t.test ( test $ test1 ) 로 하면 μ = 0 이 귀무가설이 된다.
예시: 두 개의 평균값 비교하기
- 그룹 1과 그룹 2의 테스트 점수의 평균값에 유의미한 차이가 있는지, 유의수준 5%, 양측검정에서 검증
- 귀무가설: H₀ : μ₁ = μ₂
→ 집단과 집단1의 모평균은 동일하다. - 대립가설: H₁ : μ₁ ≠ μ₂
→ 집단과 모평균은 같지 않다.
대립가설보다 양측검정이 된다.
독립적인 두 그룹의 t-검정
- 독립적인 두 그룹의 t검정을 위한 검정 통계량을 생각해보자.
- 두 그룹의 평균값 차이에 대한 표본 분포는
X₁ - X₂ ~ N ( μ₁ - μ₂ , σ² ( 1/n₁ + 1/n₂ ) )
기대값 : μ₁ - μ₂
분산 : σ² ( 1/n₁ + 1/n₂ )
의 정규분포
단, n₁과 n₁은 각 그룹의 샘플 수
독립적인 두 그룹의 t-검정
- 표본분포는
X₁ - X₂ ~ N ( μ₁ - μ₂ , σ² ( 1/n₁ + 1/n₂ ) )
→ 이걸 표준화하면
{ X₁ - X₂ - ( μ₁ - μ₂ ) } / { σ √ ( 1/n₁ + 1/n₂ ) } ~ N ( 0 , 1 )
→ 표준정규분포 N ( 0 , 1 ) 을 따름
독립적인 두 그룹의 t-검정
- 검정통계량의 분모에 미지의 값인 모표준편차 σ 가 포함되어있다
( X₁ - X₂ ) / { σ √ ( 1/n₁ + 1/n₂ )
→ 이 값을 구하는 것은 불가함으로 추정한다
σ²ₚₒₒₗₑᵈ = { ( n₁ - 1 ) σ₁² + ( n₂ - 1 ) σ₂² } / ( n₁ + n₂ - 2 )
σ₁²와 σ₂²는 각각 그룹의 표본으로부터 계산된 불편분산
독립적인 두 그룹의 t-검정의 통계검정량
- t 통계검정량은
t = ( X₁ - X₂ ) / √ [ { ( n₁ - 1 ) σ₁² + ( n₂ - 1 ) σ₂² } / ( n₁ + n₂ - 2 ) ] x ( 1/n₁ + 1/n₂ )
→ 검정통계량 t는 자유도 df = n - 2 의 t 분포를 따름 - 유의수준 α 를 5%로 함 ( α = 0.05 )
- 귀무가설은 H₀ : μ₁ = μ₂
데이터 불러오기
- newtest.csv를 사용하여 분석하기
newtest <- read.csv ( " newtest.csv " )
newtest
를 입력하면 newtest.csv에 test1, test2라는 변수
가 있음을 알 수 있다.
t검증은 관련 값이 사용됩니다.
t.test ( newtest$test1, newtest$test2, var.equal = TRUE )
두 개의 샘플 t-검정
데이터: newtest$test1 및 newtest$test2
t = -1.8429, df = 18, p-값 = 0.08188(유의수준을 5%로 설정하면 기각할 수 없다)
대체 가설: 실제 평균 차이가 0이 아님
95퍼센트 신뢰 구간:
-4.2800355 0.2800355
표본 추정치
X의 평균 Y의 평균
6 8
t검정의 전제조건
- 표본추출이 무작위로 이루어질 것(무작위 추출)
- 모집단의 분포가 정규분포를 따를 것(정규성)
- 두 모집단의 분산이 동질적일 것(분산의 동질성)
→ 이 점에 대해 검정한다.
t검정의 전제조건
- 분산 그룹 간 동질성을 검정하기 위한 R의 함수는
var.test ( newtest$test1, newtest$test2 )
두 분산 비교를 위한 F 테스트
데이터: newtest$test1 및 newtest$test2
F = 1.9444, num df = 9, denom df = 9, p-값 = 0.3362(두 그룹 간 분산이 같다는 귀무가설을 기각할 수 없다)
대체 가설: 실제 분산 비율이 1이 아님
95% 신뢰 구간:
0.4829725 7.8283220
샘플 추정치
분산 비율
1.944444
데이터 불러오기
- newtest2.csv를 사용하여 분석을 진행합니다.
newtest2 <- read.csv ( " newtest2.csv " )
newtest2
를 입력하면 newtest2.csv에 test1, test2 변수가 있음을 알 수 있다.
t검정은 함수가 준비되어 있다.
t.test ( newtest$test1, newtest$test2, var.equal = TRUE )
두 개의 샘플 t-테스트
데이터: newtest2$test1 및 newtest2$test2
t = -1.1191, df = 18, p-값 = 0.2778
대체 가설: 실제 평균 차이가 0이 아님
95퍼센트 신뢰 구간:
-15.249541 4.649541
표본 추정치
X의 평균 Y의 평균
48.3 53.6
t 검정의 전제 조건
- 분산 그룹 간 동질성을 검정하기 위한 R의 함수는
var.test ( newtest2$test1, newtest2$test2 )
두 분산 비교를 위한 F 테스트
데이터: newtest2$test1 및 newtest2$test2
F = 0.2157, num df = 9, denom df = 9, p-값 = 0.03206
대안 가설: 실제 분산 비율이 1이 아님
95% 신뢰 구간:
0.05356961 0.86828987
표본 추정치
분산 비율
0.2156709
두 그룹 간의 분산이 같다는 귀무가설은 기각된다.
→ 일반적인 t검정과는 다른 검정방법을 취해야 한다.
→ Welch의 검정 실시
Welch의 t검정
t.test ( newtest2$test1, newtest2$test2, var.equal = FALSE )
웰치 2 표본 t 검정
데이터: newtest2$test1 및 newtest2$test2
t = -1.1191, df = 12.71, p-값 = 0.2838(두 그룹의 평균값이 같다는 귀무가설을 기각할 수 없다.)
대안 가설: 실제 평균 차이가 0이 아님
95% 신뢰 구간:
-15.554888 4.954888
표본 추정치
X의 평균 Y의 평균
48.3 53.6
'WBS - 2023 Fall > 기업경제학 연습' 카테고리의 다른 글
(기업경제 #9) Matching (0) | 2023.12.06 |
---|---|
(기업경제 #8) 로지트 모델(Logit Model)과 프로빗 모델(Probit Model) (0) | 2023.11.29 |
(기업경제 #7) DID | Difference-in-Difference (차이의 차이 분석) (0) | 2023.11.16 |
(기업경제 #6) 패널 분석 (Panel data analysis) (0) | 2023.11.09 |
(기업경제 #5) 더미 변수를 이용한 분석 (0) | 2023.11.02 |
(기업경제 #4) 이상치 처리 | 선형 회귀 모델(2) (0) | 2023.10.26 |
(기업경제 #3) 선형회귀 Model (0) | 2023.10.19 |
(기업경제 #1) (0) | 2023.10.05 |