본문 바로가기
WBS - 2023 Fall/기업경제학 연습

(기업경제 #2)

by fastcho 2023. 10. 12.
반응형

기업경제학 실습 제2회
蟻川靖浩

기업경제학 실습 제2회 蟻川靖浩

 

 

해답

  • 해결책 1 : 일본 전역의 중학생에게 시험을 치르게 한다
    → 이 방법은 비용이 너무 많이 든다. 
    → 대안적인 방법은 무엇인가?
  • 해결책 2 : 정확성을 희생하더라도 일부 학생들만 시험을 치르게 함.

예 : TV 시청률 조사 등

해답

 

모집단과 표본

  • '전국의 중학생' → 원래 관심의 대상이었던 데이터 전체이며, 이를 모집단(population)이라고 한다. 
  • '일부 학생들만' → 모집단의 일부를 추출한 것이며, 이를 표본(Sample)이라고 한다.
  • 모집단에서 표본을 꺼내는 것 = 표본 추출
  • 모집단의 성질을 나타내는 통계적 지표(평균, 분산, 상관계수 등)를 모수(매개변수)라고 한다.

모집단과 표본

 

추측 통계의 분류 : 추정

  • 추정 통계에 포함되는 방법은 크게 2개
    1) 추정:구체적인 값을 사용하여 '파라미터의 값은 ○○정도일 것이다'라는 결론을 도출하는 방법 
    • 점 추정 : 하나의 값으로 결과를 나타내는 것 
      (예: 일본 중학생 전체의 평균 점수는 60점) 
    • 구간 추정 : 어느 정도의 폭을 가진 구간으로 결과를 나타내는 것 
      (예: 일본 중학생 전체의 평균 점수는 50점에서 70점)

추측 통계의 분류 : 추정

 

추측 통계의 분류 : 검정

2) 검정: 모집단에 대해 서술된 서로 다른 두 가지 주장(가설이라고 함) 중 어느 쪽을 채택할 것인가를 결정하는 것
예: '일본 중학생 전체의 학력이 1년에 1.5배 성장했다' vs '일본 중학생 전체의 학력은 1년에 1.5배 성장하지 않았다'
어느 쪽이 옳은가?

추측 통계의 분류 : 검정

점추정 : 추정량과 추정치

  • 표본에서 계산되는 것: 표본 통계량 
  • 같은 평균이라도 모집단의 평균(모평균)과 표본의 평균(표본평균)은 같지 않다. 
  • '모집단 평균'은 '표본 평균'과 다르다. 
  • 표본 평균은 모집단의 매개변수인 모평균을 추정하기 위해 사용된다
    추정량이라고 한다. 
    (예: 표본평균은 모평균의 추정량
    표본을 이용하여 추정된 값 : 추정치

점추정 : 추정량과 추정치

 

 

모집단 Sample추출 Sample
   
모수(Parameter)
(진짜 알고 싶은 것)
- 모평균
- 모분산
- 모표준편차
추정
표본통계량
(Sample에서 계산되는 것)
- 표본평균
- 표본분산
- 불편분산

모집단과 표본(Sample)

 

가설검정의 필요성

  • 이제 GDP와 주가 사이에 상관관계가 있다는 것을 주장하기 위해 실제로 데이터를 수집하기로 했다. 
  • 전 세계 국가의 GDP와 주가를 모으는 것은 불가능하기 때문에
    10개국만 무작위로 선정하여 데이터를 수집한 결과, 두 변수의 상관계수는 0.5였다. 
  • 그런데 이 결과에 대해
    "전 세계라는 모집단 전체를 사용하면 상관계수가 0인데,
    우연히 양의 상관계수가 관찰되는 표본을 선택한 것 아니냐?"는 비판이 제기되었다.   
    →어떻게 반박하면 좋을까?

가설검정의 필요성

 

가설검정의 필요성

"모집단에 전혀 상관관계가 없다면, 이번에 추출한 샘플에서 나타난 것과 같은 결과가 나올 가능성은 매우 적다"
를 나타낼 수 있다면 좋다.
→ 이것이 가설검정의 개념

가설검정의 필요성

 

가설검정의 수순

수순 작업내용
1 모집단에 대한 귀무가설과 대립가설(양측 또는 한쪽)을 설정한다. 
2 검정통계량 선택하기 
3 유의수준 α 값 결정하기 
4 (데이터 수집 후) 데이터로부터 검정통계량의 실현값을 구한다. 
5 검정통계량의 실현값이 기각 영역에 들어가면 귀무가설을 기각하고 대립가설을 채택한다. 
기각 영역에 들어가지 않으면 귀무가설을 채택한다.

가설검정의 수순

 

귀무가설과 대립가설

  • 가설검정에서는 먼저 '평균값은 0과 차이가 없다' 또는 '재정지출의 효과는 0으로 효과가 없다'와 같은 가설을 세운다. 
    →이러한 가설을 '귀무가설(Null Hypothesis)'이라고 한다.

귀무가설과 대립가설

귀무가설과 대립가설

  • 귀무가설은 일반적으로 원래 주장하고자 하는 것과 반대되는 가설이 된다 → 귀무가설H₀로 표시된다. 
    예: '그룹 A와 그룹 B의 평균값은 다르다
    주장하고 싶은 경우 귀무가설은  
    '평균값은 다르지 않다'가 된다. 
  • 귀무가설이 기각되었을 때 채택되는 가설을 '대립가설'이라고 한다 → 대립가설H₁으로 표시된다.

귀무가설과 대립가설

귀무가설과 대립가설

  • 가설검정에서는 먼저 귀무가설대립가설을 정한다. 
  • 다음으로 귀무가설옳다고 가정하고 이야기를 진행한다. 
  • 실제 데이터에서 계산된 검정 통계량의 값이 극단적인 값이고,
    그런 값은 거의 얻을 수 없는 값이라는 것을 알게 되었다고 가정한다. 
    → 이는 귀무가설이 맞다면 거의 일어날 수 없는 결과가 나왔다는 것을 의미한다. 
    귀무가설옳다는 전제가 틀렸다고 생각하고 귀무가설을 기각한다.

귀무가설과 대립가설

검정통계량

  • 가설검증을 위해 사용되는 표본 통계검정통계량이라고 한다. 
  • 실제 데이터에서 검정통계량의 값을 계산하는데,
    이렇게 표본에서 계산된 검정통계량의 구체적인 값을 검정통계량의 실현값이라고 한다. 
  • 대표적인 검정통계량은 t, χ², F 등이 있다. (χ = 카이)

검정통계량

유의수준과 기각범위

  • 귀무가설을 기각하고 대립가설을 채택할지 여부를 결정할 때
    '어느 정도 낮은 확률의 결과가 나타나면 귀무가설기각할 것인가'의 기준이 되는 것이 유의수준이다. 
  • 유의수준1% 혹은 5%로 설정하는 경우가 많다
    유의수준 α = 0.01, 혹은 α = 0.05로 쓴다. 
  • 귀무가설 하에서 매우 발생하기 어려운(특정 값 α에서만 발생하는) 검정통계량 값의 범위기각범위라고 한다. 
  • 기각범위검정통계량 값이 들어가면 귀무가설 기각한다.

유의수준과 기각범위

가설검정의 결과의 보고

  • 검정통계량의 실현값기각범위에 들어갔을 경우
    '재정정책은 효과가 없다'는 귀무가설을 기각하고 '효과가 있다'는 대립가설을 채택한다. 
  • 이러한 판단을 '검정 결과는 5% 수준(1% 수준)에서 유의하다'라든지,
    ' p < 0.05 ( p < 0.01 ) 에서 유의미한 차이가 나타났다'라고 표현한다(significant). 
    p값유의수준 α보다 작을 때 ( p < α ) 귀무가설을 기각한다.

가설검정의 결과의 보고

 

제1종 오류

  • 제1종 오류란 
    "귀무가설이 맞을 때, 그것을 기각하는 것"  
    예: 사실은 귀무가설인 '두 나라의 GDP에 차이가 없다'가 맞는데, 
    그것을 기각하고 '두 나라의 GDP에 차이가 있다'고 판단해버리는 것 
  • 이 경우 종의 오류를 범할 확률이 유의수준 
    → 유의수준 5%라는 것은 5% 혹은 그 이하의 확률로 제1종의 오류를 범한다는 것

제1종 오류

 

제2종 오류

  • 제2종 오류란? 
    "귀무가설이 틀렸을 때 그것을 기각하지 않고 채택해 버리는 것"
    예: 귀무가설인 '두 나라의 GDP에 차이가 없다'가 틀렸음에도 불구하고 
    이를 기각하지 않고 '두 나라의 GDP에 차이가 없다'고 판단해 버리는 것

제2종 오류

 

 

실제로 검정해보다

  • 표준 정규분포를 이용한 검정을 소개합니다. 
  • 여기서는 표본에서 얻은 평균값에 대해 그 값이 모집단의 평균값과 차이가 없는지,
    즉 가정하고 있는 모집단에서 얻은 값인지 검증한다.
  • 검증하고자 하는 모집단의 평균과 분산에 대해서는 미리 알고 있는 것으로 분석을 한다.

실제로 검정해보다

 

표준화에 대하여

  • 확률변수 X의 평균(μ)과 표준편차(σ)가 각각 평균 = 0, 표준편차 = 1이 되도록
    모든 변수를 동일한 공식을 사용하여 변환하는 것을 '표준화'라고 한다. 
  • 표준화된 변수 Z란? 
    Z = ( X - μ ) / σ
  • 참고로, 테스트 점수를 X라고 가정하고 이를 표준화한 Z를 사용하면, [ 편차값 = Z × 10 + 50 ] 이 된다. 
    → Z의 평균은 0이므로, 편차는 50이 기준이 된다.

표준화에 대하여



 


 

 

R 사용법: 작업 디렉토리에 대하여

  • R에서는 다양한 데이터를 저장하고 사용하는 장소를 '작업 디렉토리'(working directory)라고 부른다. 
  • 작업 디렉토리에 있는 데이터는 그 파일명을 R에 입력하기만 하면 사용할 수 있다. 
  • 초기 단계에서는 작업 디렉토리가 임의로 정해져 있기 때문에, 사용자가 자신이 원하는 위치로 변경해야 한다.

R 사용법: 작업 디렉토리에 대하여

 

 

R 사용법: 작업 디렉토리에 대하여

  • 예를 들어, 문서 홀더 안에 "Rdata"라는 홀더를 생성(아무 곳이나 상관없음)
    getwd() 현재 작업 디렉토리를 확인
  • 그 안에 데이터를 넣은 후 먼저 아래 코드를 작성한다
    예를 들어
    setwd("C:/Rdata")
    굵게 표시된 부분은 각자의 PC환경에 따라 달라질 수 있다.

R 사용법: 작업 디렉토리에 대하여

 

 

 

R 사용법: 외부 데이터 불러오기

  • 이제 분석용 데이터 파일로
    test.csv를 사용한다. 
    → 파일명은 test 
    ※ 파일명은 무엇이든 상관없으니, 여기서는 연습용 파일로 생각하시면 됩니다. 
  • 이 파일에는 '변수'가 4개  
    1 : No 2:test1 3 :test2 4: test3

R 사용법: 외부 데이터 불러오기

 

 

R 사용법: 외부 데이터 불러오기

  • 실제 통계 분석에서 데이터는
    텍스트 파일, CSV 파일, 엑셀 파일 등 외부 파일로 저장되는 경우가 많다. 
  • 외부에 저장된 파일을 가져와서 분석한다.

R 사용법: 외부 데이터 불러오기

 

 

 

R 사용법: 외부 데이터 불러오기

test <- read.csv ( " test.csv " , header = TRUE ) 

를 입력 

  • csv ( "test.csv" ) 라는 CSV 파일을 컴퓨터로 불러온다 ( read라는 명령어를 사용하여 ). 
  • header = TRUE 는 데이터 파일의 첫 번째 줄은 헤더(변수 이름이 들어있다)임을 나타낸다. 
    → 변수명을 넣지 않으려면 header=FALSE로 설정하면 된다.

R 사용법: 외부 데이터 불러오기

 

 

R 사용법: 외부 데이터 불러오기

  • 디렉터리를 설정하지 않아도 다음과 같이 데이터를 직접 지정하여 불러올 수 있다. 
test <- read.csv ( file.choose ( ) ) 

R 사용법: 외부 데이터 불러오기

 

 

R 사용법: 파일 내 변수의 특징

  • 파일 내에는 변수가 두 개 있으므로, 그 중 test1을 변수로 사용하고자 한다. 
table ( test $ test1 ) 로 입력

이 경우 test 내의 변수 test1에 대해 그 특징을 살펴본다는 의미 

  • $는 달러 기호

R 사용법: 파일 내 변수의 특징

 

R 사용법: 파일 내 변수의 특징

table ( test $ test1 ) 이라고 입력하면

  • (4 5 6 7 8 8 9 10 12 13 14 15)는 test1에 포함된 데이터를 나타낸다.
  • (1 1 2 1 3 1 2 4 1 2 2)는 각 값의 개수를 나타낸다.
table(test$test2), table(test$test3)을 입력하면 다른 변수에 대해서도 비슷한 작업을 할 수 있다.

R 사용법: 파일 내 변수의 특징

R 사용법: 파일 내 변수의 특징

  • (4 5 6 7 8 8 9 10 12 13 14 15)는 test1에 포함된 데이터를 나타낸다.
  • (4 5 6 7 8 9 10 12 13 14 15)의 '합계'를 알고 싶다면,

sum(test$test1)

[1] 200

 

  • (4 5 6 7 8 8 9 10 12 13 14 15)의 데이터 '개수'를 알고 싶다면,

length(test$test1)

[1] 20

R 사용법: 파일 내 변수의 특징

예제

  • 과거 데이터의 축적을 통해 '테스트'의 점수가 평균이 12, 분산이 10인 정규분포를 따른다는 것을 알고 있다고 하자. 
  • 테스트의 모집단 분포는 
X ~ N ( 12 ,10 )

→ test A의 20명의 점수는 이 모집단에서 무작위로 추출된 점수라고 생각해도 될까? 
→ 평균점을 이용하여 검증한다.

예제

 

 

 

귀무가설과 대립가설의 설정

  • 귀무가설: H₀ : μ = 12
    → 추출한 표본의 모평균은 12점이다. 
  • 대립가설: H₁ : μ ≠ 12
    → 추출한 표본의 모평균은 12점이 아니다.

귀무가설과 대립가설의 설정

 

 

검정통계량

  • 정규 모집단에서 무작위로 표본을 추출하면 표본 분포의 평균 X도 정규분포를 따른다. 
  • 그 분포는 
    X ~ N ( μ , σ² / n )
    → 평균 X을 '표준화'한다. 
    Z = ( X - μ ) / ( σ / √n ) ~ N ( 0 , 1 )  
    → 이를 검정 통계량으로 사용한다.

검정통계량

 

 

검정통계량의 실현치

  • 모집단의 분포는 X ~ N ( 12 , 10 )
    → 평균점의 표본분포는 n = 20 하에서는 
    X ~ N ( 12 , 10 / 20 )
    → 검정 통계량을 구한다 
Z 분자 <- mean(test$test1) - 12 → 검정 통계량의 분자를 계산 
Z 분자 

를 입력하면 -2를 얻을 수 있다.

검정통계량의 실현치

검정통계량의 실현치

Z 분모 <- sqrt(10/length(test$test1))
                             → 샘플 수

→ 검정 통계량의 분모 계산 

Z 분모 

를 입력하면 0.7071068을 얻을 수 있다.

검정통계량의 실현치

 

검정통계량의 실현치

Z 통계량 <- Z 분자 / Z 분모
Z 통계량 

로서 
-2.828427 
⇒ 이것이 검정 통계량의 실현값이다.

검정통계량의 실현치

 

 

귀무가설 기각 or 채택 결정

  • 표준 정규분포에서 양측 검정, 유의수준 5%의 기각구간을 구해본다.
  • 구체적으로 다음과 같이 입력한다.
curve ( dnorm ( x ) , -3 , 3 ) 
abline ( v = qnorm ( 0.025 ) )
abline ( v = qnorm ( 0.975 ) )

abline()은 그림에 직선을 추가하는 함수, v=명령은 y축에 평행한 직선을 추가한다.
※ curve(dnorm(x,mean = 0, sd = 1),-3,3)도 동일

귀무가설 기각 or 채택 결정

 

표준 정규분포에서 기각 영역: 검정 통계량이 기각 영역에 들어가는지 여부

기각 영역에 들어간다는 것은 계산된 검정 통계량을 거의 얻지 못한다는 것을 의미합니다.

표준 정규분포에서 기각 영역: 검정 통계량이 기각 영역에 들어가는지 여부

 

 

 

 

귀무가설 기각 or 채택 결정

  • 하측확률 : 표준 정규분포를 따르는 확률변수 Z가 어떤 값 z 이하가 될 확률 
  • 상측확률 : 표준정규분포를 따르는 확률변수 Z가 어떤 값 z 이상일 확률 
    → 아래쪽 확률을 0.025, 위쪽 확률을 0.975로 설정하면

귀무가설 기각 or 채택 결정

 

귀무가설 기각 or 채택 결정

  • 하부확률 0.025가 되는 z의 값을 구한다. 
qnorm ( 0.025 ) 

1.959964

  • 아래쪽 확률 0.975가 되는 z의 값을 구한다. 
qnorm ( 0.975 ) 

-1.959964 

귀무가설 기각 or 채택 결정

 

귀무가설 기각 or 채택 결정

  • 이로인해 기각 영역은
    Z < -1.959964, Z > 1.959964
    로 얻을 수 있다.
  • 검정 통계량의 실현값은 Z = -2.82427이므로 기각 영역에 들어간다.
    귀무가설은 기각되고, 테스트 점수의 모평균이 12라고 할 수 없다는 것을 의미한다.

귀무가설 기각 or 채택 결정

 

 

모집단의 분포를 알 수 없는 경우

  • 지금까지는 모집단의 분포를 알고 있다는 전제로 논의해 왔다.
    → 모집단의 분포를 모르는 경우에는 어떻게 해야 할까?
  • 중요한 정리로 '중심극한정리'라는 것이 있는데, 이를 바탕으로 하면,
    "표본 수가 충분히 크면 확률변수 Z의 분포는 표준정규분포 ( N ( 0 , 1 ) ) 로 근사화할 수 있다."
    → 지금까지와 검정방법은 동일하다.

모집단의 분포를 알 수 없는 경우

 

 

중심극한정리(Central Limit Theorem)

  • 모평균과 모분산이 유한하다면, 무작위로 추출한 표본 { X1, X2, ... , Xn }에서 구한 표본 평균표준화 한 통계량
    Z = { √n ( X - μ ) } / σ
    Z = ( X - μ ) / √(σ²/n) 

    의 분포는 n이 충분히 크다면 N ( 0 , 1 ) 의 표준 정규분포근사할 수 있다.

중심극한정리(Central Limit Theorem)

 

 

예시: 모집단의 분산을 모르는 경우

  • 과거 데이터 축적을 통해 '테스트' 점수가 평균이 12의 정규분포를 따른다는 것을 알고 있다고 가정하자. 
  • 모집단의 분산은 알 수 없으므로, 모집단의 분포는 
    X ~ N ( 12 , σ² )
→ test A의 20명의 점수는 이 모집단에서 무작위로 추출된 점수라고 생각해도 될까? 
→ 전과 마찬가지로 평균점을 이용하여 검증한다. 
  • 포인트는 '모집단의 분산을 모른다고 해서 작업이 어떻게 달라지는가'라는 것이다

예시: 모집단의 분산을 모르는 경우

 

귀무가설과 대립가설의 설정

귀무가설: H₀ : μ = 12
→ 추출한 표본의 모평균은 12점이다.
대립가설: H₁ : μ ≠ 12
→ 추출한 표본의 모평균은 12점이 아니다.

귀무가설과 대립가설의 설정

 

검정통계량

  • 앞서 사용한 검정 통계량은 
    Z = ( X - μ ) / ( σ / √n ) ~ N ( 0 , 1 )
    이었으나, 분모의 σ를 모르기 때문에 Z를 계산할 수 없다. 
    → 그래서 표본에서 계산한 표준편차를 사용하기로 한다(이 표준편차를  σ^로 한다). 
  • 표본에서 계산한 표준편차를 사용하면 무엇이 달라질까?

검정통계량

 

t통계량

  • 평균이 μ, 분산이 (σ^)²인 모집단에서 무작위 표본 { X1 , X2 , ... , Xn }의
    표본 평균 X
    불편 분산 (σ^)²
    (σ^)² = { 1 / ( n - 1) } Σ ( Xi - X ) ²
    를 계산하는데, 여기서 분산은 샘플에서 계산

t통계량

 

t통계량

  • 검정통계량
    t = ( X - μ ) / ( σ^ / √n )
    t통계량이라고 하며, 자유도 n - 1의 t분포를 따르는 것으로 알려져 있다.
  • 자유도(degrees of freedom)는 df = n - 1 로 표현되며, 분포의 형태를 결정하는 값이고, n은 표본 수이다.
  • t분포는 통계학에서 자주 이용되는 확률분포 중 하나이다.

t통계량

 

 

t분포

  • 아래에서 다양한 자유도에 대한 t분포를 그릴 수 있다.
curve ( dt ( x , 8 ) , -5 , 5 , col = " red " )  #자유도 df = 8
curve ( dt ( x , 4 ) , -5 , 5 , add = TRUE )  #자유도 df = 4
curve ( dt ( x , 2 ) , -5 , 5 , add = TRUE )  #자유도 df = 2
curve ( dt ( x , 1 ) , -5 , 5 , col = " blue " , add = TRUE )  #자유도 df = 1

 

t분포

 

 

다른 자유도에 대한 t 분포

다른 자유도에 대한 t 분포

 

정규분포와 t분포

정규분포의 밀도 함수

curve ( dnorm ( x ) , -5 , 5 , col = " red " )

t분포의 밀도 함수

curve ( dt ( x , 4 ) , -5 , 5 , add = TRUE )

※ x의 범위를 -5에서 5 사이로 좁혀서 사용함.

정규분포와 t분포

정규분포와 t분포의 비교

빨간색 분포는 정규분포, 검은색 분포는 t 분포

정규분포와 t분포의 비교

 

 

검색 범위를 좁히지 않으면 이런 식으로 표시될 수도 있다.

 

 

검정 통계량의 실현값 구하기

→ 검정 통계량은
t = ( X - μ ) / ( σ^ / √n )

t분자 <- mean ( test $ test1 ) -12

→ 검정 통계량의 분자를 계산

t분자

를 입력하면 -2를 얻을 수 있다.

검정 통계량의 실현값 구하기

 

검정 통계량의 실현값 구하기

t 분모 <- sqrt ( var ( test $ test1 ) / length ( test $ test1 ) )

→ 검정 통계량의 분모 계산

t분모

를 입력하면 0.7643367을 얻을 수 있다.

검정 통계량의 실현값 구하기

검정 통계량의 실현값 구하기

t통계량 <- t 분자/t 분모
t통계량

를 넣으면 t = -2.616648
이것이 검정 통계량의 실현값이다.

검정 통계량의 실현값 구하기

 

 

귀무가설 기각 or 채택 결정

  • 검정 통계량은 자유도 df = n - 1 = 20 - 1 = 19 의 t분포를 따른다.
  • qt ( p , df ) 라고 입력하면 자유도 df의 분포 상에서 확률 p에 해당하는 t의 값을 얻을 수 있다.
  • 유의수준 5%, 양측 검정 시 기각범위를 구한다.

귀무가설 기각 or 채택 결정

 

 

귀무가설 기각 or 채택 결정

  • 하측확률 0.025가 되는 t값을 구한다.
qt ( 0.025 , 19 )

-2.093024

  • 하측확률 0.975가 되는 t의 값을 구한다.
qt ( 0.975 , 19 )

2.093024

귀무가설 기각 or 채택 결정

 

귀무가설 기각 or 채택 결정

  • t분포로 양측검정, 유의수준 5%의 기각구간을 구해봅니다.
  • 구체적으로 다음과 같이 입력합니다.
curve ( dt ( x ,19 ) , -3 , 3 )
abline ( v = qt ( 0.025 ,19 ) )
abline ( v = qt ( 0.975 , 19 ) ) 

abline()은 그림에 직선을 추가하는 함수, v=명령은 y축에 평행한 직선을 추가합니다.

 

귀무가설 기각 or 채택 결정

 

 

t분포에서 기각 영역: 검정 통계량이 기각 영역에 들어가는지 여부

t분포에서 기각 영역: 검정 통계량이 기각 영역에 들어가는지 여부

 

 

귀무가설 기각 or 채택 결정

  • 이로부터 기각 영역
    t < -2.093024, t > 2.093024
    로 얻을 수 있다.
  • 검정 통계량의 실현값t = -2.616648 이므로 5% 유의수준에서 기각 영역에 들어간다.
    귀무가설은 기각되고,
        샘플 테스트의 점수는 평균이 12인 정규 모집단에서 무작위로 추출된 것이 아니라고 할 수 있다.

귀무가설 기각 or 채택 결정

 

 

귀무가설 기각 or 채택 결정

  • 검정통계량 = -2.616648 에 대한 p값도 계산할 수 있다.
  • p값 : 귀무가설이 옳다는 가정 하에 표본에서 계산한 검정 통계량의 실현값 이상(절대값으로)의 값을 얻을 확률
  • 양측 검정이므로,
    prob ( t <= -2.616648 ) : t가 -2.616648보다 낮아질 확률
    prob ( t >= 2.616648 ) : t가 2.616648보다 클 확률
    를 모두 계산한다.

귀무가설 기각 or 채택 결정

p값 계산

pt ( -2.616648 , 19 )

0.00848546

pt ( 2.616648, 19, lower.tail=FALSE )

0.00848546

  • 직접 p값을 도출하면, 양측검정이기 때문에 2배
2*pt(2.616648, 19, lower.tail=FALSE )

p = 0.01697092

⇒ 유의수준 5%에서 귀무가설이 기각됨.

p값 계산

 

 

t-검정은 다음과 같은 함수가 제공된다.

t.test ( test$test1, mu = 12 ) ← 모평균 μ=12가 귀무가설

One Sample t-test ← 하나의 표본에 대한 t검정이라는 의미


data: test$test1
t = -2.6166, df = 19, p-value = 0.01697
Alternative Hypothesis: true mean is not equal to 12 ← 대립 가설
95 percent confidence interval:
    8.400225 11.599775

 

sample estimates:
mean of x ← 표본에서 계산된 표본 평균의 실현 값
             10

※ t.test ( test $ test1 ) 로 하면 μ = 0 귀무가설이 된다.

t-검정은 다음과 같은 함수가 제공된다.

 

 

 

예시: 두 개의 평균값 비교하기

  • 그룹 1과 그룹 2의 테스트 점수의 평균값에 유의미한 차이가 있는지, 유의수준 5%, 양측검정에서 검증
  • 귀무가설: H₀ : μ₁ = μ₂
    → 집단과 집단1의 모평균은 동일하다.
  • 대립가설: H₁ : μ₁ ≠ μ₂
    → 집단과 모평균같지 않다.
    대립가설보다 양측검정이 된다.

예시: 두 개의 평균값 비교하기

 

독립적인 두 그룹의 t-검정

  • 독립적인 두 그룹의 t검정을 위한 검정 통계량을 생각해보자.
  • 두 그룹의 평균값 차이에 대한 표본 분포는
    X₁ - X₂ ~ N ( μ₁ - μ₂ , σ² ( 1/n₁ + 1/n₂ ) )
    기대값 : μ₁ - μ
    분산 : σ² ( 1/n₁ + 1/n₂ )
    의 정규분포
    단, n과 n은 각 그룹의 샘플 수

독립적인 두 그룹의 t-검정

 

 

독립적인 두 그룹의 t-검정

  • 표본분포는
    X₁ - X₂ ~ N ( μ₁ - μ₂ , σ² ( 1/n₁ + 1/n₂ ) )
    → 이걸 표준화하면 
    { X₁ - X₂ - ( μ₁ - μ₂ ) } / { σ √ ( 1/n₁ + 1/n₂ ) } ~ N ( 0 , 1 )
    → 표준정규분포 N ( 0 , 1 ) 을 따름

독립적인 두 그룹의 t-검정

 

독립적인 두 그룹의 t-검정

  • 검정통계량의 분모에 미지의 값인 모표준편차 σ 가 포함되어있다
    ( X₁ - X₂ ) / {   σ  √ ( 1/n₁ + 1/n₂ ) 
    → 이 값을 구하는 것은 불가함으로 추정한다 
    σ²ₚₒₒₗₑᵈ = { ( n₁ - 1 )  σ₁²  + ( n - 1 )  σ₂²  } / ( n₁ + n₂ - 2 ) 

σ₁²와 σ₂²는 각각 그룹의 표본으로부터 계산된 불편분산

독립적인 두 그룹의 t-검정

 

 

독립적인 두 그룹의 t-검정의 통계검정량

  • t 통계검정량은 
    t = ( X₁ - X₂ ) / √ [  { ( n₁ - 1 )  σ₁²  + ( n - 1 )  σ₂²  } / ( n₁ + n₂ - 2 ) ] x ( 1/n₁ + 1/n )
    → 검정통계량 t는 자유도 df = n - 2 의 t 분포를 따름
  • 유의수준 α 를 5%로 함 ( α = 0.05 )
  • 귀무가설은 H₀ : μ₁ = μ₂  

독립적인 두 그룹의 t-검정의 통계검정량

 

 

 

데이터 불러오기

  • newtest.csv를 사용하여 분석하기
newtest <- read.csv ( " newtest.csv " )
newtest

를 입력하면 newtest.csv에 test1, test2라는 변수
가 있음을 알 수 있다.

데이터 불러오기

 

t검증은 관련 값이 사용됩니다.

t.test ( newtest$test1, newtest$test2, var.equal = TRUE )

두 개의 샘플 t-검정
데이터: newtest$test1 및 newtest$test2
t = -1.8429, df = 18, p-값 = 0.08188(유의수준을 5%로 설정하면 기각할 수 없다)
대체 가설: 실제 평균 차이가 0이 아님
95퍼센트 신뢰 구간:
-4.2800355 0.2800355
표본 추정치
X의 평균 Y의 평균
      6              8

t검증은 관련 값이 사용됩니다.

 

 

 

 

 

 

t검정의 전제조건

  • 표본추출이 무작위로 이루어질 것(무작위 추출)
  • 모집단의 분포가 정규분포를 따를 것(정규성)
  • 두 모집단의 분산이 동질적일 것(분산의 동질성)
    → 이 점에 대해 검정한다.

t검정의 전제조건

 

 

t검정의 전제조건

  • 분산 그룹 간 동질성을 검정하기 위한 R의 함수는
var.test ( newtest$test1, newtest$test2 )

두 분산 비교를 위한 F 테스트
데이터: newtest$test1 및 newtest$test2
F = 1.9444, num df = 9, denom df = 9, p-값 = 0.3362(두 그룹 간 분산이 같다는 귀무가설을 기각할 수 없다)
대체 가설: 실제 분산 비율이 1이 아님
95% 신뢰 구간:
0.4829725 7.8283220
샘플 추정치
분산 비율
1.944444

t검정의 전제조건

 

 

 

 

 

 

 

데이터 불러오기

  • newtest2.csv를 사용하여 분석을 진행합니다.
newtest2 <- read.csv ( " newtest2.csv " )
newtest2

를 입력하면 newtest2.csv에 test1, test2 변수가 있음을 알 수 있다.

데이터 불러오기

 

t검정은 함수가 준비되어 있다.

t.test ( newtest$test1, newtest$test2, var.equal = TRUE )

두 개의 샘플 t-테스트
데이터: newtest2$test1 및 newtest2$test2
t = -1.1191, df = 18, p-값 = 0.2778
대체 가설: 실제 평균 차이가 0이 아님
95퍼센트 신뢰 구간:
-15.249541 4.649541
표본 추정치
X의 평균 Y의 평균
48.3 53.6

t검정은 함수가 준비되어 있다.

 

 

t 검정의 전제 조건

  • 분산 그룹 간 동질성을 검정하기 위한 R의 함수는
var.test ( newtest2$test1, newtest2$test2 )

두 분산 비교를 위한 F 테스트
데이터: newtest2$test1 및 newtest2$test2
F = 0.2157, num df = 9, denom df = 9, p-값 = 0.03206
대안 가설: 실제 분산 비율이 1이 아님
95% 신뢰 구간:
0.05356961 0.86828987
표본 추정치
분산 비율
0.2156709

두 그룹 간의 분산이 같다는 귀무가설은 기각된다.
→ 일반적인 t검정과는 다른 검정방법을 취해야 한다.
→ Welch의 검정 실시

t 검정의 전제 조건

 

 

 

 

Welch의 t검정

t.test ( newtest2$test1, newtest2$test2, var.equal = FALSE )

웰치 2 표본 t 검정
데이터: newtest2$test1 및 newtest2$test2
t = -1.1191, df = 12.71, p-값 = 0.2838(두 그룹의 평균값이 같다는 귀무가설을 기각할 수 없다.)
대안 가설: 실제 평균 차이가 0이 아님
95% 신뢰 구간:
-15.554888 4.954888
표본 추정치
X의 평균 Y의 평균
48.3 53.6

 

Welch의 t검정

 

 

반응형