본문 바로가기
WBS - 2023 Winter/기업 데이터 분석

(데이터 #5-6) 데이터 간의 관계 파악 | 상관관계, 인과관계, 단회귀 분석

by fastcho 2023. 12. 16.
반응형

기업 데이터 분석
가을학기
제 1 회
토요일
상학학술원
비즈니스금융연구센터
오노 카오리
이메일: kaori.ono@aoni.waseda.jp

 

 

지난번의 후속편

 

 

 

 

표준 정규분포 (Standard Normal Distribution)

특징 1 : 평균값 = 0, 표준편차 = 1
특징 2 : 대부분의 데이터가 2 SD 이내로 들어간다.
평균 ± 1 표준편차 68.3%
평균 ± 2 표준편차 95.4%
평균 ± 3 표준편차 99.7%
      신뢰계수 or
신뢰도

표준 정규 분포 데이터 세트 -∞ ~ +∞의 데이터 세트

 

 

 

정규분포 (normal distribution)

정규분포의 성질
1. 표준정규분포에 σ 를 곱하고 μ 를 더한다.
2. 평균에서 S.D. 1 개 이내의 범위의 데이터 = 0.6826
    평균에서 S.D. 2 개 이내 범위의 데이터 = 0.9544
    평균에서 S.D. 3 개 이내의 범위의 데이터 = 0.9973
μ 이동

빨강 : σ = 3
파랑 : 추가로 μ=4 더하기

 

 

 

정규 분포의 밀도 곡선 아래 면적

유의수준 = 1%
99.7%
유의수준 = 5%
95.4%
유의수준 = 10%
68.3%
5%를 채택하는가?
발생하기 쉬운 95%발생하기 어려운 5%로 나눈다.
예: 동전 던지기를 해서 3회 연속으로 앞이 나오는 것이 12.5% = ½ x ½ x ½ 
                                     4회 연속 6.25% = ½ x ½ x ½ x ½ 
                                     5회 연속 약 3%.

 

 

Q 답변
1. A씨가 시험을 치렀는데, 그 결과 편차가 70이었습니다.
이 시험은 10만 명의 학생이 응시했습니다.
이 때, A 씨보다 성적이 더 좋은 사람은 총 몇 명이나 있었을까요?
점수는 정규분포를 따른다고 가정해 주세요.

정규분포의 특징
- 좌우 대칭의 어종형
- 평균값 μ 와 분산 σ² (표준편차 σ) 로 결정된다.
편차 값 평균 = 50
표준편차(S.D.) = 10
편차값 60 = 평균 + 1 x 표준편차
A씨의 편차 = 70
평균값보다 표준편차(σ) 2개가 떨어져 있다.
표준편차(σ) 2개 분량보다 큰 면적
= 100% - 95% = 5%, 그 절반 = 2.5%.
10만 명 중 2.5%는 2,500명

 

 

 

평균값 + 1.96 x 표준편차 -> 2.5%.
표준편차(σ) 2개분(A씨가 편차 70이니까)보다 큰 값을 취할 확률 = 2.5%

 

편차 60 = 50 + 1 x 10
        70 = 50 + ? X 10
편차는 ' { ( 자신의 점수 - 평균점수 ) ÷ 표준편차 } × 10 + 50 '이다.

 

 

 

수정

표준 정규분포표를 보는 방법

특정 Z값 이상이 발생할 확률

녹색 부분이 발생할 확률
표에서 초록색 부분이 발생할 확률을 읽으면 0.00621 = 0.621

예를 들어 P ( 0 ≦ Z ≦ 2.5 )

0.5 - 0.00621 = 0.49379

 

 

 

가설검정의 논리
통계학의 가설검정에서는 역설법의 논리를 이용하고 있다.

'A'라는 것을 증명하고 싶다.
'A가 아니다'라는 가설을 세운다.
'모순이 발생한다’는 사실
'A가 아니다'는 틀렸다.
'A'가 맞다.

 

 

 

(통계적) 가설검정

귀무가설 (null hypothesis)
그룹 간 또는 변수 간 차이가 없다고 가정하는 기본 입장.
부정하고 싶은 가설
OO와 XX에는 차이가 있다고 주장하고 싶다.
주장하고 싶은 것과 반대로 '차이가 없다'는 가설을 세운다.
귀무가설 H0
H0 '차이가 없다'는 가설에 대해 확실한 증거를 제시할 수 있다면 
귀무가설을 기각하고 대립가설을 채택할 수 있다.
 통계적으로 유의한 차이 가 있다는 결론
높은 확률로 발생한다는 것이 밝혀졌다면 '차이가 있다'는 결론을 내리지 않는다.

 

 

설정한 가설이 옳은지 판단하기 위한 기준입니다.
p값(P-value) (유의확률)

"귀무가설이 옳다고 가정했을 때, 관찰된 값보다 더 이상 있을 수 없는(극단적인) 값이 나올 확률"

비즈니스 및 경영 연구
P < 0.05 (5%) 가 일반적


새로운 현상이나 적은 샘플
P < 0.1 (10%)사용되는 경우도 있다.
단, 이보다 클 때는 (설명변수에) 채택하지 않는 것이 좋다.

 

 

 

예: 동전 던지기의 앞면과 뒷면
동전에 조작이 되어 있어 사기로 보인다.

 

귀무가설 = '동전은 사기가 아니다'
대립가설 = '동전은 사기다'

 

p값은 귀무가설이 맞을 경우(앞이 나올 확률은 0.5이다), 그 결과보다 극단적인 결과가 나올 확률

 

유의수준 = 1%로 설정
5번 뒤집혔다. 3.125%의 확률로 일어날 수 있다. → 유의수준인 1%를 상회하고 있다.
     "귀무가설이 틀렸다말할 수 없다", "대립가설이 맞다말할 수 없다"
10회 뒤집혔다. 0.09765625%의 확률로 일어날 수 있다. → 유의수준 1%를 밑돌고 있다.
    귀무가설은 거의 일어날 수 없는 일, 즉 귀무가설이 틀렸기 때문에 귀무가설을 기각하고 대립가설을 채택.
= " 코인은 사기다 "

 

 

 

관측값 검토 방법

  관측값 산출  
관측값의 평균 차이에 대한 검토 관측값의 관계의 검토
 평균값의 차이 검토 3개 이상의 평균 차이 검토 두 관측치 간의 관계 검토 한 관측값에서 다른 관측값의 예측가능성 검토
대응 있음 대응 없음
대응하는 
t검정
대응없는
t검정
분산분석 상관분석 회귀분석

 

 

매출이 성장하고 있는가
한 산업에 속한 100개 기업의 매출 성장률 평균 = 2.4%
표준편차 = 8%
이 때, 이 산업 전체에서 매출액이 증가하고 있다고 볼 수 있을까?

SE = 0.08 / √100 = 0.008

t = ( X - 0 ) / SE = ( 0.024 - 0 ) / 0.008 = 3

 

SE = 표준편차 / 표본수의 루트 = 8 / 100 루트 = 0.8
H0 = 모평균 ( 매출액 성장률의 산업 전체 평균값 ) = 0
H1 = 모평균 ≠ 0
t값 = X - 0 / SE = 2.4 / 0.8 = 3
t값은 1.96보다 큼
귀무가설은 5% 수준에서 기각
산업 전체에서 매출액 성장률 긍정적일 것이다.

 

 


평균값의 차이
연구 목적 : 신입사원의 회사생활에 대한 불안감 측정
4월과 5월 두 차례에 걸쳐 설문조사를 실시한 결과, 회사생활에 대한 불안감에 몇 가지 차이가 있는 것으로 나타났다.
그 때 얻은 평균값의 차이가 정말 응답 시기의 차이로 인해 발생한 것일까?

 

그 수치가 우연히 나올 확률(유의확률)을 구하는 절차.
가설 검정

 

 

 

대응되는 데이터 : t검정
귀무가설(통계적 가설검정을 할 때 설정하는 가설)
' 4월과 5월의 회사생활 불안감 사이에는 차이가 없다 '
검정통계량이라는 수치 산출

그 때의 데이터에서 얻은 평균 차이 등의 수치가 우연에 의해 얻어진 것인지,
아니면 어떤 이유에 의해 얻어진 것인지 판단할 수 있는 자료가 되는 수치다.

 t 값   개별 응답자의 두 번의 점수 차이를 기준으로 산출.

회답자 No 4월 5월
1 22 12
2 29 24
3 34 30
4 36 37
5 16 20
... ... ...
10 15 14

 

 

 

귀무가설(통계적 가설검증을 할 때 설정하는 가설)
'4월과 5월의 회사생활 불안은 차이가 없다'

평균값 3.80의 차이

4월과 5월의 관측치 사이에 평균 3.80의 차이가 우연히 발생할 수 있는 확률은 얼마나 될까?

 

이 확률이 낮으면 두 관측값의 차이는 우연이 아닌 다른 요인에 의해 발생했다고 판단할 수 있다.

t값 p값(유의수준)
3.93 0.02

유의확률은 5%보다 낮다.
우연히 얻을 확률은 5%보다 낮다.

귀무가설틀렸다 = 기각
4월과 5월의 회사생활 불안감 사이에 통계적으로 의미 있는 차이 = '유의미한' 차이가 있다고 판단.

 

 

 

 

대응이 없는 데이터 : t검정
귀무가설(통계적 가설검정을 할 때 설정하는 가설)
'거주지가 자택과 기숙사 2그룹에 차이가 없다'

회답자
No
거주지 회사생활
불안
  t값 p값
(유의확률)
  거주지 평균값
1 1 12   - 0.44 0.67   자택 28.00
2 1 24         기숙사 30.60
... ... ...            
6 2 30            
7 2 41            
... ... ...            
10 2 25            
주) 거주지 수치는 1:자택, 2:기숙사            

유의확률은 5%보다 높다 (0.67, 67%)
우연적 요인에 의해 차이가 발생할 확률이 높다.

귀무가설 맞다 = 채택
거주지가 자택과 기숙사 두 그룹의 회사생활 불안 차이가 없다는 결론.

 

 

 

 




전체강의

제 5,6회

데이터 간의 관계 파악 

상관관계, 인과관계, 단회귀 분석

 

 

 

 

상관관계와 인과관계
상관관계 ≠ 인과관계
상관관계가 있다고 해서 인과관계가 있다고 말할 수 없다!

상관관계
  인과관계
상관관계       인과관계    
운동량 체력   기온 아이스 매출
메타보 검진 장수   가격상승 수요 저하
A가 증감하면 B도 증감한다.   A가 증감할 때, A로 인해 B도 증감한다.
사회과학의 많은 가설은 변수 간의 '인과관계'에 관한 것이다.

 

 

 

 

변수 X와 변수 Y의 산점도

  변수 Y의 값은 변하지 않고 
변수 X의 분산만 커진다.
변수 X의 값은 변하지 않고 
변수 Y의 분산만 커지는 경우
  변수 X의 축 방향에 대해 
데이터가 흩어져 있다.
변수 Y의 축 방향에 대해 
데이터가 흩어져 있다.

 

 

 

 

 

상관계수 (correlation coefficient)
상관 : 두 변수 사이에 공변성(한 변수가 변하면 다른 변수도 변함)이 있다.
상관계수 : 변수들 간의 관계의 강도를 측정하는 지표

공분산 cov ( X , Y ) =  Sxy  = ( 1 / n-1 ) ∑ ( xᵢ - x ) ( yᵢ - y )    두 편차 쌍의 곱의 평균
표준화
상관계수 rxy =  Sxy  / Sx Sy =  공분산  / ( 변수 X의 표준편차 x 변수 Y의 표준편차 )

 

 

상관계수는 반드시 -1과 1 사이의 값을 취한다.

-1 0 1
완전한 부의 상관 상관계수 없음 완전한 정의 상관
0 ~ 0.2 :  거의 상관관계 없음 해석 예시
분야에 따라 다름
0.2 ~ 0.4 : 다소 상관관계 있음
0.4 ~ 0.7 : 상당히 상관관계 있음
0.7 ~ 1.0 : 강한 상관관계 있음

 

 

 

산점도 (Scatter plot)

정의 상관
plus correlation
 회귀직선  부의 상관
minus correlation

 

 

 

 

 

 

수학 취약 의식과 수업 만족도

회답자
No.
수학 취약 
의식
수업
만족도
1 28 27
2 25 33
3 16 59
... ... ...
10 6 88
    수학취약의식 수업만족도
수학취약의식 상관계수 1.00 -.95**
유의확률   .00
N 10 10
수업만족도 상관계수 -.95** 1.00
유의확률 .00  
N 10 10

** p < .01

 

별표
산출된 상관관계가 통계적으로 유의미한 강도인지, 그 유의성 검정 결과를 나타낸다.

별표 2개를 붙였으므로, 수학 취약 의식과 수업 만족도 사이에 1% 수준에서 유의미한 관계가 있다.

 

 

 

 

 

Q
일본 대기업의 임금체계의 특징으로 연공서열이 지적되어 왔습니다.
하지만 최근 들어 연공서열이 무너졌다는 보도가 많이 나오고 있습니다. 

연공서열이 무너졌는지를 검증하기 위해서는 어떤 분석을 해야 할까요?

연령 → 임금
변수 X
설명하는 변수 = 설명변수
변수 Y
설명되는 변수 = 피설명 변수
- 설명 변수 explanatory variable
- 예측 변수 predictor variable
- 독립 변수 independent variable


- 피설명 변수 explained variable
- 목적변수, 응답변수, 반응변수 response variable
- 결과 변수 outcome variable
- 기준 변수 criterion variable
- 종속 변수 dependent variable

 

 

 

X와 Y의 관계 분석 예시
 제품의 품질이 높으면(X) 고객 만족도가 높아진다(Y).
 사외이사가 많은(X) 기업은 높은 실적을 달성하고 있다(Y)
 주주우대를 늘리면(X) 개인주주 비율이 증가한다(Y) 
 플렉스를 도입하면(X), 직원들의 결근이 줄어든다(Y)
 사식 할인권을 직원에게 지급하면(X), 직원들의 콜레스테롤 수치가 낮아진다(Y)

 


 

연습1 산점도 만들기
연습1 근속연수 파일을 사용하여 엑셀에서 산점도를 만들어 봅시다.

데이터를 드래그하여 '삽입' 탭의 '산점도'를 클릭합니다.

 

 

연습 1: 근속년수와 급여의 관계

상관계수를 계산해 봅시다.

엑셀 작업: 상관관계 계수 계산 셀에 'CORREL' 함수를 입력하고 두 변수의 데이터를 입력합니다.

 

 

 

연습2: 아파트 임대료와 면적
- 3 이상의 변수들 간의 상관관계를 계산해 보자.
변수 : 임대료, 지은 지 얼마 안 된 아파트, 전용면적, 버스, 도보

 

엑셀 조작: 상관관계
1. 「데이터」 → 「데이터 분석」

    「상관관계」 OK
2. 입력 범위 오른쪽 끝의 【↑】버튼을 누른다.
3. 데이터를 선택하고 【↓】버튼을 누른다.
4. 「선두 행을 라벨로 사용」을 클릭한다.
5. OK 버튼을 누른다.

 

  • 임대료와 건축연수는 음의 상관관계 (-0.34).
  • 임대료와 전용면적 사이에는 강한 양의 상관관계(0.84).
  • 건축연수와 전용면적 사이에는 상관관계가 없거나 있어도 약한 음의 상관관계(-0.05).

 

 

 

 

논문 형식 확인

 

 

 


 

회귀분석

 

 

 

회귀분석이란?

  • 상관계수상관관계의 강도를 알려주지만, Y의 예측값알려주지 않는다.
 X   Y     X   Y = ? 


➢ 어떤 현상의 요인에 대한 가설 검증
➢ Y 값의 예측

 

 

선형회귀모형 (Linear regression model)
원인변수 설명변수 / 독립변수 = Xi
설명변수 피설명변수 / 종속변수 = Yi

 Yᵢ =a + b Xᵢ + uᵢ 

Xi와 Yi는 i 번째 관측치입니다.

 y = bx + a 

a: 상수항(constant) 계수
Coefficient
b: 기울기 (slope)
c: 오차항 (X 외에 Y에 영향을 미치는 다른 요인들을 총칭)
X가 1단위 변화하면 Y가 b만큼 변화한다.
기울기 b플러스X가 클Y도 크다.
기울기 b마이너스X가 클 Y는 작다.

 

 

 

가설근속연수가 수록 월급이 을 것이다.
➢ 근속연수 값에 따라 월급을 예측할 수 있다.
직선 방정식    월 급여 = 245.8 + 7.06 x 근속연수

 

근속연수 10년
245.8 + 7.06 x 10 = 316.4(천엔)
31만 6,400엔으로 예측

 

샘플로부터의 예측
실제 값 a , b 를 알 수 없음

 

 

 

회귀선형

  • 최소자승법 (Ordinary least squares, OLS) : 잔차를 제곱한 모든 합이 최소가 되는 직선을 구하는 방법
  • 잔차를 제곱한 모든  = 잔차의 제곱합(Sum of squared residual, SSR)
    • 산포도의 각 값에 가장 잘 맞도록 직선이 그려져 있다.
    • 두 변수 x와 y의 각각의 평균이 되는 점을 반드시 통과한다.

 

 

예: 회귀선 찾기

  설명변수X 피설명변수Y 예측치 잔차
1 2 4 5.1 -1.1
2 4 8 6.38 1.62
3 1 3 4.46 -1.46
4 3 7 5.74 1.26
5 9 9 9.58 -0.58
6 5 10 7.02 2.98
7 2 4 5.1 -1.1
8 10 11 10.22 0.78
9 9 7 9.58 -2.58
10 5 7 7.02 -0.02
평균 5 7    
분산 10.67 7.11    
공분산 6.78      

 

 

 

 


 

연습 3: 회귀선 구하기
월급과 근속년수의 관계에 대해 '연습3 대졸 남성의 근속년수와 월급'의 엑셀을 이용하여 다음 질문에 답하시오.
(1) X와 Y의 관계를 산점도로 나타내시오.
(2) 변수 X, Y의 기초통계량(평균, 중앙값, 표준편차), 상관계수를 계산하시오.
(3) 임금을 피설명변수, 근속연수를 설명변수로 하여 다음과 같은 선형회귀모형을 추정한다. 

      이때 기울기와 상수항의 추정치를 각각 구해 주십시오.
월 급여 i = a + b x 근속연수 i + ui
(4) 위의 (3)에서 얻은 회귀직선을 바탕으로 답하시오. 

    근속연수 0년의 신입사원의 임금은 얼마가 될 것으로 예상할 수 있을까요? 

    그리고 근속연수 10년의 직원의 경우는 어떨까요?

 

 

(2) 변수 X, Y의 기초통계량(평균, 중앙값, 표준편차), 상관계수를 계산한다.

중앙값
MEDIAN함수
표준편차
STDEV.S함수
상관계수
CORREL함수

 

 

 

 

Excel 기능을 통한 기본 통계
1. [데이터] 탭 → [데이터 분석] 을 클릭합니다.
2. [기본 통계] 를 선택하고 [확인] 을 클릭한다.
3. 입력 범위에 데이터

[ 첫 번째 행을 라벨로 사용 ] 에 체크 표시
[ 통계 정보 ] 에 체크 표시

 

 

 

 

(3) 임금을 피설명변수, 근속연수를 설명변수로 하여 다음과 같은 선형회귀모형을 추정한다. 

     이때 기울기와 상수항의 추정치를 각각 구합니다.
월급i = a + b x 근속연수i + ui

분산은 각 데이터에 대해 '평균값과의 차이'(=편차)의 제곱값을 계산하고, 

그 합을 데이터 수로 나눈 값(=평균값)을 나타낸다.

 

 

 

b = Sxy / S²x = 1,886.32 / 194.95 = 9.676

a = Y - bX = 494.97(Y) - 9.676(b) x 19.55(X) = 305.8

월급여ᵢ = a + b x 근속연수ᵢ + uᵢ

월급여ᵢ = 305.8(a) + 9.676(b) x 근속연수ᵢ

 

(4) 위의 (3)에서 얻은 회귀직선을 바탕으로 답하시오. 

    근속연수 0년의 신입사원의 임금은 얼마가 될 것으로 예상할 수 있을까요? 

    그리고 근속연수 10년의 직원의 경우는 어떨까요?

월급여ᵢ = 305.8 + 9.676 x 근속연수ᵢ

 

근속연수 0년

305.8 + 9.676 x 0 = 305.8         30만 5,800엔

근속연수 10년

305.8 + 9.676 x 10 = 402.56     40만 2,560엔

 

 

 

 


 

연습 4: 상관관계 매트릭스 만들기
'경영학을 위한 통계 및 데이터 분석 financial_analysis.csv.' 파일에서 ROA매출액외국인 지분율의 세 가지 변수에 대해 상관관계 행렬을 작성해 보세요.
엑셀 데이터 → 데이터 분석 → '상관관계'

 

 


 

 

 

 

 

설명변수의 타당성 확인

 

하나의 계수에 대한 가설검정: t검정

변수 X가 변수 Y에 영향을 미치는지 여부

Yᵢ = a + b Xᵢ + uᵢ

기울기가 0인 경우,
b = 0
Y = a
⇒ X와 Y는 무관
귀무가설을 세운다.
귀무가설 H0 : b = 0 설명변수가 실제로는 0이다라는 가설
대립가설 H1 : b ≠ 0
이 귀무가설을 기각할 수 있다면 
'X가 Y에 영향을 미친다'는 것을 통계적으로 지지한다.
기울기 b = 0이 아님을 검증

 

 

t검정 단계

  1. 설명변수의 계수(기울기)가 0이라는 가설 = 귀무가설을 세운다.
  2. 검정통계량 ' t값 ' 을 계산한다.
  3. 유의수준을 정하고, 그 유의수준에 해당하는 t값의 임계값과 2로 구한 검정통계량 ' t값 '을 비교한다.
  4. 검정통계량 ' t값 '의 절대값이 임계값의 절대값보다 작으면 귀무가설을 옳은 것으로 채택한다.
    그렇지 않고 't값'의 절대값이 임계값의 절대값보다 크면 귀무가설을 기각하고,
    그 반대인 '계수(기울기)가 0이 아닐 것이다'라는 대립가설을 채택한다.

 

 

 

 

 

 

 

 

 

 

 

 

4. 유의수준 결정: p값을 이용하여 귀무가설 기각 여부를 판단한다.

 

유의수준 10% : p값이 10% 이하인 경우 귀무가설을 기각한다.
유의수준 5% : p값이 5% 이하인 경우 귀무가설을 기각한다.
유의수준 1% : p값이 1% 이하인 경우 귀무가설 기각

p값: 귀무가설이 성립할 때, 그 데이터가 얼마나 가능성이 없는 데이터인지를 나타내는 확률.

 

p값 < 유의수준 0.05
귀무가설을 기각하고 대립가설을 채택유의미한 차이가 있다고 할 수 있다.
p값 ≥ 유의수준 0.05
대립가설을 채택하지 못하여 유의미한 차이가 있다고 할 수 없다.

 

 

거의 일어나지 않는다 = 우연이 아니다
95%에 비해 5%는
의미가 있다 = 유의미한 차이가 있다

 

= 면적의 합계는 전체의 5%이다.
⇒ t값이 이 면적에 들어갈 확률은 5%입니다.

p값 = 0.05

통계 소프트웨어의 기재
p-value
.05

100번 중 5번의 우연의 차이가 발생한다.

 

 

 

기각 판단
기각 판단은 검정 통계량이 취할 수 있는 확률과 유의수준 비교로 판단

  1. 유의수준과 일치하는 검정통계량 비교
  2. 검정통계량으로부터 계산된 값이 유의수준 이하인지 여부 확인

1의 경우 검정의 종류(t검정, F검정, 카이제곱검정 등)에 따라 검정통계량이 다르기 때문에 해석이 달라진다.
-> p값을 일반적으로 사용

 


 

예: 학급 인원과 성적
학급당 학생 수는 적은 것이 좋다고 여겨진다.
그만큼 교사와 교실을 확보할 필요가 있다.
학급 인원이 1명 적은 학급에서는 학생들의 성적이 얼마나 높은지 알면 대책 마련에 도움이 된다.
아래의 추정 결과에서 학생 수와 성적에 유의미한 관계가 있는 것일까?

STR=학생 대 교사 비율
( ) = 표준 오차

시험 점수 = 698.9 - 2.28 STR
                    (10.4) (0.52)
b의 계수 = -2.28, 표준오차 = 0.52
t값 = -2.28 / 0.52 = -4.38

계수 b = 0 이라는 귀무가설은 유의수준 5%로 기각
인원이 적은 학급에서 학생들의 성적이 높은 경향이 있다.

 

 

 

결정계수 ( Coefficient of Determination / R-squared / R² )
설명변수 x가 피설명변수 y를 모형이 얼마나 잘 설명할 수 있는지의 비율

 

 

  • 결정계수는 0과 1 사이의 수치를 취한다.
  • 모델이 피설명변수의 움직임을 완벽하게 설명하면 1, 전혀 설명하지 못하면 0이다.

    R² = 회귀 제곱 합계 / 제곱의 전체 합계 = 1 - [ 잔차 제곱 합계 / 제곱의 전체 합계
    제곱의 전체 합계 = 회귀 제곱 합계 + 잔차 제곱 합계

  • 설명변수를 늘릴수록 0에 가까워진다.
  • 결정계수가 낮다고 해서 모형이 타당하지 않다고 결론을 내리는 것은 옳지 않다.
  • 인과관계의 좋은 추정치를 얻을 수 있는지 여부와 결정계수는 직접적인 관계가 없다.

 

 

 

 

예: 광고비와 매출액

기초통계량       다양한 제곱합  
  Y매출액 X광고비   회귀 제곱합 309,508
평균값 369 17   잔차 제곱합 560,400
표준편차 142 12   전체 변동 869,909
분산 20,230 144   [(Xi -X)2 6,212
공분산(Sxy) 1,019        
Sample Size 44        

 

(1) 상관계수를 구한다.
상관계수 rxy = Sxy / SxSy  = 공분산 / ( 변수 X의 표준편차 × 변수 Y의 표준편차 )
1,019 / 142 x 12 = 0.598

 

 

(2) 최소자승법으로 추정. 기울기와 상수항의 추정치를 구한다.
Yᵢ = a + bXᵢ + uᵢ

 

 

(3) 결정계수 R²를 구한다.

 

 


 

연습 5: 설명변수의 타당성 검증
⚫ 보육시설의 확충과 여성 취업률의 관계
여성 노동력 비율 = 44.862 + 0.4302 x 어린이집 정원 수
                      t값      (23.3)      (7.52)

  1. 어린이집 정원수여성 노동력률의 관계가 통계적으로 유의미하다고 할 수 있을까요?
    간단히 설명해 주세요.
  2. 어떤 도도부현에서 보육교사 수가 1 증가했다고 가정해보자. 
    이 모형을 적용할 수 있다면 이 도도부현의 여성 노동력률은 얼마나 변화할까요?
  3. 어린이집 정원이 30명인 도도부현의 여성 노동력률은 얼마가 될 것으로 예상할 수 있을까요?

여성 노동력 비율 = 44.862 + 0.4302 보육시설 정원 수

                      t값      (23.3)     (7.52)

(1)

  • 계수 b = 0.4302 플러스
  • t값 = 7.52 → 7.52 > 1.96
    플러스로 통계적으로 유의미
t값의 절대값이 1.96보다 크다.
-> ' b는 0이다 ' 라는 귀무가설 H0을 유의수준 5%에서 기각
= 변수 X의 계수 b는 유의수준 5%에서 통계적으로 유의하다.

 

(2)
어린이집 종사자 수의 계수 b = 0.4302
정원이 1 증가하면 여성 노동력 비율 0.4302% 증가한다.

(3)

44.862 + 0.4302 x 30 57.768
여성 노동력률은 57.768% 로 예상.

 

 


 

 

연습 6.1 광고비와 매출액의 관계
연습 6.1 광고비와 매출 데이터 파일을 사용하여,

  1. 산점도 작성하기
  2. 상관관계 계수 구하기
  3. 근사곡선(회귀선)을 그려본다.

 

 

산점도 상에 플롯된 임의의 데이터를 마우스 오른쪽 버튼으로 클릭하고 "근사곡선 추가"를 클릭합니다. 
'선형근사' 클릭

 

 

'그래프에 수식 표시', '그래프에 R-2 제곱값 표시'를 체크하고 작업 창을 닫습니다.

 

 

 

연습문제 6.2 광고비와 매출의 관계
연습 6.2 광고비와 매출 데이터 파일을 사용하여 엑셀 함수를 통한 회귀식 도출과 예측값 산출을 해보자.

  함수
기울기 =SLOPE
절편 =INTERCEPT
결정계수 =RSQ
예측치 =FORECAST

 

 

 

 

 

 


t검정과 z검정

 

모집단 평균 검정

조건 검정통계량 확률분포 검정
모집단은 정규분포, 
σ는 알려져 있다.
Z =  ( X - μ ) / ( σ / √n ) Z 분포
(표준정규분포)
Z 검정
대표본 N ≧ 30 Z =  ( X - μ ) / ( σ / √n ) Z 분포
(평균정규분포)
Z 검정
모집단은 정규분포, 
σ는 알 수 없음
t = ( X - μ ) / ( S / √n ) t 분포 t 검정
소표본 N < 30 t = ( X - μ ) / ( S / √n ) t 분포 t 검정

 

 

 

t분포와 Z분포

Z 표준화
초보자용, 간결한 책에서는 기각값을 고정값(양측 1% = 2.58, 5%=1.96, 10%=1.64)을 사용하여
간결하게 설명하는 경우도 있다.


이유

  • 같은 유의수준의 기각값을 비교하면 Z값의 확률보다 t값의 확률더 큰 값이 된다.
  • 표본 수가 많아지면 t분포z분포가까워진다.
  Z t
→ 표본수가 많아짐
  1 10 30 100
1%(양측) 2.575829 63.65674 3.169273 2.749996 2.625891
5%(양측) 1.959964 25.4517 2.633767 2.359562 2.275652
10%(양측) 1.644854 12.7062 2.228139 2.042272 1.983972

 

 


 

 

 

추측 통계학 입문 (통계적 이해력 γ)
1-3 : 표본 분포
모집단의 분포와 표본 평균의 분포
표본 평균은 모집단보다 높은 확률로 모평균에 가깝게 관찰된다.
표본 평균의 평균은 모평균과 일치하며, 분포의 넓이 1 / √𝑛 축소한다. 

 

 

추측 통계학 입문(통계적 이해력 γ)
2-2: 중심극한정리
모평균 μ, 모분산 σ²를 가진 모집단에서 n 크기의 표본을 무작위로 추출한다.
표본 n이 크다면,
➢ 모집단이 어떤 분포이든 표본분포는 정규분포를 따른다.
표본 평균이 정규분포를 따른다면,
    표본 평균의 평균 = 모평균 (표본 평균은 모평균과 같다).
표본 분포의 표준편차(즉, 표준오차)는 표본 크기가 커질수록 작아진다. 

    분산이 모분산의 1/n 배인 정규분포로 근사화한다.
N ( μ , σ² / n ) 즉, 평균값 μ, 표준편차 σ의 정규분포가 된다.
√n
※) 중심극한정리를 사용할 수 있는 것은 표본수가 크거나 모집단이 정규분포일 때이다.

 

 

 

 

 

 

 

 

추측 통계학 입문(통계적 이해력 γ)
5-1 : 가설검정의 개념 t검정
모집단 분포: 정규분포 N(7.9, 0.7²)를 따른다.
유의수준 5% = 0.05

같은 유의수준의 기각값을 비교하면 Z값의 확률보다 t값의 확률이 더 큰 값으로 나오기 때문에
여기서는 고정값으로 사용.

 

 

추측 통계학 입문(통계적 리터러시 γ)
5-1: 가설검정의 개념

 

모집단 분포: 정규분포 N(7.9, 0.7²)를 따른다.
유의수준 5% = 0.05

 

  1. 귀무가설과 대립가설을 설정한다.
    귀무가설 μ = 7.9 (올해 모집단 평균은 예년의 모집단 평균과 같다)
    대립가설 μ > 7.9 (올해 모집단 평균이 예년 모집단 평균보다 큼)
  2. 표본에서 검정 통계량을 계산한다.
    μ = 8.05 (표본 평균)
  3. 기각범위 계산하기
    귀무가설 H0 : μ = 7.9가 옳다고 가정하면 표본 평균의 표본분포는 N ( 7.9 , 0.72/10 ) 이 된다.
    유의수준 5%가 되는 기각범위 값 = 8.26
    Excel
    8.26 = 7.9 + 0.22 * NORMSINV ( 0.95 )

 

 

4. 검정통계량의 값이 기각 범위에 있으면 H0를 기각하고, H1을 채택하여 유의하다고 판단한다.
8.26 > 8.05(표본 평균의 값)
기각구간을 구하면 8.26이 되므로 표본평균의 값이 8.26 이상이면 귀무가설이 기각되지만, 

계산된 표본평균의 값은 8.05이므로 기각 구간에 들어가지 않는다(채택 구간에 들어간다).
정답: 
검정통계량의 값이 채택범위에 있으므로 귀무가설을 기각할 수 없으며, μ는 7.9보다 크다고 할 수 없다.

 

 

추측 통계학 입문(통계적 이해력 γ)
6-1: 모평균의 구간 추정

모분산의 값을 알 수 없고 표본 수가 작은 경우, 모평균의 구간을 추정하는 확률분포가 t분포를 가진다.

 

표본 데이터에서 표본 평균 X와 불균형 분산 V를 계산하면 X= 172.53, V = 31.22가 된다. 

여기서는 표본 크기 n = 10이고, 95% 신뢰구간을 구하고자 하므로 Excel에서 t(n-1, 0.05)를 계산합니다.

 

Excel
값 = T.INV.2T ( 0.05 , 9 ) = 2.262 ( = t ( n-1 , 0.05 )

 

[ X - t ( n - 1 , 0.05 ) √V = n , X + t ( n - 1 , 0.05 ) √V = n ]
172.53 - 2.262 * 5.588 / √10 = 168.5
172.53 + 2.262 * 5.588 / √10 = 176.5

T.INV.2T 함수
자유도 n-1에 따른 t분포의 양측 확률에 대한 상측 t값을 구한다.
하측 t값은 상측 t값의 마이너스

 

 

추측 통계학 입문(통계적 이해력 γ)
6-2: 모평균의 가설검정
표본 평균 = 26.437 , 불편분산 추정량 = 1.238
모평균 = 27.0 , 표본 수 = 10

 

 

반응형