본문 바로가기
WBS - 2023 Fall/기업경제학 연습

(기업경제 #5) 더미 변수를 이용한 분석

by fastcho 2023. 11. 2.
반응형

기업경제학 실습 제5회

기업경제학 실습 제5회

 

 

오늘의 일정

 

  • 더미 변수를 이용한 분석
  • 변수 선택 문제
  • 참고 문헌
    西山慶彦・新谷元嗣・川口大司・奥井亮『계량경제학』有斐閣,2019년, 5장
    林賢一・下平英寿『R로 배우는 통계적 데이터 분석』講談社,2020년3장, 4장
    森田果『실증분석입문』일본평론사, 2014년, 9장
    山本勲『실증분석을 위한 계량경제학』중앙경제, 2015년, 3 장

오늘의 일정

 

 

 

더미 변수 활용

  • 추정식 y = f(x)에서 피설명변수 y와 설명변수 x의 관계는 모든 관측값에 평균적으로 잘 맞는다는 가정
    y = f(x) = β₀ + β₁ x₁ + u 
  • 실제로는 다양한 속성(예: 국적, 성별, 연령, 업종 등)에 따라 관계가 달라질 수 있다. 
  • 속성 정보1 또는 0의 값을 갖는 특수한 데이터로 수치화하여 분석하는 경우,
    이 변수를 '더미변수'(Dummy variable)라고 한다.

더미 변수 활용

 

 

 

 

절편 더미 변수

  • 이제 부채비율피설명변수(y), 성과지표(ROA)를 설명변수(x)로 가정한다. 
  • 평균 부채비율의 수준이 특정 지역 A에 기업이 입지하고 있는지(예: 나고야)에 따라 달라진다고 가정한다.
  • 이때 특정 지역의 기업 여부를 나타내는 더미변수D로 설정한다. 
    나고야에 입지한 기업에는 1을, 그 외의 지역에 입지한 기업에는 0을 부여하는 더미변수를 만든다.

절편 더미 변수

 

 

절편 더미 변수

  • 추정식은
    yᵢ = α + β₁Dᵢ + β₂Xᵢ + uᵢ
    Dᵢ = 1 or 0
  • A지역 기업의 경우 추정식은 다음과 같습니다. (Dᵢ = 1)
    yᵢ = ( α + β₁ ) + β₂Xᵢ + uᵢ
  • A지역이 아닌 기업의 경우 추정식은 (Dᵢ = 0)
    yᵢ = α + β₂Xᵢ + uᵢ

절편 더미 변수

 

 

 

절편 더미 변수

절편 더미 변수

 

 

기울기 더미 변수 : 교차항(interaction term)

  • 더미변수는 속성 간에 절편항이 다를 뿐만 아니라 매개변수의 크기가 다른 상황을 포착할 수 있다.
    yᵢ = α + β₁Dᵢ + ( β₂ + β₃Dᵢ ) Xᵢ + uᵢ
    X = 설명변수
  • A지역 기업의 경우 기울기는 (  Dᵢ = 1 ) 
    ( β₂ + β₃ )
    A지역 이외의 기업의 경우 기울기는 (  Dᵢ = 0 )
    β₂

기울기 더미 변수 : 교차항(interaction term)

 

 

경사 더미 변수

경사 더미 변수

 

속성이 3개 이상인 경우의 더미 변수

  • 속성의 분류는 반드시 두 가지가 아니다.
    예시1 : 20대, 30대, 40대 등의 연령
    예시2 : 홋카이도, 동북, 관동, 관동 등 지역 
  • 여러 개의 속성이 있는 경우, 더미도 동시에 여러 개 사용
    → 더미 변수의 개수는 분류 수에서 1을 뺀 개수
    예: 4분기 데이터를 이용한 분석의 경우, 봄, 여름가을 3개에 더미를 부여한다.

속성이 3개 이상인 경우의 더미 변수

 

 

 

더미변수, 교차항을 이용한 분석의 패턴

  1. 절편은 다르지만 기울기는 같음
    yᵢ = α + β₁ Dᵢ + β₂ Xᵢ + uᵢ
  2. 절편기울기다르다.
    yᵢ = α + β₁ Dᵢ + ( β₂ + β₃ Dᵢ ) Xᵢ + uᵢ
  3. 절편은 같기울기는 다르다.
    yᵢ = α + ( β₁ + β₂ Dᵢ ) Xᵢ + uᵢ

더미변수, 교차항을 이용한 분석의 패턴

 

 

 

 

더미 변수를 이용한 분석 사례 : 야마모토(2015)

  • 직원의 Mental Health 정도를 나타내는 'Burnout 지수'의 높낮이 결정요인에 대한 분석 사례를 소개합니다. 
  • 피설명변수(y): 직원의 멘탈 상태를 몇 가지 문항으로 조사-집계한 것으로
    'Burnout 지수'가 높을수록 Mental Health나쁨 
  • 설명변수(x): 성별, 근속연수, 연령대, 지난 2년간의 이직 경험 유무, 근무시간 등

더미 변수를 이용한 분석 사례 : 야마모토(2015)

 

 

직원 Burnout 지표의 결정 요인

(1)

D₁ <= 30대 Dummy

D₂ <= 40대 Dummy 

D₃ <= 전배 Dummy(과거 2년간)

 

(2) 

전배 Dummy(1 or 0) x 재적 2년 ~ 5년(1 or 0)

직원 Burnout 지표의 결정 요인

 

더미 변수를 이용한 분석 사례 : 야마모토(2015)

질문: 전배번아웃 경향에 어떤 영향을 미치는가?

  • 전배 더미는 (1)을 보면 통계적으로 유의미하지 않다.
  • 전배 더미는 (2)를 보면 통계적으로 유의미하다.
    → "전배 전 재직기간이 2년 미만인 직원에 한정해서 보면, 전배은 정신건강 상태를 개선한다."
    → 전배 더미의 교차항은 어떻게 해석할 것인가?

 

더미 변수를 이용한 분석 사례 : 야마모토(2015)

번아웃 지표 

= -0.144 × 전배 Dummy + 0.193 × 전배 Dummy × 재직 2~5년 Dummy + 0.189 × 전배 Dummy × 재직 5년 이상 Dummy
=(-0.144 + 0.193 × 재직 2~5년 Dummy + 0.189 × 재직 5년 이상 Dummy ) 전배 Dummy

 

더미 변수를 이용한 분석 사례 : 야마모토(2015)

 

 

더미 변수를 이용한 분석 사례 : 야마모토(2015)

  • 전배 Dummy 단독의 계수(-0.144): 재직 2년~5년 및 5년 이상 Dummy 모두 0,
                                                            즉 재직 2년 미만일 때의 전배 Dummy의 계수 
    → 재직 2년 미만 직원전배으로 인해 Burnout 경향이 약화된다. 
  • 전배 Dummy × 재직 2~5년 Dummy(0.193): 전배 Dummy의 계수가 재직 2년 미만보다 재직 2~5년에서 어느 정도 더 큰지를 나타낸다. 
    → '재직 2년 미만 전배자와의 차이'가 0.193

더미&nbsp;변수를&nbsp;이용한&nbsp;분석&nbsp;사례&nbsp;:&nbsp;야마모토(2015)

 

 

 

더미 변수를 이용한 분석

  • 더미 변수는 기준 분류와의 차이를 포착하는 것이므로 교차항으로 사용하는 경우에도 마찬가지다,
    '계수가 무엇과 비교되는지'
    를 의식할 필요가 있다.

더미 변수를 이용한 분석

 

더미를 이용한 분석 예시: 사용 데이터

  • 미국 노동부 노동통계국(Bureau of Labor Statistics in the U.S. Department of Labor)이 작성한
    2009년 미국 고졸 이상 근로자에 대한 몇 가지 지표를 자료로 사용함.
  • 포함된 데이터
    • ahe : 2004년 시간당 임금
    • age : 나이
    • yrseduc : 교육 연수
    • female : 여성인 경우 1을 부여하는 더미 변수

더미를 이용한 분석 예시: 사용 데이터

 

 

데이터 불러오기

  • 데이터는 cps.csv를 사용한다.
    cps <- read.csv("cps.csv")

데이터 불러오기

 

 

시간당 임금, 연령, 학력 등 세 가지 변수에 대한 기술 통계

최소값 하위 25% 중앙값 평균 하위 75% 최대값 표준편차

시간당 임금, 연령, 학력 등 세 가지 변수에 대한 기술 통계

 

 

 

각 변수의 상관관계 작성

  • 상관계수
    cor(cps$age, cps$ahe)# 시급과 나이
    cor(cps$age, cps$yrseduc)# 나이와 교육연수
    cor(cps$ahe, cps$yrseduc)# 시급과 교육연수

각 변수의 상관관계 작성

 

 

각 변수의 상관관계 작성

시급과 교육연수 간의 상관관계가 가장 높다.

각&nbsp;변수의&nbsp;상관관계&nbsp;작성

 

 

연령, 교육연수, 성별의 효과를 고려한 회귀분석을 실시한다.

  • 다음 명령어를 입력한다.
result.cps3 <- lm ( cps$ahe ~ age + yrseduc + female , data = cps )
summary ( result.cps3 )

 

연령, 교육연수, 성별의 효과를 고려한 회귀분석을 실시한다.

 

 

 

 

성별, 교육년수의 효과를 고려한 회귀분석을 실시합니다.

  • 모든 계수p값이 0계수 모두 유의미
    (1) 연령이 1세 증가할 때, 시급은 0.193만 상승
    (2) 교육연수가 1년 늘어날수록 시급은 2.396 상승
    (3) 여성의 경우 시급이 5.733 낮다.
  • 조정된 결정계수 = 0.2639
  • F-statistic: 7552 on 3 and 63191 DF, p-value: 2.2e-16
    → 모든 계수가 0이라는 귀무가설은 기각됨.

성별, 교육년수의 효과를 고려한 회귀분석을 실시합니다.

 

 

 

시급 예측

  • 연령26세, 성별여성, 학력12년인 사람의 시급을 예측한다.
    Aheᵢ = -16.828 + 0.193 x Age + 2.396 x Yredu - 5.733 x female  
    → -16.828 + 0.193 × 26 + 2.396 × 12 - 5.733 × 1
    =11.209

시급 예측

 

 

더미 변수를 이용한 분석

  • 교육연수가 13년 이상인 경우에만 1을 부여하고, 그 외에는 0을 부여하는 더미 변수를 생성한다.
cps$dyrseduc <- ifelse ( cps$yrseduc > 12 , 1 , 0 ) <= 절편
result.cps4 <- lm ( cps$ahe ~ age + dyrseduc + female , data = cps )
dyrseduc = 절편
female = 1 or 0
summary ( result.cps4 )

더미 변수를 이용한 분석

 

 

 

더미 변수를 이용한 분석

  • 분석결과 : 모든 계수의 p값이 0계수 모두 유의미
    (1) 연령이 1세 증가할 때, 시급이 0.217만큼 상승
    (2) 교육연수가 13년 이상일 경우 시급이 9.166 상승
    (3) 여성의 경우 시급이 5.725 낮다.
  • 조정된 결정계수 = 0.1692
  • F-statistic: 4292 on 3 and 63191 DF, p-value: 2.2e-16
    모든 계수가 0이다, 라는 귀무가설은 기각됨.

더미 변수를 이용한 분석

 

 

 

 

더미 변수를 이용한 분석

더미&nbsp;변수를&nbsp;이용한&nbsp;분석

 

상수항 더미

  • 더미 변수가 설명변수로 단독으로 사용되는 경우, 그 더미 변수를 '상수항 더미'라고 한다.

Aheᵢ = β₀ + β₁ x Ageᵢ + β₂ x dummyYreducᵢ + β₃ x female + uᵢ

상수항 더미

 

더미 변수의 교차항

  • 교육연수가 13년 이상인 경우에만 1을 부여하는 더미변수 생성
    13년 이상 교육을 받는 것이 그 이하의 교육년수에 비해
    상대적으로 시급에 다른 영향을 미치는지 살펴보기 위한 변수
  • 교육연수의 차이는 남녀 간에 동일할까?
    → 이 점을 검토할 목적으로,
    교육년수(1 or 0) 더미 × 여성(1 or 0) 더미 만들기

더미 변수의 교차항

 

 

더미 변수의 교차항

  • 구체적인 교차항을 이용한 추정의 예는 다음과 같다.

Aheᵢ = β₀ + β₁ x Ageᵢ + β₂ x dummyYreducᵢ + β₃ x female + β₄ x ( dummyYreduc x female ) + uᵢ.

더미 변수의 교차항

 

 

더미 변수의 교차항

더미&nbsp;변수의&nbsp;교차항

 

더미 변수의 교차항

  • 다음과 같이 하면 교차항을 설명변수로 도입할 수 있다.
result.cps5 <- lm ( cps$ahe ~ age + dyrseduc + female + dyrseduc * female , data = cps )
dyrseduc = 1 or 0
female = 1 or 0
summary ( result.cps5 )

더미&nbsp;변수의&nbsp;교차항

 

 

 

 

 

 

 

 

더미 변수의 교차항

  • 교육년수 더미 계수는 유의미하게 플러스
    → dyrseduc 9.902
  • 교차항 : 교육연수 더미 × 여성 더미의 계수는 유의미마이너스
    → -1.744
  • 같은 교육을 받았더라도 여성의 경우, 교육시급에 미치는 효과가 작다. ( 9.902 - 1.744 )

더미 변수의 교차항

 

 

결과 정리

위쪽은 계수, 아래쪽은 표준오차를 나타냅니다.

 

 

 

불완전한 다중 공선성

  • '불완전한 다중공선성'이란 설명변수들 사이에 강한 상관관계가 있는 상태
    yᵢ = α + β₁ x₁ᵢ + β₂ xᵢ + uᵢ
  • 위의 모델에서 다중공선성이 존재한다는 것은
    x1이 y1에 미치는 영향과 x2가 y2에 미치는 영향을 구분하기 어려워져 개별 계수 추정이 어려워진다는 것을 의미한다.

불완전한&nbsp;다중&nbsp;공선성

 

 

 

변수 선택, AIC, BIC

  • '가장 적합한 모델'은 무엇인가?
  • 적절한 변수를 선택하여 모형에 포함시키기 위해서는 모형의 '좋음'을 비교할 필요가 있다.
    ⇒ 결정계수 외에도 AIC(아카케 정보량 기준)와 BIC(베이즈 정보량 기준)가 지표로 사용되는 경우가 많다.

변수 선택, AIC, BIC

 

 

 

 

AIC와 BIC

  • n을 샘플 수로 하면
AIC = n × log ( 모델의 잔차의 제곱합 / n ) + 2 × ( 모델의 설명변수의 수 )
BIC = n × log ( 모델의 잔차의 제곱합 / n ) + ( 모델 설명변수의 수 ) × log ( n )
  • 모두 값이 낮을수록 '좋은' 모델이라는 것을 의미한다.

AIC와 BIC

 

 

AIC와 BIC

  • 모형의 잔차 제곱합: 모형의 적합도에 관한 수량
    설명변수가 많을수록 작아짐
  • 모형의 설명변수 수 : 모형의 복잡성에 관한 수량
    설명변수가 많을수록 복잡해진다.
  • 적합도와 복잡도가 '좋은' 모델을 선택하기 위한 목적으로 이러한 변수를 사용하는 경우가 있다.

AIC와&nbsp;BIC

 

분석 예시

result.ctest1 <- lm ( testscr ~ str , data = caschool )
summary ( result.ctest1 )
result.ctest2 <- lm ( testscr ~ str + el_pct , data = caschool )
summary ( result.ctest2 )
result.ctest3 <- lm ( testscr ~ str + el_pct + meal_pct , data = caschool )
summary ( result.ctest3 )
result.ctest4 <- lm ( testscr ~ str + el_pct + calw_pct , data = caschool )
summary ( result.ctest4 )

분석 예시

 

AIC와 BIC

c ( AIC ( result.ctest1 ) , AIC ( result.ctest2 ) , AIC ( result.ctest3 ) , AIC ( result.c test4 ) )

3650.499, 3441.123, 3050.999, 3260.656

c ( BIC ( result.ctest1 ) , BIC ( result.ctest2 ) , BIC ( result.ctest3 ) , BIC ( result.c test4 ) )

3662.620, 3457.284, 3071.200, 3280.857

AIC와 BIC

 

 

 

스텝 와이즈 방식으로 변수 선택

  • 설명변수를 선택할 때, 누락된 변수의 문제와는 별개로
    어떤 변수의 조합을 선택해야 하는지에 대한 문제에 종종 직면하게 된다. 
  • 변수를 선택하는 방법 중 하나가 '스텝 와이즈 방법'이다. 
  • 스텝 와이즈 방법 
    1 : 변수 증가법 : 절편만 있는 모델에서 시작하여 AIC 등이 작아지는 설명변수를 순서대로 추가하는 방법 
    2 : 변수 감소법 : 설명변수의 수가 가장 많은 모델부터 시작하여 AIC 등이 작아지는 설명변수를 차례로 제거 
    3 : 변수 증감법 : 1과 2의 조합
  • 스텝 와이즈 방법 고려하는 변수가 많아지면 최적의 조합을 찾기가 어렵다
  • 사전에 이론이나 선행연구에 근거하여 변수를 선택하는 방법이 경제학이나 금융학에서 일반적

스텝 와이즈 방식으로 변수 선택

 

 

 

다음

다음

 

반응형