기업경제학 실습 제5회
오늘의 일정
- 더미 변수를 이용한 분석
- 변수 선택 문제
- 참고 문헌
西山慶彦・新谷元嗣・川口大司・奥井亮『계량경제학』有斐閣,2019년, 5장
林賢一・下平英寿『R로 배우는 통계적 데이터 분석』講談社,2020년3장, 4장
森田果『실증분석입문』일본평론사, 2014년, 9장
山本勲『실증분석을 위한 계량경제학』중앙경제, 2015년, 3 장
더미 변수 활용
- 추정식 y = f(x)에서 피설명변수 y와 설명변수 x의 관계는 모든 관측값에 평균적으로 잘 맞는다는 가정
y = f(x) = β₀ + β₁ x₁ + u - 실제로는 다양한 속성(예: 국적, 성별, 연령, 업종 등)에 따라 관계가 달라질 수 있다.
- 속성 정보를 1 또는 0의 값을 갖는 특수한 데이터로 수치화하여 분석하는 경우,
이 변수를 '더미변수'(Dummy variable)라고 한다.
절편 더미 변수
- 이제 부채비율을 피설명변수(y), 성과지표(ROA)를 설명변수(x)로 가정한다.
- 평균 부채비율의 수준이 특정 지역 A에 기업이 입지하고 있는지(예: 나고야)에 따라 달라진다고 가정한다.
- 이때 특정 지역의 기업 여부를 나타내는 더미변수를 D로 설정한다.
→ 나고야에 입지한 기업에는 1을, 그 외의 지역에 입지한 기업에는 0을 부여하는 더미변수를 만든다.
절편 더미 변수
- 추정식은
yᵢ = α + β₁Dᵢ + β₂Xᵢ + uᵢ
Dᵢ = 1 or 0 - A지역 기업의 경우 추정식은 다음과 같습니다. (Dᵢ = 1)
yᵢ = ( α + β₁ ) + β₂Xᵢ + uᵢ - A지역이 아닌 기업의 경우 추정식은 (Dᵢ = 0)
yᵢ = α + β₂Xᵢ + uᵢ
절편 더미 변수
기울기 더미 변수 : 교차항(interaction term)
- 더미변수는 속성 간에 절편항이 다를 뿐만 아니라 매개변수의 크기가 다른 상황을 포착할 수 있다.
yᵢ = α + β₁Dᵢ + ( β₂ + β₃Dᵢ ) Xᵢ + uᵢ
Xᵢ = 설명변수 - A지역 기업의 경우 기울기는 ( Dᵢ = 1 )
( β₂ + β₃ )
A지역 이외의 기업의 경우 기울기는 ( Dᵢ = 0 )
β₂
경사 더미 변수
속성이 3개 이상인 경우의 더미 변수
- 속성의 분류는 반드시 두 가지가 아니다.
예시1 : 20대, 30대, 40대 등의 연령
예시2 : 홋카이도, 동북, 관동, 관동 등 지역 - 여러 개의 속성이 있는 경우, 더미도 동시에 여러 개 사용
→ 더미 변수의 개수는 분류 수에서 1을 뺀 개수
예: 4분기 데이터를 이용한 분석의 경우, 봄, 여름, 가을 3개에 더미를 부여한다.
더미변수, 교차항을 이용한 분석의 패턴
- 절편은 다르지만 기울기는 같음
yᵢ = α + β₁ Dᵢ + β₂ Xᵢ + uᵢ - 절편도 기울기도 다르다.
yᵢ = α + β₁ Dᵢ + ( β₂ + β₃ Dᵢ ) Xᵢ + uᵢ - 절편은 같고 기울기는 다르다.
yᵢ = α + ( β₁ + β₂ Dᵢ ) Xᵢ + uᵢ
더미 변수를 이용한 분석 사례 : 야마모토(2015)
- 직원의 Mental Health 정도를 나타내는 'Burnout 지수'의 높낮이 결정요인에 대한 분석 사례를 소개합니다.
- 피설명변수(y): 직원의 멘탈 상태를 몇 가지 문항으로 조사-집계한 것으로
'Burnout 지수'가 높을수록 Mental Health가 나쁨 - 설명변수(x): 성별, 근속연수, 연령대, 지난 2년간의 이직 경험 유무, 근무시간 등
직원 Burnout 지표의 결정 요인
(1)
D₁ <= 30대 Dummy
D₂ <= 40대 Dummy
D₃ <= 전배 Dummy(과거 2년간)
(2)
전배 Dummy(1 or 0) x 재적 2년 ~ 5년(1 or 0)
더미 변수를 이용한 분석 사례 : 야마모토(2015)
질문: 전배은 번아웃 경향에 어떤 영향을 미치는가?
- 전배 더미는 (1)을 보면 통계적으로 유의미하지 않다.
- 전배 더미는 (2)를 보면 통계적으로 유의미하다.
→ "전배 전 재직기간이 2년 미만인 직원에 한정해서 보면, 전배은 정신건강 상태를 개선한다."
→ 전배 더미의 교차항은 어떻게 해석할 것인가?
더미 변수를 이용한 분석 사례 : 야마모토(2015)
번아웃 지표
= -0.144 × 전배 Dummy + 0.193 × 전배 Dummy × 재직 2~5년 Dummy + 0.189 × 전배 Dummy × 재직 5년 이상 Dummy
=(-0.144 + 0.193 × 재직 2~5년 Dummy + 0.189 × 재직 5년 이상 Dummy ) 전배 Dummy
더미 변수를 이용한 분석 사례 : 야마모토(2015)
- 전배 Dummy 단독의 계수(-0.144): 재직 2년~5년 및 5년 이상 Dummy 모두 0,
즉 재직 2년 미만일 때의 전배 Dummy의 계수
→ 재직 2년 미만 직원은 전배으로 인해 Burnout 경향이 약화된다. - 전배 Dummy × 재직 2~5년 Dummy(0.193): 전배 Dummy의 계수가 재직 2년 미만보다 재직 2~5년에서 어느 정도 더 큰지를 나타낸다.
→ '재직 2년 미만 전배자와의 차이'가 0.193
더미 변수를 이용한 분석
- 더미 변수는 기준 분류와의 차이를 포착하는 것이므로 교차항으로 사용하는 경우에도 마찬가지다,
'계수가 무엇과 비교되는지'
를 의식할 필요가 있다.
더미를 이용한 분석 예시: 사용 데이터
- 미국 노동부 노동통계국(Bureau of Labor Statistics in the U.S. Department of Labor)이 작성한
2009년 미국 고졸 이상 근로자에 대한 몇 가지 지표를 자료로 사용함. - 포함된 데이터
- ahe : 2004년 시간당 임금
- age : 나이
- yrseduc : 교육 연수
- female : 여성인 경우 1을 부여하는 더미 변수
데이터 불러오기
- 데이터는 cps.csv를 사용한다.
cps <- read.csv("cps.csv")
시간당 임금, 연령, 학력 등 세 가지 변수에 대한 기술 통계
최소값 하위 25% 중앙값 평균 하위 75% 최대값 표준편차
각 변수의 상관관계 작성
- 상관계수
cor(cps$age, cps$ahe)# 시급과 나이
cor(cps$age, cps$yrseduc)# 나이와 교육연수
cor(cps$ahe, cps$yrseduc)# 시급과 교육연수
각 변수의 상관관계 작성
시급과 교육연수 간의 상관관계가 가장 높다.
연령, 교육연수, 성별의 효과를 고려한 회귀분석을 실시한다.
- 다음 명령어를 입력한다.
result.cps3 <- lm ( cps$ahe ~ age + yrseduc + female , data = cps )
summary ( result.cps3 )
성별, 교육년수의 효과를 고려한 회귀분석을 실시합니다.
- 모든 계수의 p값이 0 → 계수 모두 유의미함
(1) 연령이 1세 증가할 때, 시급은 0.193만 상승
(2) 교육연수가 1년 늘어날수록 시급은 2.396 상승
(3) 여성의 경우 시급이 5.733 낮다. - 조정된 결정계수 = 0.2639
- F-statistic: 7552 on 3 and 63191 DF, p-value: 2.2e-16
→ 모든 계수가 0이라는 귀무가설은 기각됨.
시급 예측
- 연령이 26세, 성별이 여성, 학력이 12년인 사람의 시급을 예측한다.
Aheᵢ = -16.828 + 0.193 x Ageᵢ + 2.396 x Yreduᵢ - 5.733 x femaleᵢ
→ -16.828 + 0.193 × 26 + 2.396 × 12 - 5.733 × 1
=11.209
더미 변수를 이용한 분석
- 교육연수가 13년 이상인 경우에만 1을 부여하고, 그 외에는 0을 부여하는 더미 변수를 생성한다.
cps$dyrseduc <- ifelse ( cps$yrseduc > 12 , 1 , 0 ) <= 절편
result.cps4 <- lm ( cps$ahe ~ age + dyrseduc + female , data = cps )
dyrseduc = 절편
female = 1 or 0
summary ( result.cps4 )
더미 변수를 이용한 분석
- 분석결과 : 모든 계수의 p값이 0 → 계수 모두 유의미함
(1) 연령이 1세 증가할 때, 시급이 0.217만큼 상승
(2) 교육연수가 13년 이상일 경우 시급이 9.166 상승
(3) 여성의 경우 시급이 5.725 낮다. - 조정된 결정계수 = 0.1692
- F-statistic: 4292 on 3 and 63191 DF, p-value: 2.2e-16
→ 모든 계수가 0이다, 라는 귀무가설은 기각됨.
더미 변수를 이용한 분석
상수항 더미
- 더미 변수가 설명변수로 단독으로 사용되는 경우, 그 더미 변수를 '상수항 더미'라고 한다.
Aheᵢ = β₀ + β₁ x Ageᵢ + β₂ x dummyYreducᵢ + β₃ x femaleᵢ + uᵢ
더미 변수의 교차항
- 교육연수가 13년 이상인 경우에만 1을 부여하는 더미변수 생성
→ 13년 이상 교육을 받는 것이 그 이하의 교육년수에 비해
상대적으로 시급에 다른 영향을 미치는지 살펴보기 위한 변수 - 교육연수의 차이는 남녀 간에 동일할까?
→ 이 점을 검토할 목적으로,
교육년수(1 or 0) 더미 × 여성(1 or 0) 더미 만들기
더미 변수의 교차항
- 구체적인 교차항을 이용한 추정의 예는 다음과 같다.
Aheᵢ = β₀ + β₁ x Ageᵢ + β₂ x dummyYreducᵢ + β₃ x femaleᵢ + β₄ x ( dummyYreducᵢ x femaleᵢ ) + uᵢ.
더미 변수의 교차항
더미 변수의 교차항
- 다음과 같이 하면 교차항을 설명변수로 도입할 수 있다.
result.cps5 <- lm ( cps$ahe ~ age + dyrseduc + female + dyrseduc * female , data = cps )
dyrseduc = 1 or 0
female = 1 or 0
summary ( result.cps5 )
더미 변수의 교차항
- 교육년수 더미 계수는 유의미하게 플러스
→ dyrseduc 9.902 - 교차항 : 교육연수 더미 × 여성 더미의 계수는 유의미한 마이너스
→ -1.744 - 같은 교육을 받았더라도 여성의 경우, 교육이 시급에 미치는 효과가 작다. ( 9.902 - 1.744 )
결과 정리
위쪽은 계수, 아래쪽은 표준오차를 나타냅니다.
불완전한 다중 공선성
- '불완전한 다중공선성'이란 설명변수들 사이에 강한 상관관계가 있는 상태
yᵢ = α + β₁ x₁ᵢ + β₂ x₂ᵢ + uᵢ - 위의 모델에서 다중공선성이 존재한다는 것은
x1이 y1에 미치는 영향과 x2가 y2에 미치는 영향을 구분하기 어려워져 개별 계수 추정이 어려워진다는 것을 의미한다.
변수 선택, AIC, BIC
- '가장 적합한 모델'은 무엇인가?
- 적절한 변수를 선택하여 모형에 포함시키기 위해서는 모형의 '좋음'을 비교할 필요가 있다.
⇒ 결정계수 외에도 AIC(아카케 정보량 기준)와 BIC(베이즈 정보량 기준)가 지표로 사용되는 경우가 많다.
AIC와 BIC
- n을 샘플 수로 하면
AIC = n × log ( 모델의 잔차의 제곱합 / n ) + 2 × ( 모델의 설명변수의 수 )
BIC = n × log ( 모델의 잔차의 제곱합 / n ) + ( 모델 설명변수의 수 ) × log ( n )
- 모두 값이 낮을수록 '좋은' 모델이라는 것을 의미한다.
AIC와 BIC
- 모형의 잔차 제곱합: 모형의 적합도에 관한 수량
⇒ 설명변수가 많을수록 작아짐 - 모형의 설명변수 수 : 모형의 복잡성에 관한 수량
⇒ 설명변수가 많을수록 복잡해진다. - 적합도와 복잡도가 '좋은' 모델을 선택하기 위한 목적으로 이러한 변수를 사용하는 경우가 있다.
분석 예시
result.ctest1 <- lm ( testscr ~ str , data = caschool )
summary ( result.ctest1 )
result.ctest2 <- lm ( testscr ~ str + el_pct , data = caschool )
summary ( result.ctest2 )
result.ctest3 <- lm ( testscr ~ str + el_pct + meal_pct , data = caschool )
summary ( result.ctest3 )
result.ctest4 <- lm ( testscr ~ str + el_pct + calw_pct , data = caschool )
summary ( result.ctest4 )
AIC와 BIC
c ( AIC ( result.ctest1 ) , AIC ( result.ctest2 ) , AIC ( result.ctest3 ) , AIC ( result.c test4 ) )
3650.499, 3441.123, 3050.999, 3260.656
c ( BIC ( result.ctest1 ) , BIC ( result.ctest2 ) , BIC ( result.ctest3 ) , BIC ( result.c test4 ) )
3662.620, 3457.284, 3071.200, 3280.857
스텝 와이즈 방식으로 변수 선택
- 설명변수를 선택할 때, 누락된 변수의 문제와는 별개로
어떤 변수의 조합을 선택해야 하는지에 대한 문제에 종종 직면하게 된다. - 변수를 선택하는 방법 중 하나가 '스텝 와이즈 방법'이다.
- 스텝 와이즈 방법
1 : 변수 증가법 : 절편만 있는 모델에서 시작하여 AIC 등이 작아지는 설명변수를 순서대로 추가하는 방법
2 : 변수 감소법 : 설명변수의 수가 가장 많은 모델부터 시작하여 AIC 등이 작아지는 설명변수를 차례로 제거
3 : 변수 증감법 : 1과 2의 조합 - 스텝 와이즈 방법은 고려하는 변수가 많아지면 최적의 조합을 찾기가 어렵다.
- 사전에 이론이나 선행연구에 근거하여 변수를 선택하는 방법이 경제학이나 금융학에서 일반적
다음
'WBS - 2023 Fall > 기업경제학 연습' 카테고리의 다른 글
(기업경제 #9) Matching (0) | 2023.12.06 |
---|---|
(기업경제 #8) 로지트 모델(Logit Model)과 프로빗 모델(Probit Model) (0) | 2023.11.29 |
(기업경제 #7) DID | Difference-in-Difference (차이의 차이 분석) (0) | 2023.11.16 |
(기업경제 #6) 패널 분석 (Panel data analysis) (0) | 2023.11.09 |
(기업경제 #4) 이상치 처리 | 선형 회귀 모델(2) (0) | 2023.10.26 |
(기업경제 #3) 선형회귀 Model (0) | 2023.10.19 |
(기업경제 #2) (0) | 2023.10.12 |
(기업경제 #1) (0) | 2023.10.05 |