기업경제학 실습: 제1회
蟻川靖浩
이 과목에 대해
- 기업금융 및 기업지배구조 분야에서 사용되는 실증분석 기법에 대한 해설을 제공한다.
- 참가자가 직접 선택한 주제에 대해 분석, 보고하는 시간을 갖는다.
- 각자 스스로 데이터 분석을 할 수 있는 능력을 갖추는 것을 목표로 한다.
- 데이터 분석의 주요 도구 중 하나인 R의 사용법을 배운다.
이 강의 참석에 따른 의무사항은 다음과 같다.
- 학기말에 자신이 선택한 주제에 대해 분석, 보고서를 작성한다.
- 분석에 있어서는 어떤 종류의 데이터 분석을 한다.
이 강의 내용과 관련된 도서
- 이토 공이치로『데이터 분석의 힘 인과관계에 접근하는 사고법』光文社新書, 2017년
- 다카하시 마사노부『통계적 인과추론의 이론과 구현 잠재적 결과변수와 결측데이터』공립출판사, 2022년
- 니시야마 게이히코・신야 모토츠기・카와구치 대사・오쿠이 료(奥井亮)『계량경제학』유이카쿠(有斐閣), 2019년
- 林賢一・下平栄寿『R로 배우는 통계적 데이터 분석』講談社, 2020년
- 모리타 카츠키『실증분석 입문 - 데이터에서 '인과관계'를 읽어내는 법』일본 평론사, 2014년
- 山本勲『실증분석을 위한 계량경제학--올바른 방법과 결과를 읽는 법』中央経済社, 2015년
- 야스이 쇼타 『효과검증입문』기술평론사, 2020년
- Angrist, J. D., and J. Pischke. 2009. Mostly Harmless Econometrics. Princeton University Press. 위한 실증분석 가이드, 프린스턴대학교 출판부).
- Cunningham, S. 2021. Causal Inference Yale University Press (因果推論入門〜ミックステープ:基礎から現代的アプローチまで、技術評論社).
- James,G.,Witten,D., Hastie,T., and R.Tibshirani. 2013. An Introduction to Statistical Learning with Application in R. Springer. 에 의한 통계적 학습 입문, 아사쿠라 서점)
다룰 예정인 주제
- 인과 추론이란?
- 선형 회귀 모델
- 패널 분석
- 로지트 프로빗 모델
- Difference-in-Differences(차이의 차이)
- 경향성 점수 매칭
등
R이란?
- R 언어는 오픈소스이며 자유 소프트웨어의 통계분석을 위한 프로그래밍 언어 및 그 개발 실행 환경이다.
- R 언어는 뉴질랜드 오클랜드 대학교의 Ross Ihaka와 Robert Gentleman이 개발
- 현재는 R Development Core Team에 의해 유지보수 및 확장이 이루어지고 있다.
왜 R인가
- 엑셀에서 할 수 없는 기법을 쉽게 사용할 수 있다.
- 엑셀과 R을 함께 사용하여 효율적으로 분석할 수 있다.
- 프로그래밍을 공부할 수 있다
- 전 세계 통계학자들 사이에서 사실상의 표준
- 고기능이면서 무료!
- 그래픽 측면에서도 다양한 작업이 가능
※ 다른 선택지로는 Python, Julia 등이 있다.
R은 무료이기 때문에 쉽게 설치할 수 있습니다.
- 이 주소에서 http://www.r-project.org/
- 시작하기:
R은 통계 컴퓨팅 및 그래픽을 위한 무료 소프트웨어 환경입니다.
다양한 UNIX 플랫폼, Windows 및 MacOS에서 컴파일 및 실행됩니다.
R을 사용하기 위해 필수적인 것이 RStudio입니다.
- 이 주소에서 다운로드할 수 있습니다.
https://posit.co/download/rstudio-desktop/ - RStudio는 R용 통합 개발 환경(Integrated Development Environment, IDE)으로,
Console, 직접 코드 실행을 지원하는 구문 강조 편집기(Syntax-highlighing editor)는 물론
플로팅(Plotting), 히스토리, 디버깅 및 작업 공간 관리를 위한 도구가 포함되어 있습니다.
R로 그린 그림 :Fig 1
R로 그린 그림 :Fig 1
- 필요한 코드는
ggplot ( data = mpg )
+ geom_point ( mapping = aes ( x = displ , y = hwy ) )
R로 그린 그림: Fig 2
R로 그린 그림: Fig 2
- 필요한 코드는
ggplot ( data = mpg )
+ geom_point ( mapping = aes ( x = displ , y = hwy , shape = class ) )
실증분석에서 중요한 점
- 실증적 분석은 데이터를 통해 가설을 검증하는 분석을 의미한다.
- Research Question이 명확해야 한다.
→ 연구의 동기 : 논문의 Introduction이 된다. - '구체적인' 가설의 검증은 변수들 간의 인과관계를 Test하는 것을 의미한다.
- 인과관계는 이론적 Model로부터 도출되는 것
→ 실증에 있어서는 이론적 가설이 필요 - Model 없는 실증분석은 바람직하지 않음
예: Adhoc으로 변수를 바꿔가며 유의미한 결과가 나오는 추정 결과만 보여줌
실증적 분석을 행하기 위한 STEP
- 주제 설정: 무엇을 어디까지 밝힐 것인가?
- 선행연구 조사: 내가 하는 작업이 다른 분석에 비해 어떤 위치에 있는지를 파악한다.
- 데이터 수집: 가설을 테스트하기 위해 어떤 데이터가 필요한가?
- 글쓰기
구성의 결정
실증 논문의 구성
- Introduction: 공헌(밝힌 것)을 서술한다.
- 문헌조사 : 논문의 위치와 목적을 명확히 한다.
- 가설 설정
- 데이터 설명
- 분석과 그 결과
- 결론 및 향후 과제
- 참고 문헌
데이터를 이용한 분석 작성 절차
- 데이터를 어디서 얻었는지 명확하게 작성한다.
- 왜 그 데이터를 사용하는지, 그 이유도 기술한다.
- 데이터의 기술통계(평균, 표준편차 등)를 제시하여 표본의 특징을 대략적으로 파악한다.
- 평균값의 차이 검정 등을 통해 가설의 간단한 검증을 수행한다.
- 다양한 변수를 통제한 후 가설을 검증하기 위해 회귀분석 등을 수행한다.
데이터를 이용한 분석 작성 절차
- 특정 추정 모델만으로 얻은 결과가 아님을 보여주기 위해
변수를 교체하는 등 여러 추정 모델에서 유사한 결과를 얻을 수 있다는 것을 보여줌 - 회귀분석에서는 인과관계를 명확하게 테스트할 수 없는 경우가 많기 때문에
그 부분을 보완하기 위해 다른 방법도 함께 사용한다.
의식하는 Point
- 통계적으로 검증하는 가설은 무엇인가?
예) 다각화된 기업은 주가가 할인되어 있다. - 검증에 필요한 데이터는 무엇인가
예) 다각화된 기업을 표본으로 수집하기 위해 기업의 세그먼트 데이터를 수집한다. - 검증에 사용하는 통계적 기법은 무엇인가?
예) 다각화 기업의 초과기업가치를 다양한 지표(외국인 주식 보유비율 등)로 회귀분석
인과관계의 문제와 Self-Selection
- 실증적 분석에서 인과관계를 명확히 하는 것은 쉽지 않다.
- 누구나 쉽게 빠지기 쉬운, 그리고 완전히 해결할 수 없는 문제 중 하나가 Self-Selection의 문제이다.
- Self-Selection의 가능성을 무시하면 데이터를 잘못 해석할 위험이 크다.
질문
- 병원에서 치료를 받으면 건강상태가 좋아지는가
미국의 NHIS(National Health Interview Survey) 설문 조사(2005년 실시)
"당신은 지난 12개월 동안 병원에서 치료를 받은 적이 있습니까?"
"당신의 건강 상태는 1부터 5까지 중 어느 정도 수준입니까? (단, 1은 최악, 5는 최고)
미국 NHIS 설문조사(2005년 실시)
Sample | Sample 수 | Mean Health Status | Std.Error |
Hospital | 7,774 | 3.21 | 0.014 |
No Hospital | 90,049 | 3.93 | 0.003 |
Mean Health Status의 샘플 간 차이는 0.72, t값은 59.9로 나타났다.
잠재적 결론(Potential outcome)
- 병원에서 치료를 받은 경우를 1, 치료를 받지 않은 경우를 Zero
- i가 병원에 갔을 경우의 건강 상태를 Y₁ᵢ
- i가 병원에 가지 않은 경우의 건강상태를 Y₀ᵢ
(실제로 병원에 갔는지 여부가 아닌) - 잠재적 결과 Yᵢ = Y₁ᵢ If Dᵢ = 1
= Y₀ᵢ If Dᵢ = 0
잠재적 결론(Potential outcome)
Yi = Y₁ᵢ If Dᵢ = 1
Y₀ᵢ If Dᵢ = 0
= Y₀ᵢ + ( Y₁ᵢ - Y₀ᵢ ) Dᵢ
→ 병원 치료로 인한 건강 상태의 차이가 있는지 여부: 인과관계 검증
치료의 평균적인 효과
E [ Y₁ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 0 ]
병원에서 [치료를 받은 경우]와 [받지 않은 경우]를 비교한 효과
( 평균 치료 효과 : Average Treatment Effect ( ATE ) )
= E [ Y₁ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 1 ]
1) 치료받은 사람 중 평균 치료 효과 : Average Treatment Effect on the Treated ( ATT )
+ E [ Y₀ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 0 ]
2) Selection Bias
시술을 받은 사람 중 평균 시술 효과(ATT)
1) 치료를 받은 사람 중 평균 치료 효과(ATT)
병원에 온 사람이 실제로 치료를 받은 후의 건강 상태
E [ Y₁ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 1 ]
병원에 왔지만 치료를 받지 않은 경우에 발생할 수 있는 건강 상태
= E [ Y₁ᵢ - Y₀ᵢ | Dᵢ = 1 ]
Selection Bias
2) Selection Bias
병원에 온 사람 중 치료를 받지 않은 사람의 건강 상태
E [ Y₀ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 0 ]
병원에 오지 않은 사람 중 치료를 받지 않은 사람의 건강 상태
Selection Bias
'병원에 온 사람'과 '병원에 오지 않은 사람'의 건강 상태는 같을까?
보통은 '병원에 온 사람'의 건강상태가 상대적으로 나쁘지 않을까?
만약 이 추측이 맞다면,
Selection Bias의 영향
2) Selection Bias의 영향
E [ Y₁ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 0 ]
= E [ Y₁ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 1 ]
+ E [ Y₀ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 0 ]
이 부분이 마이너스가 된다
→ 병원에 가는 것의 효과가 과소 평가될 가능성
랜덤화 비교실험(Randomized Control Trial:RCT)
- 병원에 갈 사람을 완전히 '무작위'로 결정하면 지금까지의 논의에 어떤 영향을 미칠까(random assignment)?
- 랜덤으로 결정한다는 것은 자신의 의지로 병원에 갈지 말지를 결정하는 것이 아님
: 건강상태와 상관없이 추첨에 당첨된 사람만 병원에 갈 수 있다.
→ 이 경우, 건강상태(Y)가 D(병원에 갈지 여부의 의사결정)와 독립적인 관계가 되므로 Selection Bias가 없어진다.
무작위(랜덤) 배정의 효과
Random으로 병원에 갈 수 있는 사람이 결정되는 것은
E [ Y₀ᵢ | Dᵢ = 1 ] = E [ Y₀ᵢ | Dᵢ = 0 ] = E [ Y₀ᵢ ]
를 의미함으로, Selection Bias는
E [ Y₀ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 0 ] = 0
무작위(랜덤) 배정의 효과
E [ Y₁ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 0 ]
= E [ Y₁ᵢ | Dᵢ = 1 ] - E [ Y₀ᵢ | Dᵢ = 1 ]
= E [ Y₁ᵢ - Y₀ᵢ | Dᵢ = 1 ]
= E [ Y₁ᵢ - Y₀ᵢ ]
RCT를 통해 무작위 배정하면 '진정한 치료 효과'를 평가할 수 있다.
랜덤화 비교 실험(Randomized Control Trial:RCT)
- 병원에 [갈 수 있는 사람]과 [갈 수 없는 사람]을 무작위로 두 그룹으로 나누어
그 두 그룹을 비교하는 실험 방법을 랜덤화 비교실험(Randomized Control Trial: RCT)이라고 한다. - 앤드류 리 『RCT 대전-랜덤화 비교시험은 세상을 어떻게 변화시켰는가』미스즈서방, 2020
에 다양한 사례가 소개되어 있다.
- 기업경제학과 관련된 많은 실증분석에서 RTC는 불가능하다.
→재무 데이터 등이나 주가 등 '관찰되는 데이터'는 선택 편향이 존재할 가능성이 높다고 생각할 필요가 있다.
'WBS - 2023 Fall > 기업경제학 연습' 카테고리의 다른 글
(기업경제 #9) Matching (0) | 2023.12.06 |
---|---|
(기업경제 #8) 로지트 모델(Logit Model)과 프로빗 모델(Probit Model) (0) | 2023.11.29 |
(기업경제 #7) DID | Difference-in-Difference (차이의 차이 분석) (0) | 2023.11.16 |
(기업경제 #6) 패널 분석 (Panel data analysis) (0) | 2023.11.09 |
(기업경제 #5) 더미 변수를 이용한 분석 (0) | 2023.11.02 |
(기업경제 #4) 이상치 처리 | 선형 회귀 모델(2) (0) | 2023.10.26 |
(기업경제 #3) 선형회귀 Model (0) | 2023.10.19 |
(기업경제 #2) (0) | 2023.10.12 |