본문 바로가기
WBS - 2023 Fall/기업경제학 연습

(기업경제 #1)

by fastcho 2023. 10. 5.
반응형

기업경제학 실습: 제1회
蟻川靖浩

기업경제학 실습: 제1회 蟻川靖浩

 

이 과목에 대해

  • 기업금융 및 기업지배구조 분야에서 사용되는 실증분석 기법에 대한 해설을 제공한다.
  • 참가자가 직접 선택한 주제에 대해 분석, 보고하는 시간을 갖는다.
  • 각자 스스로 데이터 분석을 할 수 있는 능력을 갖추는 것을 목표로 한다.
  • 데이터 분석의 주요 도구 중 하나인 R의 사용법을 배운다.

이 과목에 대해

 

이 강의 참석에 따른 의무사항은 다음과 같다.

  • 학기말에 자신이 선택한 주제에 대해 분석, 보고서를 작성한다.
  • 분석에 있어서는 어떤 종류의 데이터 분석을 한다.

이 강의 참석에 따른 의무사항은 다음과 같다.

 

이 강의 내용과 관련된 도서

  • 이토 공이치로『데이터 분석의 힘 인과관계에 접근하는 사고법』光文社新書, 2017년
  • 다카하시 마사노부『통계적 인과추론의 이론과 구현 잠재적 결과변수와 결측데이터』공립출판사, 2022년
  • 니시야마 게이히코・신야 모토츠기・카와구치 대사・오쿠이 료(奥井亮)『계량경제학』유이카쿠(有斐閣), 2019년
  • 林賢一・下平栄寿『R로 배우는 통계적 데이터 분석』講談社, 2020년
  • 모리타 카츠키『실증분석 입문 - 데이터에서 '인과관계'를 읽어내는 법』일본 평론사, 2014년
  • 山本勲『실증분석을 위한 계량경제학--올바른 방법과 결과를 읽는 법』中央経済社, 2015년
  • 야스이 쇼타 『효과검증입문』기술평론사, 2020년
  • Angrist, J. D., and J. Pischke. 2009. Mostly Harmless Econometrics. Princeton University Press. 위한 실증분석 가이드, 프린스턴대학교 출판부).
  • Cunningham, S. 2021. Causal Inference Yale University Press (因果推論入門〜ミックステープ:基礎から現代的アプローチまで、技術評論社).
  • James,G.,Witten,D., Hastie,T., and R.Tibshirani. 2013. An Introduction to Statistical Learning with Application in R. Springer. 에 의한 통계적 학습 입문, 아사쿠라 서점)

이 강의 내용과 관련된 도서

 

다룰 예정인 주제

  • 인과 추론이란?
  • 선형 회귀 모델
  • 패널 분석
  • 로지트 프로빗 모델
  • Difference-in-Differences(차이의 차이)
  • 경향성 점수 매칭

다룰 예정인 주제

 

 

 

R이란?

  • R 언어는 오픈소스이며 자유 소프트웨어의 통계분석을 위한 프로그래밍 언어 및 그 개발 실행 환경이다. 
  • R 언어는 뉴질랜드 오클랜드 대학교의 Ross Ihaka와 Robert Gentleman이 개발
  • 현재는 R Development Core Team에 의해 유지보수 및 확장이 이루어지고 있다.

R이란?

 

 

 

왜 R인가 

  • 엑셀에서 할 수 없는 기법을 쉽게 사용할 수 있다. 
  • 엑셀과 R을 함께 사용하여 효율적으로 분석할 수 있다. 
  • 프로그래밍을 공부할 수 있다 
  • 전 세계 통계학자들 사이에서 사실상의 표준 
  • 고기능이면서 무료! 
  • 그래픽 측면에서도 다양한 작업이 가능 

※ 다른 선택지로는 Python, Julia 등이 있다.

왜 R인가

 

R은 무료이기 때문에 쉽게 설치할 수 있습니다.

  • 이 주소에서 http://www.r-project.org/
  • 시작하기: 
    R은 통계 컴퓨팅 및 그래픽을 위한 무료 소프트웨어 환경입니다. 
    다양한 UNIX 플랫폼, Windows 및 MacOS에서 컴파일 및 실행됩니다.

R은 무료이기 때문에 쉽게 설치할 수 있습니다.

 

 

R을 사용하기 위해 필수적인 것이 RStudio입니다.

  • 이 주소에서 다운로드할 수 있습니다.
    https://posit.co/download/rstudio-desktop/

  • RStudio는 R용 통합 개발 환경(Integrated Development Environment, IDE)으로,
    Console, 직접 코드 실행을 지원하는 구문 강조 편집기(Syntax-highlighing editor)는 물론 
    플로팅(Plotting), 히스토리, 디버깅 및 작업 공간 관리를 위한 도구가 포함되어 있습니다.

R을 사용하기 위해 필수적인 것이 RStudio입니다.

 

 

R로 그린 그림 :Fig 1

R로 그린 그림 :Fig 1

 

R로 그린 그림 :Fig 1

 

  • 필요한 코드는
ggplot ( data = mpg )
+ geom_point ( mapping = aes ( x = displ , y = hwy ) )

R로 그린 그림 :Fig 1

 

 

R로 그린 그림: Fig 2

R로 그린 그림: Fig 2

 

 

 

R로 그린 그림: Fig 2

  • 필요한 코드는
ggplot ( data = mpg )
+ geom_point ( mapping = aes ( x = displ , y = hwy , shape = class ) )

R로 그린 그림: Fig 2

 

 

실증분석에서 중요한 점

  • 실증적 분석은 데이터를 통해 가설을 검증하는 분석을 의미한다. 
  • Research Question이 명확해야 한다. 
    → 연구의 동기 : 논문의 Introduction이 된다. 
  • '구체적인' 가설의 검증은 변수들 간의 인과관계를 Test하는 것을 의미한다. 
  • 인과관계는 이론적 Model로부터 도출되는 것
    → 실증에 있어서는 이론적 가설이 필요 
  • Model 없는 실증분석은 바람직하지 않음 
    예: Adhoc으로 변수를 바꿔가며 유의미한 결과가 나오는 추정 결과만 보여줌

실증적 분석으로 중요한 점

 

 

실증적 분석을 행하기 위한 STEP

  • 주제 설정: 무엇을 어디까지 밝힐 것인가? 
  • 선행연구 조사: 내가 하는 작업이 다른 분석에 비해 어떤 위치에 있는지를 파악한다. 
  • 데이터 수집: 가설을 테스트하기 위해 어떤 데이터가 필요한가? 
  • 글쓰기

실증적 분석을 행하기 위한 STEP

 

 

구성의 결정

실증 논문의 구성 

  1. Introduction: 공헌(밝힌 것)을 서술한다.
  2. 문헌조사 : 논문의 위치와 목적을 명확히 한다.
  3. 가설 설정
  4. 데이터 설명
  5. 분석과 그 결과
  6. 결론 및 향후 과제
  7. 참고 문헌

구성의 결정

 

 

데이터를 이용한 분석 작성 절차

  • 데이터를 어디서 얻었는지 명확하게 작성한다. 
  • 왜 그 데이터를 사용하는지, 그 이유도 기술한다. 
  • 데이터의 기술통계(평균, 표준편차 등)를 제시하여 표본의 특징을 대략적으로 파악한다. 
  • 평균값의 차이 검정 등을 통해 가설의 간단한 검증을 수행한다. 
  • 다양한 변수를 통제한 후 가설을 검증하기 위해 회귀분석 등을 수행한다.

데이터를 이용한 분석 작성 절차

 

데이터를 이용한 분석 작성 절차

  • 특정 추정 모델만으로 얻은 결과가 아님을 보여주기 위해 
    변수를 교체하는 등 여러 추정 모델에서 유사한 결과를 얻을 수 있다는 것을 보여줌
  • 회귀분석에서는 인과관계를 명확하게 테스트할 수 없는 경우가 많기 때문에
    그 부분을 보완하기 위해 다른 방법도 함께 사용한다.

데이터를 이용한 분석 작성 절차

 

의식하는 Point

  • 통계적으로 검증하는 가설은 무엇인가? 
    예) 다각화된 기업은 주가가 할인되어 있다. 
  • 검증에 필요한 데이터는 무엇인가 
    예) 다각화된 기업을 표본으로 수집하기 위해 기업의 세그먼트 데이터를 수집한다. 
  • 검증에 사용하는 통계적 기법은 무엇인가? 
    예) 다각화 기업의 초과기업가치를 다양한 지표(외국인 주식 보유비율 등)로 회귀분석

의식하는 Point

 

인과관계의 문제와 Self-Selection

  • 실증적 분석에서 인과관계를 명확히 하는 것은 쉽지 않다. 
  • 누구나 쉽게 빠지기 쉬운, 그리고 완전히 해결할 수 없는 문제 중 하나가 Self-Selection의 문제이다. 
  • Self-Selection의 가능성을 무시하면 데이터를 잘못 해석할 위험이 크다.

인과관계의 문제와 Self-Selection

 

질문

  • 병원에서 치료를 받으면 건강상태가 좋아지는가 
    미국의 NHIS(National Health Interview Survey) 설문 조사(2005년 실시) 
    "당신은 지난 12개월 동안 병원에서 치료를 받은 적이 있습니까?" 
    "당신의 건강 상태는 1부터 5까지 중 어느 정도 수준입니까? (단, 1은 최악, 5는 최고)

질문

 

 

미국 NHIS 설문조사(2005년 실시)

Sample Sample 수 Mean Health Status Std.Error
Hospital 7,774 3.21 0.014
No Hospital 90,049 3.93 0.003

Mean Health Status의 샘플 간 차이는 0.72, t값은 59.9로 나타났다.

 

인과관계의 검증의 어려움을 생각하다

 

 

잠재적 결론(Potential outcome)

  • 병원에서 치료를 받은 경우를 1, 치료를 받지 않은 경우를 Zero  
  • i가 병원에 갔을 경우의 건강 상태를 Y₁ᵢ 
  • i가 병원에 가지 않은 경우의 건강상태를 Y₀ᵢ
    (실제로 병원에 갔는지 여부가 아닌)
  • 잠재적 결과 Yᵢ = Y If Dᵢ = 1 
                            = Y If Dᵢ = 0 

잠재적 결론(Potential outcome)

 

 

 

잠재적 결론(Potential outcome)

Yi = Y  If Dᵢ = 1
       Y  If Dᵢ = 0
    = Y + ( Y - Y ) Dᵢ
                → 병원 치료로 인한 건강 상태의 차이가 있는지 여부: 인과관계 검증

잠재적 결론(Potential outcome)

 

 

치료의 평균적인 효과

E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ  = 0
병원에서 [치료를 받은 경우]와 [받지 않은 경우]를 비교한 효과
( 평균 치료 효과 : Average Treatment Effect ( ATE ) )
= E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 1
1) 치료받은 사람 중 평균 치료 효과 : Average Treatment Effect on the Treated ( ATT )

+ E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 0
2) Selection Bias

 

치료의 평균적인 효과

 

 

시술을 받은 사람 중 평균 시술 효과(ATT)

1) 치료를 받은 사람 중 평균 치료 효과(ATT)

병원에 온 사람이 실제로 치료를 받은 후의 건강 상태
E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 1 ]
병원에 왔지만 치료를 받지 않은 경우에 발생할 수 있는 건강 상태

= E [ Y - Y | Dᵢ = 1 ]

시술을 받은 사람 중 평균 시술 효과(ATT)

 

Selection Bias

2) Selection Bias

병원에 온
 사람 중 치료를 받지 않은 사람의 건강 상태
E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 0 
병원에 오지 않은 사람 중 치료를 받지 않은 사람의 건강 상태

Selection Bias

 

 

Selection Bias

'병원에 온 사람'과 '병원에 오지 않은 사람'의 건강 상태는 같을까? 
보통은 '병원에 온 사람'의 건강상태가 상대적으로 나쁘지 않을까? 
만약 이 추측이 맞다면,

Selection Bias

 

 

Selection Bias의 영향

2) Selection Bias의 영향 

E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 0 ]
= E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 1
+ E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 0 ]
이 부분이 마이너스가 된다 
병원에 가는 것의 효과가 과소 평가될 가능성

Selection Bias의 영향

 

 

랜덤화 비교실험(Randomized Control Trial:RCT)

  • 병원에 갈 사람을 완전히 '무작위'로 결정하면 지금까지의 논의에 어떤 영향을 미칠까(random assignment)? 
  • 랜덤으로 결정한다는 것은 자신의 의지로 병원에 갈지 말지를 결정하는 것이 아님
    : 건강상태와 상관없이 추첨에 당첨된 사람만 병원에 갈 수 있다. 
    → 이 경우, 건강상태(Y)가 D(병원에 갈지 여부의 의사결정)와 독립적인 관계가 되므로 Selection Bias가 없어진다.

랜덤화 비교실험(Randomized Control Trial:RCT)

 

 

무작위(랜덤) 배정의 효과

Random으로 병원에 갈 수 있는 사람이 결정되는 것은
E [ Y | Dᵢ = 1 ] = E [ Y | Dᵢ = 0 ] = E [ Y ]
를 의미함으로, Selection Bias
E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 0 ] = 0

무작위(랜덤) 배정의 효과

 

 

무작위(랜덤) 배정의 효과

E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 0 ]
= E [ Y | Dᵢ = 1 ] - E [ Y | Dᵢ = 1 ]
= E [ Y - Y | Dᵢ = 1 ]
= E [ Y - Y ]
RCT를 통해 무작위 배정하면 '진정한 치료 효과'를 평가할 수 있다.

무작위(랜덤) 배정의 효과

 

 

 

랜덤화 비교 실험(Randomized Control Trial:RCT)

  • 병원에 [갈 수 있는 사람]과 [갈 수 없는 사람]을 무작위로 두 그룹으로 나누어
    그 두 그룹을 비교하는 실험 방법을 랜덤화 비교실험(Randomized Control Trial: RCT)이라고 한다. 
  • 앤드류 리 『RCT 대전-랜덤화 비교시험은 세상을 어떻게 변화시켰는가』미스즈서방, 2020
    에 다양한 사례가 소개되어 있다.

랜덤화 비교 실험(Randomized Control Trial:RCT)

 

 

  • 기업경제학과 관련된 많은 실증분석에서 RTC는 불가능하다. 
    →재무 데이터 등이나 주가 등 '관찰되는 데이터'는 선택 편향이 존재할 가능성이 높다고 생각할 필요가 있다.

반응형