본문 바로가기
WBS - 2023 Winter/기업 데이터 분석

(기업데이터 #11-12) 더미 변수, 교차항, 로지스틱 회귀 분석

by fastcho 2024. 1. 20.
반응형

기업 데이터 분석 가을학기
11, 12회 더미변수, 교차항, 로지스틱 회귀분석 2024년 1월 20일(토)
상학학술원 비즈니스금융연구센터 오노 카오리
Email: kaori.ono@aoni.waseda.jp

 

 

연습문제 3
회귀분석을 통해 가설을 검증해 봅시다.

 

가설
에너지 소비량은 그 나라의 부의 정도에 따라 결정되지 않을까?

 

데이터 정부 통계

  • 국내총생산(GDP)
  • 1인당 에너지 소비량

설명변수를 추가해 보자.

 

 

 

단계

  1. 데이터 수집, 정리
    예: World Bank, EIA (Energy Information Administration), 환경부...등...
  2. 산포도 그리기
  3. 다중회귀분석의 경우, 설명변수 간의 상관관계 분석을 한다.
  4. 회귀분석을 실시한다.
  5. 결과 해석

 

 

 

 

 

 

 


 

 

 

더미 변수

 

지금까지의 설명변수는 모두 수량

  • 전용면적
  • 건축연령
  • 매출액
  • ROA
  • 근속연수...

정량적 변수는 연속적 변수
     얼마나 큰지 작은지를 나타낸다.

 

◆ 수치로 표현할 수 없는 '정성적' 요인을 회귀분석에 도입하여 영향력 검증도 가능

 

 

  • 질적 변수의 예
    • 남녀 등 성별
    • 혈액형
    • 일본인과 미국인
    • 남향 또는 북향
    • 거주 지역
    • 기업이 속한 산업(건설업, 운수・통신, 상업, 금융・보험・부동산업...) ...

⇒ 이산적 변수

 

  • 비슷한 설명변수라도 양적과 질적으로 나뉜다.
    • 정량적 : 교육연수
    • 질적 : 중졸, 고졸, 대졸, 대학원 졸업

 

 

질적 설명변수의 종류

  • 이분법적 정보(예: 남녀, 하고 있다/하지 않고 있다)
  • 순차적 정보(예: 중졸, 고졸, 대졸)
  • 비순차적 정보(예: 도도부현)
질적설명변수
X
종속변수
Y

더미변수(Dummy Variable) 사용

 

 

더미 변수가 바이너리

  • 질적 요인을 분석하는 경우, 대부분 이항(0 또는 1)의 형태로 변수화

예시

  • 남성/여성
  • '있다/없다', '하고 있다/하지 않는다' → 0 or 1
    • 스톡옵션을 도입하고 있다/하지 않고 있다
    • 남성 직원에 대한 육아휴직 제도가 있다・없다
    • 해외 진출 시 M&A를 하고 있다・하고 있지 않다
  • 변수화
1. 남성 = 1, 여성 = 0 어느 쪽이든 상관없다
둘 다 넣지 않음(다중공선성)
여성 + 남성 = 1
더미 변수를 입력하는 것을 
'베이스 그룹'이라고 합니다.
2. 여성 = 1, 남성 = 0

 

 

 

예: 성별이 임금에 영향을 미치는지 여부

𝑚𝑤𝑎𝑔𝑒 = 𝛽₀ + 𝛽₁𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢
       𝑚𝑤𝑎𝑔𝑒 : 월 급여
       𝑓𝑒𝑚𝑎𝑙𝑒 : = 1 (여성) = 0 (남성)
       𝑡𝑒𝑛𝑢𝑟𝑒 : 근속연수
       𝑢 : 오차항
여기서 𝛽₁은 𝑓𝑒𝑚𝑎𝑙𝑒의 계수이다.

 

* 남성 = 1, 여성 = 0의 남성 더미로도 문제없다.

 

 

𝑚𝑤𝑎𝑔𝑒 = 𝛽₀ + 𝛽₁𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢

 

𝑓𝑒𝑚𝑎𝑙𝑒 = 0 즉, 남자
𝑚𝑤𝑎𝑔𝑒 = 𝛽₀ + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒

 

𝑓𝑒𝑚𝑎𝑙𝑒 = 1
𝑚𝑤𝑎𝑔𝑒 = 𝛽₀ + 𝛽₁ + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒

 

𝛽1은 다른 요인을 통일했을 때 월 급여의 남녀 차이

 

→ 성차별이 있다

 

 

여성 = 1, 남성 = 0의 여성 더미

 

 

여성 = 1
𝑚𝑤𝑎𝑔𝑒 = 𝛽₀ + 𝛽₁𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒

 

남성 = 0
𝑚𝑤𝑎𝑔𝑒 = 𝛽₀ + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒

절편(상수항)이 이동: 남성과 여성에서 절편이 다르다.

 

 

더미 변수를 거꾸로 한 경우
𝑚𝑤𝑎𝑔𝑒 = 𝛼₀ + 𝛾₀𝑚𝑎𝑙𝑒 + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢
여성 = 0
𝑚𝑤𝑎𝑔𝑒 = 𝛼₀ + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒
남성 = 1
𝑚𝑤𝑎𝑔𝑒 = 𝛼₀ + 𝛾₀ + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒
→ 여성 상수항 = 𝛼₀, 남성 상수항 = 𝛼₀ + 𝛾₀
표현은 다르지만 같은 것

 

 

 

확인: 더미 변수

 

 

 

더미 변수가 여러 개
카테고리가 두 개 이상일 경우 더미 변수화

 

예: 교육수준
카테고리 : 고졸 미만, 고졸, 대졸 이상

JH 1 고졸미만 HI 1 고졸 UN 1 대졸이상
0 고졸, 대졸이상 0 고졸미만, 대졸이상 0 고졸미만, 고졸
  •  반드시 더미변수 중 하나는 1의 값을 취하고, 다른 더미변수는 0의 값을 취한다.
    → 𝐽𝐻 + 𝐻 + 𝑈𝑁 = 1 이 성립한다.

 

 

  • 카테고리가 2개 이상일 경우, 카테고리 수보다 1개 적은 종류의 더미변수 도입

원래 식 𝑚𝑤𝑎𝑔𝑒 = 𝑎 + 𝛿₀𝑓𝑒𝑚𝑎𝑙𝑒 +  𝛽₁𝑒𝑑𝑢𝑐  + 𝑢

 

어느 두 개만 : HI와 UN
                        𝑚𝑤𝑎𝑔𝑒 = 𝑎 + 𝛿₀𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₁HI + 𝛽₂𝑈𝑁 + 𝑢
기준그룹 = 고졸 미만

 

* 모형에 3개의 더미변수를 넣을 수 없음.

  완전한 다중공선성(설명변수 간 높은 상관관계가 발생하여 분석이 불안정해짐)이 발생하기 때문이다.

회답자No 교육수준   교육수준    
1 대졸이상   고졸미만 고졸 대졸이상
2 고졸미만   0 1 0
3 고졸        

 

 

𝑚𝑤𝑎𝑔𝑒 = 𝑎₀ + 𝛿₀𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽1HI + 𝛽2𝑈𝑁 + 𝑢

  • 고졸 미만 : 𝑚𝑤𝑎𝑔𝑒 (𝑓𝑒𝑚𝑎𝑙𝑒, 𝐻I=0, 𝑈𝑁=0)= 𝑎₀ + 𝛿₀ 𝑓𝑒𝑚𝑎𝑙𝑒
  • 고졸 : 𝑚𝑤𝑎𝑔𝑒 (𝑓𝑒𝑚𝑎𝑙𝑒, 𝐻I=1, 𝑈𝑁=0)= 𝑎₀ + 𝛽₁ + 𝛿₀ 𝑓𝑒𝑚𝑎𝑙𝑒
  • 대졸 이상 : 𝑚𝑤𝑎𝑔𝑒 (𝑓𝑒𝑚𝑎𝑙𝑒, 𝐻I=0, 𝑈𝑁=1) = 𝑎₀ + 𝛽₂ + 𝛿₀ 𝑓𝑒𝑚𝑎𝑙𝑒

해석 방법

  • 𝛽₁은 '고졸자의 월급이 기준 그룹인 고졸 미만자에 비해 평균적으로 얼마나 높은지(낮은지)'를 나타낸다.
  • 𝛽₂는 '기준 그룹인 고졸 미만인 사람에 비해 대졸 이상 사람의 월급이 평균적으로 얼마나 높은지(낮은지)'를 묻는 것이다.
    𝑚𝑤𝑎𝑔𝑒 = 238.2 - 67.7𝑓𝑒𝑚𝑎𝑙𝑒 + 0.03HI + 0.11𝑈𝑁

 

 

 

연습문제1 : 내점고객의 특성

  • '고객특성.csv' 파일을 이용하여, 내점고객의 특성을 엑셀 등으로 분석해 보세요.
  • 결과에 대해 해석을 추가해 보세요.
  1. 더미 변수로 변환 → IF 함수
    * 일요일을 베이스 그룹으로 설정
    * 모델에 모든 더미를 넣을 수 없음 → 삭제
  2. 회귀분석을 실행합

 

 

 

 

 

연습2 : 정답

자녀의 수가 구매 금액에 가장 큰 영향을 미친다.

 

 

 

 

서수를 나타내는 더미 변수

서수란? 단순히 순서(서수)를 나타내는 것

 

예1
교육수준
고졸 미만(가장 작음), 고졸(두 번째로 큼), 대졸 이상(더 큼 = 세 번째)

 

예2
설문지에서 사람의 '신체적 매력'을 5단계로 평가해 주십시오. (1, 2, 3, 4, 5)

 

논문에 사용된 실제 데이터에 의한 더미 변수의 예시.

"육체적 매력이 노동시장에서 유리하게 작용하는지 여부."

 

  • 조사자가 표본의 사람을 신체적 매력에 대해 5단계로 평가함.
    평범함(1)
    아주 평범하다(2)
    평균(3)
    잘생겼다(4)
    눈에 띄게 아름답거나 잘생겼다(5)
  • 이 신체적 매력의 서수적 변수(𝐿𝑂𝑂𝐾𝑆) 외에 임금(𝑊𝐴𝐺𝐸), 교육수준(𝐸𝐷𝑈𝐶), 노동시장 경력(𝐸𝑋𝑃𝐸𝑅) 등의 변수가 데이터에 포함돼 있다.

 

 

더미 변수 설정 예시

L1 1 평범 L2 1 아주 평범 L3 1 평균 L4 1 잘생김 L5 1 매우 매력
0 그외 0 그외 0 그외 0 그외 0 그외

ln 𝑊𝐴𝐺𝐸 = 𝛽₀ + 𝛽₁𝐿₂ + 𝛽₂𝐿₃ + 𝛽₃𝐿₄ + 𝛽₄𝐿₅ + ⋯

 

빈도 분포와 교차집계를 생성하여 더미 변수의 값을 이해합니다.

  0 1 Total
1 8 5 13
2 88 54 142
3 489 233 722
4 228 136 364
5 11 8 19
Total 824 436 1,260

특정 카테고리가 적은 경우
예시
homely와 quite plain을 묶어서 → below average 카테고리
good looking과 strikingly beautiful을 묶어서 → above average 카테고리

 

 

3개의 카테고리 중 𝐴𝑉𝐸𝑅𝐴𝐺𝐸를 베이스 카테고리로 설정
ln 𝑊𝐴𝐺𝐸 = 𝛽₀ + 𝛽₁𝐵𝐸𝐿𝐴𝑉𝐺 + 𝛽₂𝐴𝐵𝑉𝐴𝑉𝐺 + ⋯

 

  • 𝛽₁의 해석은 "𝐴𝑉𝐸𝑅𝐴𝐺𝐸의 사람에 비해서, 𝐵𝐸𝐿𝑂𝑊 𝐴𝑉𝐸의 사람의 임금은..."
  • 𝛽₂의 해석은 "𝐴𝑉𝐸𝑅𝐴𝐺𝐸의 사람에 비해서, 𝐴𝐵𝐵𝑂𝑂𝑉𝐸 𝐴𝑉𝐸의 사람의 임금은..."

 

 

"신체적 매력이 노동시장에서 유리하게 작용하는지 여부."
'𝐴𝐵𝑉𝐴𝑉𝐺의 계수는 0이다'라는 귀무가설은 10% 수준에서 기각할 수 없다.

 

 

교차항

 

𝑚𝑤𝑎𝑔𝑒 = 𝛽₀ + 𝛽₁𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₂𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢
이 공식이 의미하는 것은 남성이든 여성이든 근속연수가 월급에 미치는 영향은 𝛽₂로 일정하다는 것이다.

 

과연 그럴까?
근속연수에 따라 여성의 임금도 남성과 같은 상승폭을 유지할 수 있을까?

 

'근속연수가 급여에 미치는 효과는 성별에 따라 달라질 수 있다'는 가능성을 생각해 볼 수 있다.

 

이 공식은 이 가능성을 배제하고 있다.

 

 

X₁ Y

 

X₁ Y
 
X₂
 

𝑋₁ = 근속연수
𝑋₂ = 성별
Y = 월별 수당

"설명변수 𝑋₁이 종속변수 Y 에 미치는 영향은 다른 설명변수 𝑋₂의 값에 따라 달라진다"

 

 

교차항(상호작용항)
설명변수 𝑋₁이 종속변수 𝑌에 미치는 영향에서 Z에 의존한다.

𝑋₁ 설명변수 𝑌 종속변수
 
Z 조정변수
 
조정 변수(Moderator)
연속변수든 더미변수든 상관없습니다.
설명변수와 조정변수를 곱한 Z・𝑋₁ = 𝑋₂ 설명변수

𝑋₁ = 근속연수
𝑋₂ = 성별
Y = 월별 수당

 

예시

  • 성별에 따라 교육연수와 임금의 변화가 다르다.
  • CEO가 창업자인 기업에서는 실적 악화가 직원 감축에 미치는 영향이 적다.

 

 

 

남성과 여성은 근속연수가 높아질수록 격차가 확대된다는 가설을 세웠을 경우
⇒ 교차항 (설명변수 x 설명변수 → 또 다른 변수 생성)
              𝑚𝑤𝑎𝑔𝑒 = 𝑎₀ + 𝛽₁𝑡𝑒𝑛𝑢𝑟𝑒 + 𝛽₂𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₃ 𝑓𝑒𝑚𝑎𝑙𝑒 x 𝑡𝑒𝑛𝑢𝑟𝑒  + 𝑢
"근속연수가 월급에 미치는 영향은 성별에 따라 달라질 수 있다." 가능성을 고려할 수 있다.

 

 

𝑚𝑤𝑎𝑔𝑒 = 𝑎₀ + 𝛽₁𝑡𝑒𝑛𝑢𝑟𝑒 + 𝛽₂𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₃𝑓𝑒𝑚𝑎𝑙𝑒 x 𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢

 

더미변수 : 여성 = 1, 남성 = 0
남성: 𝑚𝑤𝑎𝑔𝑒 = 𝑎₀ + 𝛽₁𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢
여성: 𝑚𝑤𝑎𝑔𝑒 = 𝑎₀ + 𝛽₁𝑡𝑒𝑛𝑢𝑟𝑒 + 𝛽₂ + 𝛽₃ 𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢
                      = (𝑎₀ + 𝛽₂) + ( 𝛽₁ + 𝛽₃ ) 𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢

𝑡𝑒𝑛𝑢𝑟𝑒가 월급에 미치는 영향은 남성은 𝛽₁, 여성은 𝛽₁ + 𝛽₃
교차항의 계수 𝛽₃은 근속년수 효과의 남녀 차이를 포착하는 계수

 

처음부터 남녀 격차가 있었고, 근속연수에 따라 그 차이가 커졌다.

𝑚𝑤𝑎𝑔𝑒 = 𝑎₀ + 𝛽₁𝑡𝑒𝑛𝑢𝑟𝑒 + 𝛽₂𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₃𝑓𝑒𝑚𝑎𝑙𝑒 x 𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢

남성: 𝑚𝑤𝑎𝑔𝑒 = 𝑎₀ + 𝛽₁𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢
여성: 𝑚𝑤𝑎𝑔𝑒 = 𝑎₀ + 𝛽₁𝑡𝑒𝑛𝑢𝑟𝑒 + 𝛽₂ + 𝛽₃𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢
                      = (𝑎₀ + 𝛽₂) + (𝛽₁ + 𝛽₃) 𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢

 

교차항의 종류

  1. X₁이 연속 변수, X₂가 더미 변수
    예시 𝑋₁ = 근속연수, X₂ = 성별
  2. X₁이 더미 변수, X₂도 더미 변수
  3. X₁이 연속 변수, X₂도 연속 변수 

 

② X1 이 더미변수이고, X2도 더미변수이다.

Y = 𝛽₀ + 𝛽₁𝑑𝑢𝑚𝑚𝑦₁1 + 𝛽₂𝑑𝑢𝑚𝑚𝑦2 + 𝛽₃(𝑑𝑢𝑚𝑚𝑦1 x 𝑑𝑢𝑚𝑚𝑦2) + 𝑢

 

예: 외모(𝑑𝑢𝑚𝑚𝑦2)가 임금(Y)에 미치는 영향은 성별(𝑑𝑢𝑚𝑚𝑦1)에 따라 달라진다.
       Y = 𝛽₀ + 𝛽₁ 성별 + 𝛽₂ 외모 + 𝛽₃(성별 x 외모)

 

  • 성별(𝑑𝑢𝑚𝑚𝑦1): 여성 더미 = 1, 남성 = 0
  • 외모(𝑑𝑢𝑚𝑚𝑦2): 외모 평균 미만=1, 외모 평균 이상=0

 

 

 

Y = 𝛽₀ + 𝛽₁𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₂𝐵𝐸𝐿𝐴𝑉𝐺 + 𝛽₃(𝑓𝑒𝑚𝑎𝑙𝑒 x 𝐵𝐸𝐿𝐴𝑉𝐺) + 𝑢
남성

  • 외모 평균 이상 : 𝑓𝑒𝑚𝑎𝑙𝑒 = 0, 𝐵𝐸𝐿𝐴𝑉𝐺 = 0 → 𝛽₀
  • 외모 평균 미만: 𝑓𝑒𝑚𝑎𝑙𝑒 = 0, 𝐵𝐸𝐿𝐴𝑉𝐺 = 1 → 𝛽₀ +  𝛽₂ 

남성의 경우, 외모가 평균 이하일 경우 효과 =  𝛽₂ 

 

 

Y = 𝛽₀ + 𝛽₁𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₂𝐵𝐸𝐿𝐴𝑉𝐺 + 𝛽₃(𝑓𝑒𝑚𝑎𝑙𝑒 x 𝐵𝐸𝐿𝐴𝑉𝐺) + 𝑢

 

여성

  • 외모 평균 이상 : 𝑓𝑒𝑚𝑎𝑙𝑒 = 1, 𝐵𝐸𝐿𝐴𝑉𝐺 = 0 → 𝛽₀ + 𝛽₁
  • 외모 평균 미만: 𝑓𝑒𝑚𝑎𝑙𝑒 = 1, 𝐵𝐸𝐿𝐴𝑉𝐺 = 1 → 𝛽₀ + 𝛽₁ +  𝛽₂ + 𝛽₃ 

여성의 경우, 외모가 평균 이하인 효과 =  𝛽₂ + 𝛽₃ 

 

Y = 𝛽₀ + 𝛽₁𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽₂𝐵𝐸𝐿𝐴𝑉𝐺 + 𝛽₃(𝑓𝑒𝑚𝑎𝑙𝑒 x 𝐵𝐸𝐿𝐴𝑉𝐺) + 𝑢

남성

  • 외모 평균 이상 : 𝑓𝑒𝑚𝑎𝑙𝑒 = 0, 𝐵𝐸𝐿𝐴𝑉𝐺 = 0 → 𝛽₀
  • 외모 평균 미만: 𝑓𝑒𝑚𝑎𝑙𝑒 = 0, 𝐵𝐸𝐿𝐴𝑉𝐺 = 1 → 𝛽₀ +  𝛽₂ 

여성

  • 외모 평균 이상 : 𝑓𝑒𝑚𝑎𝑙𝑒 = 1, 𝐵𝐸𝐿𝐴𝑉𝐺 = 0 → 𝛽₀ + 𝛽₁
  • 외모 평균 미만: 𝑓𝑒𝑚𝑎𝑙𝑒 = 1, 𝐵𝐸𝐿𝐴𝑉𝐺 = 1 → 𝛽₀ + 𝛽₁ +  𝛽₂ + 𝛽₃ 

교차항의 계수 𝛽₃은 외모가 평균 이하인 경우의 효과에 대한 남녀 차이를 나타낸다.

 

 

 

 

  • belavg_fem (교차항) = 0.034 양(+)
    평균 이하의 외모가 임금에 미치는 부정적 영향은 여성이 남성보다 '더 작다'.
  • 계수
    belavg = -0.184
    • 남성인 경우 18% 임금이 낮다 (-0.184)
    • 여성인 경우 15% 낮은 임금 (-0.184 + 0.034)

 

 

  • 교차항의 계수가 0이라는 귀무가설은 10% 유의수준에서 기각할 수 없다.
    → '외모가 평균 이하인 것이 임금에 미치는 영향은 성별에 따라 다르다'는 가설에 대한 충분한 통계적 지지를 얻지 못했다.

 


③ X1이 연속변수, X2도 연속변수
       Y = 𝑎₀ + 𝛽₁𝑋₁ + 𝛽₂𝑋₂ + 𝛽₃(𝑋₁ × 𝑋₂) + 𝑢

 

예: 근속연수가 월급에 미치는 영향은 교육연수의 값에 따라 달라진다.
       Y = 𝑎₀ + 𝛽₁ 교육연수 + 𝛽₂ 근속연수 + 𝛽₃(교육연수 × 근속연수) + 𝑢

  • 교차항에 걸리는 계수 𝛽₃은 𝑋₁(교육연수)과 𝑋₂(근속연수)가 함께 변화할 때의 영향에 해당한다.
  • 교육연수가 1.5배 변화하고, 근속연수가 1.5배 변화했을 때, 월급은 아래와 같이 예측할 수 있다.

(𝛽₁+𝛽₃ 근속연수) + (𝛽₂+𝛽₃ 교육연수) +𝛽₃

 

 

 

Y = 𝑎₀ + 𝛽₁ 교육연수 + 𝛽₂ 근속연수 + 𝛽₃(교육연수 × 근속연수) + 𝑢

  • 근속연수의 연차 변화가 월급에 미치는 영향 𝛽₂ + 𝛽₃ 교육연수
    만약 𝛽₃ >0이라면, 교육받은 연수가 많을수록 근속연수가 임금에 미치는 영향은 커진다.
  • 교육연수의 연차가 월급에 미치는 영향 𝛽₁ + 𝛽₃ 근속연수

교차항의 계수 𝛽3은 교육연수와 근속연수가 함께 변화할 때의 영향에 해당한다.
= '교육연수 단독 효과'와 '근속연수 단독 효과'의 합을 초과하는 부분.

 

즉, 학력이 1년 변화하고 근속연수가 1년 변화했을 때, 월급은,
 (𝛽₁+𝛽₃ 근속연수) + (𝛽₂+𝛽₃ 교육연수) + 𝛽₃ 
로 예측할 수 있다.

 

 

 

연습 2: 성과주의와 직원의 동기부여

설문조사를 통해 직원들의 동기부여, 성과주의 도입 여부, 해당 기업에서 교육훈련 등 능력개발을 위한 프로그램이 잘 갖춰져 있는지 등의 변수를 얻었다고 가정해보자. 

여기서 다음 두 가지 가설을 검증하고자 합니다. 

이러한 가설을 검증하기 위해서는 어떤 식을 추정하면 좋을까요?
가설 1: 성과주의를 도입한 기업의 직원들의 동기부여가 높을 것이다.
가설 2: 성과주의를 도입한 기업 중 직원들의 동기부여가 높은 기업은 역량개발 프로그램이 충실한 기업일 것이다.

 

사용 가능한 변수는 다음과 같다.
동기부여: 각 기업의 직원들의 동기부여를 5(매우 동기부여가 높다)에서 1(전혀 동기부여가 없다)까지 5단계로 평가한 것이다.
성과주의 더미: 성과주의 도입이 있으면 1, 없으면 0인 더미 변수.
역량개발 더미: 역량개발 프로그램이 충실하면 1, 그렇지 않으면 0을 취하는 더미변수.

 

 

연습 2: 성과주의와 직원의 동기부여

가설 1: 성과주의를 도입한 기업의 직원들의 동기부여가 높을 것이다.

동기부여 =  𝑎₀ + 𝛽₁ 성과주의더미

가설 2: 성과주의를 도입한 기업 중 직원들의 동기부여가 높은 기업은 역량개발 프로그램이 충실한 기업일 것이다.

 동기부여 = 𝑎₀ + 𝛽₂ 성과주의더미 + 𝛽₃ 능력개발더미 + 𝛽₄ 성과주의더미 x 능력개발더미

동기부여: 각 기업의 직원들의 동기부여를 5(매우 동기부여가 높음)에서 1(전혀 동기부여가 없음)의 5단계로 평가한 것.
성과주의 더미: 성과주의 도입이 있으면 1, 없으면 0인 더미 변수
능력개발 더미: 능력개발 프로그램이 충실하면 1, 그렇지 않으면 0을 취하는 더미 변수

 

 


 

자연대수

 

변수를 자연대수(natural logarithm, In)로 변환하는 경우

  1. 설명변수와 피설명변수의 관계가 일직선이 아닌 경우
    설명변수가 증가함에 따라 종속변수도 증가하지만 그 증가율이 일정하지 않은 경우
  2. 변수의 분포가 편향되어 있는 경우
    예: 가구당 저축액
  3. 극단적인 값(대/소)이 포함되어 있는 경우
    극단적인 값이 포함된 데이터의 분산을 작게 하기 위해

⇒ 회귀선형의 적합도를 높이기 위해

 

 

애초에 대수란? 로그는 'a의 몇 배를 곱하면 b가 되는가'를 나타내는 수입니다.
10을 2제곱하면 100   10  ²  =100
대수를 이용하면⇒  =log₁₀100

 

자연대수: logₑx=logx= lnx 

 

엑셀에서는 '=LN(X)은 X에 숫자를 입력'

 

자연대수를 이용한 회귀분석 결과 해석하기

(1) 설명변수와 피설명변수 모두 대수변환을 하지 않은 경우
Y=b₀ + b₁ X +μ ⇒변수 X가 1 단위 증가하면 변수 Y가 1 단위 증가
X(경력)의 한 단위 증가는 Y(임금)의 b₁ 단위 증가와 관련이 있다.

 

 

 

(2) 피설명변수와 설명변수 모두 대수변환을 한 경우
InY = b₂ + b₃ InX + μ ⇒ 변수 X가 1% 증가했을 때, 변수 Y가 b₃ % 증가
경험치가 1% 증가하면 임금이 b₃% 상승할 것으로 예상할 수 있다.

 

(3) 피설명변수는 대수변환을 하고, 설명변수는 대수변환을 하지 않은 경우
InY = b₄ + b₅ X + μ ⇒ 변수 X가 1단위 증가하면 변수 Y는 (100 x b₅) % 증가
X가 1단위 증가하면 Y는 100* b₅ % 증가(b₅는 백분율이기 때문에 100을 곱한다).
예 b₅의 추정치가 0.04라고 가정하면, X가 1단위 증가하면 Y는 (100x b5) = 4% 증가

 

(4) 설명변수는 대수변환을 하고, 피설명변수는 대수변환을 하지 않은 경우
Y = b₆ + b₇
InX + μ ⇒변수 X가 1% 증가했을 때 변수 Y는 1/100 x b₇ 단위 증가
경력 1년이 1% 증가하면 임금이 $(b₇ /100) 증가한다.

 

 

연습 3: 월급
연습3 월별 임금 파일 사용

  1. 근속년수와 성별의 교차항인 tenuremale(=tenure x male)을 계산한다, 엑셀에서는 '=tenure*male'로 계산할 수 있다.
  2. 피설명변수에 mwage, 설명변수에 male, tenure를 사용하여 분석합니다.
    그런 다음 같은 피설명변수로 설명변수에 male, tenure에 tenuremale을 추가하여 분석합니다.
    결과를 하나의 표에 정리하고 결과에 대한 의견을 제시하세요.

 

 

 

 

 

근속연수 월별임금   근속연수  
      성별 월별임금
  성별     근속연수 x 성별  

모델1 : 남성의 임금이 더 높고, 근속연수가 길수록 더 높다.
모델2 : 근속연수에 따른 임금 상승률은 남성이 더 높습니까?

 

 


 

이산변량 분석 

 

지금까지

  • 선형 회귀분석을 최소자승법으로 추정
    • 단순 선형회귀 모델 𝑌 = a + 𝛽 𝑋 + μ
    • 다중회귀모델 𝑌 = a + 𝛽₁ 𝑋₁ + ⋯ + 𝛽ₖ 𝑋ₖ + μ
설명변수 X 종속변수 Y
- 연속변수: 근속연수, 교육연수
- 더미변수 : 여성=1, 남성=0
  - 연속변수: 연속변수: 매출액, 월급, 구매금액, 주가

 

 

종속변수가 연속변수가 아닌 경우

'한다' 또는 '하지 않는다'라는 이항선택의 예시

  • M&A를 한다, 하지 않는다.
  • 이직을 한다, 하지 않는다.
  • 배당을 증액한다, 하지 않는다.
  • 해외에서 신상품을 개발한다, 하지 않는다.
  • CEO를 외부에서 영입한다, 하지 않는다.

종속변수가 이항변수(binary)

 

 

 

종속변수가 이항변수(binary)의 분석을 하는 경우...

  • 선형회귀모델로도 분석 가능하지만, 선형회귀모델에도 한계가 있다.
  • 더 적합한 모델이 있다.

 적절한 모형으로 분석 
종속변수가 이항변수인 경우 : 이항선택모형(binary choice models)

 

이항 선택 모델

  • 선형 확률 모델(Linear Probability Model: LPM)
    선형 확률 모델은 종속 변수가 이항 변수인 선형 회귀 모델
  • 이항 로지트 모델 (Logit)
  • 이항 프로빗 모델 (Probit)
    정규분포에서 얻은 곡선 맞추기

 

선형 확률 모델(LPM)
최소자승법으로 분석
smartphone = a + b₁ income + μ
장점

  • 선형 모델과 유사한 분석
  • 계수 해석이 이해하기 쉬움

단점

  • 예측값이 1을 초과하거나 마이너스가 될 수 있다.
    ← 확률은 0에서 1 사이여야 함
스마트폰 보유와 아르바이트로 인한 수입
아르바이트로 인한 수입
1:스마트폰을 가지고 있다
0 : 가지고 있지 않다

 

 

 

이항 로지트 모델 (Logit)

  • 로지스틱 함수(분포)에서 얻은 곡선을 적용하는 방법
  • 최대우도법(maximum likelihood estimation)으로 분석

Pr ( Y=1\X ) = F ( a + b₁ X )
설명변수 = X

  • Y가 무응답이 될 확률은 X에 의해 결정된다.

X가 Y에 미치는 영향은 일정하지 않다.

 

 

예시: 사외이사 도입 결정요인
가설 1 : 경영자 지분율이 높은 기업에서는 사외이사를 도입하지 않을 것이다.
가설 2 : 외국인 지분율이 높은 기업에서는 사외이사를 도입하는 경향이 있다.
가설 3 : 자사주 보유비율이 높은 기업에서는 사외이사를 도입하지 않는 경향이 있을 것이다.

 

회귀분석
설명변수 : 경영자 지분율, 외국인 지분율, 자사주 보유비율, ROA, 매출액
피설명변수 : 사외이사 더미
Pr ( Y = 1\X ) = F ( a + b₁ ROA + b₂ 매출액 + b₃ 경영자 지분율 + b₄ 외국인 지분율 + b₅ 자사주 보유율 )

 

기초통계량

 

 

  • 가설 1: 경영자 지분율이 높은 기업에서는 사외이사를 도입하지 않을 것이다.
  • 가설 2: 외국인 지분율이 높은 기업에서는 사외이사를 도입하는 경향이 있다.
  • 가설 3: 자사주 보유비율이 높은 기업에서는 사외이사를 도입하지 않는 경향이 있다.

 

 

 

다항 로지트 모델 (multinominal Logit)

  • 2항 선택 로짓 모델에서는 '한다', '하지 않는다'의 2선택
  • 3개 이상의 선택지가 있는 경우(순서 없음), 다항 로지트 모델을 사용한다.

예: 집에서 대학까지 통학 수단

  1. 자전거로 통학한다.
  2. 버스로 통학한다.
  3. 전철로 통학한다.

 

 

순서 로짓 모델 (Ordered Logit)

  • 피설명변수가 순서가 있는 여러 선택지

예) 직원의 직장 만족도
설문조사의 선택지가 다음과 같다.

  1. 매우 만족한다.
  2. 다소 만족한다.
  3. 어느 쪽이라고도 할 수 없다.
  4. 다소 불만족스럽다.
  5. 매우 불만이다.

 

 

 

연습4 변수 설정
각 가설을 검증할 때 피설명변수와 설명변수가 어떻게 되는지 간단히 설명하시오.
또한 그 결과를 수식으로 표현하시오.

 

(1) 우리는 주택담보대출이 어떻게 결정되는지 분석하려고 합니다. 

은행에 주택담보대출을 신청한 사람의 정보와 주택담보대출을 받을 수 있었는지를 나타내는 데이터가 있다고 가정하자. 

이 데이터를 이용하여 여성이 주택담보대출 심사에서 합리적으로 설명할 수 없는 불리한 대우를 받고 있는지 주목하고 있다.

 

가설 1: 주택담보대출을 신청했을 때 연봉이 낮은 사람은 거절당할 가능성이 높을 것이다.
가설 2: 여성이 남성보다 거절당할 가능성이 높다.
가설 3: 결혼한 사람은 결혼하지 않은 사람보다 거절당할 가능성이 낮다.

 

반응형