본문 바로가기
WBS - 2023 Winter/기업 데이터 분석

(기업데이터 #9-10) 다중회귀분석

by fastcho 2024. 1. 13.
반응형

 

9, 10회 다중회귀분석

 

 

지난번의 후속편

 

  • 기술통계 : 얻은 데이터에서 그 특징을 추출(정리)한다.
  • 추측통계 : 부분으로부터 전체를 추측하는 것
    • 통계적 추정 : 표본 데이터로부터 모집단 추정
      방법 : 점추정, 구간추정
    • 통계적 가설검정 : 모집단에 대한 가설이 성립하는지 여부를 검정하는 것
      방법 : t검정, F검정...
    • 회귀분석 : Y(종속변수)가 H(독립변수)에 얼마나 영향을 미치는지 관계를 설명
      (혹은 예측에 사용하고자 하는 경우)
      방법 : 선형회귀모형, 이항로짓모형... 

 

 

통계적 추정
모집단의 평균이나 표준편차를 알 수 없을 때 표본의 통계량으로 모집단 수(모집단의 값)를 추정하는 방법

  • 점 추정
    • 표본 → 모평균
    • 표본분산 → 불균형분산 → 모분산
  • 구간 추정
    • 신뢰 구간에 따라 "모평균은 표본 평균값 ±〇〇의 범위에 있다고 추정한다."

 

 

중심극한정리는 모집단이 어떤 분포를 가지고 있든, 거기서 무작위로 추출한 n개의 표본 크기가 크다면 

표본 평균의 분포는 정규분포를 따른다는 것이다.

표준정규분포: 정규분포의 평균값을 0, 표준편차를 1로 환산한 분포 = 정규분포의 표준화

95% 적중
-1.96 이상 +1.96 이하
99% 적중
-2.58 이상 +2.58 이하

 

 

신뢰구간이란?
전체 면적 = 100
95% 신뢰구간의 경우

모집단의 참값을 맞출 확률
95%의 확률로 모집단의 참값을 포함한다.

 

90% 신뢰 구간: ±1.645

 

 

모평균 구간 추정 예시
✓ 공장에서 아이스크림을 제조하는 기계의 정확도 확인
✓ 아키타현의 평균 일사량 추정
✓ 일본 성인 남성의 콜레스테롤 평균값 추정
"모평균을 표본 평균값 ±〇〇〇의 범위에 맞추는 것."

 

 

 

 

복습 문제
편의점에 주먹밥을 자동으로 제조하는 기계가 있다. 

이 기계는 주먹밥의 무게를 다양하게 조절할 수 있지만, 물론 기계이기 때문에 무게에 오차가 발생한다.
무작위로 추출한 100개의 주먹밥 무게의 평균은 80g표준편차는 10g이었다. 

이때 제조된 주먹밥의 평균 무게(모평균)를 μ라고 할 때, μ의 신뢰도 90%의 신뢰구간을 구하시오.
참고: 코지마 히로유키 (2013) 통계학입문 다이아몬드사
95% 신뢰구간의 경우 = X ±1.96 X SE

 

답변
문제 문장에서 표본 평균과 표준편차는 다음과 같습니다.
X = 80, 표준편차 = 10
표본의 크기가 충분히 크므로 중심극한정리에서 표본 평균은 정규분포에 따라 90% 신뢰구간 = 1.64
X + 1.64 X SE
80 - 1.64 x 10 / √100 ≤ μ ≤ 80 + 1.64 x 10 / √100
80 - 1.64 x 1  μ ≤ 80 + 1.64 x 1
78.36  μ ≤ 81.64

 

 

 

추정의 적용 사례
어떤 선거에 후보 A와 후보 B가 출마했다.

후보 A의 득표율을 p라고 하자.

투표를 마친 유권자 400명(n) 무작위로 추출하여 투표한 후보를 물었더니,

그 중 300명이 A 후보에게 투표했고, 176명이 B 후보에게 투표했다고 답했다.

A의 득표율은 p = 224 / 400 = 0.56 ← 이 값은 일점 추정치이므로 점추정

 

0.56이라는 득표율이 얼마나 신뢰성이 있는 것일까?
득표율 56% 신뢰도 95% 신뢰구간 = 0.51 ~ 0.61 p ± 1.96 √ ( p ( 1 - p ) / n )

 

후보자가 2명인 경우의 '당락'은 구간의 하한이 50%를 넘으면 되기 때문에, "A 후보에게 당선이 나왔습니다!"

 

 

통계적 가설검정
모집단에 대한 가설('있어야 한다')에 대해 표본의 데이터로부터 계산한 검정량이 '있어야 한다'는 범위에 들어맞는지(채택범위), 들어맞지 않는지(기각범위)를 확률분포를 이용하여 조사하는 절차

 

귀무가설(null hypothesis) : 부정하고 싶은 가설

대립가설(alternative hypothesis) : 주장하고 싶은 가설

 

'모평균은 μ₀ 이다'라는 가설을 설정한다.
귀무가설 H₀ : μₓ = μ₀
대립가설 H₁ : μₓ ≠ μ₀

 

 

모집단 평균 검정

조건 검정통계량 확률분포 검정
모집단은 정규분포, 
σ는 알려져 있다.
Z =  ( X - μ ) / ( σ / √n ) Z 분포
(표준정규분포)
Z 검정
대표본 N ≧ 30 Z =  ( X - μ ) / ( σ / √n ) Z 분포
(평균정규분포)
Z 검정
모집단은 정규분포, 
σ는 알 수 없음
t = ( X - μ ) / ( S / √n ) t 분포 t 검정
소표본 N < 30 t = ( X - μ ) / ( S / √n ) t 분포 t 검정

 


평균 검정의 예: 과거 데이터(모집단)와의 비교
과거 데이터에서 모집단 μ를 알 수 있다.

  • 표본 데이터에서 올해 중학생의 기록이 예년보다 느린지 여부를 유의수준 5%로 검증하고 싶다.
  • 4인 가족 1주일 식비의 작년 평균 μ = 88,102엔올해 비교

 

 

가설의 세우는 방법과 기각 영역 (1)
4인 가족 1주일 식비의 작년 평균 μ = 88,102엔올해 비교
계속 인플레이션이 지속되는 시대라면 대립가설을 어떻게 설정하고, α = 5% 의 기각영역은 어디에 위치해야 할까?

 

H₀ : μ = 88,102엔
H₁ : μ > 88,102엔
귀무가설은 식비가 작년에 비해 상승하지 않는다(동일)고 가정하고 대립가설은 상승한다고 가정한다.

따라서 기각 영역은 오른쪽이 된다.

 

 

 

가설 세우는 방법과 기각 영역 (2)
한 산업에 속한 100개 기업매출 성장률 평균은 2.4%였다.

그리고 표준편차는 8%였습니다.

이 때, 이 산업 전체에서 매출액이 증가하고 있다고 볼 수 있을까요?

가설
귀무가설 H₀ : 성장률 μ = 0 성장하지 않는다.
대립가설 H₁ : 성장률 μ  >  0

성장하고 있는지 여부를 검정.
기각 영역은 오른쪽이 된다.
Z값 = 3

3 > 1.96
유의수준 %에서 기각

3 > 2.58
유의수준 1%에서 기각

 

 

 

평균 검정의 예: 공장 품질 검사
길이 5mm 규격의 나사를 만들고 있을 때, 생산한 나사가 제대로 5mm가 되는지 여부를 통계적 가설검정을 할 때

  • 귀무가설 μ=5
  • 대립가설 μ ≠ 5

라는 가설을 세우고, 표본의 평균값인 μ = 5 와 얼마나 차이가 나는지 검정합니다.

 


 

 

상관계수는 반드시 -1과 1 사이의 값을 취한다. 

-1 0 1
완전한 부의 상관 상관관계 없음 완전한 정의 상관

 

  • 임대료건축연수 간에는 의 상관관계(-0.34) 
  • 임대료 전용면적 사이에는 강한 양의 상관관계 있음(0.84) 
  • 건축년수와 전용면적 사이에는 상관관계가 없거나 있어도 약한 음의 상관관계(-0.05)

 

 

 

선형회귀모형 (Linear regression model)

 Yᵢ = a + b Xᵢ + uᵢ 
 y = bx + a 

X가 1단위 변화하면 Y가 b만큼 변화한다.
기울기 b가 플러스 → X가 클 때는 Y도 크다.
기울기 b가 마이너스 → X가 클 때 Y는 작다.
월급 = 253.99 + 5.27 × 근속연수

 

 

 

설명변수의 타당성 확인

  • 모델이 얼마나 잘 설명할 수 있었는지: 결정계수 ( R² )
  • 변수 X가 변수 Y에 영향을 미치는지 여부(얻어진 계수에 의미가 있는지 여부) : t 검정

 

결정계수 ( Coefficient of Determination / R-squared / R² )
설명변수 x가 피설명변수 y를 모델에 의해 설명할 수 있는 비율.

  • 결정계수는 0 과 1 사이의 수치를 취한다.
  • 모델이 피설명변수의 움직임을 완전히 설명하면 1, 전혀 설명하지 못하면 0이다.
  • 설명변수를 늘릴수록 1에 가까워진다.

 

 

검정 결과 판단
기각의 판단은 일반적으로 p값을 사용

p값 : 귀무가설이 성립할 경우, 그 데이터가 얼마나 가능성이 없는 데이터인지를 나타내는 확률.

유의수준 5%의 예
p값 < 유의수준 0.05     귀무가설을 기각하고 대립가설을 채택, 유의미한 차이가 있다고 할 수 있다.
p값 ≧ 유효수준 0.05     대립가설을 채택하지 못하여 유의미한 차이가 있다고 할 수 없다.

유의수준 10% : p값이 10% 이하인 경우 귀무가설 기각
유의수준 5% : p값이 5% 이하인 경우 귀무가설 기각
유의수준 1% : p값이 1% 이하인 경우 귀무가설 기각

 

 


 

 

전체강의

 

 

다중회귀분석

  • 회귀분석의 종류 중 하나
  • 설명변수가 2개 이상(종속변수를 설명하는 요인을 가능한 한 많이 모형에 넣는 것)
  • 자유도 수정된 결정계수 사용
  • F검정 사용

 

 

다중선형회귀모형

Yᵢ = a + b₁ X₁ᵢ + b₂ X₂ᵢ + ... uᵢ

a : 상수항
b₁, b₂ : 변수 X₁, X₂의 계수

계수의 추정치는 단회귀분석과 마찬가지로 최소자승법을 사용하여 구한다.
해석은 단회귀분석과 동일

 

 

설명변수의 타당성 확인 : t검정
계수: a = 0, b1 = 0, b2 = 0

1. 귀무가설 설정
귀무가설 H0 : b1 = 0
대립가설 H1 : b1≠ 0

2. 각 계수의 t값을 계산한다(소프트웨어로 계산).

t값의 절대값이 1.96보다 크다.
→ 「b는 0이다」라는 귀무가설 H0을 유의수준 5%로 기각
= 변수 X의 계수 b는 유의수준 5%에서 통계적으로 유의하다.

 

임대료 = 38,395.93 - 939.36 건평 + 1143.22 전용면적 - 201.87 도보
표준오차  (5,126.9)    (176.9)              (81.9)                   (390.7)
  • 건축연수가 1년 증가하면 임대료가 939엔 낮아진다.
    계수 검증
    귀무가설 b₁ = 0
    t값 = 계수 / 표준오차 = 939.36 / 176.9 = 5.3 → 1.96보다 커5% 수준에서 귀무가설 기각
  • 전용면적이 1㎡ 증가하면 임대료가 1,143엔 오른다.
    계수 검증
    귀무가설 b₂ = 0
    t값 = 계수 / 표준오차 = 1143.22 / 81.9 = 13.961.96보다 크므로 5% 수준에서 귀무가설 기각
  • 도보가 1분 증가하면 임대료가 202엔 하락한다.
    계수 검증
    귀무가설 b₃ = 0
    t값 = 계수 / 표준오차 = 201.87 / 390.7 = 0.521.96보다 작으므로 5% 수준에서 귀무가설을 기각할 수 없다.

 

 

결정계수: 자유도 수정 결정계수
결정계수 R²의 단점
설명변수를 늘릴수록 1에 가까워진다.

 

설명변수가 늘어난 만큼을 고려하여 결정계수를 수정: 자유도 수정 결정계수(Adjusted R²)
결정계수 = 1 - [ 관측치와 예측치 사이에 남아있는 차이(잔차) ]
자유도 조정 결정계수 = 1 - [관측치와 예측치 사이에 남아있는 차이(잔차)] ✕ [설명변수의 개수]

자유도 수정 결정계수 < 결정계수
자유도 수정 결정계수는 마이너스가 될 수 있음

 

회귀 직선의 타당성

  단회귀분석 중회귀분석
t 검정:
계수에 통계적 의미가 있는지 여부(설명변수가 피설명변수에 영향을 미치는지 여부)
X X
결정 계수:
모델이 피설명변수를 얼마나 잘 설명할 수 있는가?
X  
자유도 보정 결정계수:
모형이 피설명변수를 얼마나 잘 설명할 수 있는가?
  X
F 검정:
모델에 설명력이 있는지 여부(모델 자체가 피설명변수에 영향을 미치는지 여부)
  X

 

 

 

모델 전체에 설명력이 있는지 여부 : F검정

  • 설명변수의 계수가 모두 0 이라는 귀무가설
  • 대립가설은 b₁, b₂ .... bₖ 중 하나 이상은 0이 아니다.

Yᵢ = a + b₁ X₁ᵢ + b₂ X₂ᵢ + ... uᵢ
b₁ = 0, b₂ = 0

 

 

 


엑셀 작업

데이터 탭 → 데이터 분석
'회귀분석' 선택
입력 Y와 X
라벨 선택

 

 

라벨
잔차
표준화된 잔차

 

 

 

예: 광고와 매출
매출 = a + b₁ 신문광고 + b₂ 다이렉트 메일 + b₃ TV CM ... u

주목해야 할 항목
✓ 계수
✓ 회귀 통계
✓ P값

 

 

 

계수의 부호가 플러스인지 마이너스인지 여부

판매 = 11,581 + 190 신문 + 0.96 다이렉트메일 + 14 TV CM

 

 

 

계수에 의미가 있는지 여부 → P 값

t값 = 계수의 추정치 / 계수의 표준오차
신문광고 190 / 44 = 4.3

신문광고 P값 = 0.000139282 매우 작은 값
⇒ 유의수준이 10%, 5%, 1%이면 유의하다,
귀무가설 H₀ : b₁ = 0 은 기각할 수 있다.

1.84909E-34 = 1.84909 x (0.1)⁸

 

 

✓ 모델이 얼마나 많은 것을 설명하는지

설명변수가 2개 이상이므로 자유도 보정 결정계수 사용

 

 

R² = 회귀제곱합 / 전체 변동

31,158,875 / 40,161,875 = 0.7758

전체 변동 = 관측값 - 평균값 = 편차 = Σ(Yi- Ȳ)²
회귀 제곱합 = 예측값 - 평균값 = Σ(Ŷi- Ȳ)²
잔차 제곱합 = 관측치 - 예측치 = Σ(Yi- Ŷi)²

 

 

 

R² = 회귀제곱합 / 전체 변동

31,158,875 / 40,161,875 = 0.7758

자유도 보정 결정계수(Adjusted R2) 1 - ( 1 - 0.775832187 ) { ( 36 - 1 ) / ( 36 - 3 - 1 ) } = 0.7548

결정계수는 0에서 1까지의 값을 취한다.
전체 변동의 75.5%를 설명할 수 있다.

 

 

✓ 모델 전체의 설명력
모든 설명 변수의 계수가 0이라는 귀무가설 검증

F값 : F비

F검정에 기반한 P값 : 유의한 F

F의 유의수준이 매우 작다.
모든 설명변수의 계수가 0이라는 귀무가설 유의수준 1%에서 기각

 

 

 

단회귀분석의 경우 t값과 p값

유의한 F값은 P값과 일치

 

 

 

요약 

  • t값각 설명변수피설명변수미치는 영향의 크기를 나타내는 지표
    (t값이 클수록 피설명변수에 미치는 영향이 강함). 
  • P값각 설명변수피설명변수관계가 있는지를 나타내는 확률
    (P값0.05 미만이면 해당 설명변수는 피설명변수와 '관계가 있다'고 할 수 있고,
    0.05 이상이면 '관계가 없다'고 볼 수 있다). 
  • F값모델 전체에 설명력이 있는지 여부를 나타내는 지표. 

  • P값은 다양한 t값 또는 F값에 대해 그 오른쪽 면적전체에서 차지하는 비율을 표시한다. 
  • P값이 작을수록 우변의 면적(기각 영역의 면적)이 아져 귀무가설기각할 수 있는 가능성아진다. 
  • t값이 클수록 귀무가설기각할 수 있는 가능성아진다.
t값 P값 F값
각 설명변수 피설명변수 미치는 영향의 크기를 나타내는 지표 각 설명변수 피설명변수 관계가 있는지를 나타내는 확률 모델 전체에 설명력이 있는지 여부를 나타내는 지표
t값이 클수록 피설명변수에 미치는 영향이 강



P값 0.05 미만이면 해당 설명변수는 피설명변수와 '관계가 있다'고 할 수 있고,
0.05 이상이면 '관계가 없다'고 볼 수 있다
 
  다양한 t값 또는 F값에 대해 그 오른쪽 면적이 전체에서 차지하는 비율을 표시한다  
클수록 귀무가설을 기각할 수 있는 가능성 높아진다.

작을수록 우변의 면적(기각 영역의 면적)이 아져 귀무가설 기각할 수 있는 가능성 높아진다.   

 

 

 

논문에서 분석 결과 기재 방법
분석 도구의 결과를 그대로 복사하여 붙여 넣지 않는다.

① 직원 변화 = a₁ + b₁ 매출액 변화 + b₂ ROA + u
② 직원 변화 = a₂ + b₃ 매출액 변화 + v


계수와 표준오차 또는 t값을 세로로 나열한다.

 

 

논문 형식 확인


 

연습문제 : 기업의 해외진출과 환율의 관계
엔고로 인해 기업의 해외진출이 증가한다.

  • '환율.csv' 파일을 이용하여 환율이 해외직접투자에 미치는 영향을 엑셀 등으로 분석해보자.
  • 엔고일 때 기업의 해외 진출이 많다고 봐도 될까요?

 

엔고에서는 환율의 수치가 작아진다.

직접투자 (Y) = 14,918 - 82.67 환율(X)
표준오차         (2,320) (21.22)
R² = 0.06
p값의 유의수준은 매우 작다.
모든 설명변수의 계수가 0이라는 귀무가설은 유의수준 1%에서 기각

환율의 계수가 마이너스 → 환율 수치가 작아진다.
따라서 환율이 엔고일수록 해외직접투자가 많아진다.

 

 

연습 2 : 외국인 지분율과 ROA의 영향
'financial_analysis.csv.' 파일의 데이터를 이용하여 외국인 지분율과 ROA의 영향을 분석해 보세요.

  • 다음 두 공식을 엑셀 등을 이용하여 측정하여 하나의 표로 정리해 주세요.
  • 결과에 대해 간략하게 설명해 주세요.

참고로 u와 v는 오차항입니다.
(1) ROA = a₁ + b₁ 매출액 대 수치 + u
(2) ROA = a₂ + b₂ 매출액 대비 수치 + b₃ 외국인 지분율 + v
* 대수(log) 변환은 대수 정규분포(오른쪽으로 치우친 분포)를 정규분포에 가깝게 하기 위해 사용하는 방법

 

(1) ROA = 17.14 - 1.04 매출액대수치 + u

(2) ROA = 16.02 - 1.15 매출액대수치 + 0.12 외국인지분비율 + v

 

 

 

 

 

매출액 대수, 외국인 지분율 모두 유의수준 1%에서 유의

 

 

 

 

 


 

 

의문
설명변수를 많이 넣으면 목적을 더 자세히 설명할 수 있을 것이라고 생각할 수 있을까?

 

다중회귀분석의 회귀식 가정
설명변수 X1 ~ Xn은 별개의 요인으로 서로 연관성이 없다.

 

설명변수들 사이에 높은 연관성이 있다 : 다중공선성 Multi-Collinearity(다중공선성)

 

다중공선성 가능성

  • 상관계수가 0.9 이상
  • 요인은 양(음)의 상관관계로 보는 것이 타당함에도 불구하고, 계수의 부호가 반전되어 있다.
  • 자유도 보정된 결정계수가 양호한 결과임에도 불구하고 t값이 너무 작다.
  • 가용할 수 있어야 할 설명변수의 p값이 5%를 초과하는 경우

 

 

 

설명변수 간의 상관관계 알아보기
'광고 매체별' 데이터 파일을 사용하여 상관관계를 조사해 봅시다.

 

 

 

 

회귀분석 실시

 

 

'라디오 광고'와 '인터넷 광고' 제외

 

 

표준편차로 이상치 확인

표준편차 보는 법
표준잔차절대값2 이상인 데이터가 5% 이내, 2.5 이상 3 미만1% 이내이면
데이터를 사용할 수 있다고 판단.
표준잔차의 절대값 3 이상인 데이터는 이상값으로 제외한다.

±2 이상의 표준 잔차

 

 

예측치 구하기
매출 예측치 = 11,581 + 190 x 신문광고() + 0.96 x 다이렉트 메일(천엔) + 14 x TV광고(

 

예를 들면,
신문광고를 10회, 다이렉트 메일은 500,000엔, TV광고는 15초라고 가정하면, 매출 예측치는 다음과 같다,  
매출 예측치 = 11,581 + 190 x 10 + 0.96 x 500 + 14 x 15 = 14,163천엔

 

 

 

연습 3
회귀분석을 통해 가설을 검증해 봅시다.

 

가설
에너지 소비량은 그 나라의 부의 정도에 따라 결정되지 않을까?

 

데이터 정부 통계

  • 국내총생산(GDP)
  • 1인당 에너지 소비량

설명변수를 추가해 보자.

반응형