본문 바로가기
WBS - 2023 Winter/기업 데이터 분석

(데이터 #1-2) Introduction

by fastcho 2023. 12. 4.
반응형

기업 데이터 분석 1,2회 2023년 12월 2일 (토) 상학학술원비즈니스・금융연구센터오노 카오리

기업 데이터 분석 1,2회 2023년 12월 2일 (토) 상학학술원비즈니스・금융연구센터오노 카오리

 

 

 

강의 소개

  • 본 강의 개요
    • 데이터 분석이란, 통계학 개요
    • 전체 강의의 개요
  • 도달 목표
    • 연구의 관점
    • 실무의 관점
  • 최종 보고서 과제와 프레젠테이션에 대하여

강의 소개

 

 

 

논문 작성

  • 연구 주제 결정
  • 질문(연구질문) 설정
  • 선행연구를 읽고 가설 설정
  • 필요한 데이터 수집
  • 수집한 데이터를 사용하여 적절한 방법으로 가설 검증
  • 논문 작성

논문 작성

데이터 분석이란?

수집하다 정리하다 해석하다
- 기업 HP에서 재무제표
- 기업 홈페이지에서 중장기 계획
- 도쿄증권거래소 홈페이지에서 상장기업 정보
- 기업 관계자 인터뷰
- 기업인에게 설문조사
- 분류하기
- 연대순으로 정렬하기
- 산포도로 그리기
- 상관 계수 계산하기
- 개념도 구축하기

- 원인(독립변수) 찾기
- 변동성(전체 그림) 파악하기
- 상관관계 찾기
- 경향성 파악
- 위험 파악하기

데이터 분석이란?

 

 

 

통계학 개요

 

통계학
과거
기술통계 : 얻은 데이터에서 그 특징을 추출하는 방법
통계량 : 평균값, 분산, 중앙값, 표본 평균, 표준편차...
그래프적 : 빈도분포표, 히스토그램, 꺾은선/원/막대 그래프
회귀분석
수학:확률론
미래
추측통계 : 부분으로부터 전체를 추측하기
통계량 : 표본 평균, 표준오차...
회귀분석
통계적 추정 : 표본 데이터로부터 모집단 추정
방법 : 점 추정, 구간 추정
통계적 가설검정 : 모집단에 대한 가설이 성립하는지 여부 검정
방법 : t검정, F검정...

 

통계학 개요

 

 

 

전체 강의

전체 강의

 

 

 

통계 소프트웨어 비교

통계 소프트웨어 비교

 

 

 

 

통계 소프트웨어: 엑셀과 R

Excel 통계: Excel의 애드인 소프트웨어 R : 오픈소스 라이선스 (프리웨어)
- 저렴한 가격
- 엑셀의 기능으로 사용(사용하기 쉬움)
- 스크립트나 코드 입력 불필요
- 가능한 분석의 한계
- 신뢰성 문제
- 무료
- 다양한 플랫폼 지원
- 사용자가 많음
- 명령어 입력이 필요함(다루기 어려움)

통계 소프트웨어: 엑셀과 R

 

 

 

도달 목표

  • 연구 관점
    • 정량분석의 기초 지식과 실행 기술 습득
    • 연구 방법(프로세스) 이해
    • 정량분석의 학술논문 읽기를 위한 기초지식 습득
    • 수업에서 배운 것을 최종보고서의 주제 선정・분석 및 석사논문 작성에 적용
  • 실무의 관점
    • 정량분석의 기초지식을 실무에 적용

도달 목표

 

 

 

성적 평가 방법
✓ 시험 : 0%
✓ 최종보고서: 60%.
    수업에서 배운 정량분석 방법 및 연구방법에 부합하는지 여부가 평가기준이 됩니다.
✓ 평상시 평가: 40%.
    프레젠테이션, 매회 제출 과제를 평가합니다.
* 영업비밀에 해당하는 데이터 사용은 이 수업에서 불가.

 

 

참고 문헌

  • 쿠보카츠유키 『경영학을 위한 통계학·데이터 분석(첫 경영학)』동양경제신보사, 2021년

  • 카토 히카즈『고등학생의 통계 입문』치쿠마서방, 2016년
  • 고시마 히로유키『완전 독학 통계학 입문』다이아몬드사, 2006년
  • 나카무로 마키코, 츠카와 유스케『「원인과 결과」의 경제학』다이아몬드사, 2017년
  • 토요자와 에이치『비즈니스 통계분석 R』翔泳社, 2017년
  • 히카 히로코, 『엑셀로 배우는 데이터 분석 본격 입문』SB크리에이티브, 2019년
  • 히카 히로코, 『Excel로 배우는 통계분석 본격 입문』SB크리에이티브, 2019년

  • 도쿄대학교 교양학부 통계학 교실 편 『통계학 입문』도쿄대학교 출판부, 2019년
  • 토리이 야스히코 『첫 통계학』닛케이 BPM(니혼게이자이신문 출판본부), 2019년
  • 이토 공이치로 『데이터 분석의 힘』 인과관계에 접근하는 사고법, 光文社, 1994년

참고 문헌

 

 

통계학 습득의 포인트

자신이 이해하고 납득할 수 있는 설명을 찾아라!
통계는 쌓아가는 것이다!
실제로 손을 움직여보자!

통계학 습득의 포인트

 

 


 

 

데이터란

데이터란

 

 

 

데이터의 종류

질적(문자)  양적(숫자)
직종, 설문지, 성별
품목명, 업종, 인터뷰
매출액, 주가, 광고비
인구, 이익, 급여
시게열 데이터 패널데이터
횡단면 데이터

데이터의 종류

 

 

척도 수준(데이터의 척도)

척도    
명목 척도


데이터에 숫자를 비율로
코드의 숫자는 숫자로서의 의미는 없다
(거리, 배율 등)
도도부현 코드
홋카이도=1, 아오모리=2, 오키나와=47

질적
순서 척도 

크고 작은 서열
인접한 데이터 사이의 간격은 같지 않다.
- 주요 5개 항목의 좋아하는 순서
- 브랜드 충성도: 강함=1, 보통=2, 약함=3
간격 척도 



순서에 의미가 있고, 등간격을 나타낸다.
비율을 나타낼 수 없다.
(20도가 10도보다 두배 따뜻함? <- 안됨)

- 기온 : 10도, 20도, 30도
기온 0도는 섭씨라는 단위의 기점이다,
온도가 없어지는 것은 아니다(상대적)
- 날짜, 시간, 나이
양적

비례 (비율)
척도
순서, 등간격에 더해 비율을 계산할 수 있다.
'0'=존재하지 않음(절대적)
- 연봉 : 0, 200만, 400만, 600만, 800만
- 무게, 속도

 

척도 수준(데이터의 척도)

 

 

 

 

척도 수준에 따른 용도(데이터 분석)

데이터 종류  척도  예시
질적 데이터
(카테고리 데이터)
명목척도, 서열척도  빈도분포, 교차집계, 그래프, 회귀분석(더미변수 사용)
양적 데이터
(수량 데이터)
간격 척도, 비례(비율) 척도 평균값, 분산, 표준편차, 히스토그램, 산포도, 
상관관계, 회귀분석

척도 수준에 따른 용도(데이터 분석)

 

 

 

연습문제1
다음 각 문항에서 얻을 수 있는 데이터 중 정량적 데이터가 되는 것을 모두 고르시오.

(통계 검정 4급 2013년 11월부터 개정)
하나 이상 선택해 주십시오: 
a. 당신이 좋아하는 장미의 색깔은 무엇입니까?
b. 당신은 장미를 좋아합니까? 다음 중 하나를 선택하십시오: 
    1: 좋아한다 2: 좋아한다 3: 별로 좋아하지 않는다 4: 싫어한다.
c. 장미 꽃다발을 선물한다고 하면, 몇 원짜리 꽃다발을 사겠습니까?
d. 장미 꽃다발을 선물한다고 했을 때, 꽃다발에 몇 송이의 장미를 넣으시겠습니까?

 

연습문제1

 

 

 

 

연습문제2
한 부동산 중개업자가 취급하는 아파트의 데이터를 정리하게 되었다.
정량적 데이터에 해당하는 것을 하나 이상 고르시오. (통계 검정 4급 2019년 6월부터 개정)
A 아파트 각 층의 세대수
B 아파트의 각 세대의 방 번호
C 아파트 각 세대의 면적
D 아파트의 가장 가까운 역의 역명
E 아파트의 가장 가까운 역을 지나는 노선명
F 아파트에서 가장 가까운 역까지의 소요시간

연습문제2

 


 

 

데이터의 큰 그림 파악하기

데이터의 큰 그림 파악하기

 

 

 

통계 분석
기본 개념
데이터의 변동 양상이나 정도를 그래프나 수치로 표현하는 것.
통계분석의 첫 번째 단계
데이터의 전체상을 파악하기 위해 변동성(분포)을 조사하는 것이 중요

통계 분석

 

 

 

기본 그래프

기본 그래프

 

 

기본통계량: 데이터의 특징을 숫자로 요약한 지표

기본통계량
대표치 산포도
최대값
최소값
평균값
중앙값
최빈값
분산
표준편차
범위


기본통계량: 데이터의 특징을 숫자로 요약한 지표

 

 

 

도수 분포표
예를 들어, 한 회사의 진료실 이용 기록을 바탕으로 전체 이용 현황을 파악하려면 어떻게 해야 할까요?

일자 시간 소속 이름 이유
1월 4일 10:35 총무과 통계 타로 접질림
1월 6일 9:45 영업제2과 조사 하나코 두통
1월 6일 12:30 기술개발부 가즈오 발열

데이터가 나열된 것만으로는 전체 모습을 파악할 수 없다.

도수 분포표

 

 

 

 

도수 분포표
진료실 이용 이유별로 이용자 수를 집계하여 표로 정리한다.

도수 분포표

 

 

 

도수 분포표: 데이터 개수를 구분하여 파악하기
사장의 연령(일부)
1. 최대값, 최소값 찾기
2. 계급(계급 폭) 결정하기
3. 도수 계산하기

도수 분포표: 데이터 개수를 구분하여 파악하기

 

 

 

막대 그래프

막대 그래프

 

막대 그래프

막대기와 막대기는 서로 붙어 있지 않고, 간격이 있다.

막대 그래프

 

 

 

히스토그램: 데이터의 형태와 특성 파악

히스토그램: 데이터의 형태와 특성 파악

 

 

 

막대 그래프와 히스토그램의 차이점

막대그래프 히스토그램
계급, 시간축, 항목별 개수 합계
순서가 정해져 있지 않다
막대와 막대가 떨어져 있다
가로축을 계급세로축을 빈도수
편차를 나타내고 있다

막대 그래프와 히스토그램의 차이점

 

 

 

 

원형 그래프
시각적으로 이해하기 쉬움

원형 그래프

 

 

 

띠 그래프

총수가 다른 두 개의 데이터 비교

띠 그래프

 

 

꺾은선 그래프
시계열의 변화를 쉽게 파악할 수 있습니다.

꺾은선 그래프

 

파레토 다이어그램
어떤 제품의 제조공정에서 불량품이 발생한 원인. 

도수를 나타내는 막대그래프와 누적 상대도수를 나타내는 꺾은선 그래프를 함께 나타낸 그래프.

가로축의 카테고리(불량품의 원인)가 순서를 고려하지 않아도 되는 성질의 것이기 때문에 

막대그래프는 도수가 큰 순서대로 정렬한다. 

이를 통해 주목해야 할 데이터가 무엇인지, 그 데이터가 전체의 몇 퍼센트를 차지하는지를 파악할 수 있다.

파레토 다 파레토 다이어그램 이어그램

 

 

 

평균값 (mean)
'데이터의 총합을 데이터 수로 나눈 값'

데이터가 균형을 이루는 위치 = 무게 중심

평균값 (mean)

 

 

 

 

 

중앙값 (median) 

'전체의 중간값'

데이터 개수를 반으로 나누는 위치

 

중앙값 (median) '전체의 중간값'

 

 

최빈값(모드 mode) 
'가장 빈도(출현)가 많다'

가장 빈번한 값(모드 mode)

 

 

평균값, 중앙값, 최빈값

  • 데이터가 단봉형이고 분포가 완전히 좌우 대칭인 경우, 이 세 가지 대표값은 완전히 일치합니다. 완전히 일치
  • 한쪽에 편향된 데이터가 존재하면, 평균값은 그 값에 끌려가서 편향된 값의 한 방향으로 치우친 값
  • 분포가 오른쪽으로 치우친 분포(오른쪽으로 긴 밑자락이 있는 분포)에서는
    일반적으로 평균, 중위수, 최빈값, 최빈값 순으로 커진다.
    ⇒ 중앙값으로 판단하는 것이 적절

평균값, 중앙값, 최빈값

 

연습 3

다음 A와 B의 히스토그램에 대한 설명 중 옳은 것은? 아래 1~5번 중에서 모두 고르시오.

  1. A와 B의 평균은 (거의) 같다.
  2. A와 B의 중앙값은 (거의) 같다.
  3. A와 B의 최빈값은 (거의) 동일하다.
  4. A와 B의 범위는 (거의) 같다.
  5. A와 B의 편차의 크기는 같다.

 

연습 3

 

 

 

편차 (deviation)
각 관측값의 산포도를 파악하기 위해.
예: 고객 획득 건수(어느 해의 반년치)
'데이터 값(관측값)과 평균값의 차이' = Xi - X
편차의 특징
1. 편차의 합계 = 0
2. 편차의 평균값 = 0

 

편차 (deviation)

 

 

 

편차 이미지

편차 이미지

 

 

 

분산 (variance)
데이터 전체의 분산 정도

분산 (variance)

 

 

표준편차 (standard deviation, s.d.)
분산은 제곱하기 때문에 단위를 원래의 데이터 단위로 되돌려야 한다.

양의 제곱근을 취한다.

A씨 분산 = 1.7 표준편차 = 1.31
B씨 분산 = 11.3 표준편차 = 3.36

기호는 'σ'(소문자 시그마)

표준편차 (standard deviation, s.d.)

 

 

 

표준편차에서 알 수 있는 산포도
월별 고객 확보 건수

표준편차에서 알 수 있는 산포도

 

 

 

분포(흩어짐)의 형태

분포(흩어짐)의 형태

 

 

 

표준편차 사용법: 주식의 평균 수익률

주식의 월평균 수익률

표준편차 사용법: 주식의 평균 수익률

 

 

표준편차 사용법: 주식의 평균 수익률
주식 월간 수익률의 표준편차(s.d.)

주식 수익률의 S.D. = 변동성(Volatility)
리스크 지표

표준편차 사용법: 주식의 평균 수익률

 

 


 

 

데이터 표준화
평균값이나 단위가 다른 데이터 간 비교

데이터 표준화 평균값이나 단위가 다른 데이터 간 비교

 

 

 

평균값이 다른 데이터 비교

수학과 국어의 기준 맞추기
1. 평균점 빼기
2. 표준편차로 나누기

평균값이 다른 데이터 비교

 

 

 

평균과 표준편차의 특성
평균값은 a 곱하고 b 를 더한다.
표준편차는 a 배로 증가한다.

평균과 표준편차의 특성

 

 

 

평균값이 다른 데이터 비교
수학과 국어 비교 가능
A 씨
수학 80점 국어 75점
       0.34 < 1.22

평균값이 다른 데이터 비교

 

 

 

단위가 다른 데이터 비교

모두 표준편차 범위 내

단위가 다른 데이터 비교

 

 

 

표준화의 응용 : 편차값
편차값는 데이터를 표준화하여 평균을 50표준편차를 10이 되도록 변환한 지표입니다.

예를 들어, 수학 시험의 평균이 42점표준편차가 8점이라고 가정해보자. 
당신의 점수가 58점이라고 가정하면
Y = ( 58 - 42 ) / 8 X 10 + 50 = 70
평균과 같은 점수였다면, 편차 값은 50

표준화의 응용 : 편차

 

 

 


연습 4: 연습 4 시트의 데이터로 히스토그램 만들기
일본 기업 CEO의 연령에 관한 데이터
1. 데이터 정리: 데이터를 세로로 일렬로 배열한다.
2. 계급 수와 계급 폭 결정: 최대값, 최소값에서 범위를 구하여 계급 수와 계급 폭을 결정한다.
3. 도수 분포표 작성
4. 히스토그램 작성

연습 4: 연습 4 시트의 데이터로 히스토그램 만들기

 

 

 

 

 

 

 

셀 범위 'G7:G12'를 드래그하고, 빈도의 개수를 세는 FREQUENCY 함수에 값을 입력한 후
Ctrl + Shift + Enter 키를 누른다.

 

 

1. 'E6:E12'를 드래그하고 Ctrl 키를 누른 상태에서 'G6:G12'를 드래그한다.
2. 삽입 탭의 세로 막대/가로 막대 그래프 삽입에서 집합 세로 막대를 선택한다.

 

 

 

1. 막대 그래프의 데이터 위에서 마우스 오른쪽 버튼을 클릭하면 상자가 열린다.
 '데이터 계열 서식 설정'을 클릭한다.
2. '계열 옵션'의 '요소 간격'에서 '0'으로 설정한다.

 

 

 

 

 

 

 

 

 

반응형