시작하며

ADsP(Advanced Data Analytics Semi-Professional) 시험을 준비하며 공부한 내용을 정리한 글이다. 데이터 이해, 분석 기획, 데이터 분석 세 파트로 구성된다.

ADsP 핵심 개념 정리

1. 데이터 이해

  • ERP : 회사의 정보뿐 아니라 공급망 관리, 고객의 주문 정보 등을 통합적으로 관리한다.
  • SCM : 외부 업체와 시스템 연계하여 비용을 최적화한다.

2. 데이터 분석 기획

  • 빅데이터 4V : 가비 크다속투
    • Value 비즈니스 효과(Return) | Volume, Variety, Velocity 투자 비용(Investment)
  • SOW : 프로젝트에 참여하는 관계자들의 이해를 일치시키기 위한 목적으로 작성한다.
  • 분석 기회 발굴 : 거시적 관점의 영역 (STEEP)
    • S Social | T Technological | E Economic | E Environmental | P Political
  • 분석 준비도 (Readiness) : 업인 기데 문아
    • 분석 업무 파악 | 인력 및 조직 | 분석 기법 | 분석 데이터 | 분석 문화 | IT 인프라
    • 기업의 데이터 분석 도입 수준을 파악하기 위한 준비 방법이다.
  • 빅데이터 분석 방법론 : 기준 분시평
    • 분석 기획 | 데이터 준비 | 데이터 분석 | 시스템 구현 | 평가 및 전개
  • 회귀모형 가정 : 선독등비정

3. 데이터 분석

  • Confusion Matrix 평가지표
    • 정확도(Accuracy, 맞은 비율) : TP + TN / TP + TN + FP + FN
    • 오차 비율(Error Rate) : 1 - 정확도
    • 민감도(재현율=Recall, 참 중에 긍정 예측 성공) : TP / TP + FN
    • 정밀도(Precision, 긍정 중에 맞은 긍정 예측 성공) : TP / TP + FP
    • 특이도(Specificity, 거짓 중에 긍정 예측 실패) : FP / TN + FP
  • 사분위수 : 자료들의 중간 50%에 흩어진 정도를 나타내는 통계량
    • Q1-1.5(IQR) < data < Q3+1.5(IQR) / IQR=Q3-Q1
  • K-평균 군집 절차 : 케할중반
    • K개 객체 선택 | 자료를 가장 가까운 군집에 할당 | 자료를 평균 내어 중심 갱신 | 2, 3 반복
  • DBSCAN : 밀도 계산 기반으로 밀접하게 분포된 개체끼리 그룹핑한다.
  • 주성분 분석(PCA, Principal Component Analysis)
    • 상관관계가 있는 고차원의 자료를 변동을 최대한 보존하여 저차원 자료로 변환하는 차원 축소 방법이다.
    • 제 1 주성분은 데이터를 가장 폭넓게 설명할 수 있는(분산이 가장 큰) 것을 선택한다.
  • 정상성 : 잔차항이 정규분포를 이뤄야 한다.

정리하며

ADsP 시험은 데이터 분석의 전반적인 개념과 통계 기법을 폭넓게 묻는다. 특히 Confusion Matrix 지표(정확도, 민감도, 정밀도, 특이도)와 군집 분석 절차, 주성분 분석의 개념을 명확히 정리해 두면 도움이 된다.