해석 가능한 모형(Interpretable models)
- 선형 회귀/로지스틱 회귀 모형 : 각 변수의 가중치가 구해지므로 그 값을 참고할 수 있음
- 의사결정나무 : 각 분기점에서 사용된 기준을 참고함
순열 변수 중요도
- 특정 변수를 사용하지 않았을 때 모형의 성능에 어느 정도의 손실을 주는지를 계산함으로 해당 변수의 중요도를 파악하는 방법
- 한 변수에 대해 그 변수의 값을 무작위로 섞어서 예측 값들을 구한다. 해당 변수의 값을 무작위로 사용함으로 부석 모형이 학습한 패턴을 지우는 효과를 주는 것임.
- 랜덤 포레스트 : importance 함숫값을 True로 해주면 중요도 값을 지표화시킬 수 있다.
부분 의존도 plot(PDP : Partial Dependence Plot)
- 의존도를 확인하고자 하는 변수를 한두 개 선택한 후 나머지 변수들에 대해서는 단순 평균을 취하여 해당 변수가 분석한 모형에서 어떤 영향을 미치는지 확인하는 방법
- 먼저 선택된 변수의 값을 하나로 고정시켜 놓고 학습 데이터의 다른 변수들의 값을 이용해서 결과 값의 평균을 구한다.
비즈니스 기여도 평가 - 별로 안 중요
- 투자 대비 효과(ROI : Return On Investment) : 투자로 얻을 수 있는 순 효과를 총비용으로 나눈 값
- 순현재가치(NPV : Net Present Value) : 투자 시작 시점부터 사업이 끝나는 시기까지 연도별로 편익과 비용을 현재 가치로 환산한 값
- 내부 수익률(IRR : Internal Rate of Return) : 순현재가치를 0으로 만드는 할인율
- 총 소유 비용(TCO : Total Cost of Ownership) : 자산을 획득할 때 드는 비용뿐 아니라 교육학습, 유지보수 등의 제반비용을 고려하여 산출되는 총비용
- 투자 회수 기간(PP : Payback Period) : 프로젝트 시작에서부터 누적 현금흐름이 흑자로 돌아서는 시점까지의 기간
시각화
- 목적
- 데이터 분석 : 많은 양의 자료를 표, 그래프 형대로 정리하므로 즉각적으로 데이터의 의미를 파악할 수 있게 함
- 의사소통 : 데이터가 가지고 있는 의미와 인사이트를 다른 사람들과 공유할 수 있도록 하는 매개체가 됨
- 분류
- 데이터 시각화 : 명확하고 효과적으로 정보를 전달하기 위함. 데이터들의 연결과 그룹핑을 표현
- 정보 시각화 : 대규모 비수량 정보를 시각적으로 표현. 데이터 시각화보다 한 단계 더 가공과정 거침
- 정보 디자인 : 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술데이터를 시각적으로 표현
시각화 프로세스
- 정보 구조화 : 데이터를 수집하고 정제하면서 시각화의 목표가 될만한 것을 발견하거나 설정하는 단계
- 정보 시각화 : 시각화 툴을 사용하여 시각화에 필요한 그래프나 기본 틀을 만드는 단계
- 정보 시각표현 : 최종적으로 시각적인 완성을 하는 단계
시간 시각화
- 시간에 따른 데이터의 변화를 보여주는 방법. 일반적으로 x축을 시간, y축을 데이터 값으로 하는 그래프 형태를 사용함
- 종류
- 막대그래프 : 범주별 데이터 값을 나타낼 때 사용함.
- 산점도 : 관계를 알고 싶은 두 변수를 x축, y축으로 두고 관측치의 값에 해당하는 위치에 점으로 표시하는 시각화 방법
- 선 그래프 : 관측치를 점으로 표시한 후, 점들을 선으로 이어서 표시함.
- 계단식 그래프 : x축과 평행한 선으로 연결하여 마치 계단과 같이 그려짐
- 영역 차트 : 선 그래프 안의 영역을 색으로 칠한 형태. 시간에 따른 값의 변화를 보여줌
공간 시각화
- 데이터를 지도 위해 표현하는 방법. 지리 정보가 데이터를 이해하는 데 중요한 요소일 경우 주로 사용함
- 종류
- 등치 지역도 : 지도 위에 시도 등 지리적 단위를 기준으로 데이터의 의미를 색상으로 구분해 나타내는 방법
- 도트 플롯 맵 : 위도, 경도 값을 가지고 있는 데이터의 경우, 각 지리적 좌표 위에 점을 찍어 데이터를 나타내는 방법
- 버블 플롯 맵 : 도트 플롯 맵과 같이 위도, 경도 값을 가지고 있는 데이터의 경우 각 지리적 좌표 위에 데이터를 표시하는 방법
- 카토그램 : 데이터 값에 따라 지도상에서 지역의 크기를 조정하여 나타내는 방법
- 등치선도 : 지도 위에 같은 지리적 위치를 가진 곳을 선으로 이어서 나타내는 방법
관계 시각화 - 기출
- 변수 간에 존재하는 연관성이나 분포, 패턴을 찾기 위해 사용하는 방법
- 종류
- 산점도(Scatter Plot) : 산점도는 두 변수 사이의 관계를 확인할 때 유용하게 사용
- 산점도 행렬(Scatter plot matrix) : 다변량 데이터에서 모든 수치형 변수 간의 산점도를 그릴 때 사용하는 방법. 모든 수치형 변수 간의 관계를 하나하나 확인하기 힘들 때 산점도 행렬도 전반적인 관계를 확인할 수 있음
- 버블차트(Bubble Chart) - 기출 : 두 변수 사이의 관계를 나타내는 것은 산점도와 동일하나 점의 버블의 크기 혹은 모양을 통해 다른 변수를 나타낸다는 것이 차이점
- 히스토그램(Histogram) : 막대그래프와 유사한 형태로, 데이터의 도수 분포를 막대 형태로 시각화하여 보여주는 방법
비교 시각화 - 부분 기출
- 종류
- 히트맵 : 히트맵의 각 행은 관측치를, 열은 변수를 나타내고, 각 칸의 색상을 이용해 값의 크기를 나타냄. 관측치 수가 너무 많거나 변수의 개수가 너무 많은 경우 그래프를 해석하기에 어려움이 있음
- 스타 차트(Star Chart) - 기출 : 수치형 변수 여러 개에 대해 각각을 축으로 두고 중앙으로부터의 거리로 값을 나타냄. 중앙이 변수의 최솟값, 축의 끝이 변수의 최댓값이 됨. 여러 관측치를 함께 나타낼 경우 데이터 간의 비교도 쉽게 할 수 있음
- 체르노프 페이스 : 각 변수 값을 눈, 코, 입, 귀 등 얼글의 부분에 대응하여 표현하는 시각화 방법
- 평행 좌표 그래프 : 나타내고자 하는 몇 개의 변수에 대해 각 변수를 y축에 평행한 여러 개의 축으로 두고 데이터를 표현하는 방법. 하나의 선은 하나의 데이터를 의미하며 각 선이 어떤 패턴을 보이는지 확인할 수 있음
인포그래픽 - 기출
- 인포메이션과 그래픽을 합친 말. 복잡한 데이터를 그래픽으로 이해하기 쉽게 표현하는 시각화 방법
- 데이터 시각화와는 다르게 Raw Data를 취급하지 않으며, 다양한 정보를 종합하여 디자인 의도에 따라 그래픽으로 나타낸다.
- 목적
- 정보형 메시지 : 객관적인 정보를 전달하는 형태(필요한 정보를 전달)
- 설득형 메시지 : 주장하는 바를 전달하는 형태(사회적 메시지)
분석 결과 활용
- 분석 모형 전개 : 데이터를 분석한 결과를 확장 적용하기 위한 단계
- 분석 결과 활용 시나리오 개발 : 분석 결과로부터 인사이트를 발굴하고 의사결정에 반영하는 방법을 검토 및 선택하는 방법을 담음
- 인사이트 발굴 및 확장 : 분석주제를 정의할 때 처음에 계획한 분석 결과 활용 방안 외에 비즈니스 관점에서 얻을 수 있는 인사이트 발굴
- 의사결정 방법 선택 : 인사이트를 업무에 언제, 어떻게 반영할 것인가를 검토
- 차트 및 시각화 도구 선택 : 분석 결과에 적합한 차트 및 시각화 도구를 선택
- 분석 모형 모니터링 : 분석 모형이 운영 시스템에 적용될 경우 매번 새로운 데이터로 추론을 수행하게 되므로 학습 때와 비슷한 성능을 내지 못할 수 있다. 따라서 분석 모형의 성능을 지속적으로 모니터링하면서 개선이 필요한 시점을 파악해야 함
- 분석 모형 모니터링 주기 : 성능 지표의 변화 추이를 주별/월별/분기별 등 어떤 주기로 확인하고 싶은지에 따라 분석 모형 모니터링 주기를 설정함
- 분석 모형 성능 측정 항목 : 운영 정보와 성능을 모니터링하기 위한 지표값, 상태 기준 값 등을 정의하고 관리함
- 분석 모형 재학습 : 분석 모형이 운영 시스템에 적용된 후에도 학습은 지속적으로 이루어져야 함
- 분석 모형 리모델링 : 모니터링 결과 분석 모형의 성능이 크게 떨어지거나 성능 저하가 지속되는 경우 분석 모형 리모델링을 수행한다.
- 기존 모형 분석 : 기존 분석 모형의 성능 평가지표의 변화를 확인한다.
- 데이터 수집 및 전처리 : 기존 분석 모형에 사용된 데이터를 확인하고 추가로 필요한 데이터가 있는지 검토하여 사용 데이터 종류 및 기간을 확정함
- 분석 모형 구축 : 분석 모형 개발 단계와 동일하게 분석 모형을 구축함. 기존에 사용하지 않았던 데이터를 사용하거나, 새로운 변수를 설계하거나, 새로운 알고리즘을 적용함.
- 최종 분석 모형 선정 및 반영 : 분석 모형 구축 단계에서 만든 분석 모형 중 최종 분석 모형을 선정함
오답
- Q-Q plot에서 관측치가 대각선을 따라 분포할 때 정규성을 만족한다고 볼 수 있다.
- 미니 배치 경사하강법은 무작위로 선택한 10~1000개의 데이터 샘플을 사용한다.
- 스태킹은 학습 데이터로 여러 개의 분석 모형을 만든 후, 각 분석 모형의 예측 값들을 독립변수로 하는 최종 예측 모델을 학습시킨다. 이 최종 모델을 블렌더(Blender) 또는 메타 학습기(meta learner)라고 한다.
- 해석 가능한 모형은 상대적으로 학습 시간이 짧고 직관적인 해석이 가능하지만 예측 정확도는 낮다.
'개발 > 자격증 공부' 카테고리의 다른 글
빅데이터분석기사 개인 오답 노트 - 2 (0) | 2023.02.27 |
---|---|
빅데이터분석기사 개인 오답 노트 - 1 (0) | 2023.02.25 |
빅데이터분석기사 필기 요약(10. 분석 모형 평가 및 개선) (0) | 2023.02.21 |
빅데이터분석기사 필기 요약(9. 분석 기법 적용 - 3) (0) | 2023.02.19 |
빅데이터분석기사 필기 요약(8. 분석 기법 적용 - 2) (0) | 2023.02.17 |