빅데이터분석기사 필기 요약(11. 분석 결과 해석 및 활용)

개발/자격증 공부

빅데이터분석기사 필기 요약(11. 분석 결과 해석 및 활용)

잠수돌침대 2023. 2. 23. 18:00

해석 가능한 모형(Interpretable models)

선형 회귀/로지스틱 회귀 모형 : 각 변수의 가중치가 구해지므로 그 값을 참고할 수 있음
의사결정나무 : 각 분기점에서 사용된 기준을 참고함

순열 변수 중요도

특정 변수를 사용하지 않았을 때 모형의 성능에 어느 정도의 손실을 주는지를 계산함으로 해당 변수의 중요도를 파악하는 방법
한 변수에 대해 그 변수의 값을 무작위로 섞어서 예측 값들을 구한다. 해당 변수의 값을 무작위로 사용함으로 부석 모형이 학습한 패턴을 지우는 효과를 주는 것임.
랜덤 포레스트 : importance 함숫값을 True로 해주면 중요도 값을 지표화시킬 수 있다.

부분 의존도 plot(PDP : Partial Dependence Plot)

의존도를 확인하고자 하는 변수를 한두 개 선택한 후 나머지 변수들에 대해서는 단순 평균을 취하여 해당 변수가 분석한 모형에서 어떤 영향을 미치는지 확인하는 방법
먼저 선택된 변수의 값을 하나로 고정시켜 놓고 학습 데이터의 다른 변수들의 값을 이용해서 결과 값의 평균을 구한다.

비즈니스 기여도 평가 - 별로 안 중요

투자 대비 효과(ROI : Return On Investment) : 투자로 얻을 수 있는 순 효과를 총비용으로 나눈 값
순현재가치(NPV : Net Present Value) : 투자 시작 시점부터 사업이 끝나는 시기까지 연도별로 편익과 비용을 현재 가치로 환산한 값
내부 수익률(IRR : Internal Rate of Return) : 순현재가치를 0으로 만드는 할인율
총 소유 비용(TCO : Total Cost of Ownership) : 자산을 획득할 때 드는 비용뿐 아니라 교육학습, 유지보수 등의 제반비용을 고려하여 산출되는 총비용
투자 회수 기간(PP : Payback Period) : 프로젝트 시작에서부터 누적 현금흐름이 흑자로 돌아서는 시점까지의 기간

시각화

목적
- 데이터 분석 : 많은 양의 자료를 표, 그래프 형대로 정리하므로 즉각적으로 데이터의 의미를 파악할 수 있게 함
- 의사소통 : 데이터가 가지고 있는 의미와 인사이트를 다른 사람들과 공유할 수 있도록 하는 매개체가 됨
분류
- 데이터 시각화 : 명확하고 효과적으로 정보를 전달하기 위함. 데이터들의 연결과 그룹핑을 표현
- 정보 시각화 : 대규모 비수량 정보를 시각적으로 표현. 데이터 시각화보다 한 단계 더 가공과정 거침
- 정보 디자인 : 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술데이터를 시각적으로 표현

시각화 프로세스

정보 구조화 : 데이터를 수집하고 정제하면서 시각화의 목표가 될만한 것을 발견하거나 설정하는 단계
정보 시각화 : 시각화 툴을 사용하여 시각화에 필요한 그래프나 기본 틀을 만드는 단계
정보 시각표현 : 최종적으로 시각적인 완성을 하는 단계

시간 시각화

시간에 따른 데이터의 변화를 보여주는 방법. 일반적으로 x축을 시간, y축을 데이터 값으로 하는 그래프 형태를 사용함
종류
- 막대그래프 : 범주별 데이터 값을 나타낼 때 사용함.
- 산점도 : 관계를 알고 싶은 두 변수를 x축, y축으로 두고 관측치의 값에 해당하는 위치에 점으로 표시하는 시각화 방법
- 선 그래프 : 관측치를 점으로 표시한 후, 점들을 선으로 이어서 표시함.
- 계단식 그래프 : x축과 평행한 선으로 연결하여 마치 계단과 같이 그려짐
- 영역 차트 : 선 그래프 안의 영역을 색으로 칠한 형태. 시간에 따른 값의 변화를 보여줌

공간 시각화

데이터를 지도 위해 표현하는 방법. 지리 정보가 데이터를 이해하는 데 중요한 요소일 경우 주로 사용함
종류
- 등치 지역도 : 지도 위에 시도 등 지리적 단위를 기준으로 데이터의 의미를 색상으로 구분해 나타내는 방법
- 도트 플롯 맵 : 위도, 경도 값을 가지고 있는 데이터의 경우, 각 지리적 좌표 위에 점을 찍어 데이터를 나타내는 방법
- 버블 플롯 맵 : 도트 플롯 맵과 같이 위도, 경도 값을 가지고 있는 데이터의 경우 각 지리적 좌표 위에 데이터를 표시하는 방법
- 카토그램 : 데이터 값에 따라 지도상에서 지역의 크기를 조정하여 나타내는 방법
- 등치선도 : 지도 위에 같은 지리적 위치를 가진 곳을 선으로 이어서 나타내는 방법

관계 시각화 - 기출

변수 간에 존재하는 연관성이나 분포, 패턴을 찾기 위해 사용하는 방법
종류
- 산점도(Scatter Plot) : 산점도는 두 변수 사이의 관계를 확인할 때 유용하게 사용
- 산점도 행렬(Scatter plot matrix) : 다변량 데이터에서 모든 수치형 변수 간의 산점도를 그릴 때 사용하는 방법. 모든 수치형 변수 간의 관계를 하나하나 확인하기 힘들 때 산점도 행렬도 전반적인 관계를 확인할 수 있음
- 버블차트(Bubble Chart) - 기출 : 두 변수 사이의 관계를 나타내는 것은 산점도와 동일하나 점의 버블의 크기 혹은 모양을 통해 다른 변수를 나타낸다는 것이 차이점
- 히스토그램(Histogram) : 막대그래프와 유사한 형태로, 데이터의 도수 분포를 막대 형태로 시각화하여 보여주는 방법

비교 시각화 - 부분 기출

종류
- 히트맵 : 히트맵의 각 행은 관측치를, 열은 변수를 나타내고, 각 칸의 색상을 이용해 값의 크기를 나타냄. 관측치 수가 너무 많거나 변수의 개수가 너무 많은 경우 그래프를 해석하기에 어려움이 있음
- 스타 차트(Star Chart) - 기출 : 수치형 변수 여러 개에 대해 각각을 축으로 두고 중앙으로부터의 거리로 값을 나타냄. 중앙이 변수의 최솟값, 축의 끝이 변수의 최댓값이 됨. 여러 관측치를 함께 나타낼 경우 데이터 간의 비교도 쉽게 할 수 있음
- 체르노프 페이스 : 각 변수 값을 눈, 코, 입, 귀 등 얼글의 부분에 대응하여 표현하는 시각화 방법
- 평행 좌표 그래프 : 나타내고자 하는 몇 개의 변수에 대해 각 변수를 y축에 평행한 여러 개의 축으로 두고 데이터를 표현하는 방법. 하나의 선은 하나의 데이터를 의미하며 각 선이 어떤 패턴을 보이는지 확인할 수 있음

인포그래픽 - 기출

인포메이션과 그래픽을 합친 말. 복잡한 데이터를 그래픽으로 이해하기 쉽게 표현하는 시각화 방법
데이터 시각화와는 다르게 Raw Data를 취급하지 않으며, 다양한 정보를 종합하여 디자인 의도에 따라 그래픽으로 나타낸다.
목적
- 정보형 메시지 : 객관적인 정보를 전달하는 형태(필요한 정보를 전달)
- 설득형 메시지 : 주장하는 바를 전달하는 형태(사회적 메시지)

분석 결과 활용

분석 모형 전개 : 데이터를 분석한 결과를 확장 적용하기 위한 단계
분석 결과 활용 시나리오 개발 : 분석 결과로부터 인사이트를 발굴하고 의사결정에 반영하는 방법을 검토 및 선택하는 방법을 담음

인사이트 발굴 및 확장 : 분석주제를 정의할 때 처음에 계획한 분석 결과 활용 방안 외에 비즈니스 관점에서 얻을 수 있는 인사이트 발굴
의사결정 방법 선택 : 인사이트를 업무에 언제, 어떻게 반영할 것인가를 검토
차트 및 시각화 도구 선택 : 분석 결과에 적합한 차트 및 시각화 도구를 선택

분석 모형 모니터링 : 분석 모형이 운영 시스템에 적용될 경우 매번 새로운 데이터로 추론을 수행하게 되므로 학습 때와 비슷한 성능을 내지 못할 수 있다. 따라서 분석 모형의 성능을 지속적으로 모니터링하면서 개선이 필요한 시점을 파악해야 함

분석 모형 모니터링 주기 : 성능 지표의 변화 추이를 주별/월별/분기별 등 어떤 주기로 확인하고 싶은지에 따라 분석 모형 모니터링 주기를 설정함
분석 모형 성능 측정 항목 : 운영 정보와 성능을 모니터링하기 위한 지표값, 상태 기준 값 등을 정의하고 관리함
분석 모형 재학습 : 분석 모형이 운영 시스템에 적용된 후에도 학습은 지속적으로 이루어져야 함

분석 모형 리모델링 : 모니터링 결과 분석 모형의 성능이 크게 떨어지거나 성능 저하가 지속되는 경우 분석 모형 리모델링을 수행한다.

기존 모형 분석 : 기존 분석 모형의 성능 평가지표의 변화를 확인한다.
데이터 수집 및 전처리 : 기존 분석 모형에 사용된 데이터를 확인하고 추가로 필요한 데이터가 있는지 검토하여 사용 데이터 종류 및 기간을 확정함
분석 모형 구축 : 분석 모형 개발 단계와 동일하게 분석 모형을 구축함. 기존에 사용하지 않았던 데이터를 사용하거나, 새로운 변수를 설계하거나, 새로운 알고리즘을 적용함.
최종 분석 모형 선정 및 반영 : 분석 모형 구축 단계에서 만든 분석 모형 중 최종 분석 모형을 선정함

오답

Q-Q plot에서 관측치가 대각선을 따라 분포할 때 정규성을 만족한다고 볼 수 있다.
미니 배치 경사하강법은 무작위로 선택한 10~1000개의 데이터 샘플을 사용한다.
스태킹은 학습 데이터로 여러 개의 분석 모형을 만든 후, 각 분석 모형의 예측 값들을 독립변수로 하는 최종 예측 모델을 학습시킨다. 이 최종 모델을 블렌더(Blender) 또는 메타 학습기(meta learner)라고 한다.
해석 가능한 모형은 상대적으로 학습 시간이 짧고 직관적인 해석이 가능하지만 예측 정확도는 낮다.

'개발 > 자격증 공부' 카테고리의 다른 글

빅데이터분석기사 개인 오답 노트 - 2 (0)	2023.02.27
빅데이터분석기사 개인 오답 노트 - 1 (0)	2023.02.25
빅데이터분석기사 필기 요약(10. 분석 모형 평가 및 개선) (0)	2023.02.21
빅데이터분석기사 필기 요약(9. 분석 기법 적용 - 3) (0)	2023.02.19
빅데이터분석기사 필기 요약(8. 분석 기법 적용 - 2) (0)	2023.02.17

현재글빅데이터분석기사 필기 요약(11. 분석 결과 해석 및 활용)

티스토리툴바