다른 자격증 공부 중에서 해당 공부를 제일 흥미롭게 했던 것 같다. 실기 문제는 필기 20% 정도에 직접 코딩이 포함되어 있으니 필기를 위해서 관련 이론 공부를 진행했던 것으로 기억한다.
이에 정보처리기사 요약 이후 필자가 어떠한 방식으로 필기 공부를 진행했는지 빅데이터 분석기사 요약본을 공개 발행하여 소개하고자 한다. 여러분도 이 글들을 보고 자격증 공부에 도움이 되었으면 하는 바람이다.
1. 빅데이터의 이해
DKIW 피라미드
- 데이터(Data) : 가공되기 전의 객관적 수치 또는 기호
- 정보(Information) : 데이터의 가공 및 처리를 통해 도출된 현상
- 지식(Knowledge) : 정보의 구조화를 통해 도출되는 고유의 아이디어(개인 아이디어라고 생각)
- 지식은 그 존재의 형태에 따라 암묵지와 형식지로 나뉜다.
- 암묵지 : 개인에게 축적된 내면화된 지식 / 형식지 : 언어나 문서로 표준화 및 형상화된 지식으로 표출화
- 지식은 그 존재의 형태에 따라 암묵지와 형식지로 나뉜다.
- 지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물
빅데이터의 특징(5V)
- 규모(Volume) : 수집, 저장, 처리하는 데이터의 규모가 매우 큼
- 다양성(Variety) : 정형화된 데이터뿐만 아니라 다양한 유형의 데이터를 처리함
- 속도(Velocity) : 데이터의 수집, 분석, 활용의 속도가 매우 빠름
- 신뢰성(Veracity) : 데이터 처리를 통한 노이즈 제거로 수집된 데이터의 신뢰 확보
- 가치(Value) : 수집된 데이터를 처리함으로 다양한 가치를 창출함
빅데이터가 만들어내는 변화
- 사전처리에서 사후처리
- 표본조사에서 전수조사
- 질보다 양
- 인과관계에서 상관관계로
빅데이터 분석 프로세스
- 빅데이터 수집-빅데이터 저장 및 관리-빅데이터 처리-빅데이터 분석-시각화 및 활용-데이터 폐기
비식별 조치 단계
- 적정성 평가 방법으로 k-익명성 모델을 최소한의 평가 수단으로 정의하고 있음
- 개인정보 보호 모델에는 k-익명성과 이를 보완한 l-다양성, t-근접성 모델이 있으며 최소한 k-익명성 모델을 적용하여 적정성으로 평가해야 한다.
빅데이터의 위기 요인
- 사생활 침해 : 개인정보 주체의 의도와 상관없이 개인의 민감한 정보를 누출시켜 사생활 침해로 이어질 수 있다.
- 책임 원칙 훼손 : 범죄 예측, 위험 요소 예측 등이 가능해지면서 사건이 발생하기 전에 그 행위에 대한 책임을 물어 불이익을 주는 행위
- 데이터 오용 : 잘못된 분석으로 인해 피해가 발생하는 형태
개인 정보 비식별 조치 가이드라인은 데이터 활용이 증가함에 따라 개인정보 보호 강화에 대한 요구가 지속되어 개인정보 보호를 보장하면서 데이터를 활용하기 위해 만들어졌으며, 개인정보를 이용 또는 제공할 때 준수해야 할 조치 기준을 제시하고 있다.
반정형 데이터
- 형식과 구조가 변경될 수 있지만 데이터 구조 정보를 함께 제공하는 형식의 데이터
- 유형에는 HTML, JSON, 로그 데이터, 센싱 데이터 등이 있다.
2. 데이터 분석 계획
분석 문제 정의 방식
- 하향식 접근 방식 : 문제가 정의되어 주어지고 이에 대한 해결 방법을 찾기 위해 단계적으로 업무를 수행하는 방식
- 문제 탐색-분석 문제 정의-해결 방안 탐색-타당성 평가-과제 선정
- 상향식 접근 방식 : 문제를 정의할 수 없는 경우 데이터를 기반으로 문제를 정의하고 해결 방안을 탐색하는 방식
하향식 접근법
- 문제 탐색
- 비즈니스 모델 기반 문제 탐색 : 기업 내/외부 환경을 포괄하는 비즈니스 모델의 업무 단위로 문제를 발굴하는 방법
- 외부 참조 모델 기반 문제 탐색 : 외부 사례를 벤치마킹하여 분석 기회를 발굴하는 방법
- 분석 문제 정의 : 비즈니스 문제를 데이터의 문제로 전환
- 해결 방안 탐색 : 문제의 수준 및 분석역량에 기초하여 분석기법 및 방법 탐색
- 타당성 평가 및 과제 선정 : 데이터와 기술의 타당성, 경제성을 고려하여 여러 대안 중 적합한 대안을 선택
디자인 사고(Design Thinking)
- 상향식 접근법으로 문제를 도출하고 하향식 접근법으로 해결방법을 찾는 과정을 반복함으로 동적인 환경에서 최적의 문제 정의를 하기 위한 접근방식
문제 분석 해결 방안
- 최적화 : 분석 대상과 분석 방법을 알 경우 개선을 통한 최적화
- 솔루션 : 분석 대상은 알지만 분석 방법을 모를 경우 분석 주제에 대한 솔루션 탐색
- 통찰 : 분석 대상이 무엇인지 정확히 모르지만 기존에 알고 있는 분석 방법을 활용하여 새로운 통찰 도출
- 발견 : 분석의 대상과 방법을 모두 모를 경우 분석의 대상을 탐색하여 발견
데이터 분석 방안-데이터 분석 업무 흐름
- 데이터 수집 : 분석에 필요한 데이터의 원천과 활용 여부를 판단하여 분석에 활용할 데이터를 수집
- 데이터 저장 : 수집된 데이터를 분석 아키텍처에 저장
- 데이터 처리 : 전처리와 후처리를 통해 데이터를 분석 환경과 목적에 적합하게 가공
- 탐색적 데이터 분석(EDA) : 데이터 현황을 분포도, 평균과 분산 등 간단한 시각화나 통계 지표를 활용하여 특성을 파악하고 분석 방향을 수립
- 모형 및 알고리즘 설계 : 데이터 특성에 맞는 분석 모형과 알고리즘 설계 및 분석 실행
- 시각화 및 보고서를 통한 데이터 활용 : 분석 결과를 현업이 이해하기 쉽도록 그래프/차트를 통해 시각화하여 보고서 작성
추가 분석 방법론
- KDD(Knowledge Discovery in Database) : 데이터로부터 통계적인 패턴이나 지식을 찾기 위해 정리된 데이터 마이닝 프로세스로 데이터 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 해석과 평가의 단계로 진행됨
- CRISP-DM(Cross Industry Standard Process for Data Mining) : 단계(최상위 단계), 일반화 태스크, 세분화 태스크, 프로세스 실행으로 구성되어 있다. 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개의 6단계로 진행되며 각 단계 피드백을 통해 완성도를 높일 수 있다.
'개발 > 자격증 공부' 카테고리의 다른 글
빅데이터분석기사 필기 요약(3. 데이터 전처리) (0) | 2023.02.07 |
---|---|
빅데이터분석기사 필기 요약(2. 데이터 수집 및 저장 계획) (0) | 2023.02.05 |
정보처리기사 최종 정리 노트 - 7 (2) | 2023.02.01 |
자격증 공부를 왜 해야할까? - 자격증 7개 따며 느낀 것들 (2) | 2023.01.31 |
정보처리기사 최종 정리 노트 - 6 (0) | 2023.01.30 |