빅데이터분석기사 14

빅데이터분석기사 필기 요약(4. 데이터 탐색)

탐색적 데이터 분석의 특성 저항성 : 자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 영향을 적게 받는 성질 잔차 : 관찰값들이 주 경향으로부터 얼마나 벗어났는지를 나타내는 성질 자료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 변경하는 것(로그/제곱급/연수 변환 등) 현시성 : 자료를 그래프를 활용해서 시각적으로 표현함으로 자료의 구조를 효율적으로 파악하게 된다는 성질 개별 데이터 탐색 방법 범주형 데이터(질적 데이터) : 명목형 변수와 순서형 변수에 대한 데이터 탐색. 빈도수, 최빈값, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악. 막대형 그래프를 주로 이용함 수치형 데이터(양적 데이터) : 이산형 변수와 연속형 변수에 대한..

빅데이터분석기사 필기 요약(3. 데이터 전처리)

데이터 정제 데이터 전처리 : 데이터를 정제한 후 분석 변수를 처리하는 순서로 진행함 데이터 정제 : 분석 작업이 시작되기 전 오류를 일으킬 수 있는 결측값을 채우거나 이상값을 제거하는 사전 작업 결측값(Missing Value) : 필수 데이터가 입력되지 않고 누락된 값. 결측값은 N/A로 표시하거나 빈칸으로 표현한다. 결측값은 분석 결과에 큰 영향을 미치기 때문에 데이터를 아예 제거하거나, 결측값을 중심 경향성 통계량(평균값/최빈값)으로 대체할 수 있다. 이상값(Outlier) : 관측된 데이터 범주에서 일반적인 데이터 값의 범위를 벗어난 값을 말한다. 일반적으로 상한보다 높으면 상한값으로 대체하고, 하한보다 낮으면 하한값으로 대체하는 방법으로 처리할 수 있다. 데이터 결측값의 유형 완전 무작위 결측..

빅데이터분석기사 필기 요약(2. 데이터 수집 및 저장 계획)

데이터 수집 프로세스 데이터 수집은 수집 대상 선정, 데이터 수집 세부계획 수립, 테스트 수집 실행의 프로세스로 나뉜다. 데이터 수집 기술 정형 데이터 :FTP, Open API 비정형 데이터 : Crawling, RSS, Open API, FTP, Scrapy, Apache Kafka 반정형 데이터 : Sensing, Streaming, Flume, Scribe, Chukwa 데이터 유형-구조 정형 데이터 : 정형화된 스키마 구조를 가지고 고정된 필드에 저장되는 행과 열로 구성된 데이터 관계형 데이터베이스, 스프레드 시트 등이 존재 반정형 데이터 : 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식이 일관되지 않은 데이터 XML, HTML, 웹 로그, 알람, JSON, RSS, 센서 데이터 ..

빅데이터분석기사 필기 요약(1. 데이터 이해 및 분석 계획)

다른 자격증 공부 중에서 해당 공부를 제일 흥미롭게 했던 것 같다. 실기 문제는 필기 20% 정도에 직접 코딩이 포함되어 있으니 필기를 위해서 관련 이론 공부를 진행했던 것으로 기억한다. 이에 정보처리기사 요약 이후 필자가 어떠한 방식으로 필기 공부를 진행했는지 빅데이터 분석기사 요약본을 공개 발행하여 소개하고자 한다. 여러분도 이 글들을 보고 자격증 공부에 도움이 되었으면 하는 바람이다. 1. 빅데이터의 이해 DKIW 피라미드 데이터(Data) : 가공되기 전의 객관적 수치 또는 기호 정보(Information) : 데이터의 가공 및 처리를 통해 도출된 현상 지식(Knowledge) : 정보의 구조화를 통해 도출되는 고유의 아이디어(개인 아이디어라고 생각) 지식은 그 존재의 형태에 따라 암묵지와 형식지..