개인공부 51

빅데이터분석기사 개인 오답 노트 - 3

책임 원칙 훼손을 통제하기 위해서는 기존 책임 원칙을 강화하여 보강하고 불이익 가능성을 최소화할 수 있는 장치를 마련해야 한다. 사생활 침해의 위기에 대해서는 동의제에서 책임제로 변경하는 것으로 통제 가능 성과의 평가 지표로 사용되는 것은 KPI(Key Performance Indicator)이다. 총계처리 기법 : 개인정보에 통계값을 적용하여 개인을 특정할 수 없게 하는 기법으로 집계 처리된 데이터를 기준으로 상세한 분석이 어렵다는 특징을 가진다. 범위화 : 식별값을 해당 그룹의 대푯값이나 구간값으로 변환하는 범주화 기법 하둡 분산 파일 시스템은 메타를 관리하는 네임 노드와 파일이 저장되는 데이터 노드로 구성되어 파일을 특정 크기의 블록으로 나누어 데이터 노드에 3중으로 저장한다. 저사양의 다수 서버로..

빅데이터분석기사 개인 오답 노트 - 2

데이터 확보 계획 단계 : 목표 정의 - 요구 사항 도출 - 예산안 수립 - 계획 수립 언어, 문자 등 정형화되지 않아 저장, 검색, 분석에 많은 비용이 소모되는 데이터는 정성적 데이터이다. NoSQL의 유형은 데이터 저장 모델에 따라 Key Value Database, Document Database, Wide Column Database, Graph Database로 이루어진다. KDD 분석 방법론의 분석 단계 : 데이터 선택 - 데이터 전처리 - 데이터 변환 - 데이터 마이닝 - 해석과 평가 시급성에 기준을 두고 분석 업무의 우선순위를 정할 때 난도가 낮고 시급한 문제를 먼저 해결해야 한다. 난도가 높다면 시급성보다 난이도를 우선하도록 한다. 아마존 AWS에서 제공하는 파일 시스템 저장소는 S3(S..

빅데이터분석기사 개인 오답 노트 - 1

데이터 변환 기법에는 데이터의 노이즈를 구간화, 군집화 등으로 다듬는 평활화. 다양한 차원으로 요약하는 집계, 특정 구간으로 값을 스케일링하는 일반화, 정해진 구간으로 전환하는 정규화, 새로운 속성을 생성하는 기법 등이 있다. 데이터 레이크 : 정형, 비정형의 다양한 유형의 데이터를 저장, 관리하며 소스 데이터의 형태를 그대로 저장하기 때문에 메타의 관리가 중요하다. 데이터 레이크에 저장되는 방대한 데이터에서 효율적으로 유의미한 데이터를 활용하기 위해 레이크쇼어 마트를 구성하여 사용하기도 한다. 분석 스킬의 종류 Soft Skill : 분석의 통찰력, 여러 분야의 협력 능력, 설득력 있는 전달력 Hard Skill : 빅데이터 관련 이론적 지식, 분석기술의 숙련도 데이터 수집 프로세스 : 수집 데이터 도..

빅데이터분석기사 필기 요약(11. 분석 결과 해석 및 활용)

해석 가능한 모형(Interpretable models) 선형 회귀/로지스틱 회귀 모형 : 각 변수의 가중치가 구해지므로 그 값을 참고할 수 있음 의사결정나무 : 각 분기점에서 사용된 기준을 참고함 순열 변수 중요도 특정 변수를 사용하지 않았을 때 모형의 성능에 어느 정도의 손실을 주는지를 계산함으로 해당 변수의 중요도를 파악하는 방법 한 변수에 대해 그 변수의 값을 무작위로 섞어서 예측 값들을 구한다. 해당 변수의 값을 무작위로 사용함으로 부석 모형이 학습한 패턴을 지우는 효과를 주는 것임. 랜덤 포레스트 : importance 함숫값을 True로 해주면 중요도 값을 지표화시킬 수 있다. 부분 의존도 plot(PDP : Partial Dependence Plot) 의존도를 확인하고자 하는 변수를 한두 ..

빅데이터분석기사 필기 요약(10. 분석 모형 평가 및 개선)

회귀모형 평가지표 1. 평가 지표 평균 절대 오차(MAE : Mean Absolute Error) : 실제 값과 예측 값의 차이(오차)에 절댓값을 취해 평균한 값. 직관적이나 에러의 크기가 그대로 반영됨 평균 제곱 오차(MSE : Mean Squared Error) : 모형의 실제 값과 예측 값의 차이를 제곱하여 평균한 값 평균제곱근오차(RMSE : Root Mean Squared Error) : MSE에 제곱근을 씌운 값. MSE는 실 오류의 평균보다 값이 더 커지는 경향이 있어 MSE에 제곱근을 씌운 형태를 사용함 평균절대백분율오차(MAPE : Mean Absolute Percentage Error) : MAE를 퍼센트로 변환한 값. 오차를 비율로 나타내어 단위가 다른 변수 간에 오차를 비교할 수 있..

빅데이터분석기사 필기 요약(9. 분석 기법 적용 - 3)

베이지안 기법 조건부 확률 : 특정 사건이 발생했다는 가정하에 다른 사건이 발생할 확률. 두 사건 A, B에 대하여 서로를 조건 하는 조건부 확률은 다음과 같이 정의됨 사건 A 조건하에 사건 B가 발생할 확률 : P(B|A) 사건 B 조건하에 사건 A가 발생할 확률 : P(A|B) 베이즈 정리 : 표본이 특정 사건에 포함된다는 주장에 대한 신뢰도를 의미함. 베이즈 정리는 신규 데이터를 기반으로 베이지안 확률을 갱신하는 방법이다. 나이브 베이즈 - 기출 베이즈 정리 기반의 지도 학습 분류 모델. 이론적으로 쉽고 산출 속도가 빠르다는 특징을 가진다. 종속변수를 추정하기 위해 모든 독립변수가 서로 동등하고 독립적으로 기여한다고 가정한다. 관측치가 종속변수의 각 범주에 속할 확률을 구하고 확률이 큰 범주에 할당..

빅데이터분석기사 필기 요약(8. 분석 기법 적용 - 2)

군집 분석 관측된 여러 개의 변수 값에서 유사성에만 기초하여 n개의 군집으로 집단화한 뒤, 그 집단의 특성을 분석하는 다변량 분석 기법 계층적 군집 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성한 것 병합적 방법 : 작은 군집으로부터 시작하여 군집을 병합. 분할적 방법 : 큰 군집에서 군집을 분리해 나가는 과정 계층도(덴드로그램) : 군집의 결과를 보여주는 그림. 각 개체는 단 하나의 군집에만 속함 군집 간 거리 측정 방법 최단연결법 : 각 군집에서 하나씩 관측값을 뽑았을 때 나올 수 있는 최솟값을 두 군집 사이의 거리로 측정 최장연결법 : 각 군집에서 하나씩 관측값을 뽑았을 때 나올 수 있는 최댓값을 두 군집 사이의 거리로 측정 중심연결법 : 두 군집 중심 간의 거리를 측정 평균연결법 : 모든 ..

빅데이터분석기사 필기 요약(7. 분석 기법 적용 - 1)

회귀분석의 가정 - 기출 선형성 : 독립변수와 종속변수는 선형적. 종속변수는 독립변수와 회귀계수의 선형적 조합으로 표현 가능. 산점도를 통해 선형성을 확인 가능 독립성 : 단순 회귀분석에는 잔차와 독립변수의 값이 서로 독립. 다중 회귀분석에서는 독립변수 간에 상관성 없이 독립 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정. 잔차가 고르게 분포해야 함 정규성 : 잔차항이 정규분포의 형태를 띰. 잔차항의 평균은 0이고 분산이 일정함. 회귀분석의 위의 네 가정을 만족하는 데이터의 경우에 사용한다. 회귀분석의 종류 단순 회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선 다중 회귀 : 독립변수가 k개이며 종속변수와의 관계가 선형 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 곡선 회..

빅데이터분석기사 필기 요약(6. 분석 모형 설계)

분석 방법 통계 분석(Statistical analysis) : 특정 집단이나 불확실한 현상을 데이터를 통해 이해하고 추론을 통해 의사결정하는 과정 기술 통계 : 데이터를 요약/정리하고 이해하기 위해 평균, 표준편차 등 기초통계량을 구하거나 그래프로 표현하는 분석방식 추론 통계 : 수집된 데이터를 기반으로 모집단에 대해 추정하고 가설을 검정하는 분석 방법 데이터 마이닝(Data Mining) : 데이터에 숨어있는 유용한 정보를 찾아내는 과정. 분류 분석, 추정 분석, 예측 분석, 연관 분석, 군집 분석, 기술 분석 등이 존재 머신 러닝(Machine Learning) : 분석 모형 알고리즘이 데이터를 학습하고 학습한 정보를 바탕으로 결과를 출력하는 분석방법. 종속변수의 존재 여부, 학습 방법 등에 따라 ..

빅데이터분석기사 필기 요약(5. 통계 기법 이해)

기술 통계(Descriptive Statistics) 데이터 분석의 목적으로 수집된 데이터를 통계적으로 정리하고 요약하는 기초적인 통계 기법. 데이터 분석에 쓰이는 자료를 수집할 때 전수조사가 불가능한 경우가 대다수이기 때문에 일반적으로 표본을 추출해서 분석을 수행한다. 데이터 요약 중심 경향 통계량(Central tendency) 평균(Mean) : 자료를 모두 더한 후 개수로 나눈 값. 모든 자료에 같은 가중치를 부여한다. 중위수(Median) : 모든 데이터값을 크기 순서에 따라 오름차순으로 정렬하였을 때 중앙에 위치한 데이터값. 이상값에 영향을 받지 않는다. 최빈수(Mode) : 데이터값 중에서 빈도수가 가장 높은 데이터 값 산포도 통계량(Dispersion) 범위(Range) : 데이터값 중에서..