- 책임 원칙 훼손을 통제하기 위해서는 기존 책임 원칙을 강화하여 보강하고 불이익 가능성을 최소화할 수 있는 장치를 마련해야 한다.
- 사생활 침해의 위기에 대해서는 동의제에서 책임제로 변경하는 것으로 통제 가능
- 성과의 평가 지표로 사용되는 것은 KPI(Key Performance Indicator)이다.
- 총계처리 기법 : 개인정보에 통계값을 적용하여 개인을 특정할 수 없게 하는 기법으로 집계 처리된 데이터를 기준으로 상세한 분석이 어렵다는 특징을 가진다.
- 범위화 : 식별값을 해당 그룹의 대푯값이나 구간값으로 변환하는 범주화 기법
- 하둡 분산 파일 시스템은 메타를 관리하는 네임 노드와 파일이 저장되는 데이터 노드로 구성되어 파일을 특정 크기의 블록으로 나누어 데이터 노드에 3중으로 저장한다. 저사양의 다수 서버로 구성되어 기존 파일 시스템에 비해 비용효율적이다
- 분산성 : 네트워크가 물리적으로 분산된 환경에서도 시스템이 원활하게 작동해야 하는 특성
- 데이터 이상값은 반드시 제거할 필요가 없이 때문에 분석가의 주관에 따라 이상값 처리 방법에 대한 판단이 필요하다.
- 확률 분포 : 확률변수가 특정한 값을 가질 확률을 나타내는 분포
- 확률변수의 종류에 따라 이산 확률 분포와 연속 확률 분포로 나뉜다.
- 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 군집 분석은 비지도 학습에 해당하며, 회귀 분석, 분류 분석, 감성 분석은 지도 학습에 해당한다.
- 시계열 분석을 수행하는 경우 최신 데이터를 테스트 데이터로 분할한다.
- 분할된 데이터는 전체 데이터에 대한 대표성을 띄어야 한다.
- 일반적으로 학습 데이터와 검증 데이터를 60-80%, 테스트 데이터를 20-40%로 분할한다.
- 학습 데이터, 검증 데이터, 테스트 데이터는 중복이 존재하면 안 된다.
- 로지스틱 회귀 모델은 종속변수가 범주형이며, 이항 분포를 따른다.
- 인공신경망은 지도 학습, 비지도 학습 모두에 사용될 수 있다.
- 의사결정나무는 지도학습에 사용된다.
- 정지 규칙 :더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙
- 가지치기 : 불필요한 마디를 제거하는 과정
- 분리 기준 :부모마디보다 자식마디의 순수도가 증가하도록 진행해야 함
- 포화 상태 : 신경망 모형에서 입력값이 지나치게 크면 활성화 함수가 편향되어 과적합이 발생하는 상태
- 인공신경망의 활성화 함수로는 Sigmoid, reLU, Softmax가 있다.
- SOM(Self-Organizing Maps) : 입력층과 경쟁층으로 구성된다. 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 되며 경쟁층에는 승자 뉴런만이 나타난다.
- 카이제곱 검정의 적합도 검정은 하나의 범주형 변수에 대하여 데이터가 특정 분포를 만족하는지를 검정하는 기법이다.
- 이동평균 모형 : 시간이 지날수록 관측치의 평균이 지속적으로 증가하거나 감소하는 경향을 시계열 모형으로 구성한 것
- 배깅(Bagging) : 랜덤 복원 추출을 통해 같은 크기의 표본을 추출한 여러 개의 표본에 각각 모형을 병렬적으로 학습하고 추출된 결과를 집계하는 앙상블 기법
- 이상치가 있는 데이터에 사용하기 적절한 지표 두 개 : MAE, MAPE
- 혼동행렬 식 다시 보기
- 정상상(정규성)은 샤피로-윌크 검정, 콜모고로프-스미르노프 적합성 검정, Q-Q plot을 이용하여 검정할 수 있다.
- 더빈-왓슨 검정은 독립성을 검정하기 위한 방법임
- 분산 분석은 3개 이상의 그룹에도 적용할 수 있으며, 그룹 간의 평균이 같은지 검증하는 방법이다.
- 샤피로 윌크-검정은 데이터의 정규성을 검정하는 방법이다. 귀무가설은 관측 데이터가 정규 분포를 따른다이기 때문에 p-value가 높게 나온다면 대립가설을 기각하고 귀무가설을 채택하여야 한다.
- 확률적 경사하강법은 속도가 빠르지만 오차율이 높고 불안정하게 수렴한다는 특징이 있다.
- 미니 배치 경사하강법은 확률적 경사하강법보다 느리더라도 오차율이 낮은 장점이 있다.
- 부분 의존도 plot(PDP : Partial Dependence of Return) : 회귀 문제, 분류 문제에 모두 사용할 수 있다. 독립변수와 종속변수의 전체적인 관계를 파악하는 방법으로, 분석 모형을 해석하는 전역적인 방법론으로 분류된다.
- 히스토그램 : 막대그래프와 유사한 형태. 데이터의 도수 분포를 막대 형태로 시각화하여 보여주는 방법. x축은 데이터의 구간, y축은 각 구간의 빈도수를 나타낸다.
- 페르노프 페이스는 비교 시각화 방법이다.
'개발 > 자격증 공부' 카테고리의 다른 글
내가 J여서 다행이야 (0) | 2023.08.27 |
---|---|
후,,,너는 이렇게 자격증 따지 마라 (2) | 2023.08.20 |
빅데이터분석기사 개인 오답 노트 - 2 (0) | 2023.02.27 |
빅데이터분석기사 개인 오답 노트 - 1 (0) | 2023.02.25 |
빅데이터분석기사 필기 요약(11. 분석 결과 해석 및 활용) (0) | 2023.02.23 |