빅데이터분석기사 개인 오답 노트

개발/자격증 공부

빅데이터분석기사 개인 오답 노트 - 1

잠수돌침대 2023. 2. 25. 18:00

데이터 변환 기법에는 데이터의 노이즈를 구간화, 군집화 등으로 다듬는 평활화. 다양한 차원으로 요약하는 집계, 특정 구간으로 값을 스케일링하는 일반화, 정해진 구간으로 전환하는 정규화, 새로운 속성을 생성하는 기법 등이 있다.
데이터 레이크 : 정형, 비정형의 다양한 유형의 데이터를 저장, 관리하며 소스 데이터의 형태를 그대로 저장하기 때문에 메타의 관리가 중요하다.
- 데이터 레이크에 저장되는 방대한 데이터에서 효율적으로 유의미한 데이터를 활용하기 위해 레이크쇼어 마트를 구성하여 사용하기도 한다.
분석 스킬의 종류
- Soft Skill : 분석의 통찰력, 여러 분야의 협력 능력, 설득력 있는 전달력
- Hard Skill : 빅데이터 관련 이론적 지식, 분석기술의 숙련도
데이터 수집 프로세스 : 수집 데이터 도출 - 수집 데이터 목록화 - 데이터 소유 기관 확인 및 협의 - 데이터 유형 확인 및 분류 - 데이터 수집 기술 선정 - 수집 계획서 작성 - 수집 주기 정의 - 데이터 수집
릿지(Lidge)는 L2-규제를 통해 제약을 주는 방법이다.
차원 축소 기법의 종류 : 주성분 분석(PCA), 특이값 분해(SVD), 요인 분석, 독립 성분 분석(ICA), 다차원 척도법(MDS)이 있다.
왼쪽 꼬리 분포의 왜도를 가지고 있는 경우 평균<중위수<최빈값의 크기를 가진다. 편포에 상관없이 중위수는 항상 가운데 위치함에 유의한다.
공분산 값의 크기는 측정 단위에 따라 달라지므로 선형 관계의 강도를 나타내지는 못한다.
코로플레스 지도 : 어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 칠하여 표현하는 방법(=등치지역도)
층화추출 : 모집단을 어떤 특성에 따라 서로 겹치지 않는 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식
다중 회귀 모형에 개별 회귀 계수를 검정하는 통계량은 F-통계량이다.
로지스틱 회귀 분석은 종속변수가 범주형 데이터일 때 사용한다.
분리 기준으로는 카이제곱 통계량을 사용하고, 분리 방법은 다지 분리를 사용하는 의사결정나무 알고리즘은 CHAID이다.
재현율 : 실제값이 Positive인 데이터(TP+FN) 중 모형이 Positive로 예측한(TP) 데이터의 비율
거짓 긍정률 : 실제 Negative 데이터 중 Positive로 잘못 예측한 비율.
혼동 행렬 분석에 대해서 한 번 더 짚을 필요가 있어 보임
선형 회귀 모형의 가정
- 등분산성 : 오차항의 분산은 등분산이어야 한다.
- 선형성 : 종속변수는 독립변수의 선형 함수여야 한다.
- 독립성 : 독립변수 사이에는 상관관계가 없어야 한다.
- 정규성 : 가설검증이 정규분포를 따라야 한다.
더빈-왓슨 검정은 선형회귀 모형의 독립성을 확인할 때 사용할 수 있는 진단방법이다.
z-검정의 귀무가설은 표본 평균이 모집단의 평균과 같다는 것이다.
카이제곱 검정은 범주형 데이터에 사용되며 데이터가 예상되는 분포에 얼마나 잘 맞는지를 검정한다. 이때의귀무가설은 데이터가 특정 확률을 따른다이며, 반대로 대립가설은 데이터가 특정 확률을 따르지 않는다가 된다.
유연성이 큰 분석 모형은 상대적으로 복잡한 모형이다. 복잡한 모형은 편향은 작고 분산은 크게 나타난다.
설명력이 높은 분석 모형은 상대적으로 성능이 떨어진다는 단점이 있다.
정보 구조화 : 데이터를 수집하고 정제하면서 시각화의 목표가 될만한 것을 발견하거나 설정하는 단계이다. 데이터를 유사한 것끼리 묶거나 재배열하여 데이터의 패턴을 찾아낸다.
관계 시각화 방법의 종류 : 산점도, 산점도 행렬, 버블차트, 히스토그램
비교 시각화의 종류 : 히트맵, 스타 차트, 체르노프 페이스, 평행 좌표 그래프
분석 모형 리모델링 단계에서 최종 분석 모형 선정 시에 사용했던 평가지표를 활용하기에 분석 모형 평가 지표 선정은 수행하지 않는다.

'개발 > 자격증 공부' 카테고리의 다른 글

빅데이터분석기사 개인 오답 노트 - 3 (0)	2023.03.01
빅데이터분석기사 개인 오답 노트 - 2 (0)	2023.02.27
빅데이터분석기사 필기 요약(11. 분석 결과 해석 및 활용) (0)	2023.02.23
빅데이터분석기사 필기 요약(10. 분석 모형 평가 및 개선) (0)	2023.02.21
빅데이터분석기사 필기 요약(9. 분석 기법 적용 - 3) (0)	2023.02.19

현재글빅데이터분석기사 개인 오답 노트 - 1

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

게임 밝히는 개발자

빅데이터분석기사 개인 오답 노트 - 1

'개발 > 자격증 공부' 카테고리의 다른 글

'개발/자격증 공부'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

빅데이터분석기사 개인 오답 노트 - 1

'개발 > 자격증 공부' 카테고리의 다른 글

'개발/자격증 공부'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역