개발/자격증 공부

빅데이터분석기사 개인 오답 노트 - 1

잠수돌침대 2023. 2. 25. 18:00
  • 데이터 변환 기법에는 데이터의 노이즈를 구간화, 군집화 등으로 다듬는 평활화. 다양한 차원으로 요약하는 집계, 특정 구간으로 값을 스케일링하는 일반화, 정해진 구간으로 전환하는 정규화, 새로운 속성을 생성하는 기법 등이 있다.
  • 데이터 레이크 : 정형, 비정형의 다양한 유형의 데이터를 저장, 관리하며 소스 데이터의 형태를 그대로 저장하기 때문에 메타의 관리가 중요하다.
    • 데이터 레이크에 저장되는 방대한 데이터에서 효율적으로 유의미한 데이터를 활용하기 위해 레이크쇼어 마트를 구성하여 사용하기도 한다.
  • 분석 스킬의 종류
    • Soft Skill : 분석의 통찰력, 여러 분야의 협력 능력, 설득력 있는 전달력
    • Hard Skill : 빅데이터 관련 이론적 지식, 분석기술의 숙련도
  • 데이터 수집 프로세스 : 수집 데이터 도출 - 수집 데이터 목록화 - 데이터 소유 기관 확인 및 협의 - 데이터 유형 확인 및 분류 - 데이터 수집 기술 선정 - 수집 계획서 작성 - 수집 주기 정의 - 데이터 수집
  • 릿지(Lidge)는 L2-규제를 통해 제약을 주는 방법이다.
  • 차원 축소 기법의 종류 : 주성분 분석(PCA), 특이값 분해(SVD), 요인 분석, 독립 성분 분석(ICA), 다차원 척도법(MDS)이 있다.
  • 왼쪽 꼬리 분포의 왜도를 가지고 있는 경우 평균<중위수<최빈값의 크기를 가진다. 편포에 상관없이 중위수는 항상 가운데 위치함에 유의한다.
  • 공분산 값의 크기는 측정 단위에 따라 달라지므로 선형 관계의 강도를 나타내지는 못한다.
  • 코로플레스 지도 : 어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 칠하여 표현하는 방법(=등치지역도)
  • 층화추출 : 모집단을 어떤 특성에 따라 서로 겹치지 않는 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식
  • 다중 회귀 모형에 개별 회귀 계수를 검정하는 통계량은 F-통계량이다.
  • 로지스틱 회귀 분석은 종속변수가 범주형 데이터일 때 사용한다.
  • 분리 기준으로는 카이제곱 통계량을 사용하고, 분리 방법은 다지 분리를 사용하는 의사결정나무 알고리즘은 CHAID이다.
  • 재현율 : 실제값이 Positive인 데이터(TP+FN) 중 모형이 Positive로 예측한(TP) 데이터의 비율
  • 거짓 긍정률 : 실제 Negative 데이터 중 Positive로 잘못 예측한 비율.
  • 혼동 행렬 분석에 대해서 한 번 더 짚을 필요가 있어 보임
  • 선형 회귀 모형의 가정
    • 등분산성 : 오차항의 분산은 등분산이어야 한다.
    • 선형성 : 종속변수는 독립변수의 선형 함수여야 한다.
    • 독립성 : 독립변수 사이에는 상관관계가 없어야 한다.
    • 정규성 : 가설검증이 정규분포를 따라야 한다.
  • 더빈-왓슨 검정은 선형회귀 모형의 독립성을 확인할 때 사용할 수 있는 진단방법이다.
  • z-검정의 귀무가설은 표본 평균이 모집단의 평균과 같다는 것이다.
  • 카이제곱 검정은 범주형 데이터에 사용되며 데이터가 예상되는 분포에 얼마나 잘 맞는지를 검정한다. 이때의귀무가설은 데이터가 특정 확률을 따른다이며, 반대로 대립가설은 데이터가 특정 확률을 따르지 않는다가 된다.
  • 유연성이 큰 분석 모형은 상대적으로 복잡한 모형이다. 복잡한 모형은 편향은 작고 분산은 크게 나타난다.
  • 설명력이 높은 분석 모형은 상대적으로 성능이 떨어진다는 단점이 있다.
  • 정보 구조화 : 데이터를 수집하고 정제하면서 시각화의 목표가 될만한 것을 발견하거나 설정하는 단계이다. 데이터를 유사한 것끼리 묶거나 재배열하여 데이터의 패턴을 찾아낸다.
  • 관계 시각화 방법의 종류 : 산점도, 산점도 행렬, 버블차트, 히스토그램
  • 비교 시각화의 종류 : 히트맵, 스타 차트, 체르노프 페이스, 평행 좌표 그래프
  • 분석 모형 리모델링 단계에서 최종 분석 모형 선정 시에 사용했던 평가지표를 활용하기에 분석 모형 평가 지표 선정은 수행하지 않는다.