개발/자격증 공부

빅데이터분석기사 개인 오답 노트 - 2

잠수돌침대 2023. 2. 27. 18:00
  • 데이터 확보 계획 단계 : 목표 정의 - 요구 사항 도출 - 예산안 수립 - 계획 수립
  • 언어, 문자 등 정형화되지 않아 저장, 검색, 분석에 많은 비용이 소모되는 데이터는 정성적 데이터이다.
  • NoSQL의 유형은 데이터 저장 모델에 따라 Key Value Database, Document Database, Wide Column Database, Graph Database로 이루어진다.
  • KDD 분석 방법론의 분석 단계 : 데이터 선택 - 데이터 전처리 - 데이터 변환 - 데이터 마이닝 - 해석과 평가
  • 시급성에 기준을 두고 분석 업무의 우선순위를 정할 때 난도가 낮고 시급한 문제를 먼저 해결해야 한다.
    • 난도가 높다면 시급성보다 난이도를 우선하도록 한다.
  • 아마존 AWS에서 제공하는 파일 시스템 저장소는 S3(Simple Storage Service)이다.
  • 관측치가 기록된 값을 결측값으로 처리하여 분석에 활용하는 것은 옳지 않다. 기본값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측값 처리에 유의하여야 한다.
  • 군집 분석은 이상값 판정에 이용되는 것이 아니라, 성질이 다른 군집으로 나눌 때 이용된다.
  • 주성분 분석 : 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약 및 축소하는 기법
    • 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다.
  • 히스토그램은 표본의 크기가 작으면 각 막대의 높이가 데이터 분포의 형상을 잘 표현해내지 못한다.
  • 연속형 확률변수는 가능한 값이 실수의 특정 구간 전체에 해당하는 확률변수이며 연속형 확률 밀도 함수를 가진다.
  • t-분포 : 연속형 확률 분포 중 표준 정규 분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다.
    • 두 집단의 평균이 동일한지 알고자 할 때 검정 통계량으로 사용된다.
  • p-value는 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때의 실제 확률을 나타낸다.
  • 해지 여부를 예측하는 분석을 진행하는 경우 지도 학습 분류 분석을 진행한다.
  • 독립변수의 수는 변수에 대한 영향력 비교와 무관하다.
  • 지니계수는 각 변수가 나올 확률을 제곱하여 더하는 방식으로 계산된다.
  • 다중 회귀 분석은 회귀 예측 모델로 구분한다.
  • 지지도는 연관성 분석에 사용하는 개념이다. 서포트 벡터 머신은 다른 모델에 비해 과적합의 위험이 낮다.
  • k 평균 군집 분석은 비계층적 군집 분석의 한 방식이다.
  • 평균이 일정하지 않은 경우 차분을 통해 정상화한다.(시계열 분석 0
  • 비모수적 기법은 순위와 부호를 기반으로 하여 이상치의 영향이 작다.
  • 정밀도 : Positive로 예측한 데이터 중 실제 Positive인 데이터의 비율
  • 교차 검증을 사용하면 다양한 검증 데이터에 대해 하이퍼파라미터 튜닝을 하기에 일반화 성능이 올라간다.
  • 홀드아웃은 데이터를 학습 데이터와 검증 데이터로 어떻게 나누느냐에 따라 성능 값의 차이가 발생한다.
  • k fold는 데이터를 여러 번 분할하여 성능을 계산한 후 평균값을 구하므로, 데이터 분할에 따른 성능 차이가 상쇄된다.
    • 홀드아웃이 k-fold보다 학습 데이터 분할에 더 민감하다고 볼 수 있다.
  • 카이제곱 검정은 두 개 이상의 변수가 독립인지 검정할 때도 사용할 수 있다.
    • 독립성 검정, 적합도 검정, 동질성 검정에도 사용이 가능
  • 순열 변수 중요도 : 변수의 값을 무작위로 섞어 해당 변수를 노이즈처럼 만드는 방법. 변수 중요도를 평가하는 방법임
    • 변숫값을 무작위로 섞기에 변수 중요도를 구할 때마다 조금씩 달라질 수 있지만 변수 제거와 분석 모형 학습을 반복하는 일을 하지 않아도 된다.
  • 히스토그램 : 막대그래프와 유사한 형태. 데이터의 도수 분포를 막대 형태로 시각화하여 보여 주는 방법이다.
    • x축이 데이터의 구간을 나타내므로 시간의 흐름에 따른 변화를 살펴보기에는 적합하지 않다.
  • 분석 모형 전개 : 데이터를 분석한 결과를 확장 적용하기 위한 단계
  • 차트 및 시각화 도구 선택은 분석 결과 활용 시나리오 개발 단계에서 이루어진다.
    • 업무 담당자에게 제공된 분석 결과를 위한 시각화 방법을 모색하는 것도 이 단계에서 이루어짐