개발/자격증 공부

빅데이터분석기사 필기 요약(3. 데이터 전처리)

잠수돌침대 2023. 2. 7. 18:00

데이터 정제

  1. 데이터 전처리 : 데이터를 정제한 후 분석 변수를 처리하는 순서로 진행함
  2. 데이터 정제 : 분석 작업이 시작되기 전 오류를 일으킬 수 있는 결측값을 채우거나 이상값을 제거하는 사전 작업
  • 결측값(Missing Value) : 필수 데이터가 입력되지 않고 누락된 값. 결측값은 N/A로 표시하거나 빈칸으로 표현한다. 결측값은 분석 결과에 큰 영향을 미치기 때문에 데이터를 아예 제거하거나, 결측값을 중심 경향성 통계량(평균값/최빈값)으로 대체할 수 있다.
  • 이상값(Outlier) : 관측된 데이터 범주에서 일반적인 데이터 값의 범위를 벗어난 값을 말한다. 일반적으로 상한보다 높으면 상한값으로 대체하고, 하한보다 낮으면 하한값으로 대체하는 방법으로 처리할 수 있다.

데이터 결측값의 유형

  • 완전 무작위 결측(MCAR : Missing Completely At Random) : 다른 변수와 무관하게 발생한 결측값. 데이터가 충분히 큰 경우, 무작위 표본 추출을 통해 모수를 대표하는 데이터를 구성할 수 있음
  • 무작위 결측(MAR : Missing At Random) : 결측값이 다른 변수와 연관이 있음. 결측값이 결과 분포에 영향을 미치지 않는 경우에 해당
  • 비무작위 결측(NMAR : Not Missing At Random) : 결측값이 다른 변수와 연관이 있음. 결측값이 결과 분포에 영향을 미치는 경우에 해당

데이터 결측값 처리 방법

  • 단순 대치법(Simple Imputation) : 특정 대푯값으로 결측값을 대표하는 통계적 기법
    • 완전 분석법 : 불완전 자료는 모두 무시하고 완전하게 관측된 자료만을 토대로 분석하는 방법
    • 평균 대치법 : 평균, 중위수, 최빈값 등의 대푯값으로 대체하여 결측값 없는 완전한 데이터를 구성하는 방법
    • 단순 확률 대치법 : 평균 대치법에서 대푯값으로 통계량을 통해 결측값을 대치할 때 적절한 확률값을 부여한 후 대치하는 방법
      • 단순 확률 대치법의 종류 : 핫덱 대치(무응답/유사 응답자 치환), 콜드덱(외부 출처나 다른 조사에서 따옴), 혼합 방법이 존재
  • 다중 대치법(Multiple Imputation) : 여러 번의 단순 대치법을 통해 결측값이 대체된 여러 개의 데이터를 생성한 뒤, 해당 다수의 데이터를 통계 분석하는 기법

데이터 이상값 검출 방법

  • ESD(Extreme Studentized Devation) : 평균으로부터 표준편차의 3배만큼 떨어진 값을 이상값으로 판단
  • 기하평균으로부터 표준편차의 2.5배만큼 떨어진 값을 이상값으로 판단(성장률 계산 시 사용 많이 함)
  • 사분위수 : 데이터 값들을 크기에 따라 순서대로 정렬하였을 때, 위에서부터 4분의 1 위치에 있는 데이터값을 이상값으로 판단. 1 사분위, 3 사분위를 기분으로 사분위 간 범위의 1.5배 이상 떨어진 값을 이상값으로 판단
  • 또는 데이터 시각화(히스토그램, 시계열 차트, 박스 플롯)를 활용하여 직관적으로 이상값을 검출할 수 있음
  • 그 외에도 군집분석(비지도 학습, 마할라노비스 거리, LOF, iForest 등)을 이용하여 이상치 확인도 가능함

분석 변수 처리

변수는 인과관계에 따라 독립변수와 종속변수로 나뉜다.

  • 독립변수 : 다른 변수에 영향을 받지 않고 종속변수에 영향을 주는 변수. 원인 변수, 예측 변수라고도 함
  • 종속변수 : 독립변수에 영향을 받아 변화하는 변수

또한 변수의 속성에 따라 범주형 변수와 수치형 변수로 구분된다.

  • 범주형 변수의 종류
    • 명목형 : 변수나 변수의 크기가 순서와 상관이 없고, 명사형으로 이름만 의미를 부여할 수 있는 경우
    • 순서형 : 변수가 명사형으로 이름에 의미를 갖고, 기준에 따라 순서에도 의미를 부여할 수 있는 경우
  • 수치형 변수의 종류
    • 이산형 : 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
    • 연속형 : 변수가 구간 안에서 모든 값을 가질 수 있는 경우

변수 선택 방법

  • 필터 기법(Filter Method) : 데이터의 통계적 측정 방법을 사용하여 변수들의 상관관계를 탐색
  • 래퍼 기법(Wrapper Method) : 하위 집합을 반복하여 선택하는 방법으로 탐색. 가장 이상적인 변수들의 조합을 찾는 방식임
    • 전진 선택법(Forward Selection) : 모든 독립변수 중 종속변수에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하여 모형 선택
    • 후진 제거법(Backward Elimination) : 모든 독립변수가 포함된 상태에서 종속변수에 가장 적은 영향을 줄 것으로 판단되는 변수부터 제거
    • 단계적 방법(Stepwise Selection) : 전진 선택법과 후진 제거법을 병행하여 사용하는 기법
  • 임베디드 기법(Embedded Method) : 모델 자체에 변수 선택이 포함된 기법

차원 축소 방법

  • 주성분 분석(PCA : Principal Component Analysis) : 여러 차원의 변수를 대표하는 차원의 주성분을 생성하여 전체 변동의 대부분을 설명하고자 하는 알고리즘. 여러 차원 변수의 분산이 가장 높은 축을 첫 번째 주성분으로, 그다음 높은 축을 두 번째 주성분으로 도출한다.(이들은 상호 직교하는 특성을 가짐)
  • 선형 판별 분석(LDA : Linear Discriminant Analysis) : 데이터를 최적으로 표현하는 관점에서 차원을 축소하는 방법. 정량적 자료로 측정된 독립변수들을 이용하여 명목형 자료로 된 종속변수의 집단 구분을 예측하는 데 활용함
  • 특이값 분해(SVD : Singular Value Decomposition) : 주성분 분석과 유사한 행렬 분해 기법 사용. 행과 열의 크기가 다른 m×n 차원의 행렬 데이터를 적용하여 특이값을 추출하고 이를 통해 주어진 데이터를 효과적으로 축약할 수 있음
  • 요인 분석(Factor Analysis) : 데이터 안에 관찰할 수 없는 잠재적 변수가 존재할 때, 모형을 세운 뒤 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법
  • 독립성분 분석(ICA : Independent Component Analysis) : 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리하여 차원을 축소하는 기법. 비정규 분포를 따르며 데이터의 상관관계뿐만 아니라, 더 높은 차수의 상관관계까지고 없앨 수 있는 방법임
  • 다차원 척도법(MDS : Multi-Dimentional Scaling) : 데이터에 내재된 구조를 찾아내어 자료를 함축적으로 표현하는 분석기법

변수 변환 방법

  • 로그/지수 변환 : 한쪽으로 치우진 변수를 로그/지수 변환하여 분석 모형을 적합하게 하는 방법. 변수들의 분포가 치우쳐있는 것을 방지함
  • 비닝(Binning) : 연속형 데이터를 범주형 데이터로 변환하기 위해 사용. 데이터 평활화에 사용되는 기법임
  • 더미 변수화 : 범주형 데이터를 연속형 변수로 변환하기 위해 사용. 값이 있으면 1, 없으면 0으로 표시함
  • 스케일링 : 데이터를 특정 구간으로 바꾸는 척도법, 최소-최대 정규화, Z-스코어 정규화 유형이 있음

불균형 데이터 처리 방법

  • 과소표집(Under-Sampling) : 다수 클래스의 데이터를 무작위로 일부만 선택하여 데이터의 비율을 맞추는 기법
  • 과대표집(Over-Sampling) : 소수 클래스의 데이터를 무작위로 복제하여 데이터의 비율을 맞추는 방법
  • SMOTE(Synthetic Minority Oversampling Technique) : 알고리즘을 통해 소수 클래스에 새로운 데이터를 생성함