개발/자격증 공부

빅데이터분석기사 필기 요약(8. 분석 기법 적용 - 2)

잠수돌침대 2023. 2. 17. 18:00

군집 분석

  • 관측된 여러 개의 변수 값에서 유사성에만 기초하여 n개의 군집으로 집단화한 뒤, 그 집단의 특성을 분석하는 다변량 분석 기법
  • 계층적 군집
    • 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성한 것
    • 병합적 방법 : 작은 군집으로부터 시작하여 군집을 병합.
    • 분할적 방법 : 큰 군집에서 군집을 분리해 나가는 과정
  • 계층도(덴드로그램) : 군집의 결과를 보여주는 그림. 각 개체는 단 하나의 군집에만 속함
  • 군집 간 거리 측정 방법
    • 최단연결법 : 각 군집에서 하나씩 관측값을 뽑았을 때 나올 수 있는 최솟값을 두 군집 사이의 거리로 측정
    • 최장연결법 : 각 군집에서 하나씩 관측값을 뽑았을 때 나올 수 있는 최댓값을 두 군집 사이의 거리로 측정
    • 중심연결법 : 두 군집 중심 간의 거리를 측정
    • 평균연결법 : 모든 항목에 대한 거리 평균
    • 와드연결법 : 군집 내의 오차 제곱합에 기초하여 군집을 수행
  • 군집 간 거리 계산 방법
    • 유클리드 거리 : 두 점 간 차를 제곱하여 모두 더한 값
    • 맨해튼 거리 : 두 점 간 차의 절댓값을 합한 값
    • 민코프스키 거리 : m차원 민코프스키 공간에서의 거리(1일 경우 맨해튼, 2일 경우 유클리드)
    • 표준화 거리 : 변수의 측정단위를 표준화한 거리
    • 마할라노비스 거리 : 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적 거리

군집 분석-K 평균 군집 - 기출

  • 주어진 데이터를 k개의 군집으로 묶는 알고리즘. 초기 값으로 k개의 군집으로 지정하고, 각 개체를 가까운 초기 값에 할당하여 군집을 형성함
  • 절차
    1. 군집의 수 k를 임의로 선택
    2. 데이터를 가장 가까운 군집 중심에 할당
    3. 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신
    4. 군집 중심의 변화가 거의 없을 때까지 단계 2와 단계 3을 반복 진행

군집 분석-혼합 분포 군집

  • 데이터가 k개의 모수적 모형의 가중 합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에 자료로부터 모수와 가중치를 추정하는 방법
  • k개의 각 모형은 군집을 의미하며, 각 데이터는 k개의 군집 중 어느 군집에서 나왔을 확률이 높은지에 따라 군집의 분류가 이루어진다.
  • EM 알고리즘
    • 관측되지 않은 잠재변수에 의존하는 확률뫄델에서 최대 가능도나 최대 사후 확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘
    • E 단계와 M 단계로 나누어 진행함
    • E 단계에서 잠재변수 Z의 기대치를 계산하고 M 단계에서 기대치를 활용하여 파라미터를 추정함
  • 특징
    • 확률 분포를 도입하여 군집을 수행함
    • 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기의 군집을 찾을 수 있다.
    • EM 알고리즘을 활용한 모수 추정에서 데이터가 커지면 시간이 오래 걸린다.
    • 군집이 너무 작으면 추정이 어려워짐
    • 이상치에 민감하여 사전에 이상치를 제거하는 작업이 필요함

군집 분석-자기 조직화 지도(SOM : Self-Organizing Maps)

  • 인공신경망 개념. 자율 학습 방법에 따른 군집화를 적용한 알고리즘
  • 고차원의 데이터를 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 비지도 신경망
  • 구성
    • 입력층 : 입력 벡터를 받는 층. 입력변수의 개수와 같은 뉴런이 존재
    • 경쟁층 : 각각의 뉴런이 입력 벡터와 얼마나 가까운지 계산하여 연결 강도를 재조정 학습
  • 알고리즘
    1. SOM 맵의 노드에 대한 연결 강도 초기화
    2. 입력 벡터 제시
    3. 유클리드 거리를 사용하여 입력 벡터와 프로토타입 벡터의 유사도를 계산
    4. 입력 벡터와 가장 거리가 짧은 프로토타입 벡터 탐색
    5. BMU와 그 이웃들의 연결 강도 재조정. 이후 단계 2로 가 반복

고급 분석 기법-범주형 자료 분석 - 기출

  • 범주 또는 집단으로 나누어진 자료. 범주형 자료의 순서가 없으면 명목형 자료, 순서가 있으면 순서형 자료라고 함

독립변수종속변수분석 방법

범주형 연속형 t-검정, 분산분석(ANOVA)
범주형 범주형 분할표 분석, 카이제곱 검정, 피셔의 정확도 검정
연속형 범주형 로지스틱 회귀분석

t-검정

  • 두 집단 간의 평균을 비교하는 모수적 통계방법. t분포를 이용해 가설을 검정하며 정규성, 등분산성, 독립성을 가정한다.
  • 단일표본, 독립표본, 대응표본에 대한 검정을 수행함
    • 단일표본 검정 : 표본의 평균으로 모집단의 평균을 검정
    • 독립표본 검정 : 서로 다른 두 집단의 평균의 차이를 검정
    • 대응표본 검정 : 동일한 집단의 사전 사후 차이를 검정

분산분석(ANOVA : Analysis of Variance)

  • 둘 이상의 집단의 평균을 비교하는 모수적 통계방법. F분포를 이용해 가설을 검정하며 정규성, 등분산성, 독립성을 가정함
  • 일원분산분석(one-way ANOVA) : 범주형 변수가 한 개인 경우 사용
    • 귀무가설 : 모든 집단의 평균이 같다. / 대립가설 : 하나 이상의 집단 평균이 다르다.
  • 이원분산분석(two-way ANOVA) : 범주형 변수가 두 개 이상인 경우 두 변수의 상호작용효과와 각 변수의 주효과를 분석함
    • 귀무가설 : 두 변수는 상호작용효과가 없다 / 대립가설 : 두 변수는 상호작용효과가 있다.

분할표 분석

  • 두 범주형 변수의 빈도 분포표를 작성하여 변수 간 상호 관련성을 분석하는 방법
  • 상대위험도(RR : Relative Risk) : 두 집단이 사건발생 확률의 비
  • 승산비(OR : Odds Ratio) : 특정 집단에 대한 사건발생 확률과 사건이 발생할지 않을 확률의 비
  • 교차비(OR) : odds(A)/odds(B)=ad/bc

상대위험도교차비해석

RR<1 OR<1 A 집단의 사건 발생 확률이 낮음
RR=1 OR=1 집단과 사건 발생 확률은 연관성이 없음
RR>1 OR>1 A 집단의 사건 발생확률이 높음
  • 활용 : 집단에 따라 사건 발생 가능성을 확인하는 방법
    • 코호트 연구 : 특정 집단을 대상으로 선정하고 장기간의 추적을 통해 미리 조사한 위험인자들과 질병 발생 간의 연관성을 연구
    • 환자-대조군 연구 : 질병이 있는 환자군과 없는 대조군을 따로 선정하고 위험인자를 나중에 조사함

카이제곱 검정

  • 범주형 자료 간의 차이를 분석하는 모수적 통계방법. x^2 분포를 이용하여 적합성 검정, 독립성 검정, 동질성 검정으로 나뉨
  • 적합도 검정 : 하나의 범주형 변수에 대하여 데이터가 특정 분포를 만족하는지 검정함
    • 귀무가설 : 분포가 기대 분포와 같다. / 대립가설 : 분포가 기대 분포와 같지 않다.
  • 동질성 검정 : 서로 다른 집단에 대한 범주형 변수의 분포가 동질인지 검정한다.
    • 귀무가설 : 두 집단의 분포가 같다. / 대립가설 : 두 집단의 분포가 같지 않다.
  • 독립성 검정 : 두 범주형 변수가 서로 독립적인지 영향을 미치는지 검정한다.
    • 귀무가설 : 두 변수는 연관성이 없다. / 대립가설 : 두 변수는 연관성이 있다.

피셔의 정확 검정(Fisher's Exact Test)

  • 가능한 모든 경우의 수를 직접 확인하는 검정 방법. 초기하 분포를 기반으로 함.
  • 가설은 카이제곱 검정과 동일하며, 기대빈도가 5보다 작은 셀이 20%를 넘으면 카이제곱 검정보다 피셔의 정확 검정을 사용함
  • ex: 분할표에서 표본의 수가 작거나 범주가 많아서 빈도수가 극도로 작은 경우 사용한다.

고급 분석 기법-다변량 분석

  • 여러 변수를 동시에 분석할 수 있는 모든 분석 방법을 가리킴
  • 각 변수를 개별적으로 분석하지 않고 변수 간의 상관관계를 고려한다

상관관계분석

  • 변수들 간의 상관성을 분석한다.
  • 피어슨 상관계수 : 두 변수의 공분산을 표준편차의 곱으로 나눈 값. 비선형 관계는 측정하지 못함
  • 스피어만 상관계수 : 두 변수를 순위로 변환하여 순위의 상관계수로 비선형적인 관계를 나타낼 수 있음

다차원 척도법(MDS : Multidimensional Scaling) - 기출

  • 차원 축소를 통해 개체들 간의 관계를 상대적 위치로 시각화하여 나타내는 분석 방법.
  • 데이터가 연속형 변수인 경우 거리 행렬을 이용한 다차원 척도법을 사용한다.
  • 데이터가 순서형 척도인 경우 순서척도를 거리로 변환하는 비계량적 다차원 척도법을 사용한다
  • 적용 절차
    1. 유클리드 거리행렬 등을 활용해 개체들 간의 유사성을 측정한다.
    2. 2차원 또는 3차원 공간에 개체를 점으로 배열한다
    3. 스트레스 값을 부적합도로 측정하여 최소가 되도록 좌표를 조정한다.
    • 0-0.1 : 매우 좋음, 0.1-0.2 : 좋음, 0.2 이상 : 나쁨

다변량 분산분석(MAMOVA : Multivariate Analysis of Variance)

  • 2개 이상의 종속변수에 대한 분산분석 방법. 범주형 독립변수에 대한 평균벡터 차이를 분석함
  • 종속변수 간에 서로 상관관계가 있는 경우 결합된 차이를 확인할 수 있다.
  • 상관관계가 없는 경우 개별로 분산분석을 수행해야 한다. 정규성, 등분산성, 독립성을 가정한다.
    • 귀무가설 : 모든 집단의 평균벡터가 같다. / 대립가설 : 하나 이상의 집단의 평균벡터가 다르다

주성분분석(PCA : Principal Component Analysis)

  • 데이터 전체의 변동을 최대한 보존하는 주성분을 생성하는 차원축소 방법
  • 주성분 : 데이터의 분산을 설명하는 설명변수들의 선형 결합으로 표현된다. 항상 설명변수와 동일한 수만큼 성분을 추출할 수 있다. 상관성이 적은 주성분을 활용하여 회귀분석의 다중공선성 문제를 해결할 수 있다.
  • 누적 기여율(Cumulative Proportion) : 주성분을 고윳값의 내림차순으로 정렬하여 상위 n개의 주성분으로 설명할 수 있는 정보량의 비율

요인분석(FA : Factor Analysis)

  • 변수들의 상관관계를 기반으로 공통의 요인을 찾아 데이터를 요약하고 차원을 축소하는 분석 방법
  • 연역적 방법인 확인적 요인분석(CFA)와 귀납적 방법인 탐색적 요인분석(EFA)이 있다.
  • 요인 추출 방법 : 주성분 분석과 공통요인법(Common Factor Analysis)이 많이 사용된다. 요인 수를 최소화하는 경우 주성분 분석을 선택한다.
  • 요인 회전 방법 : 베리맥스, 쿼티멕스, 이쿼멕스 등의 직각회전 방법과 오블리민 등의 사각 회전으로 나뉜다. 베리멕스 방법을 주로 사용한다.

주성분분석과 요인분석의 비교

  • 공통점 : 차원 축소 기능, 다른 분석을 위한 사전 분석
  • 차이점
    • PCA :선형적 결합 중심, 데이터를 요약하는 주성분을 추출함, 주성분간 중요도 차이 있음
    • FA : 잠재적 결합 중심, 상관성 기준 잠재 변수를 생성함, 새로운 변수들은 서로 대등함

판별분석(Discriminant Function Analysis)

  • 연속형 독립변수들의 선형조합을 통해 집단을 분류하고 예측하는 분석 방법
  • 오분류율이 최소가 되는 판별함수를 도출하고 판별 능력을 평가.
  • 독립변수의 정규성, 등분산성을 가정함
  • 판별함수 : 분류를 위한 기준으로 판별점수를 산출한다.
  • 판별함수의 수=Min(집단의 수-1, 독립변수의 수)

고급 분석 기법-시계열 분석

  • 시계열 데이터는 시간의 영향을 받는 데이터다. 시계열 데이터는 일정한 시간 간격을 두고 관측되므로 시차가 동일하며 이론적으로 결측값이 없다.
  • 정상성(Stationary) : 시점에 상관없이 일정한 시계열 데이터의 특성을 의미함. 대부분 시계열 자료는 정상성을 만족하지 않는 비정상 시계열이다. 이에 따라 아래의 조건을 만족하는 정상 시계열로 정상화하여 분석을 수행한다.
    • 평균이 시점에 의존하지 않는다. 즉, 모든 시점의 평균이 동일하다.
    • 분산이 시점에 의존하지 않는다. 즉, 모든 시점의 분산이 동일하다.
    • 공분산은 시차에만 의존하고 시점에는 의존하지 않는다. 즉, 시차가 같으면 공분산은 동일하다.
  • 비정상성 확인
    • 자기상관함수(ACF : Autocorrelation Function) : 자체 시계열 데이터 간의 선형 상관관계 함수.
    • 부분 자기 상관함수(PACF : Partial Autocorrelation Function) : 두 시점 사이에 영향을 주는 다른 요인을 제외한 자기 상관함수
  • 비정상 시계열의 정상화
    • 이상치가 있는 경우 이상치를 제거하거나 대체해 정상화함
    • 평균이 일정하지 않은 경우 차분(Difference)을 통해 정상화함
    • 분산이 일정하지 않은 경우 변환(Transformation)을 통해 정상화함

시계열 모형(Time-Series Model)

  1. 시계열 회귀분석
  • 회귀식 기반으로 시계열 자료를 분석하는 방법. 일반적인 회귀 모형과 같이 오차항에 대해 정규성, 등분산성, 독립성을 가정함
  • 선형다항식추세모형, 다항추세모형이라고도 함.
  1. 분해법(Decomposition method) - 기출
  • 시계열 성분들이 결정적이고 서로 독립이라는 가정을 기반으로 성분을 분해하는 방법
  • 여러 성분들의 결합 방식에 따라 가법모형 또는 승법모형을 사용한다. 시간에 따라 계절성분의 진폭이 달라질 때 승법모형을 사용함
  • 시계열 성분 구분
    • 불규칙성분 : 규칙적이지 않고 예측이 불가한 랜덤 변동
    • 추세성분 : 지속적으로 증가하거나 감소하는 추세를 갖는 변동
    • 계절성분 : 계절 변화와 같은 주기적인 성분에 의한 변동
    • 순환성분 : 주기적인 변화를 가지나 주기가 긴 변동
  • 가법모형은 모든 성분을 더하고, 승법모형은 모든 성분은 곱하는 형태로 이루어짐
  1. 이동평균법(Moving Average)
  • 일정 기간의 관측치에 동일한 가중치를 부여하여 이동평균을 계산하는 방법. 계절성분과 불규칙 성분을 제거하는 특징을 가짐
  1. 지수평활법(Exponential Smoothing)
  • 모든 시점에 동일한 가중치를 부여하는 이동평균모형과 달리 최근 관측치에 더 높은 가중치를 부여하는 방법
  • 최근 시점에 큰 가중치를 주고 과거 시점으로 갈수록 가중치를 지수적으로 줄여나간다.
  • 선형 추세를 갖는 경우 이중지수평활법, 계절 추세를 갖는 경우 계절지수평활법을 사용함
  1. 자기 회귀 모형(AR : Autoregressive) : 관측치에 대해서 이전 값이 이후 값에 영향을 미치는 상황에 사용함
  2. 이동평균 모형(MA : Moving Average) : 평균이 시간에 따라 변화하는 경향을 의미함
  3. 자기회귀 이동평균 모형(ARMA : Autoregressive Moving Average) : AR모형과 MA 모형을 결합한 형태.
  4. 자기회귀 누적 이동평균 모형(ARIMA : Autoregressive Integrated Moving Average) : 비정상 시계열에 대해 d차로 차분 변환하는 과정을 포함한 ARMA 모형
  5. 계절형 자기회귀 이동평균 모형(SARIMA : Seasonal ARIMA) : 시계열을 계절 성분을 포함하는 경우 사용하는 시계열 모형
  6. 시계열모형 식별 방법 : 시계열 데이터의 ACF와 PACF 그래프를 이론적 그래프와 비교하여 차수를 식별한다.