군집 분석
- 관측된 여러 개의 변수 값에서 유사성에만 기초하여 n개의 군집으로 집단화한 뒤, 그 집단의 특성을 분석하는 다변량 분석 기법
- 계층적 군집
- 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성한 것
- 병합적 방법 : 작은 군집으로부터 시작하여 군집을 병합.
- 분할적 방법 : 큰 군집에서 군집을 분리해 나가는 과정
- 계층도(덴드로그램) : 군집의 결과를 보여주는 그림. 각 개체는 단 하나의 군집에만 속함
- 군집 간 거리 측정 방법
- 최단연결법 : 각 군집에서 하나씩 관측값을 뽑았을 때 나올 수 있는 최솟값을 두 군집 사이의 거리로 측정
- 최장연결법 : 각 군집에서 하나씩 관측값을 뽑았을 때 나올 수 있는 최댓값을 두 군집 사이의 거리로 측정
- 중심연결법 : 두 군집 중심 간의 거리를 측정
- 평균연결법 : 모든 항목에 대한 거리 평균
- 와드연결법 : 군집 내의 오차 제곱합에 기초하여 군집을 수행
- 군집 간 거리 계산 방법
- 유클리드 거리 : 두 점 간 차를 제곱하여 모두 더한 값
- 맨해튼 거리 : 두 점 간 차의 절댓값을 합한 값
- 민코프스키 거리 : m차원 민코프스키 공간에서의 거리(1일 경우 맨해튼, 2일 경우 유클리드)
- 표준화 거리 : 변수의 측정단위를 표준화한 거리
- 마할라노비스 거리 : 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적 거리
군집 분석-K 평균 군집 - 기출
- 주어진 데이터를 k개의 군집으로 묶는 알고리즘. 초기 값으로 k개의 군집으로 지정하고, 각 개체를 가까운 초기 값에 할당하여 군집을 형성함
- 절차
- 군집의 수 k를 임의로 선택
- 데이터를 가장 가까운 군집 중심에 할당
- 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신
- 군집 중심의 변화가 거의 없을 때까지 단계 2와 단계 3을 반복 진행
군집 분석-혼합 분포 군집
- 데이터가 k개의 모수적 모형의 가중 합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에 자료로부터 모수와 가중치를 추정하는 방법
- k개의 각 모형은 군집을 의미하며, 각 데이터는 k개의 군집 중 어느 군집에서 나왔을 확률이 높은지에 따라 군집의 분류가 이루어진다.
- EM 알고리즘
- 관측되지 않은 잠재변수에 의존하는 확률뫄델에서 최대 가능도나 최대 사후 확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘
- E 단계와 M 단계로 나누어 진행함
- E 단계에서 잠재변수 Z의 기대치를 계산하고 M 단계에서 기대치를 활용하여 파라미터를 추정함
- 특징
- 확률 분포를 도입하여 군집을 수행함
- 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기의 군집을 찾을 수 있다.
- EM 알고리즘을 활용한 모수 추정에서 데이터가 커지면 시간이 오래 걸린다.
- 군집이 너무 작으면 추정이 어려워짐
- 이상치에 민감하여 사전에 이상치를 제거하는 작업이 필요함
군집 분석-자기 조직화 지도(SOM : Self-Organizing Maps)
- 인공신경망 개념. 자율 학습 방법에 따른 군집화를 적용한 알고리즘
- 고차원의 데이터를 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 비지도 신경망
- 구성
- 입력층 : 입력 벡터를 받는 층. 입력변수의 개수와 같은 뉴런이 존재
- 경쟁층 : 각각의 뉴런이 입력 벡터와 얼마나 가까운지 계산하여 연결 강도를 재조정 학습
- 알고리즘
- SOM 맵의 노드에 대한 연결 강도 초기화
- 입력 벡터 제시
- 유클리드 거리를 사용하여 입력 벡터와 프로토타입 벡터의 유사도를 계산
- 입력 벡터와 가장 거리가 짧은 프로토타입 벡터 탐색
- BMU와 그 이웃들의 연결 강도 재조정. 이후 단계 2로 가 반복
고급 분석 기법-범주형 자료 분석 - 기출
- 범주 또는 집단으로 나누어진 자료. 범주형 자료의 순서가 없으면 명목형 자료, 순서가 있으면 순서형 자료라고 함
독립변수종속변수분석 방법
범주형 | 연속형 | t-검정, 분산분석(ANOVA) |
범주형 | 범주형 | 분할표 분석, 카이제곱 검정, 피셔의 정확도 검정 |
연속형 | 범주형 | 로지스틱 회귀분석 |
t-검정
- 두 집단 간의 평균을 비교하는 모수적 통계방법. t분포를 이용해 가설을 검정하며 정규성, 등분산성, 독립성을 가정한다.
- 단일표본, 독립표본, 대응표본에 대한 검정을 수행함
- 단일표본 검정 : 표본의 평균으로 모집단의 평균을 검정
- 독립표본 검정 : 서로 다른 두 집단의 평균의 차이를 검정
- 대응표본 검정 : 동일한 집단의 사전 사후 차이를 검정
분산분석(ANOVA : Analysis of Variance)
- 둘 이상의 집단의 평균을 비교하는 모수적 통계방법. F분포를 이용해 가설을 검정하며 정규성, 등분산성, 독립성을 가정함
- 일원분산분석(one-way ANOVA) : 범주형 변수가 한 개인 경우 사용
- 귀무가설 : 모든 집단의 평균이 같다. / 대립가설 : 하나 이상의 집단 평균이 다르다.
- 이원분산분석(two-way ANOVA) : 범주형 변수가 두 개 이상인 경우 두 변수의 상호작용효과와 각 변수의 주효과를 분석함
- 귀무가설 : 두 변수는 상호작용효과가 없다 / 대립가설 : 두 변수는 상호작용효과가 있다.
분할표 분석
- 두 범주형 변수의 빈도 분포표를 작성하여 변수 간 상호 관련성을 분석하는 방법
- 상대위험도(RR : Relative Risk) : 두 집단이 사건발생 확률의 비
- 승산비(OR : Odds Ratio) : 특정 집단에 대한 사건발생 확률과 사건이 발생할지 않을 확률의 비
- 교차비(OR) : odds(A)/odds(B)=ad/bc
상대위험도교차비해석
RR<1 | OR<1 | A 집단의 사건 발생 확률이 낮음 |
RR=1 | OR=1 | 집단과 사건 발생 확률은 연관성이 없음 |
RR>1 | OR>1 | A 집단의 사건 발생확률이 높음 |
- 활용 : 집단에 따라 사건 발생 가능성을 확인하는 방법
- 코호트 연구 : 특정 집단을 대상으로 선정하고 장기간의 추적을 통해 미리 조사한 위험인자들과 질병 발생 간의 연관성을 연구
- 환자-대조군 연구 : 질병이 있는 환자군과 없는 대조군을 따로 선정하고 위험인자를 나중에 조사함
카이제곱 검정
- 범주형 자료 간의 차이를 분석하는 모수적 통계방법. x^2 분포를 이용하여 적합성 검정, 독립성 검정, 동질성 검정으로 나뉨
- 적합도 검정 : 하나의 범주형 변수에 대하여 데이터가 특정 분포를 만족하는지 검정함
- 귀무가설 : 분포가 기대 분포와 같다. / 대립가설 : 분포가 기대 분포와 같지 않다.
- 동질성 검정 : 서로 다른 집단에 대한 범주형 변수의 분포가 동질인지 검정한다.
- 귀무가설 : 두 집단의 분포가 같다. / 대립가설 : 두 집단의 분포가 같지 않다.
- 독립성 검정 : 두 범주형 변수가 서로 독립적인지 영향을 미치는지 검정한다.
- 귀무가설 : 두 변수는 연관성이 없다. / 대립가설 : 두 변수는 연관성이 있다.
피셔의 정확 검정(Fisher's Exact Test)
- 가능한 모든 경우의 수를 직접 확인하는 검정 방법. 초기하 분포를 기반으로 함.
- 가설은 카이제곱 검정과 동일하며, 기대빈도가 5보다 작은 셀이 20%를 넘으면 카이제곱 검정보다 피셔의 정확 검정을 사용함
- ex: 분할표에서 표본의 수가 작거나 범주가 많아서 빈도수가 극도로 작은 경우 사용한다.
고급 분석 기법-다변량 분석
- 여러 변수를 동시에 분석할 수 있는 모든 분석 방법을 가리킴
- 각 변수를 개별적으로 분석하지 않고 변수 간의 상관관계를 고려한다
상관관계분석
- 변수들 간의 상관성을 분석한다.
- 피어슨 상관계수 : 두 변수의 공분산을 표준편차의 곱으로 나눈 값. 비선형 관계는 측정하지 못함
- 스피어만 상관계수 : 두 변수를 순위로 변환하여 순위의 상관계수로 비선형적인 관계를 나타낼 수 있음
다차원 척도법(MDS : Multidimensional Scaling) - 기출
- 차원 축소를 통해 개체들 간의 관계를 상대적 위치로 시각화하여 나타내는 분석 방법.
- 데이터가 연속형 변수인 경우 거리 행렬을 이용한 다차원 척도법을 사용한다.
- 데이터가 순서형 척도인 경우 순서척도를 거리로 변환하는 비계량적 다차원 척도법을 사용한다
- 적용 절차
- 유클리드 거리행렬 등을 활용해 개체들 간의 유사성을 측정한다.
- 2차원 또는 3차원 공간에 개체를 점으로 배열한다
- 스트레스 값을 부적합도로 측정하여 최소가 되도록 좌표를 조정한다.
- 0-0.1 : 매우 좋음, 0.1-0.2 : 좋음, 0.2 이상 : 나쁨
다변량 분산분석(MAMOVA : Multivariate Analysis of Variance)
- 2개 이상의 종속변수에 대한 분산분석 방법. 범주형 독립변수에 대한 평균벡터 차이를 분석함
- 종속변수 간에 서로 상관관계가 있는 경우 결합된 차이를 확인할 수 있다.
- 상관관계가 없는 경우 개별로 분산분석을 수행해야 한다. 정규성, 등분산성, 독립성을 가정한다.
- 귀무가설 : 모든 집단의 평균벡터가 같다. / 대립가설 : 하나 이상의 집단의 평균벡터가 다르다
주성분분석(PCA : Principal Component Analysis)
- 데이터 전체의 변동을 최대한 보존하는 주성분을 생성하는 차원축소 방법
- 주성분 : 데이터의 분산을 설명하는 설명변수들의 선형 결합으로 표현된다. 항상 설명변수와 동일한 수만큼 성분을 추출할 수 있다. 상관성이 적은 주성분을 활용하여 회귀분석의 다중공선성 문제를 해결할 수 있다.
- 누적 기여율(Cumulative Proportion) : 주성분을 고윳값의 내림차순으로 정렬하여 상위 n개의 주성분으로 설명할 수 있는 정보량의 비율
요인분석(FA : Factor Analysis)
- 변수들의 상관관계를 기반으로 공통의 요인을 찾아 데이터를 요약하고 차원을 축소하는 분석 방법
- 연역적 방법인 확인적 요인분석(CFA)와 귀납적 방법인 탐색적 요인분석(EFA)이 있다.
- 요인 추출 방법 : 주성분 분석과 공통요인법(Common Factor Analysis)이 많이 사용된다. 요인 수를 최소화하는 경우 주성분 분석을 선택한다.
- 요인 회전 방법 : 베리맥스, 쿼티멕스, 이쿼멕스 등의 직각회전 방법과 오블리민 등의 사각 회전으로 나뉜다. 베리멕스 방법을 주로 사용한다.
주성분분석과 요인분석의 비교
- 공통점 : 차원 축소 기능, 다른 분석을 위한 사전 분석
- 차이점
- PCA :선형적 결합 중심, 데이터를 요약하는 주성분을 추출함, 주성분간 중요도 차이 있음
- FA : 잠재적 결합 중심, 상관성 기준 잠재 변수를 생성함, 새로운 변수들은 서로 대등함
판별분석(Discriminant Function Analysis)
- 연속형 독립변수들의 선형조합을 통해 집단을 분류하고 예측하는 분석 방법
- 오분류율이 최소가 되는 판별함수를 도출하고 판별 능력을 평가.
- 독립변수의 정규성, 등분산성을 가정함
- 판별함수 : 분류를 위한 기준으로 판별점수를 산출한다.
- 판별함수의 수=Min(집단의 수-1, 독립변수의 수)
고급 분석 기법-시계열 분석
- 시계열 데이터는 시간의 영향을 받는 데이터다. 시계열 데이터는 일정한 시간 간격을 두고 관측되므로 시차가 동일하며 이론적으로 결측값이 없다.
- 정상성(Stationary) : 시점에 상관없이 일정한 시계열 데이터의 특성을 의미함. 대부분 시계열 자료는 정상성을 만족하지 않는 비정상 시계열이다. 이에 따라 아래의 조건을 만족하는 정상 시계열로 정상화하여 분석을 수행한다.
- 평균이 시점에 의존하지 않는다. 즉, 모든 시점의 평균이 동일하다.
- 분산이 시점에 의존하지 않는다. 즉, 모든 시점의 분산이 동일하다.
- 공분산은 시차에만 의존하고 시점에는 의존하지 않는다. 즉, 시차가 같으면 공분산은 동일하다.
- 비정상성 확인
- 자기상관함수(ACF : Autocorrelation Function) : 자체 시계열 데이터 간의 선형 상관관계 함수.
- 부분 자기 상관함수(PACF : Partial Autocorrelation Function) : 두 시점 사이에 영향을 주는 다른 요인을 제외한 자기 상관함수
- 비정상 시계열의 정상화
- 이상치가 있는 경우 이상치를 제거하거나 대체해 정상화함
- 평균이 일정하지 않은 경우 차분(Difference)을 통해 정상화함
- 분산이 일정하지 않은 경우 변환(Transformation)을 통해 정상화함
시계열 모형(Time-Series Model)
- 시계열 회귀분석
- 회귀식 기반으로 시계열 자료를 분석하는 방법. 일반적인 회귀 모형과 같이 오차항에 대해 정규성, 등분산성, 독립성을 가정함
- 선형다항식추세모형, 다항추세모형이라고도 함.
- 분해법(Decomposition method) - 기출
- 시계열 성분들이 결정적이고 서로 독립이라는 가정을 기반으로 성분을 분해하는 방법
- 여러 성분들의 결합 방식에 따라 가법모형 또는 승법모형을 사용한다. 시간에 따라 계절성분의 진폭이 달라질 때 승법모형을 사용함
- 시계열 성분 구분
- 불규칙성분 : 규칙적이지 않고 예측이 불가한 랜덤 변동
- 추세성분 : 지속적으로 증가하거나 감소하는 추세를 갖는 변동
- 계절성분 : 계절 변화와 같은 주기적인 성분에 의한 변동
- 순환성분 : 주기적인 변화를 가지나 주기가 긴 변동
- 가법모형은 모든 성분을 더하고, 승법모형은 모든 성분은 곱하는 형태로 이루어짐
- 이동평균법(Moving Average)
- 일정 기간의 관측치에 동일한 가중치를 부여하여 이동평균을 계산하는 방법. 계절성분과 불규칙 성분을 제거하는 특징을 가짐
- 지수평활법(Exponential Smoothing)
- 모든 시점에 동일한 가중치를 부여하는 이동평균모형과 달리 최근 관측치에 더 높은 가중치를 부여하는 방법
- 최근 시점에 큰 가중치를 주고 과거 시점으로 갈수록 가중치를 지수적으로 줄여나간다.
- 선형 추세를 갖는 경우 이중지수평활법, 계절 추세를 갖는 경우 계절지수평활법을 사용함
- 자기 회귀 모형(AR : Autoregressive) : 관측치에 대해서 이전 값이 이후 값에 영향을 미치는 상황에 사용함
- 이동평균 모형(MA : Moving Average) : 평균이 시간에 따라 변화하는 경향을 의미함
- 자기회귀 이동평균 모형(ARMA : Autoregressive Moving Average) : AR모형과 MA 모형을 결합한 형태.
- 자기회귀 누적 이동평균 모형(ARIMA : Autoregressive Integrated Moving Average) : 비정상 시계열에 대해 d차로 차분 변환하는 과정을 포함한 ARMA 모형
- 계절형 자기회귀 이동평균 모형(SARIMA : Seasonal ARIMA) : 시계열을 계절 성분을 포함하는 경우 사용하는 시계열 모형
- 시계열모형 식별 방법 : 시계열 데이터의 ACF와 PACF 그래프를 이론적 그래프와 비교하여 차수를 식별한다.
'개발 > 자격증 공부' 카테고리의 다른 글
빅데이터분석기사 필기 요약(10. 분석 모형 평가 및 개선) (0) | 2023.02.21 |
---|---|
빅데이터분석기사 필기 요약(9. 분석 기법 적용 - 3) (0) | 2023.02.19 |
빅데이터분석기사 필기 요약(7. 분석 기법 적용 - 1) (0) | 2023.02.15 |
빅데이터분석기사 필기 요약(6. 분석 모형 설계) (0) | 2023.02.13 |
빅데이터분석기사 필기 요약(5. 통계 기법 이해) (0) | 2023.02.11 |