베이지안 기법
- 조건부 확률 : 특정 사건이 발생했다는 가정하에 다른 사건이 발생할 확률. 두 사건 A, B에 대하여 서로를 조건 하는 조건부 확률은 다음과 같이 정의됨
- 사건 A 조건하에 사건 B가 발생할 확률 : P(B|A)
- 사건 B 조건하에 사건 A가 발생할 확률 : P(A|B)
- 베이즈 정리 : 표본이 특정 사건에 포함된다는 주장에 대한 신뢰도를 의미함. 베이즈 정리는 신규 데이터를 기반으로 베이지안 확률을 갱신하는 방법이다.
나이브 베이즈 - 기출
- 베이즈 정리 기반의 지도 학습 분류 모델. 이론적으로 쉽고 산출 속도가 빠르다는 특징을 가진다.
- 종속변수를 추정하기 위해 모든 독립변수가 서로 동등하고 독립적으로 기여한다고 가정한다.
- 관측치가 종속변수의 각 범주에 속할 확률을 구하고 확률이 큰 범주에 할당한다.
딥 러닝 분석
- 대용량 비정형 데이터 분석을 위한 인공신경망 기반 머신러닝 알고리즘
- 데이터 부족, 컴퓨팅 성능 한계 등 환경적 문제와 비선형 문제, 경사 소실 등 이론적 문제가 해결되면서 빠르게 발전해옴
- 주요 하이퍼 파라미터
- learning rate : 파라미터의 업데이트 정도를 결정
- 1 epoch : 모든 학습용 데이터가 한 번씩 forward pass와 backward pass를 진행
- 1 iteration : 한 번의 forwatd pass와 backward pass르르 진행
- mini-batch size : 1 iteration에 학습할 학습용 데이터의 샘플 수
합성곱 신경망
- 이미지 처리에 특화된 딥러닝 알고리즘.
- 이미지의 특징을 추출하는 합성곱(Convolution)과 풀링(Pooling) 영역과 분류를 수행하는 완전연결신경망(Fully-connected neural network) 영역으로 구성됨
- 합성곱(Convolution) - 기출
- 이미지 데이터로부터 특징을 추출하는 과정.
- 필터를 이용해 유사한 이미지 영역을 강조하는 특정 맵을 출력함.
- 특성 맵은 합성곱을 거치면서 사이즈가 점점 작아진다. 패딩(Padding)은 이미지 주변에 계산과 무관한 테두리를 추가하여 특성 맵의 사이즈를 조절한다.
- 풀링(Pooling)
- 합성곱 과정을 거친 데이터를 요약한다.
- 추출한 특징은 유지하면서 데이터 사이즈를 줄일 수 있다.
- 학습 대상 파라미터 수를 줄이고 과적합을 방지하는 효과를 가진다.
순환신경망(RNN : Recurrent neural network)
- 언어 데이터, 시계열 데이터와 같은 순차적인 데이터 학습에 특화된 알고리즘
- 과거의 학습을 현재 학습에 반영하는 순환구조를 가진다.
- 매 시점 데이터를 처리할 때 동일한 파라미터를 공유한다. 즉, 현시점의 정보는 현 시점의 입력값과 이전 시점의 정보로 구성되어 전 시점에 걸쳐 파라미터를 공유하게 된다.
- 입력과 출력의 길이가 유연하기 때문에 다양한 모형을 설계할 수 있다.
- 장단기 메모리(LSTM : Long short term memory)
- RNN의 단점을 보완. RNN은 시간을 거슬러 올라갈수록 경사소멸, 장기의존성 문제가 발생할 수 있음
- LSTM은 순환구조에서 불필요한 정보를 삭제하거나 정보의 중요도에 따라 가중치를 조절한다.
생성적 적대 신경망(GAN : Generative adversarial network)
- 진짜 같은 가짜를 만들도록 학습하는 생성자와 가짜와 진짜를 판별하도록 학습하는 구분자가 대립하여 서로의 성능을 개선하며 학습하는 알고리즘
- 생성자는 진짜 같은 데이터를 생성하므로 데이터 부족 문제, 불균형 문제를 해결하기 위한 방법으로 사용되기도 한다.
비정형 데이터 분석-텍스트 마이닝
- 텍스트 데이터를 자연어 처리(NLP : Natural language precessing) 등의 방식으로 특징 추출, 요약, 분류 군집화 등 의미를 도출하는 분석 방법. 입력된 텍스트를 정형화하고 패턴을 추출하여 결과를 평가하거나 번역하는 과정을 거침
- 텍스트 마이닝 기능
- 특징 추출 : 문서 내의 중요 정보, 원하는 정보 추출
- 문서 요약 : 문서의 주요 정보를 유지하고 복잡도와 길이를 요약
- 문서 분류 : 문서 내용을 분석해 정의된 카테고리로 분류
- 문서 군집화 : 유사도를 기반으로 관련성 높은 문서끼리 군집화
- 텍스트 마이닝 절차
- 텍스트 수집 및 전처리 : 클렌징, 토큰화, 불용어 제거, 어간 추출, 표제어 추출 등의 과정을 거침
- 의미 추출 : 복잡한 문서 정보의 표현을 단순화하여 의미 있는 데이터로 변환함
- 패턴 분석 : 데이터 분석 및 시각화를 하는 단계
- 감정 분석 : 텍스트에 내재된 의견, 감성 등의 주관적인 정보를 분석하는 방법. 텍스트에서 긍/부정 여부를 판단하여 소비자 반응이나 여론 변화 등을 분석하는 목적으로 사용한다.
소셜 네트워크 분석(SNA : Social network analysis)
- 개인, 집단, 사회의 관계를 네트워크 구조로 분석하고 시각화하는 방법.
- 네트워크는 노드와 엣지로 이루어지며, 이는 행렬 형태로도 표현할 수 있다.
- 분석 주요 속성
- 명성(Prominence) : 권력 또는 책임을 가지고 있는 객체 확인
- 응집력(Cohesion) : 객체 간 직접적 연결 존재 확인
- 범위(Range) : 객체의 네트워크 규모
- 중개(Brokerage) : 다른 네트워크와의 연결 정도
- 구조적 등위성(Equivalence) : 한 네트워크의 구조적 지위와 역할이 동일한 객체들 간의 관계
- 소셜 네트워크 분석 기준-밀도
- 연결정도(Degree) : 노드 간의 총 연결 개수. 한 노드가 몇 개의 노드와 연결되어 있는지 정도
- 포괄성(Indlusiveness) : 서로 연결된 노드 수. 연결되지 않은 노드를 제외한 노드 수
- 소셜 네트워크 분석 기준-중심성
- 연결정도 중심성 : 직접 연결된 노드들의 합을 기반으로 측정
- 근접 중심성 : 모든 노드로의 최소거리를 기반으로 측정
- 매개 중심성 : 다른 노드를 사이의 위치하는 정도를 나타내는 지표
- 위세 중심성 : 연결된 노드의 영향력에 가중치를 주어 측정
앙상블 분석
- 분석 결과의 성능을 향상하기 위해 다수의 모형에서 출력된 결과를 종합하여 하나의 최종 결과를 도출하는 방법
- 회귀 분석에 사용하는 경우 평균 등의 대푯값을 산출해 결과를 종합한다.
- 분류 분석의 경우 다수결 방식, 가중 다수결 방식 등을 활용해 최종 결과를 산출한다.
- 배깅(Bagging)
- 부트스트랩 샘플링으로 추출한 여러 개의 표본에 각각 모형을 병렬적으로 학습하고 추출된 결과를 집계하는 앙상블 기법. 성능 향상에 효과적이며 데이터의 사이즈가 작거나 결측값이 있는 경우 유리한 방법임
- 랜덤포레스트(Random Forest) -기출
- 의사결정나무 기반의 앙상블 알고리즘. 기본 배깅에 변수를 랜덤으로 선택하는 Feature Bagging 과정을 추가한 방법.
- 랜덤 하게 변수를 선택하여 동일한 트리가 생성되는 것을 방지하고 변수가 많은 경우 별도의 변수 제거 없이 분석이 가능하다.
- 예측 편향을 줄이고 과적합을 방지할 수 있으며 이상치에 영향을 적게 받는다.
부스팅(Boosting)
- 예측력이 약한 모형을 순차적으로 결합하여 예측력이 강한 모형을 만드는 앙상블 기법.
- 순차적으로 학습하며 데이터의 가중치를 재조정함.
- 잘못 분류한 데이터는 높은 가중치를 부여하고 잘 분류한 데이터는 낮은 가중치를 부여한다.
- AdaBoost(Adaptive boosting)
- 약한 모형을 하나씩 순차적으로 학습함. 먼저 학습한 모형이 잘못 분류한 표본에 높은 가중치를 부여하고 다음 모형은 높은 가중치가 부여된 표본을 잘 분류할 수 있도록 한다.
- 여러 모형을 순차적으로 학습하고 각각의 결과를 종합하여 강한 모형을 생성한다.
- GBM(Gradient boosting machine)
- Adaboost와 유사하나 가중치를 조정할 때 경사하강법을 이용하여 최적화된 결과를 얻는다.
- 경사하강법 : 잔차(오류)를 최소화하는 방향으로 가중치를 재조정하는 방식
- GBM은 대표적인 탐욕 알고리즘임. 과적합될 확률이 높고 학습시간이 길다는 단점이 있다.
- XGBoost : GBM의 단점을 보완하기 위해 시스템을 최적화하고 알고리즘을 고도화한다. 시스템 최적화 관점으로 병렬화, 가지치기를 적용한다.
- LightBGM : 트리 분할에 Level-wise 방식을 사용하는 GBM, XGBoost와 달리 Leaf-wise 방식을 사용한다.
- Level-wise 방식 : 균형 트리 분할 방식. 최대한 균형 잡힌 트리를 유지하면서 분할하기에 깊이가 최소화됨
- Leaf-wise 방식 : 최대 손실을 갖는 리프 노드를 지속 분할하여 깊고 비대칭적인 트리를 생성함
비모수 통계
- 모집단의 모수를 추정하기 위한 통계적 검정 방법은 모수 통계와 비모수 통계로 구분된다.
- 모수 통계 : 모집단의 분포를 가정하고 분포를 기반으로 검정
- 비모수 통계 : 모집단의 분포를 가정하지 않고 빈도, 부호, 순위 등 명목척도 또는 서열척도를 활용해 검정
- 장점 : 모집에 분포에 대한 가정이 없음, 통계량 산식이 단순하고 직관적임
- 단점 : 모집단 분포 가정을 만족하면 효율이 떨어짐, 표본 사이즈가 큰 경우 계산량이 과도함
부호검정(Sign test)
- 부호만을 기준으로 모집단의 중앙값을 검정하는 비모수적 통계방법
- 이론적인 분포를 가정하지 않으나 분포의 연속성, 독립성을 가정함
윌콕슨 부호 순위 검정(Wilcoxon signed rank test)
- 부호와 상대적 크기를 고려해 중앙값을 검정하는 비모수적 통계방법
- 분포의 연속성, 독립성, 대칭성을 가정함 (기존 부호검정의 단점을 보완)
만-위트리 U 검정(Mann-Whitney U test)
- 두 모집단 간의 중앙값 위치를 비교하는 비모수적 방법
- 분포의 연속성, 독립성, 대칭성을 가정함
크루스칼-왈리스 검정(Kruskal-Wallis test)
- 세 개 이상 집단의 분포를 비교하는 검정 방법
- 순위합 검정법의 하나로 모든 집단의 혼합 표본에서 순위 합을 구하여 검정 통계량을 계산한다.
- 각 표본의 중앙값은 다르나 동일한 형태의 분포를 가진다 가정함
런 검정(Run test)
- 각 표본이 서로 독립적인지 검정하는 검정 방법
- 어떤 패턴이나 경향 없이 랜덤하게 나타나는지 검정하고 표본을 배타적인 2개의 집단으로 구분한다.
스피어만 순위 상관계수(Spearman rank correlation coefficinet)
- 두 변수의 순위 값을 기반으로 산출한 상관관계를 평가하는 비모수 척도
- 두 변수 간의 스피어만 상관계수는 순위 값을 기반으로 산출한 피어슨 상관계수와 같다.
- 선형적 관계만을 평가하는 피어슨 상관계수와 달리 스피어만 상관계수는 단조적 관계를 평가한다.
오답 정리
- 회귀방정식의 결정계수 값은 상관계수의 제곱이다.
- 회귀방정식의 회귀계수는 y=ax+b에서 a를 담당함
- 이때, 상관계수와 회귀 계수의 차이는 회귀계수=상관계수*y표준편차/x표준편차
- 의사결정나무는 수치자료와 범주자료 모두 적용할 수 있다.
- 의사결정나무 분석에서 분류 기분 변수 선택에 사용되는 기준으로는 지니지수, 엔트로피 지수, 카이제곱 통계량의 p값이 있음
- 최소제곱법은 회귀 계수를 추정할 때 사용한다. 측정값을 기초로 해서 제곱합을 만들고, 그것을 최소로 하는 값을 구하며 최소자승법이라고도 부른다.
- K-평균 군집은 개체와 개체들이 속하는 군집의 중심 간 거리가 가장 작은 군집방법이다.
- 덴드로그램은 계층적 군집 분석의 결과를 표현하는 그림이다.
- 분할표 분석에서 오즈비는 각 집단의 Odds의 비율이다. 집단별로 구할 수 있는 값은 Odds이다.
- 정상 시계열의 공분산은 시차에만 의존하고 시점 자체에는 의존하지 않는다.
- LSTM은 RNN의 주요 모델 중 하나로 장기 의존성 문제를 해결한다. 패딩은 CNN에서 특성 맵의 사이즈를 조절하는 방법이다.
- 인공신경망의 은닉 노드가 많은 경우 과적합 가능성이 높고 일반화가 어렵다. 레이어 수가 많으면 기울기 소실의 가능성이 높다. 노드 수가 적으면 과소적합의 가능성이 높다.
- 패딩은 이미지 주변에 계산과 무관한 테두리를 추가하여 특성 맵의 사이즈를 조정한다.
- 스피어만 상관계수는 두 변수의 순위 간 통계적 의존성을 측정하는 비모수적인 척도이다. 두 변수의 순위값 사이의 피어슨 상관 계수와 같으며, 단순 선형 관계 평가가 아닌 비선형 또는 단조적 관계를 평가한다.
'개발 > 자격증 공부' 카테고리의 다른 글
빅데이터분석기사 필기 요약(11. 분석 결과 해석 및 활용) (0) | 2023.02.23 |
---|---|
빅데이터분석기사 필기 요약(10. 분석 모형 평가 및 개선) (0) | 2023.02.21 |
빅데이터분석기사 필기 요약(8. 분석 기법 적용 - 2) (0) | 2023.02.17 |
빅데이터분석기사 필기 요약(7. 분석 기법 적용 - 1) (0) | 2023.02.15 |
빅데이터분석기사 필기 요약(6. 분석 모형 설계) (0) | 2023.02.13 |