기술 통계(Descriptive Statistics)
- 데이터 분석의 목적으로 수집된 데이터를 통계적으로 정리하고 요약하는 기초적인 통계 기법. 데이터 분석에 쓰이는 자료를 수집할 때 전수조사가 불가능한 경우가 대다수이기 때문에 일반적으로 표본을 추출해서 분석을 수행한다.
데이터 요약
- 중심 경향 통계량(Central tendency)
- 평균(Mean) : 자료를 모두 더한 후 개수로 나눈 값. 모든 자료에 같은 가중치를 부여한다.
- 중위수(Median) : 모든 데이터값을 크기 순서에 따라 오름차순으로 정렬하였을 때 중앙에 위치한 데이터값. 이상값에 영향을 받지 않는다.
- 최빈수(Mode) : 데이터값 중에서 빈도수가 가장 높은 데이터 값
- 산포도 통계량(Dispersion)
- 범위(Range) : 데이터값 중에서 최대 관측치와 최소 관측치 사이의 차이
- 분산(Variance) : 평균으로부터 관측치들이 평균적으로 얼마나 떨어져 있는지를 요약해 주는 값. 편차 제곱의 합을 관측치 수로 나누어서 계산한다. 실제 관측치의 단위 기준으로는 어느 정도 변화했는지 파악하기 어렵다.
- 표준편차(Standard Deviation) : 분산에 양의 제곱근을 취한 값. 분산의 단점을 보완함
- 평균의 표본오차(Standard Error of Mean) : 표본 평균의 표본 추출 분포에 대한 표준편차. 모집단으로부터 수많은 표본들을 추출한 후 각 표본들에 대한 평균을 구하고, 각 평균들에 대한 전체 평균을 다시 구한 값으로 각 평균들이 전체 평균으로부터 평균적으로 얼마나 떨어져 있는지를 나타낸 값이다.
- 분포 통계량(Distribution)
- 첨도(Kurtosis) : 데이터 분포의 뾰족한 정도를 설명하는 통계량. 첨도의 값이 0이면 집단의 분포가 표준 정규 분포와 뾰족한 정도가 같음을 의미함
- 왜도(Skewness) : 데이터 분포의 기울어진 정도를 설명하는 통계량. 왜도의 값이 0보다 크면 우측으로 꼬리가 긴 분포를 나타내고 0보다 작으면 좌측으로 꼬리가 긴 분포를 나타냄
자료 속성과 척도의 종류
- 질적 자료
- 명목 척도(Nominal Scale) : 단순히 집단의 분류를 목적으로 사용되는 척도. 대상이 어느 집단에 속하는지 분류할 때 사용. 등호 연산
- 순서 척도(Ordinal Scale) : 측정 대상 사이의 대소 관꼐를 나타내기 위한 척도. 측정 대상의 서열 관계를 관측할 때 사용. 비교 연산
- 양적 자료
- 구간 척도(Interval Scale) : 등간 척도라고도 하며 측정 대상이 갖고 있는 속성의 양을 결정. 구간이나 구간 사이의 간격이 의미가 있음. 가감 연산(덧셈, 뺄셈)
- 비율 척도(Ratio Scale) : 구간 척도의 성질을 가지면서 간격에 대한 비율이 의미가 있는 척도. 절대적인 기준인 0이 존재하고 사칙연산이 가능한 자료. 승제 연산자(곱셈, 나눗셈)
표본 추출 기법
- 단순 무작위 추출 : 통계 조사의 기본으로 모집단에서 정해진 규칙 없이 표본을 추출하는 방식. 동일한 크기의 표본들이 균등한 확률로 선택될 수 있도록 표본을 추출하는 방법. 모집단에 대한 사전지식이 많지 않을 때 적용할 수 있는 간편한 방법
- 계통 추출 : 모집단 관측치로부터 시간, 순서 및 공간의 동일한 구간을 정해서 무작위로 추출. 이렇게 정해진 구간을 표본 구간이라 함
- 층화 추출 : 모집단을 어떤 특성에 따라 서로 겹치지 않는 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식. 계층은 내부적으로 동질적이고, 외부적으로 이질적이어야 함. 단순 무작위 추출법보다 추정의 정확도가 높음
- 군집 추출 : 모집단을 여러 군집으로 나누고, 일부 군집의 전체 또는 일부를 추출하는 방식. 군집은 계층 간에는 동질적이나, 계층 내에서는 이질성을 유지해야 함
- 체계 표본 추출 : 모집단 관측치로부터 시간, 순서 및 공간의 동일한 구간을 정해서 무작위로 하나의 단위를 추출하고 그 이후 k번째 간격마다 하나씩 단위를 추출하는 방법
확률 분포의 이해
- 어떤 일이 일어날 가능성의 측도 무작위 실험을 했을 때 발생할 수 있는 모든 경우의 수 중 특정 사건 혹은 이벤트가 발생할 비율
- 확률 변수(Random Variable) : 결과를 예측할 수 없는 확률 실험에서 나타날 수 있는 확률적 결과를 수치로 표현한 값
- 확률분포함수(Probability Distribution Function) : 확률 변수를 일직선상의 공간에 표현한 함수. 확률분포함수는 확률질량함수와 확률밀도함수로 나눌 수 있다.
- 확률질량함수(Probability Mass Function) : 셀 수 있는 수의 사건이 존재하는 경우 각 단순 사건에 대한 확률만 정의하는 함수
- 확률밀도함수(Probability Density Function) : 임의의 지점에서의 밀도를 함수 f(x)로 표시하고 확률밀도함수라 한다. 히스토그램에서 본다면 해당 구간의 면적이 그 확률값이라 할 수 있음
확률 분포의 종류
- 이산확률분포(Discrete Probaility Distrtibution) : 이산확률변수 X가 가지는 확률분포. 확률변수 X가 0,1,2,3과 같이 하나씩 셀 수 있는 값을 취한다.
- 이항 분포 : n번의 시행 중에 각 시행의 확률이 p일 때, k번 성공할 확률 분포. 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
- 포아송 분포 : 이산형확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포.
- 연속확률분포(Continuous Probability Distribution) : 확률변수 X가 실수와 같이 연속적인 값을 취할 때는 이를 연속확률변수라 하고, 이러한 연속확률변수 X가 가지는 확률 분포를 연속확률분포라 한다.
- 정규 분포 : 분포의 곡선이 중앙으로 하여 좌우 대칭인 분포. 가우스 분포라고도 표현함
- 표준 정규 분포 : 정규 분포 함수에서 X를 Z로 정규화한 분포. 평균이 0이고 분산과 표준편차가 1인 정규 분포
- t-분포 : 정규 분포의 평균의 해석에 많이 쓰이는 분포. 모집단이 정규 분포라는 정도만 알고, 모표준편차는 모를 때 사용함
- 카이제곱 분포 : k개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포. k는 자유도를 의미하며 일반적으로 오른쪽으로 긴 꼬리를 갖는 분포 모양을 가짐. 범주형 자료 분석에서 주로 사용한다.
- F-분포 : 독립적인 x^2 분포가 있을 때, 두 확률 변수의 비. 두 집단 간 분산의 동일성 검정에 활용함
표본 분포 관련 용어
- 표본 분포 : 모집단에서 추출한 크기가 일정한 표본이 가지는 추정량의 확률 분포
- 모집단(Population) : 조사하고자 하는 대상 집단 전체
- 모수(Parameter) : 표본 관측에 구하고자 하는 모집단에 대한 정보
- 표본(Sample) : 조사하기 위해 추출한 모집단의 일부 원소
- 통계량(Statistic) : 표본에서 얻는 평균이나 표준 오차와 같은 값. 이 값을 통해 모수를 추정하며, 무작위로 추출할 경우 각 표본에 따라 달라지는 확률변수
- 추정량(Estimator) : 모수의 추정을 위해 구해진 통계량
표본 분포의 법칙
- 큰 수의 법칙(Law Large Number) : 데이터를 많이 뽑을수록 표본평균의 분산은 0에 가까워짐
- 중심 극한 정리(Central Limit Theorem) : 표본의 개수가 커지면 모집단의 분포와 상관없이 표본 분포를 정규 분포에 근사
기술 통계와 추론 통계
- 기술 통계 : 수집한 데이터를 요약, 묘사, 설명하는 통계 기법. 표본 자체의 속성을 파악하는 데 주안점
- 추론 통계 : 수집한 데이터를 바탕으로 추론 및 예측하는 통계 기법. 표본에서 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법
점 추정
- 점 추정 : 표본의 정보로부터 모집단의 모수를 하나의 갑승로 추정하는 기법. 표본의 평균, 중위수, 최빈값 등을 사용함. 점 추정은 아래의 조건을 만족해야 함
- 불편성(Unbiasedness) : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
- 효율성(Efficiency) : 추정량의 분산이 작을수록 좋음
- 일치성(Consistency) : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐
- 충족성(Sufficient) : 추정량은 모수에 대하여 모든 정보를 제공
- 점 추정에 사용되는 통계는 표본평균, 표본분산, 중위수, 최빈값이 있음
구간 추정
- 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법. 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 한다.
- 신뢰 수준(Confidence Level) : 추정값이 존재하는 구간에 모수가 포함되어 있을 가능성의 크기 또는 정확도
- 신뢰구간(Confidence Interval) : 신뢰 수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위
가설의 특성과 종류
- 가설(Hypothesis) : 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론
- 귀무가설 : 현재까지 주장되어 온 것이거나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설
- 대립가설 : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설
검정 통계량
- 가설 검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량. 귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산함
- p-값 : 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률값. 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률로 볼 수도 있음
- 가설 검정 : 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택 여부를 결정하는 분석 방법. 표본을 활용하여 모집단에 대입해 보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
가설 검정 오류
- 가설 검정 오류의 의미 : 통계적인 방법에 근거하여 주어진 가설을 검증하는 데 있어 모집단 전체를 통해 검증하는 것이 아닌 표본을 기반으로 모집단에 대한 결론을 내리는 것이기에 아래와 같은 통계적 오류를 범할 가능성이 존재한다.
- 제1종 오류 : 귀무가설이 참인데 잘못하여 이를 기각하는 경우
- 유의 수준(Level of Significance) : 제1종 오류를 범할 최대 허용확률. 알파로 표기함
- 신뢰수준(Level of Confidence) : 귀무가설이 참일 때 이를 참이라고 판단하는 확률. 1-알파로 표기함
- 제 2종 오류 : 귀무가설이 참이 나닌데 이를 채택하는 경우
- 베타 수준 : 제2종 오류를 범할 최대 허용확률. 베타로 표기함
- 검정력 : 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률을 의미. 1-베타로 표기
- 제1종 오류 : 귀무가설이 참인데 잘못하여 이를 기각하는 경우
'개발 > 자격증 공부' 카테고리의 다른 글
빅데이터분석기사 필기 요약(7. 분석 기법 적용 - 1) (0) | 2023.02.15 |
---|---|
빅데이터분석기사 필기 요약(6. 분석 모형 설계) (0) | 2023.02.13 |
빅데이터분석기사 필기 요약(4. 데이터 탐색) (0) | 2023.02.09 |
빅데이터분석기사 필기 요약(3. 데이터 전처리) (0) | 2023.02.07 |
빅데이터분석기사 필기 요약(2. 데이터 수집 및 저장 계획) (0) | 2023.02.05 |