개발/자격증 공부

빅데이터분석기사 필기 요약(4. 데이터 탐색)

잠수돌침대 2023. 2. 9. 18:00

탐색적 데이터 분석의 특성

  • 저항성 : 자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 영향을 적게 받는 성질
  • 잔차 : 관찰값들이 주 경향으로부터 얼마나 벗어났는지를 나타내는 성질
  • 자료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 변경하는 것(로그/제곱급/연수 변환 등)
  • 현시성 : 자료를 그래프를 활용해서 시각적으로 표현함으로 자료의 구조를 효율적으로 파악하게 된다는 성질

개별 데이터 탐색 방법

  • 범주형 데이터(질적 데이터) : 명목형 변수와 순서형 변수에 대한 데이터 탐색. 빈도수, 최빈값, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악. 막대형 그래프를 주로 이용함
  • 수치형 데이터(양적 데이터) : 이산형 변수와 연속형 변수에 대한 데이터 탐색. 평균, 분산, 표준 편차, 첨도, 왜도 등을 이용하여 데이터의 분포 특성을 정규성 측면에서 파악. 박스 플롯이나 히스토그램을 주로 이용함

다차원 데이터 탐색 방법

  • 범주형-범주형 조합 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석. 막대형 그래프를 주로 이용함
  • 수치형-수치형 조합 : 산점도와 기울기를 통하여 변수 간의 상관성을 분석. 피어슨 상관계수를 통하여 관계 방향과 강도 파악
  • 범주형-수치형 조합 : 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술통계량 차이를 상호 비교. 그룹 간 비교로 박스 플롯을 주로 사용함

상관관계 분석 유형

  • 수치형 데이터 : 등간 척도, 비율 척도에 해당. 수치로 표현할 수 있는 측정 가능한 데이터 변수. 변수의 연산 가능. 피어슨 상관계수를 이용함
  • 순서형 데이터 : 순서형 데이터에 해당. 데이터의 순서에 의미를 부여한 데이터 변수. 변수 연산 불가능. 스피어만 상관계수를 이용함
  • 명목형 데이터 : 명목 척도에 해당. 데이터의 특성을 구분하기 위하여 숫자/기호를 할당한 데이터 변수. 변수 연산 불가능. 카이제곱 검정(교차 분석)을 이용함

산포도의 통계량

  • 범위(Range) : 데이터 값 중에서 최대 데이터 값과 최소 데이터 값의 차이
  • 분산(Variance) : 편차를 활용하여 데이터의 흩어진 정도를 표현하는 대표적인 산포도의 통계량. 모든 데이터가 같은 값이면 분산은 0이 되고, 데이터 간의 차이가 클수록 그 분산은 커진다.
  • 표준편차(Standard Deviation) : 분산에 양의 제곱근을 씌운 값. 제곱근을 취한 값을 표준편차로 하고, 이 값을 통하여 평균에서 흩어진 정도를 해석한다.
  • 변동계수(Coefficient Deviation) : 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용함. 단위가 다른 두 자료군 산포도를 비교하는데 분산/표준편차 사용은 부적절하다. 따라서 변동계수를 상대 표준편차라고 부르기도 함
  • 사분위수 범위(IQR : Interquartile Range) : 백위수를 4등급하는 25%, 50%, 75%에 위치한 값. 데이터 중심에서 흩어진 정도를 파악할 수 있다.

데이터 분포를 나타내는 통계량

  • 왜도(Skewness) : 데이터 분포의 비대칭성을 표현하는 통계량.
    • 왼쪽 고리가 긴 분포의 왜도는 0보다 작고, 중심 경향성의 통계량이 평균<중위수<최빈값의 특성을 가진다.
    • 반대로 꼬리가 긴 분포의 왜도는 0보다 크고 중심 경향성의 통계량이 최빈값<중위수<평균 특성을 가진다.
  • 첨도(Kurtosis) : 데이터의 분포가 중심에 어느 정도 모여 있는가를 표현하는 통계량. 기본적인 정의에 의하면 정규 분포의 첨도는 3이지만, 정규 분포의 첨도를 0으로 만들기 위해 일반적으로 3을 빼서 정의하는 경우가 많다.

시각적 데이터 탐색

  • 히스토그램 : 연속형 변수 데이터를 구간으로 나누고 해당 구간의 빈도를 표시하여, 자료 분포의 형태를 직사각형 형태로 시각화한 표
  • 막대그래프 : 범주형 변수에 대하여 빈도수 또는 연속형 변수의 값을 비교하기 위해 값을 막대의 길이로 시각화함. 막대의 넓이에 의미가 있지 않기에 서로 떨어져 있는 형태를 가질 수 있다.
  • 박스 플롯 : 산포도의 통계량인 최댓값, 최솟값, 중위수, 제3사분위수, 제1 분위수를 활용하여 도식화한 그래프. 데이터의 범위를 시각적으로 확인할 수 있으며, 통계적으로 이상값을 빠르게 파악하는 용이한 도구임
  • 산점도 : 두 연속형 변수 데이터의 관계를 파악할 수 있는 그래프. 산점도의 형태를 통해 두 연속형 변수 간의 상관관계를 판단할 수 있다.

시공간 데이터

  • 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리 속성과 시간 속성을 가지고 있다.
  • 시공간 데이터의 유형에는 점(Point) 타입, 선(Line) 타입, 면(Polygon) 타입이 존재한다.

시공간 데이터의 탐색 방법으로는 다음과 같다.

  • 코로플레스 지도 : 어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 색칠하여 표현하는 방법
  • 카토그램 : 특정한 데이터값의 변환에 따라 지도의 면적이 왜곡되는 지도. 변량비례도라고도 한다
  • 버블 플롯맵 : 버블차트에 위도와 경도 정보를 적용하여 좌표를 원으로 시각화한 지도

변량 데이터 탐색

  • 일변량 데이터 : 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료. 단변량 자료라고도 함
    • 가장 간단한 형태의 분석. 기술통계량과 그래프 통계량을 활용하여 탐색함
  • 이변량 데이터 : 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료. 다변량 데이터에 속함
    • 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측. 일반적으로 두 변수 사이의 관계를 파악하는 것이 목적
  • 다변량 데이터 : 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료
    • 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료를 탐색함

다변량 데이터 탐색 방법

  • 상관 분석 : 산점도 행렬을 그려 여러 변수를 조합한 산점도와 상관계수를 한 화면에서 확인하여 수행할 수 있다. 조합이 가능한 모든 경우에 따른 그래프를 만들 수 있는 것이 특징
  • 다차원 척도법 : 객체 사이의 유사성 수준을 2차원 또는 3차원 공간에 점으로 시각화하는 분석기법. 유클리드 거리를 활용하며, 데이터 간의 실제 거리를 근접도로 이용하는 계량형 다차원 척도법과 순서 정보를 근접도로 이용하는 비계량형 다차원 척도법으로 나뉨
  • 주성분 분석 : 데이터의 분포를 잘 설명함과 동시에 정보의 손실은 최소화하도록 고차원의 데이터를 저 차원의 데이터로 변환하는 차원 축소 분석 기법. 데이터의 방향성이 가장 큰 벡터를 찾아내는 것
  • 선형판별분석 : 데이터가 어떤 그룹에 속할지를 판별하는 분석 기법. 다변량 데이터에 대한 판별 함수를 적용해 데이터의 클래스 분리를 최적으로 수행할 수 있게 데이터를 축소한다.

비정형 데이터

  • 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 이미지나 영상, 텍스트처럼 형태와 구조가 다른 구조화되지 않은 데이터

비정형 데이터의 종류

  • 텍스트 : 추출한 단어들의 빈도를 표현하는 방법. 주로 키워드 분석을 수행함
  • 이미지 : 한 픽셀마다 수치로 변환하는 과정을 거쳐 이미지 분석을 수행함. 딥러닝 기법 CNN을 활용

반정형 데이터의 종류

  • XML : 웹페이지를 만드는 HTML을 개선하여 만든 마크업 언어. 표준 마크업 언어 규약에 해당하는 SGML 문서 형식을 따름
  • JSON : JavaScript Object Notation의 약자. 웹상에서 자료를 주고받을 때 사람이 읽을 수 있는 데이터에 해당함
  • HTML : 웹 페이지를 위해 고안된 언어. 링크, 인용 등을 통해 구조적 문서를 만들 수 있는 방법

분석의 차이

  • 상관관계 분석 : 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법
    • 양의 상관관계를 가지고 있다 하여 그 둘의 인과관계를 함부로 예측하는 행위는 하지 말 것
  • 회귀 분석 : 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수의 값을 예측하는 선형모형을 산출하는 방법