전체 글 87

빅데이터분석기사 필기 요약(7. 분석 기법 적용 - 1)

회귀분석의 가정 - 기출 선형성 : 독립변수와 종속변수는 선형적. 종속변수는 독립변수와 회귀계수의 선형적 조합으로 표현 가능. 산점도를 통해 선형성을 확인 가능 독립성 : 단순 회귀분석에는 잔차와 독립변수의 값이 서로 독립. 다중 회귀분석에서는 독립변수 간에 상관성 없이 독립 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정. 잔차가 고르게 분포해야 함 정규성 : 잔차항이 정규분포의 형태를 띰. 잔차항의 평균은 0이고 분산이 일정함. 회귀분석의 위의 네 가정을 만족하는 데이터의 경우에 사용한다. 회귀분석의 종류 단순 회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선 다중 회귀 : 독립변수가 k개이며 종속변수와의 관계가 선형 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 곡선 회..

4종류의 게이머가 존재한다고? - 2. PCA

지난 게시글 보기 https://songmin9813.tistory.com/69(1. 인사이트 및 전처리) 표준화를 진행한 이유를 차원 압축에 PCA(Principal Components Analysis : 주성분 분석)을 진행할 것이라는 언급을 마지막으로 했던 것 같다. 처음에는 유저들에게 중요하다고 생각했던 지표를 정성적으로 찾으려 했으나, 이를 분산값을 이용한 최적 PC를 찾아주는 분석법이 있어 이를 적용해보고자 한다. PCA는 다음과 같은 이유로 사용하였다. 1. 유저 데이터는 존재하지만 어떠한 값이 클러스터링에 중요한 데이터인지 모르기 때문 2. 비지도 학습(클러스터링)을 진행할 예정이기 때문 3. 변수가 많지만 각각이 설명하는 정도를 알고 싶기 때문 PCA를 사용한다면 다음과 같은 단점이 존재..

빅데이터분석기사 필기 요약(6. 분석 모형 설계)

분석 방법 통계 분석(Statistical analysis) : 특정 집단이나 불확실한 현상을 데이터를 통해 이해하고 추론을 통해 의사결정하는 과정 기술 통계 : 데이터를 요약/정리하고 이해하기 위해 평균, 표준편차 등 기초통계량을 구하거나 그래프로 표현하는 분석방식 추론 통계 : 수집된 데이터를 기반으로 모집단에 대해 추정하고 가설을 검정하는 분석 방법 데이터 마이닝(Data Mining) : 데이터에 숨어있는 유용한 정보를 찾아내는 과정. 분류 분석, 추정 분석, 예측 분석, 연관 분석, 군집 분석, 기술 분석 등이 존재 머신 러닝(Machine Learning) : 분석 모형 알고리즘이 데이터를 학습하고 학습한 정보를 바탕으로 결과를 출력하는 분석방법. 종속변수의 존재 여부, 학습 방법 등에 따라 ..

4종류의 게이머가 존재한다고? - 1. 인사이트 및 전처리

배틀그라운드의 유저 플레이 데이터 수집 프로세스를 만들어낸 입장에서 이를 활용한 기계학습도 해보고 싶어 진행해 보는 프로젝트이다. 필자가 알고 있는 게이머와 관련된 지식을 데이터적으로 확인 및 검증해 보는 시간을 가져보는 것이 좋은 것 같아 간단한 클러스터링을 포함한 검증의 시간을 가져보기로 한다. 시작하기에 앞서 Richard Bartle에 의해 정의된 게이머의 4가지 유형은 아래의 그림과 같다. 상기 지표에서 의미하는 바를 간단하게 설명하고, 이를 배틀그라운드 게임에 대입시켜 생각해보자. 1. Killers 활동적이고 플레이어 간의 상호작용을 중시하는 게이머. 주도적으로 다른 플레이어와 분쟁을 하고, 싸움과 관련된 콘텐츠를 즐기는 플레이어가 이에 해당한다. 1:1 대전게임인 철권이 대표적인 예로 뽑힐..

빅데이터분석기사 필기 요약(5. 통계 기법 이해)

기술 통계(Descriptive Statistics) 데이터 분석의 목적으로 수집된 데이터를 통계적으로 정리하고 요약하는 기초적인 통계 기법. 데이터 분석에 쓰이는 자료를 수집할 때 전수조사가 불가능한 경우가 대다수이기 때문에 일반적으로 표본을 추출해서 분석을 수행한다. 데이터 요약 중심 경향 통계량(Central tendency) 평균(Mean) : 자료를 모두 더한 후 개수로 나눈 값. 모든 자료에 같은 가중치를 부여한다. 중위수(Median) : 모든 데이터값을 크기 순서에 따라 오름차순으로 정렬하였을 때 중앙에 위치한 데이터값. 이상값에 영향을 받지 않는다. 최빈수(Mode) : 데이터값 중에서 빈도수가 가장 높은 데이터 값 산포도 통계량(Dispersion) 범위(Range) : 데이터값 중에서..

빅데이터분석기사 필기 요약(4. 데이터 탐색)

탐색적 데이터 분석의 특성 저항성 : 자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 영향을 적게 받는 성질 잔차 : 관찰값들이 주 경향으로부터 얼마나 벗어났는지를 나타내는 성질 자료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 변경하는 것(로그/제곱급/연수 변환 등) 현시성 : 자료를 그래프를 활용해서 시각적으로 표현함으로 자료의 구조를 효율적으로 파악하게 된다는 성질 개별 데이터 탐색 방법 범주형 데이터(질적 데이터) : 명목형 변수와 순서형 변수에 대한 데이터 탐색. 빈도수, 최빈값, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악. 막대형 그래프를 주로 이용함 수치형 데이터(양적 데이터) : 이산형 변수와 연속형 변수에 대한..

빅데이터분석기사 필기 요약(3. 데이터 전처리)

데이터 정제 데이터 전처리 : 데이터를 정제한 후 분석 변수를 처리하는 순서로 진행함 데이터 정제 : 분석 작업이 시작되기 전 오류를 일으킬 수 있는 결측값을 채우거나 이상값을 제거하는 사전 작업 결측값(Missing Value) : 필수 데이터가 입력되지 않고 누락된 값. 결측값은 N/A로 표시하거나 빈칸으로 표현한다. 결측값은 분석 결과에 큰 영향을 미치기 때문에 데이터를 아예 제거하거나, 결측값을 중심 경향성 통계량(평균값/최빈값)으로 대체할 수 있다. 이상값(Outlier) : 관측된 데이터 범주에서 일반적인 데이터 값의 범위를 벗어난 값을 말한다. 일반적으로 상한보다 높으면 상한값으로 대체하고, 하한보다 낮으면 하한값으로 대체하는 방법으로 처리할 수 있다. 데이터 결측값의 유형 완전 무작위 결측..

게임이 가져야 하는 6가지 요소

게임을 포함한 전반적인 유흥/놀이에 대한 이론에 궁금증을 가졌던 적이 있었다. 이에 게임을 이해하기 위해, 그리고 필자가 어떠한 방식으로 게임을 대하고 있는지 구체적으로 명시하기 위해 몇몇 철학자/게임학자들의 말을 빌려 게임이 가지고 있는 요소들에는 어떤 것들이 있는지 살펴보는 시간을 가져보자. 게임이 가지고 있는 공유점 - 버나드 슈츠의 ‘게임의 자세, 제약과 불편의 자발성 수용’에서 발췌됨 1. 구체적인 목표가 제시됨. 그 구체적 목표를 달성하기 위해 할 수 있는 일을 제시함 이는 디지털 게임으로 하면 단순히 퀘스트가 되겠다. 하지만 마인크래프트 같은 샌드박스형 게임에서는 플레이어 주도적으로 목표를 찾아 이를 해결하는 과정에서 재미를 느낄 수도 있을 것이다. 2. 규칙이 존재함 이동과 아이템의 획득과..

빅데이터분석기사 필기 요약(2. 데이터 수집 및 저장 계획)

데이터 수집 프로세스 데이터 수집은 수집 대상 선정, 데이터 수집 세부계획 수립, 테스트 수집 실행의 프로세스로 나뉜다. 데이터 수집 기술 정형 데이터 :FTP, Open API 비정형 데이터 : Crawling, RSS, Open API, FTP, Scrapy, Apache Kafka 반정형 데이터 : Sensing, Streaming, Flume, Scribe, Chukwa 데이터 유형-구조 정형 데이터 : 정형화된 스키마 구조를 가지고 고정된 필드에 저장되는 행과 열로 구성된 데이터 관계형 데이터베이스, 스프레드 시트 등이 존재 반정형 데이터 : 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식이 일관되지 않은 데이터 XML, HTML, 웹 로그, 알람, JSON, RSS, 센서 데이터 ..

우리가 분석을 하며 놓치고 있는 것들 - 회귀분석

문득 초심으로 돌아보고 싶었다. 우선적으로 게임 데이터 시각화 프로젝트를 기획 단계에서 3번은 갈아엎은 것 같다. 피파는 애초에 시스템이 잘 되어있어 오히려 가공된 정보를 보며 인사이트를 얻는 것으로 끝났고, 에이펙스 레전드는 비공식 API에 호출하는 데에만 많은 시간을 요구하기에 드랍했다... 현재는 메이플스토리의 API를 살펴보며 관련 문의를 넣은 상태이다. 현재는 메이플스토리 API가 정상적으로 사용/작동된다는 메일을 받기만을 기다리며 지금은 예전에 공부했던 내용들을 정리하고 있다. 최근 정보처리기사 정리를 끝내고 예전에 정성껏 작성한 빅데이터분석기사 자료들을 보고 있는데, 데이터의 처리 과정에서 꽤나 큼직하면서도 우리가 간과하고 있는 이론이 눈에 띄었다. 데이터 분석하는 것은 좋다. 지도 학습? ..