데이터분석 40

4종류의 게이머가 존재한다고? - 2. PCA

지난 게시글 보기 https://songmin9813.tistory.com/69(1. 인사이트 및 전처리) 표준화를 진행한 이유를 차원 압축에 PCA(Principal Components Analysis : 주성분 분석)을 진행할 것이라는 언급을 마지막으로 했던 것 같다. 처음에는 유저들에게 중요하다고 생각했던 지표를 정성적으로 찾으려 했으나, 이를 분산값을 이용한 최적 PC를 찾아주는 분석법이 있어 이를 적용해보고자 한다. PCA는 다음과 같은 이유로 사용하였다. 1. 유저 데이터는 존재하지만 어떠한 값이 클러스터링에 중요한 데이터인지 모르기 때문 2. 비지도 학습(클러스터링)을 진행할 예정이기 때문 3. 변수가 많지만 각각이 설명하는 정도를 알고 싶기 때문 PCA를 사용한다면 다음과 같은 단점이 존재..

빅데이터분석기사 필기 요약(6. 분석 모형 설계)

분석 방법 통계 분석(Statistical analysis) : 특정 집단이나 불확실한 현상을 데이터를 통해 이해하고 추론을 통해 의사결정하는 과정 기술 통계 : 데이터를 요약/정리하고 이해하기 위해 평균, 표준편차 등 기초통계량을 구하거나 그래프로 표현하는 분석방식 추론 통계 : 수집된 데이터를 기반으로 모집단에 대해 추정하고 가설을 검정하는 분석 방법 데이터 마이닝(Data Mining) : 데이터에 숨어있는 유용한 정보를 찾아내는 과정. 분류 분석, 추정 분석, 예측 분석, 연관 분석, 군집 분석, 기술 분석 등이 존재 머신 러닝(Machine Learning) : 분석 모형 알고리즘이 데이터를 학습하고 학습한 정보를 바탕으로 결과를 출력하는 분석방법. 종속변수의 존재 여부, 학습 방법 등에 따라 ..

4종류의 게이머가 존재한다고? - 1. 인사이트 및 전처리

배틀그라운드의 유저 플레이 데이터 수집 프로세스를 만들어낸 입장에서 이를 활용한 기계학습도 해보고 싶어 진행해 보는 프로젝트이다. 필자가 알고 있는 게이머와 관련된 지식을 데이터적으로 확인 및 검증해 보는 시간을 가져보는 것이 좋은 것 같아 간단한 클러스터링을 포함한 검증의 시간을 가져보기로 한다. 시작하기에 앞서 Richard Bartle에 의해 정의된 게이머의 4가지 유형은 아래의 그림과 같다. 상기 지표에서 의미하는 바를 간단하게 설명하고, 이를 배틀그라운드 게임에 대입시켜 생각해보자. 1. Killers 활동적이고 플레이어 간의 상호작용을 중시하는 게이머. 주도적으로 다른 플레이어와 분쟁을 하고, 싸움과 관련된 콘텐츠를 즐기는 플레이어가 이에 해당한다. 1:1 대전게임인 철권이 대표적인 예로 뽑힐..

빅데이터분석기사 필기 요약(5. 통계 기법 이해)

기술 통계(Descriptive Statistics) 데이터 분석의 목적으로 수집된 데이터를 통계적으로 정리하고 요약하는 기초적인 통계 기법. 데이터 분석에 쓰이는 자료를 수집할 때 전수조사가 불가능한 경우가 대다수이기 때문에 일반적으로 표본을 추출해서 분석을 수행한다. 데이터 요약 중심 경향 통계량(Central tendency) 평균(Mean) : 자료를 모두 더한 후 개수로 나눈 값. 모든 자료에 같은 가중치를 부여한다. 중위수(Median) : 모든 데이터값을 크기 순서에 따라 오름차순으로 정렬하였을 때 중앙에 위치한 데이터값. 이상값에 영향을 받지 않는다. 최빈수(Mode) : 데이터값 중에서 빈도수가 가장 높은 데이터 값 산포도 통계량(Dispersion) 범위(Range) : 데이터값 중에서..

빅데이터분석기사 필기 요약(4. 데이터 탐색)

탐색적 데이터 분석의 특성 저항성 : 자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 영향을 적게 받는 성질 잔차 : 관찰값들이 주 경향으로부터 얼마나 벗어났는지를 나타내는 성질 자료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 변경하는 것(로그/제곱급/연수 변환 등) 현시성 : 자료를 그래프를 활용해서 시각적으로 표현함으로 자료의 구조를 효율적으로 파악하게 된다는 성질 개별 데이터 탐색 방법 범주형 데이터(질적 데이터) : 명목형 변수와 순서형 변수에 대한 데이터 탐색. 빈도수, 최빈값, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악. 막대형 그래프를 주로 이용함 수치형 데이터(양적 데이터) : 이산형 변수와 연속형 변수에 대한..

빅데이터분석기사 필기 요약(3. 데이터 전처리)

데이터 정제 데이터 전처리 : 데이터를 정제한 후 분석 변수를 처리하는 순서로 진행함 데이터 정제 : 분석 작업이 시작되기 전 오류를 일으킬 수 있는 결측값을 채우거나 이상값을 제거하는 사전 작업 결측값(Missing Value) : 필수 데이터가 입력되지 않고 누락된 값. 결측값은 N/A로 표시하거나 빈칸으로 표현한다. 결측값은 분석 결과에 큰 영향을 미치기 때문에 데이터를 아예 제거하거나, 결측값을 중심 경향성 통계량(평균값/최빈값)으로 대체할 수 있다. 이상값(Outlier) : 관측된 데이터 범주에서 일반적인 데이터 값의 범위를 벗어난 값을 말한다. 일반적으로 상한보다 높으면 상한값으로 대체하고, 하한보다 낮으면 하한값으로 대체하는 방법으로 처리할 수 있다. 데이터 결측값의 유형 완전 무작위 결측..

빅데이터분석기사 필기 요약(2. 데이터 수집 및 저장 계획)

데이터 수집 프로세스 데이터 수집은 수집 대상 선정, 데이터 수집 세부계획 수립, 테스트 수집 실행의 프로세스로 나뉜다. 데이터 수집 기술 정형 데이터 :FTP, Open API 비정형 데이터 : Crawling, RSS, Open API, FTP, Scrapy, Apache Kafka 반정형 데이터 : Sensing, Streaming, Flume, Scribe, Chukwa 데이터 유형-구조 정형 데이터 : 정형화된 스키마 구조를 가지고 고정된 필드에 저장되는 행과 열로 구성된 데이터 관계형 데이터베이스, 스프레드 시트 등이 존재 반정형 데이터 : 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식이 일관되지 않은 데이터 XML, HTML, 웹 로그, 알람, JSON, RSS, 센서 데이터 ..

우리가 분석을 하며 놓치고 있는 것들 - 회귀분석

문득 초심으로 돌아보고 싶었다. 우선적으로 게임 데이터 시각화 프로젝트를 기획 단계에서 3번은 갈아엎은 것 같다. 피파는 애초에 시스템이 잘 되어있어 오히려 가공된 정보를 보며 인사이트를 얻는 것으로 끝났고, 에이펙스 레전드는 비공식 API에 호출하는 데에만 많은 시간을 요구하기에 드랍했다... 현재는 메이플스토리의 API를 살펴보며 관련 문의를 넣은 상태이다. 현재는 메이플스토리 API가 정상적으로 사용/작동된다는 메일을 받기만을 기다리며 지금은 예전에 공부했던 내용들을 정리하고 있다. 최근 정보처리기사 정리를 끝내고 예전에 정성껏 작성한 빅데이터분석기사 자료들을 보고 있는데, 데이터의 처리 과정에서 꽤나 큼직하면서도 우리가 간과하고 있는 이론이 눈에 띄었다. 데이터 분석하는 것은 좋다. 지도 학습? ..

빅데이터분석기사 필기 요약(1. 데이터 이해 및 분석 계획)

다른 자격증 공부 중에서 해당 공부를 제일 흥미롭게 했던 것 같다. 실기 문제는 필기 20% 정도에 직접 코딩이 포함되어 있으니 필기를 위해서 관련 이론 공부를 진행했던 것으로 기억한다. 이에 정보처리기사 요약 이후 필자가 어떠한 방식으로 필기 공부를 진행했는지 빅데이터 분석기사 요약본을 공개 발행하여 소개하고자 한다. 여러분도 이 글들을 보고 자격증 공부에 도움이 되었으면 하는 바람이다. 1. 빅데이터의 이해 DKIW 피라미드 데이터(Data) : 가공되기 전의 객관적 수치 또는 기호 정보(Information) : 데이터의 가공 및 처리를 통해 도출된 현상 지식(Knowledge) : 정보의 구조화를 통해 도출되는 고유의 아이디어(개인 아이디어라고 생각) 지식은 그 존재의 형태에 따라 암묵지와 형식지..

Kakao 버전 배틀그라운드 유저 데이터 분석해보기[통합]

기존 데이터 시각화 프로젝트에서 진행했던 Steam 버전을 확장하여 3개의 플랫폼에서 작동되는 시각화 자료를 새로 만들었습니다. Steam, Kakao, Console(PSN/XBOX) 총 3개의 플랫폼으로 모배가 없는 게 개인적으로 아쉽네요. 개발자 관점에서 어떤 프로세스와 고난이 있었는지 궁금하시다면 아래의 URL을 참고해 주시면 감사하겠습니다. 첫 개발은 Steam 버전을 기준으로 작성하였습니다. https://songmin9813.tistory.com/43(1. 프로세스 수립) https://songmin9813.tistory.com/44(2. 데이터 인사이트 및 추출) https://songmin9813.tistory.com/49(3. 데이터 가공) https://songmin9813.tisto..