데이터전처리 3

4종류의 게이머가 존재한다고? - 3. Clustering 및 분석 결과

지난 게시글 보기 https://songmin9813.tistory.com/70(2. PCA) 지난 게시글에서 PCA를 이용하여 35개의 변수를 약 70%의 분산으로 표현할 수 있는 14개의 변수로 압축한 것으로 게시글을 마무리했다. 이번에는 이를 이용하여 비지도 학습 중 Clustering 기법인 K-Means Clustering을 적용해 보고 어떠한 결과가 나왔는지 소개하는 시간을 가져본다. 비지도 학습이요...? 이 얘기를 함에 앞서 지도 학습과 비지도 학습에 대한 개념을 간단히 살펴보고 넘어가 보도록 하자. 이 둘과 다른 강화 학습도 존재하다만, 통상적으로 머신 러닝 기법이라 하면 이 둘을 지칭하는 것이라 해도 무방할 것이다. 결과적으로 이 둘의 가장 큰 차이는 정답(=레이블, 종속 변수 등등)이..

4종류의 게이머가 존재한다고? - 2. PCA

지난 게시글 보기 https://songmin9813.tistory.com/69(1. 인사이트 및 전처리) 표준화를 진행한 이유를 차원 압축에 PCA(Principal Components Analysis : 주성분 분석)을 진행할 것이라는 언급을 마지막으로 했던 것 같다. 처음에는 유저들에게 중요하다고 생각했던 지표를 정성적으로 찾으려 했으나, 이를 분산값을 이용한 최적 PC를 찾아주는 분석법이 있어 이를 적용해보고자 한다. PCA는 다음과 같은 이유로 사용하였다. 1. 유저 데이터는 존재하지만 어떠한 값이 클러스터링에 중요한 데이터인지 모르기 때문 2. 비지도 학습(클러스터링)을 진행할 예정이기 때문 3. 변수가 많지만 각각이 설명하는 정도를 알고 싶기 때문 PCA를 사용한다면 다음과 같은 단점이 존재..

4종류의 게이머가 존재한다고? - 1. 인사이트 및 전처리

배틀그라운드의 유저 플레이 데이터 수집 프로세스를 만들어낸 입장에서 이를 활용한 기계학습도 해보고 싶어 진행해 보는 프로젝트이다. 필자가 알고 있는 게이머와 관련된 지식을 데이터적으로 확인 및 검증해 보는 시간을 가져보는 것이 좋은 것 같아 간단한 클러스터링을 포함한 검증의 시간을 가져보기로 한다. 시작하기에 앞서 Richard Bartle에 의해 정의된 게이머의 4가지 유형은 아래의 그림과 같다. 상기 지표에서 의미하는 바를 간단하게 설명하고, 이를 배틀그라운드 게임에 대입시켜 생각해보자. 1. Killers 활동적이고 플레이어 간의 상호작용을 중시하는 게이머. 주도적으로 다른 플레이어와 분쟁을 하고, 싸움과 관련된 콘텐츠를 즐기는 플레이어가 이에 해당한다. 1:1 대전게임인 철권이 대표적인 예로 뽑힐..