파이썬 7

배틀그라운드 유저 데이터 분석해보기 4. 데이터 추가 가공 및 시각화

완성된 프로젝트를 보고 계십니다. 분석 결과만을 보고 싶으시다면 아래의 URL에 접속해주세요. https://songmin9813.tistory.com/51(Steam 버전 배틀그라운드유저 분석해보기) 이전 내용과 이어집니다. https://songmin9813.tistory.com/49(3. 데이터 가공) 데이터 추가 가공 - AI 여부 파악하기 페이즈 별 생존 시간이라는 새로운 가공 데이터 외에도 여러 정보들을 살펴보고 있던 도중 흥미로운 정보를 하나 찾아냈다. 아래는 매치 별 유저에게서 뽑아낼 수 있는 정보의 예시를 JSON 형태로 표현하고 있다. { "DBNOs": 1, "assists": 0, "boosts": 0, "damageDealt": 67.100006, "deathType": "bypl..

배틀그라운드 유저 데이터 분석해보기 3. 데이터 가공(+팁)

완성된 프로젝트를 보고 계십니다. 분석 결과만을 보고 싶으시다면 아래의 URL에 접속해주세요. https://songmin9813.tistory.com/51(Steam 버전 배틀그라운드유저 분석해보기) 이전 내용과 이어집니다. https://songmin9813.tistory.com/44(2. 데이터 인사이트 및 추출) 사람마다 사용하거나 손에 익은 언어가 있다고는 하지만. 그리고 SQL을 능숙히 다루기 위해 시작한 프로젝트이기도 하다만. 결국 손에 맞는 Python을 먼저 찾게 되더라...ㅋㅋㅋ 지금 같은 경우에는 내가 원하는 데이터를 처음부터 다시 뽑고 나만의 데이터 마트를 만드는 것이 주된 목적이었기 때문에 SQL보다는 Python을 이용한 데이터 가공을 주된 목적으로 삼았다. SQL을 따로 배워서..

배틀그라운드 유저 데이터 분석해보기 2. 데이터 인사이트 및 추출

완성된 프로젝트를 보고 계십니다. 분석 결과만을 보고 싶으시다면 아래의 URL에 접속해주세요. https://songmin9813.tistory.com/51(Steam 버전 배틀그라운드유저 분석해보기) 이전 내용과 이어집니다. https://songmin9813.tistory.com/43(1. 프로세스 수립) 데이터 타입 및 추출 방법 PUBG 내 모든 데이터의 반환은 JSON을 통해 이루어지는 것을 확인했다. 몇 개의 예시 Execute를 통해 Request 되는 URL의 특징을 파악해 낼 수 있었고, 이를 코드에 담아 추출하는 과정을 담았다. 다만 인증 여부를 떠나 curl 형식으로 작성되어있는 항목이 많기에 request url을 직접 넣는 것보다 curl 코드를 request 형식으로 변환한 후 ..

배틀그라운드 유저 데이터 분석해보기 1. 프로세스 수립

완성된 프로젝트를 보고 계십니다. 분석 결과만을 보고 싶으시다면 아래의 URL에 접속해주세요. https://songmin9813.tistory.com/51(Steam 버전 배틀그라운드유저 분석해보기) 게임 데이터 시각화 프로젝트 시작합니다. 다사다난했던 2022년을 보내고 새로운 해를 맞이하면서 지금까지 관심 있게 보고 있던 항목에 대한 개인 프로젝트를 진행해보고자 한다. 대주제로는 'Open API가 존재하는 게임 데이터의 시각화 프로젝트', 그 첫 번째 프로젝트로 모바일로 자주 즐기곤 했던 '배틀그라운드'를 기준으로 데이터를 수집하고, 시각화하는 시간을 가져보고자 한다. 이번 프로젝트를 통해 얻고자 하는 것은 크게 두 가지이다. 1. PUBG Open API에서 가공할 수 있는 데이터의 확인 및 추..

도보에 따른 칼로리 소모량 분석해보기 3. 선형 회귀 분석(+분석 코드)

이전 내용과 이어집니다. https://songmin9813.tistory.com/40(2. 데이터 전처리) 독립 변수의 개수도 적고, 데이터의 상관관계 또한 우상향 그래프를 그리고 있기에 단순 선형 회귀 모델을 이용한 ML 모델을 만들어보고자 한다. 모델을 만듦에 있어서 독립 변수는 distance, steps로, 종속 변수는 calories로 둔 채 최소 자승법을 이용한 회귀 분석을 진행한다. 우상단 R-squared 값이 0.786으로 약 78% 설명력을 보이고 있지만, distance와 steps의 p-value 값이 충분한 신뢰도를 보이고 있지 않다. (각각 0.982, 0.582) 이는 각 값이 서로를 설명할 수 있는 다중 공선성 문제라 판단했기에 p-value가 가장 높은 distance 변..

도보에 따른 칼로리 소모량 분석해보기 2. 데이터 전처리

이전 내용과 이어집니다. https://songmin9813.tistory.com/39(1. 데이터 인사이트) 각 데이터는 ‘날짜’라는 동일한 값을 가지고 있음을 파악했기 때문에 이를 primary key로 삼아 join을 진행하여 하나의 테이블을 만드는 것이 도움이 될 것이라 판단했다. 이에 join 함수를 이용하여 세 개의 데이터를 한 번에 합치는 과정을 진행했고, 해당 데이터프레임 내 결측치가 존재하는지 info 함수를 통해 우선 확인하였다. 각 열은 167열로 이루어진 것을 확인할 수 있었고, 각 값에 대한 결측치는 존재하지 않는 것을 확인했다. 모두 join을 진행시키고 정규화 전 출력은 상기 그림과 같다. y축이 각 column 별로 제각각 존재했기에 column 별 정규화를 진행하여 그래프를..

도보에 따른 칼로리 소모량 분석해보기 1. 데이터 인사이트

해당 프로젝트는 학교에서 진행한 개인 프로젝트를 게시글 형태로 가공하여 발행하는 시리즈이다. 아마 현재까지 발행된 게시글 중 필자의 주관적인 판단이 가장 많이 들어간 시리즈이지 않을까 싶다. 사실 데이터 분석과 관련된 인사이트를 많이 보여주고 싶은 마음이 제일 크다. 도대체 이 작자가 어떤 데이터에 대해 어떤 생각을 가지고 있는지 소개하는 시간을 가져보도록 하자. 프로젝트로 주어진 3개의 데이터를 분석하고 시각화하는 과제를 부여받았다. 이에 주어진 3개의 데이터의 종류는 다음과 같다. results_calories.txt results_distance.txt results_stpes.txt 학교에서는 이 세 개의 파일을 띡 주고 '분석해 봐~'하는 것으로 과제가 주어졌기에, 어떤 방식으로 분석해야 하는지..