개인공부 51

빅데이터분석기사 필기 요약(4. 데이터 탐색)

탐색적 데이터 분석의 특성 저항성 : 자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 영향을 적게 받는 성질 잔차 : 관찰값들이 주 경향으로부터 얼마나 벗어났는지를 나타내는 성질 자료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 변경하는 것(로그/제곱급/연수 변환 등) 현시성 : 자료를 그래프를 활용해서 시각적으로 표현함으로 자료의 구조를 효율적으로 파악하게 된다는 성질 개별 데이터 탐색 방법 범주형 데이터(질적 데이터) : 명목형 변수와 순서형 변수에 대한 데이터 탐색. 빈도수, 최빈값, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악. 막대형 그래프를 주로 이용함 수치형 데이터(양적 데이터) : 이산형 변수와 연속형 변수에 대한..

빅데이터분석기사 필기 요약(3. 데이터 전처리)

데이터 정제 데이터 전처리 : 데이터를 정제한 후 분석 변수를 처리하는 순서로 진행함 데이터 정제 : 분석 작업이 시작되기 전 오류를 일으킬 수 있는 결측값을 채우거나 이상값을 제거하는 사전 작업 결측값(Missing Value) : 필수 데이터가 입력되지 않고 누락된 값. 결측값은 N/A로 표시하거나 빈칸으로 표현한다. 결측값은 분석 결과에 큰 영향을 미치기 때문에 데이터를 아예 제거하거나, 결측값을 중심 경향성 통계량(평균값/최빈값)으로 대체할 수 있다. 이상값(Outlier) : 관측된 데이터 범주에서 일반적인 데이터 값의 범위를 벗어난 값을 말한다. 일반적으로 상한보다 높으면 상한값으로 대체하고, 하한보다 낮으면 하한값으로 대체하는 방법으로 처리할 수 있다. 데이터 결측값의 유형 완전 무작위 결측..

게임이 가져야 하는 6가지 요소

게임을 포함한 전반적인 유흥/놀이에 대한 이론에 궁금증을 가졌던 적이 있었다. 이에 게임을 이해하기 위해, 그리고 필자가 어떠한 방식으로 게임을 대하고 있는지 구체적으로 명시하기 위해 몇몇 철학자/게임학자들의 말을 빌려 게임이 가지고 있는 요소들에는 어떤 것들이 있는지 살펴보는 시간을 가져보자. 게임이 가지고 있는 공유점 - 버나드 슈츠의 ‘게임의 자세, 제약과 불편의 자발성 수용’에서 발췌됨 1. 구체적인 목표가 제시됨. 그 구체적 목표를 달성하기 위해 할 수 있는 일을 제시함 이는 디지털 게임으로 하면 단순히 퀘스트가 되겠다. 하지만 마인크래프트 같은 샌드박스형 게임에서는 플레이어 주도적으로 목표를 찾아 이를 해결하는 과정에서 재미를 느낄 수도 있을 것이다. 2. 규칙이 존재함 이동과 아이템의 획득과..

빅데이터분석기사 필기 요약(2. 데이터 수집 및 저장 계획)

데이터 수집 프로세스 데이터 수집은 수집 대상 선정, 데이터 수집 세부계획 수립, 테스트 수집 실행의 프로세스로 나뉜다. 데이터 수집 기술 정형 데이터 :FTP, Open API 비정형 데이터 : Crawling, RSS, Open API, FTP, Scrapy, Apache Kafka 반정형 데이터 : Sensing, Streaming, Flume, Scribe, Chukwa 데이터 유형-구조 정형 데이터 : 정형화된 스키마 구조를 가지고 고정된 필드에 저장되는 행과 열로 구성된 데이터 관계형 데이터베이스, 스프레드 시트 등이 존재 반정형 데이터 : 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식이 일관되지 않은 데이터 XML, HTML, 웹 로그, 알람, JSON, RSS, 센서 데이터 ..

우리가 분석을 하며 놓치고 있는 것들 - 회귀분석

문득 초심으로 돌아보고 싶었다. 우선적으로 게임 데이터 시각화 프로젝트를 기획 단계에서 3번은 갈아엎은 것 같다. 피파는 애초에 시스템이 잘 되어있어 오히려 가공된 정보를 보며 인사이트를 얻는 것으로 끝났고, 에이펙스 레전드는 비공식 API에 호출하는 데에만 많은 시간을 요구하기에 드랍했다... 현재는 메이플스토리의 API를 살펴보며 관련 문의를 넣은 상태이다. 현재는 메이플스토리 API가 정상적으로 사용/작동된다는 메일을 받기만을 기다리며 지금은 예전에 공부했던 내용들을 정리하고 있다. 최근 정보처리기사 정리를 끝내고 예전에 정성껏 작성한 빅데이터분석기사 자료들을 보고 있는데, 데이터의 처리 과정에서 꽤나 큼직하면서도 우리가 간과하고 있는 이론이 눈에 띄었다. 데이터 분석하는 것은 좋다. 지도 학습? ..

빅데이터분석기사 필기 요약(1. 데이터 이해 및 분석 계획)

다른 자격증 공부 중에서 해당 공부를 제일 흥미롭게 했던 것 같다. 실기 문제는 필기 20% 정도에 직접 코딩이 포함되어 있으니 필기를 위해서 관련 이론 공부를 진행했던 것으로 기억한다. 이에 정보처리기사 요약 이후 필자가 어떠한 방식으로 필기 공부를 진행했는지 빅데이터 분석기사 요약본을 공개 발행하여 소개하고자 한다. 여러분도 이 글들을 보고 자격증 공부에 도움이 되었으면 하는 바람이다. 1. 빅데이터의 이해 DKIW 피라미드 데이터(Data) : 가공되기 전의 객관적 수치 또는 기호 정보(Information) : 데이터의 가공 및 처리를 통해 도출된 현상 지식(Knowledge) : 정보의 구조화를 통해 도출되는 고유의 아이디어(개인 아이디어라고 생각) 지식은 그 존재의 형태에 따라 암묵지와 형식지..

정보처리기사 최종 정리 노트 - 7

IPv4의 확장형, 대안으로 나온 것으로 128비트를 16비트씩 콜론으로 구분하여 사용하는 프로토콜 체계는? 더보기 IPv6 데이터베이스 회복 기법 중 rollback 시 redo, undo가 모두 실행되는 트랜잭션 처리법으로 트랜잭션 수행 중에 갱신 결과를 DB에 즉시 반영한다. 데이터를 변경하면 로그 파일로 저장되며 모든 내용 수정 시 즉시 데이터베이스에 반영된다. 더보기 즉시 갱신 기법 스니핑에 대해서 서술하시오 더보기 상대방의 데이터를 훔쳐보기만 하는 수동적 공격형태 컴퓨터 네트워킹에서 쓰이는 용어로 IP 패킷의 TCP/UDP 포트 숫자와 소스 및 목적지의 IP 주소 등을 재기록하면서 라우터를 통해 네트워크 트래픽을 주고받는 기술로 네트워크 주소 변환이라고 한다. 더보기 NAT, Network A..

정보처리기사 최종 정리 노트 - 6

리팩토링의 목적에 대해 서술하시오. 더보기 코드의 간결성, 재사용성 증대, 소프트웨어를 사용하기 쉽고 수정하기 쉽도록 만드는 것 학생 테이블에서 이름이 민수인 튜플을 삭제하도록 SQL문을 작성하시오 더보기 DELETE FROM 학생 WHERE 이름='민수' TCP/IP에서 신뢰성 없는 IP를 대신하여 송신 측으로 네트워크의 IP 상태 및 에러 메시지를 전달해 주는 프로토콜은? 더보기 ICMP, Internet Control Message Protocol 심리학자 톰 마릴은 컴퓨터가 메시지를 전달하고 메시지가 제대로 도착했는지 확인하며 도착하지 않았을 시 메시지를 재전송하는 일련의 방법을 '기술적 은어'를 뜻하는 (1)이라는 용어로 정의하였다. 더보기 프로토콜, Protocol EAI 구축 유형 4가지에 ..

정보처리기사 최종 정리 노트 - 5

정보시스템 운영 중 서버가 다운되거나 자연재해나 시스템 장애 등의 이유로 대고객 서비스가 불가능한 경우가 종종 발생한다. 이와 같은 상황에서의 '비상사태 또는 업무중단 시점부터 업무가 복구되어 다시 정상가동될 때까지의 시간'을 의미하는 용어를 쓰시오 더보기 목표 복구 시간, RTO, Recovery Time Objective 비동기식 자바스크립트 XML 통신기법을 뭐라고 하는가? 더보기 AJAX 고객의 요구사항 변화에 유연하게 대응하기 위해 일정한 주기를 반복하면서 개발하는 방법론. 워터폴에 대비되는 방법론으로 최근 회사에서 각광받는 방법론 더보기 애자일, Agile 다음 조건을 만족하는 SQL 문을 작성하시오. 학번, 이름을 학생 테이블에서 검색하시오 3,4학년인 학생만을 검색하도록 하며, IN 구문을..

정보처리기사 최종 정리 노트 - 4

살충제 패러독스의 개념을 간략히 설명하시오. 더보기 같은 테스트 케이스로 테스트를 반복한다면 다른 오류를 찾아낼 수 없다는 개념 데이터 마이닝의 개념을 간략히 설명하시오. 더보기 수많은 데이터 중 유용한 상관관계를 발견하여 미래에 실행가능한 정보를 추출하고 의사결정에 이용하는 과정 프로토콜에 필요한 3요소 더보기 문법, 의미, 타이밍(Syntax, Semantics, Timing) HTML의 단점을 보완한 인터넷 언어. SGML의 복잡한 단점을 개선한 다목적 마크업 언어임. 사용자가 새로운 태그와 속성을 정의할 수 있는 확장성을 가진다. 더보기 XML 아래의 설명에 가장 부합하는 프로그래밍 언어를 영문 약어로 쓰시오 데이터를 저장하거나 전송할 때 많이 사용되는 경량의 DATA 교환형식이다. 표현식은 사람..