기사 42

내가 J여서 다행이야

자격증 공부를 시작한 2018년 때까지만 해도 MBTI라는 개념이 많이 펴졌던 시기는 아니었다. 당시의 나는 자격증 공부를 위해 정말 많은 시행착오를 겪으면 일정을 잡았던 것으로 기억하기에, 조금의 계획이 틀어지는 것을 꺼리는 J의 성향을 타고나지 않았을까 하는 회고가 있다. 오늘은 혼자만의 싸움을 어떻게 견뎌왔고, 스스로의 목표 설정을 어떻게 해왔는지에 대한 이야기이다. 이야기를 시작하기에 앞서 '내가 이참에 기술 자격증 하나 따보고 싶다.'라는 독자가 있다면 더욱 도움이 될 이야기가 아닐까 싶다. 1. "나 오늘부터 자격증 공부좀 해보려고" 나는 위의 말에 포함되어있는 일정 관리의 중요성을 그 누구보다 잘 알고 있다. 자격증. 이를 설명하기 위해 특히 기술 자격증의 시스템이 어떻게 돌아가는지를 알 필..

후,,,너는 이렇게 자격증 따지 마라

자격증과 관련하여 원론적인 이야기를 앞서 한 바 있다. 이와 관련된 게시글도 있으니 아래의 내용 읽은 뒤 보면 더욱 몰입이 될 것 같다. https://songmin9813.tistory.com/57 자격증 공부를 왜 해야할까? - 자격증 7개 따며 느낀 것들 요즘 필자가 했던 프로젝트들을 정리하고 본인의 역량과 장단점을 쓰는데 정신이 없는 하루를 보내고 있다. 그러다 문득 필자가 따놓은 자격증들을 보며 정말 많은 자격증을 땄구나... 를 느끼 songmin9813.tistory.com 이런저런 이야기를 멋지게 한 것 같았지만, 사실 정해진 시간 내에 7개의 자격증을 취득하는 건 여간 어려운 일이 아니었다. 어떠한 고초를 겪었고, 어떠한 과정을 통해 현재의 내가 될 수 있었는지 조금은 가벼운 마음으로 이..

빅데이터분석기사 개인 오답 노트 - 3

책임 원칙 훼손을 통제하기 위해서는 기존 책임 원칙을 강화하여 보강하고 불이익 가능성을 최소화할 수 있는 장치를 마련해야 한다. 사생활 침해의 위기에 대해서는 동의제에서 책임제로 변경하는 것으로 통제 가능 성과의 평가 지표로 사용되는 것은 KPI(Key Performance Indicator)이다. 총계처리 기법 : 개인정보에 통계값을 적용하여 개인을 특정할 수 없게 하는 기법으로 집계 처리된 데이터를 기준으로 상세한 분석이 어렵다는 특징을 가진다. 범위화 : 식별값을 해당 그룹의 대푯값이나 구간값으로 변환하는 범주화 기법 하둡 분산 파일 시스템은 메타를 관리하는 네임 노드와 파일이 저장되는 데이터 노드로 구성되어 파일을 특정 크기의 블록으로 나누어 데이터 노드에 3중으로 저장한다. 저사양의 다수 서버로..

빅데이터분석기사 개인 오답 노트 - 2

데이터 확보 계획 단계 : 목표 정의 - 요구 사항 도출 - 예산안 수립 - 계획 수립 언어, 문자 등 정형화되지 않아 저장, 검색, 분석에 많은 비용이 소모되는 데이터는 정성적 데이터이다. NoSQL의 유형은 데이터 저장 모델에 따라 Key Value Database, Document Database, Wide Column Database, Graph Database로 이루어진다. KDD 분석 방법론의 분석 단계 : 데이터 선택 - 데이터 전처리 - 데이터 변환 - 데이터 마이닝 - 해석과 평가 시급성에 기준을 두고 분석 업무의 우선순위를 정할 때 난도가 낮고 시급한 문제를 먼저 해결해야 한다. 난도가 높다면 시급성보다 난이도를 우선하도록 한다. 아마존 AWS에서 제공하는 파일 시스템 저장소는 S3(S..

빅데이터분석기사 개인 오답 노트 - 1

데이터 변환 기법에는 데이터의 노이즈를 구간화, 군집화 등으로 다듬는 평활화. 다양한 차원으로 요약하는 집계, 특정 구간으로 값을 스케일링하는 일반화, 정해진 구간으로 전환하는 정규화, 새로운 속성을 생성하는 기법 등이 있다. 데이터 레이크 : 정형, 비정형의 다양한 유형의 데이터를 저장, 관리하며 소스 데이터의 형태를 그대로 저장하기 때문에 메타의 관리가 중요하다. 데이터 레이크에 저장되는 방대한 데이터에서 효율적으로 유의미한 데이터를 활용하기 위해 레이크쇼어 마트를 구성하여 사용하기도 한다. 분석 스킬의 종류 Soft Skill : 분석의 통찰력, 여러 분야의 협력 능력, 설득력 있는 전달력 Hard Skill : 빅데이터 관련 이론적 지식, 분석기술의 숙련도 데이터 수집 프로세스 : 수집 데이터 도..

빅데이터분석기사 필기 요약(11. 분석 결과 해석 및 활용)

해석 가능한 모형(Interpretable models) 선형 회귀/로지스틱 회귀 모형 : 각 변수의 가중치가 구해지므로 그 값을 참고할 수 있음 의사결정나무 : 각 분기점에서 사용된 기준을 참고함 순열 변수 중요도 특정 변수를 사용하지 않았을 때 모형의 성능에 어느 정도의 손실을 주는지를 계산함으로 해당 변수의 중요도를 파악하는 방법 한 변수에 대해 그 변수의 값을 무작위로 섞어서 예측 값들을 구한다. 해당 변수의 값을 무작위로 사용함으로 부석 모형이 학습한 패턴을 지우는 효과를 주는 것임. 랜덤 포레스트 : importance 함숫값을 True로 해주면 중요도 값을 지표화시킬 수 있다. 부분 의존도 plot(PDP : Partial Dependence Plot) 의존도를 확인하고자 하는 변수를 한두 ..

빅데이터분석기사 필기 요약(10. 분석 모형 평가 및 개선)

회귀모형 평가지표 1. 평가 지표 평균 절대 오차(MAE : Mean Absolute Error) : 실제 값과 예측 값의 차이(오차)에 절댓값을 취해 평균한 값. 직관적이나 에러의 크기가 그대로 반영됨 평균 제곱 오차(MSE : Mean Squared Error) : 모형의 실제 값과 예측 값의 차이를 제곱하여 평균한 값 평균제곱근오차(RMSE : Root Mean Squared Error) : MSE에 제곱근을 씌운 값. MSE는 실 오류의 평균보다 값이 더 커지는 경향이 있어 MSE에 제곱근을 씌운 형태를 사용함 평균절대백분율오차(MAPE : Mean Absolute Percentage Error) : MAE를 퍼센트로 변환한 값. 오차를 비율로 나타내어 단위가 다른 변수 간에 오차를 비교할 수 있..

빅데이터분석기사 필기 요약(9. 분석 기법 적용 - 3)

베이지안 기법 조건부 확률 : 특정 사건이 발생했다는 가정하에 다른 사건이 발생할 확률. 두 사건 A, B에 대하여 서로를 조건 하는 조건부 확률은 다음과 같이 정의됨 사건 A 조건하에 사건 B가 발생할 확률 : P(B|A) 사건 B 조건하에 사건 A가 발생할 확률 : P(A|B) 베이즈 정리 : 표본이 특정 사건에 포함된다는 주장에 대한 신뢰도를 의미함. 베이즈 정리는 신규 데이터를 기반으로 베이지안 확률을 갱신하는 방법이다. 나이브 베이즈 - 기출 베이즈 정리 기반의 지도 학습 분류 모델. 이론적으로 쉽고 산출 속도가 빠르다는 특징을 가진다. 종속변수를 추정하기 위해 모든 독립변수가 서로 동등하고 독립적으로 기여한다고 가정한다. 관측치가 종속변수의 각 범주에 속할 확률을 구하고 확률이 큰 범주에 할당..

빅데이터분석기사 필기 요약(8. 분석 기법 적용 - 2)

군집 분석 관측된 여러 개의 변수 값에서 유사성에만 기초하여 n개의 군집으로 집단화한 뒤, 그 집단의 특성을 분석하는 다변량 분석 기법 계층적 군집 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성한 것 병합적 방법 : 작은 군집으로부터 시작하여 군집을 병합. 분할적 방법 : 큰 군집에서 군집을 분리해 나가는 과정 계층도(덴드로그램) : 군집의 결과를 보여주는 그림. 각 개체는 단 하나의 군집에만 속함 군집 간 거리 측정 방법 최단연결법 : 각 군집에서 하나씩 관측값을 뽑았을 때 나올 수 있는 최솟값을 두 군집 사이의 거리로 측정 최장연결법 : 각 군집에서 하나씩 관측값을 뽑았을 때 나올 수 있는 최댓값을 두 군집 사이의 거리로 측정 중심연결법 : 두 군집 중심 간의 거리를 측정 평균연결법 : 모든 ..

빅데이터분석기사 필기 요약(7. 분석 기법 적용 - 1)

회귀분석의 가정 - 기출 선형성 : 독립변수와 종속변수는 선형적. 종속변수는 독립변수와 회귀계수의 선형적 조합으로 표현 가능. 산점도를 통해 선형성을 확인 가능 독립성 : 단순 회귀분석에는 잔차와 독립변수의 값이 서로 독립. 다중 회귀분석에서는 독립변수 간에 상관성 없이 독립 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정. 잔차가 고르게 분포해야 함 정규성 : 잔차항이 정규분포의 형태를 띰. 잔차항의 평균은 0이고 분산이 일정함. 회귀분석의 위의 네 가정을 만족하는 데이터의 경우에 사용한다. 회귀분석의 종류 단순 회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선 다중 회귀 : 독립변수가 k개이며 종속변수와의 관계가 선형 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 곡선 회..