핵심만 요약한 통계와 머신러닝 파이썬 코드북 pdf 다운로드를 무료로 제공합니다 이 책은 데이터 과학(data science)에 입문할 때 기본적으로 알아야 할 통계학의 개념들과 주요 머신러닝 알고리즘들을 빠르게 학습하는 것을 목적으로 한다
관련 책 pdf 모음
책 소개
머신러닝을 학습하기에 앞서 탐색 적 자료 분석, 확률분포, 추정과 가설 검정, 공분산과 상관계수, 회귀 분석 등 기초 통계학을 살 펴본 후, 머신러닝의 지도 학습 알고리즘과 비지도 학습 알고리즘을 학습하도록 목차를 구성하였다. 지도 학습 알고리즘으로는 의사결정나무와 앙상블, KNN, SVM, 나이브 베이즈 분류, 인공신경망을 살펴보고, 비지도 학습 알고리즘으로는 차원 축소, 계층적/비계층적 군집 분석, 연관규칙학 습을 다룬다. 이밖에 시계열 분석에 대한 내용도 포함되어 있다. 이론적인 설명은 최대한 간략하게 소개하는 한편, 파이썬 코드를 통해 각종 개념들을 이해하고 다양한 알고리즘으로 모델을 구현하는 방법을 익히는 것에 중점을 두었다. 이 때문에 책의 분량의 상당 부분을 파이썬 예제 코드를 담는 것에 할애하였다. 또한, 각 학습 주제 별 연습문제를 통해 공부한 내용을 복습할 수 있다.
핵심 요약 머신러닝 파이썬 코드북
1장 탐색적 데이터 분석
1-1. 공통
데이터 불러오기
데이터 기본정보 확인
기술 통계
1-2. 질적변수
도수분포표, 상대도수분포표
상관계수: 스피어만 순위상관계수, 켄달의 타우
질적변수 탐색 시각화
1-3. 양적변수
도수분포표, 상대도수분포표
계산적 대푯값
위치적 대푯값
절대적 산포도
상대적 산포도
왜도, 첨도
상관계수: 피어슨의 적률상관계수
양적변수 탐색 시각화
-연습문제와 풀이
2장 전처리
2-1. 결측치 처리
결측치 확인
Zero imputation & Constant imputation
대푯값으로 채우는 방법
단순확률대치법
다른 변수들로부터 모델링을 하여 결측값을 예측하는 방법
보간법
실제값과 대치값 비교
2-2. 이상치 처리
절단
조정
클리핑
2-3. 클래스 불균형 처리
클래스 불균형 데이터 생성하기
랜덤오버샘플링
SMOTE
Borderline SMOTE
K-means SMOTE
SVM SMOTE
ADASYN
오버샘플링된 데이터로 분류 학습 및 결과 비교
2-4. 변수변환
2-4-1. 수치형 변수 변환
표준화
최소최대 스케일링
Robust scaling
Quantile scaling
Feature scaling한 데이터로 로지스틱 회귀 분석 및 결과 비교
로그 변환
거듭제곱변환
Target scaling한 데이터로 시각화, 선형 회귀 분석 및 결과 비교
순위로 변환
구간 분할
2-4-2. 범주형 변수 변환
원핫인코딩
더미코딩
숫자로 표현된 범주형 특성 변환
레이블 인코딩
특징 해싱
빈도 인코딩
-연습문제와 풀이
3장 표본추출, 데이터 분할, 교차검증
3-1. 표본 추출
단순랜덤추출법
계통추출법
집락추출법
층화추출법
3-2. 데이터 분할
일반적 데이터 분할 및 홀드아웃 방법
Shuffle split
K-fold 분할
Stratified K-fold 분할
Group K-fold 분할
3-3. 교차 검증
분할 샘플들로 교차 검증
파라미터 후보들로 교차 검증
-연습문제와 풀이
4장 확률분포
4-1. 특수한 이산형 확률분포들
베르누이 분포
이항분포
음이항분포
기하분포
초기하분포
포아송 분포
4-2. 특수한 연속형 확률분포들
균일분포
정규분포와 표준정규분포
지수분포
감마분포
카이제곱분포
t분포
F분포
-연습문제와 풀이
5장 추정과 가설 검정
5-1. 일표본 (One-sample)
모평균의 추정과 가설 검정: Z분포, t분포
1종 오류와 2종 오류
모비율의 추정과 가설 검정: Z분포
모분산의 추정과 가설 검정: 카이제곱분포
5-2. 이표본 (Two-sample)
독립표본 모평균 차이의 추정과 가설 검정: Z분포, t분포
대응표본 모평균 차이의 추정과 가설 검정: Z분포, t분포
모비율 차이의 추정과 가설 검정: Z분포
모분산 비의 추정과 가설 검정: F분포
5-3. 분산분석의 가정
정규성 검정
k표본 등분산 검정 (Levene)
k표본 등분산 검정 (Bartlett)
5-4. 분산분석: F분포
등분산인 one-way ANOVA
이분산인 one-way ANOVA
등분산인 two-way ANOVA (모수인자-모수인자)
등분산인 two-way ANOVA (모수인자-변량인자)
-연습문제와 풀이
6장 비모수 검정
6-1. 카이제곱검정: 카이제곱분포
적합성 검정: 다항모집단 비율의 차이
독립성 검정: 한 모집단 내 여러 수준의 차이
동질성 검정: 여러 (부)모집단 간 여러 수준에 대한 차이
6-2. Run 검정: Run 검정표, Z분포
일표본 Run 검정
이표본 Run 검정
6-3. 이항변수 데이터 검정: 카이제곱분포
맥니머 검정
코크란Q 검정
6-4. 부호, 순위 데이터 검정
일표본 부호 검정: 이항분포, Z분포
이표본 부호 검정: 이항분포, Z분포
일표본 윌콕슨 부호순위 검정: 윌콕슨 부호순위 검정표, Z분포
이표본 윌콕슨 부호순위 검정: 윌콕슨 부호순위 검정표, Z분포
윌콕슨 순위합 검정(만 위트니 U검정): 윌콕슨 순위합 검정표, Z분포
6-5. k표본 순위 데이터 검정
크러스컬 월리스 검정: 크러스컬 월리스 검정표, 카이제곱분포
프리드먼 검정: 프리드먼 검정표, 카이제곱분포
-연습문제와 풀이
7장 공분산과 상관계수
7-1. 공분산
7-2. 상관계수
-연습문제와 풀이
8장 회귀 분석
8-1. 선형 회귀
8-1-1. 단순 선형 회귀
8-1-2. 다중 선형 회귀
영향치 판단
VIF 계산
변수 선택과 가능도
잔차 분석
8-1-3. 규제 선형 회귀
릿지 회귀
라쏘 회귀
엘라스틱 넷
8-1-4. 일반화 선형 회귀
로지스틱 회귀
포아송 회귀
8-1-5. 아웃라이어에 강한 선형 회귀
Robust regression
Quantile regression
8-2. 비선형 회귀
다항 회귀
스플라인 회귀
-연습문제와 풀이
9장 지도 학습 알고리즘
9-1. 의사결정나무와 앙상블
9-1-1. 의사결정나무
9-1-2. 앙상블
배깅
부스팅
랜덤 포레스트와 Extra-trees
스태킹
9-2. KNN
9-3. SVM
9-4. 나이브 베이즈 분류
베이즈 통계
나이브 베이즈 분류
9-5. 인공신경망
다층 퍼셉트론
-연습문제와 풀이
10장 비지도 학습 알고리즘
10-1. 차원 축소
주성분 분석
요인 분석
독립성분 분석
음수 미포함 행렬 분해
다차원 척도법
원본 데이터와 차원 축소 데이터로 적합한 모델 성능 비교
10-2. 군집 분석
10-2-1. 계층적 군집 분석
10-2-2. 비계층적 군집 분석
K-means clustering
DBSCAN
혼합분포군집
SOM
10-3. 연관규칙학습
-연습문제와 풀이
11장 모델 평가 지표와 거리 지표
11-1. 회귀모델 평가 지표
11-2. 분류모델 평가 지표
11-3. 군집모델 평가 지표
실제 군집값이 없는 경우
실제 군집값이 있는 경우
11-4. 거리 지표
연속형 변수의 거리들
범주형 변수의 거리들
-연습문제와 풀이
12장 시계열 분석
12-1. 시계열 탐색적 분석
12-1-1. 일반적 EDA
12-1-2. 시계열에 특화된 EDA
정상성 확인
자기상관 확인
시계열 분해
12-2. 시계열 데이터 전처리
시계열 데이터 다루기
시계열 빈도 변경 (업샘플링, 다운샘플링)
결측치 처리
차분과 변환
12-3. 시계열 모델링 및 평가
박스-젠킨스 방법과 ARIMA
자동 차수 선택 방법과 ARIMA
-연습문제와 풀이