가볍게 시작하는 통계학습 pdf 다운로드를 무료로 제공합니다 이 책 [가볍게 시작하는 통계학습]은 기계학습의 필수 요소인 통계적 학습의 이론적 개념과 활용 기법을 소개하고 다양한 모델링과 예측 기법을 어떻게 적용할 수 있는지를 예제와 Lab을 통해 보여준다
관련 책 pdf 모음
책 소개
각 장의 내용은 이공계 배경지식이 없어도 이해하는 데 큰 어려움이 없다. Lab은 R을 사용하여 실행하며 각 장에서 설명한 모든 통계적 방법에 대한 코드는 충분히 설명되어 있다. 실제 데이터를 사용한 R 프로그래밍 예제는 실질적인 경험을 제공하며 통계학습과 기계학습을 어떻게 구현하는지에 대한 명확하고 직관적인 가이드를 제공한다. 1장은 통계적 학습의 몇 가지 응용을 보여주는 데 사용되는 실제 자료인 Wage 자료, 주식시장 자료, 그리고 유전자 발현 자료에 대해 소개하고 책 전반에 걸쳐 사용될 표기법과 간단한 행렬 대수를 살펴본다. 2장은 통계학습의 기본 개념을 살펴보고 모델의 추정방법과 예측 정확도, 그리고 모델의 정확도 평가에 대해 알아본다. 또한, R에 대한 기본적인 사용법에 대해 간략히 소개한다. 3장에서는 단순한 지도학습 기법인 선형회귀의 주요 개념과 모델의 적합에 이용되는 최소제곱법에 대해 알아보고 질적 설명변수의 처리와 선형모델의 확장에 대해 다룬다. 4장은 질적 반응변수를 예측하는 방법인 분류에 대해 다루며 광범위하게 사용되는 분류기인 로지스틱 회귀, 선형판별분석, k-최근접이웃에 대해 살펴본다. 5장은 훈련 데이터의 일부를 사용하여 동일한 통계적 방법을 여러 번 적합하여 정보를 얻는 재표본추출 방법에 대해 다룬다. 여기서는 가장 일반적으로 사용되는 2가지 재표본추출 방법인 교차검증과 붓스트랩에 대해 상세히 살펴본다.
가볍게 시작하는 통계학습 pdf 다운
1 도입(introduction)
1.1 통계학습의 개요
1.2 통계학습의 간단한 역사
1.3 표기법과 간단한 행렬 대수
1.4 Lab과 연습문제에 사용된 자료
2 통계학습(Statistical Learning)
2.1 통계학습이란?
2.1.1 f를 추정하는 이유는?
2.1.2 어떻게 f를 추정하는가?
2.1.3 예측 정확도와 모델 해석력 사이의 절충(Trade-Off)
2.1.4 지도학습과 비지도학습
2.1.5 회귀와 분류문제
2.2 모델의 정확도 평가
2.2.1 적합의 품질 측정
2.2.2 편향-분산 절충
2.2.3 분류 설정
2.3 Lab: R에 대한 소개
2.3.1 기본 명령어
2.3.2 그래프
2.3.3 데이터 인덱싱(Indexing)
2.3.4 데이터 로딩(Loading)
2.3.5 추가적인 그래프와 수치 요약
2.4 연습문제
3 선형회귀(Linear Regression)
3.1 단순선형회귀
3.1.1 계수 추정
3.1.2 계수 추정값의 정확도 평가
3.1.3 모델의 정확도 평가
3.2 다중선형회귀
3.2.1 회귀계수의 추정
3.2.2 몇 가지 중요한 질문
3.3 회귀모델에서 다른 고려할 사항
3.3.1 질적 설명변수
3.3.2 선형모델의 확장
3.3.3 잠재적 문제
3.4 마케팅 플랜(Marketing Plan)
3.5 선형회귀와 K-최근접이웃의 비교
3.6 Lab: 선형회귀
3.6.1 라이브러리
3.6.2 단순선형회귀
3.6.3 다중선형회귀
3.6.4 상호작용 항
3.6.5 설명변수의 비선형 변환
3.6.6 질적 설명변수
3.6.7 함수의작성
3.7 연습문제
4 분류(Cassification)
4.1 분류의 개요
4.2 왜 선형회귀를 사용하지 않는가?
4.3 로지스틱 회귀(Logistic Regression)
4.3.1 로지스틱 모델
4.3.2 회귀계수의 추정
4.3.3 예측하기
4.3.4 다중로지스틱 회귀
4.3.5 반응변수의 클래스가 2개보다 많은 로지스틱 회귀
4.4 선형판별분석(Linear Discriminant Analysis)
4.4.1 분류를 위한 베이즈 정리의 사용
4.4.2 선형판별분석(p = 1)
4.4.3 선형판별분석(p > 1)
4.4.4 이차선형판별분석
4.5 분류방법의 비교
4.6 Lab: 로지스틱 회귀, LDA, QDA, KNN
4.6.1 주식시장자료
4.6.2 로지스틱 회귀
4.6.3 선형판별분석
4.6.4 이차판별분석
4.6.5 K-최근접이웃
4.6.6 Caravan 보험 자료에 적용
4.7 연습문제
5 재표본추출 방법
5.1 교차검증(Cross-Validation)
5.1.1 검증셋 기법(Validation Set Approach)
5.1.2 LOOCV(Leave-One-Out Cross-Validation)
5.1.3 k-fold 교차검증
5.1.4 k-fold 교차검증에 대한 편향-분산 절충
5.1.5 분류문제에 대한 교차검증
5.2 붓스트랩(Bootstrap)
5.3 Lab: 교차검증과 붓스트랩
5.3.1 검증셋 기법
5.3.2 LOO(Leave-One-Out) 교차검증
5.3.3 k-fold 교차검증
5.3.4 붓스트랩
5.4 연습문제
6 선형모델 선택 및 Regularization
6.1 부분집합 선택
6.1.1 최상의 부분집합 선택
6.1.2 단계적 선택
6.1.3 최적의 모델 선택
6.2 Shrinkage 방법
6.2.1 능형회귀
6.2.2 Lasso
6.2.3 조율 파라미터 선택
6.3 차원축소 방법
6.3.1 주성분회귀
6.3.2 부분최소제곱
6.4 고차원의 고려
6.4.1 고차원 데이터
6.4.2 고차원에서 무엇이 문제인가?
6.4.3 고차원에서의 회귀
6.4.4 고차원에서의 결과 해석
6.5 Lab 1: 부분집합(서브셋) 선택 방법
6.5.1 최상의 서브셋 선택
6.5.2 전진 및 후진 단계적 선택
6.5.3 검증셋 기법과 교차검증을 사용한 모델 선택
6.6 Lab 2: 능형회귀와 Lasso
6.6.1 능형회귀
6.6.2 Lasso
6.7 Lab 3: PCR과 PLS 회귀
6.7.1 주성분회귀
6.7.2 부분최소제곱
6.8 연습문제
7 선형성을 넘어서
7.1 다항식회귀
7.2 계단함수
7.3 기저함수
7.4 회귀 스플라인
7.4.1 조각별 다항식
7.4.2 제약조건과 스플라인
7.4.3 스플라인 기저 표현
7.4.4 매듭의 수와 위치 선택
7.4.5 다항식회귀와 비교
7.5 평활 스플라인
7.5.1 평활 스플라인의 개요
7.5.2 평활 파라미터 λ의 선택
7.6 국소회귀
7.7 일반화가법모델(Generalized Additive Models)
7.7.1 회귀문제에 대한 GAMs
7.7.2 분류문제에 대한 GAMs
7.8 Lab: 비선형모델링
7.8.1 다항식회귀와 계단함수
7.8.2 스플라인(Splines)
7.8.3 GAMs
7.9 연습문제
8 트리 기반의 방법
8.1 의사결정트리의 기초
8.1.1 회귀트리
8.1.2 분류트리
8.1.3 트리와 선형모델
8.1.4 트리의 장단점
8.2 배깅, 랜덤 포리스트, 부스팅
8.2.1 배깅(Bagging)
8.2.2 랜덤 포리스트(Random Forests)
8.2.3 부스팅(Boosting)
8.3 Lab: 의사결정 트리
8.3.1 분류트리 적합
8.3.2 회귀트리 적합
8.3.3 배깅(Bagging)과 랜덤 포리스트(Random Forest)
8.3.4 부스팅(Boosting)
8.4 연습문제
9 서포트 벡터 머신(Support Vector Machines)
9.1 최대 마진 분류기
9.1.1 초평면은 무엇인가?
9.1.2 분리 초평면(Separating Hyperplane)을 사용한 분류
9.1.3 최대 마진 분류기
9.1.4 최대 마진 분류기의 구성
9.1.5 분류 불가능한 경우
9.2 서포트 벡터 분류기
9.2.1 서포트 벡터 분류기의 개요
9.2.2 서포트 벡터 분류기의 세부 사항
9.3 서포트 벡터 머신
9.3.1 비선형 결정경계를 가진 분류
9.3.2 서포트 벡터 머신
9.3.3 심장질환 자료에 적용
9.4 클래스가 2개보다 많은 SVM
9.4.1 일대일 분류
9.4.2 일대전부(One-Versus-All) 분류
9.5 로지스틱 회귀에 대한 상관관계
9.6 Lab: 서포트 벡터 머신
9.6.1 서포트 벡터 분류기
9.6.2 서포트 벡터 머신
9.6.3 ROC 곡선
9.6.4 다중클래스 SVM
9.6.5 유전자 발현 자료에 적용
9.7 연습문제
10 비지도학습(Unsupervised Learning)
10.1 비지도학습의 어려움
10.2 주성분분석
10.2.1 주성분은 무엇인가?
10.2.2 주성분의 다른 해석
10.2.3 PCA에 대해 더 알아보기
10.2.4 주성분에 대한 다른 사용 예
10.3 클러스터링 방법
10.3.1 K-평균 클러스터링
10.3.2 계층적 클러스터링
10.3.3 클러스터링에서의 실질적 이슈
10.4 Lab 1: 주성분분석
10.5 Lab 2: 클러스터링
10.5.1 K-평균 클러스터링
10.5.2 계층적 클러스터링
10.6 Lab 3: NCI60 데이터 예제
10.6.1 NCI60 데이터에 대한 PCA
10.6.2 NCI60 데이터의 관측치에 대한 클러스터링
10.7 연습문제