확률론적 머신러닝: 기본편 케빈 머피 pdf 다운로드를 무료로 제공합니다 머신러닝의 원론과도 같은 책이다. 저자 케빈 머피는 브리티시컬럼비아대학교(University of British Columbia)에서 교수로 재직한 후 구글 딥마인드에서 팀을 이끌고 있는 저명한 학자로
관련 교재 pdf 모음
책 소개
저자인 케빈 머피는 머신러닝 분야의 저명한 학자로, 그가 저술한 서적들은 독자들에게 많은 사랑을 받고 있습니다. 특히 이 책의 원서는 『통계학으로 배우는 머신러닝 2/e』(에이콘, 2020), 『Pattern Recognition and Machine Learning』(Springer, 2006)과 함께 머신러닝 이론서로서 널리 읽히고 있습니다. 이 책도 딥러닝의 주요 알고리듬에 대해 상당한 분량을 할애하여 다루고 있지만, 이와 더불어 방대한 머신러닝 분야에 대한 내용을 폭넓게 다루고 있습니다. 딥러닝을 빠르게 학습하고 싶은 분들이라면 『딥러닝 초보자를 위한 엔비디아 가이드북』(에이콘출판, 2023)과 같은 책을 보시는 것도 좋을 것 같습니다. 하지만 머신러닝 전반에 대한 내공과 이해도를 키우고자 하는 분들이라면 이 책이 탁월한 선택이 될 것이라고 생각합니다. 많은 사람이 수학이라는 장벽에 부딪혀 머신러닝 학습을 포기하는 것 같습니다. 저 또한 포기하지 않기 위해 노력하고 있는 한 사람의 학습자로서, 개인적으로 이상적이라고 생각하는 학습 경로에 대해 써보겠습니다. 왜 원서 제목이 ‘확률적인(probabilistic)’ 머신러닝일까요? 결국 머신러닝이란 어떠한 현상의 확률적 모델링을 위한 도구가 아닐까 생각해 봅니다. 그리고 이를 이해하고 잘해내기 위해서는 기본적으로 미적분학, 선형대수학, 확률론, 통계학 등에 대한 어느 정도의 지식이 필요할 것입니다. 학습을 이어가다 보면 이들 간의 경계가 모호해지지만, 일단 구분해 보자면 그렇습니다. 특히 미적분은 다변수 미적분, 선형대수는 행렬 분해 및 행렬미적분, 통계학에서는 기본적 이론 및 베이즈 통계를 미리 학습한 경험이 있다면 많은 도움이 될 수 있습니다. 하지만 이러한 주제를 완벽하게 학습하고 나서 머신러닝에 대해 공부하려 하기보다는, 어느 정도 배경지식을 갖추고 이 책을 읽어보면서 부족한 부분은 유튜브 등 다양한 경로를 통해 꾸준히 학습하는 것도 좋은 방법이 될 수 있습니다. 긴 호흡을 가지고 꾸준히 학습을 이어나가는 마음가짐이 중요하다고 생각합니다.
확률론적 머신러닝: 기본편 pdf 다운
01장. 서론
1.1 머신러닝이란 무엇인가?
1.2 지도 학습
1.2.1 분류
1.2.2 회귀
1.2.3 과적합과 일반화
1.2.4 ‘공짜 점심은 없다’ 정리
1.3 비지도 학습
1.3.1 군집화
1.3.2 잠재된 ‘변형 인자’ 발견하기
1.3.3 자기 지도 학습
1.3.4 비지도 학습 평가
1.4 강화 학습
1.5 데이터
1.5.1 몇 가지 공통적인 이미지 데이터셋
1.5.2 공통적인 텍스트 데이터셋
1.5.3 이산적인 입력 데이터 전처리
1.5.4 텍스트 데이터 전처리
1.5.5 결측 데이터 다루기
1.6 논의
1.6.1 ML과 다른 분야 간의 관계
1.6.2 이 책의 구조
1.6.3 주의할 점
1부 기초
02장. 확률: 일변량 모델
2.1 개요
2.1.1 확률이란 무엇인가?
2.1.2 불확실성의 형태
2.1.3 논리의 확장으로서의 확률
2.2 확률 변수
2.2.1 이산 확률 변수
2.2.2 연속 확률 변수
2.2.3 관련된 확률 변수의 집합
2.2.4 독립 및 조건부 독립
2.2.5 분포의 적률
2.2.6 요약 통계량의 한계*
2.3 베이즈 규칙
2.3.1 COVID-19 테스트
2.3.2 예시: 몬티 홀 문제
2.3.3 역 문제*
2.4 베르누이와 이항 분포
2.4.1 정의
2.4.2 시그모이드(로지스틱) 함수
2.4.3 이항 로지스틱 회귀
2.5 범주형 및 다항 분포
2.5.1 정의
2.5.2 소프트맥스 함수
2.5.3 다중 클래스 로지스틱 회귀
2.5.4 log-sum-exp 트릭
2.6 일변량 가우스(정규) 분포
2.6.1 누적 분포 함수
2.6.2 확률 밀도 함수
2.6.3 회귀
2.6.4 가우스 분포가 이처럼 널리 쓰이는 이유는 무엇인가?
2.6.5 극한의 경우로서의 디랙 델타 함수
2.7 일반적인 일변량 분포*
2.7.1 스튜던트 t 분포
2.7.2 코시 분포
2.7.3 라플라스 분포
2.7.4 베타 분포
2.7.5 감마 분포
2.7.6 경험적 분포
2.8 확률 변수의 변환*
2.8.1 이산형의 경우
2.8.2 연속형의 경우
2.8.3 가역 변환(전단사)
2.8.4 선형 변환의 적률
2.8.5 합성곱 정리
2.8.6 중심 극한 정리
2.8.7 몬테카를로 근사
2.9 연습문제
03장. 확률: 다변량 모델
3.1 여러 확률 변수의 결합 분포
3.1.1 공분산
3.1.2 상관
3.1.3 무상관은 독립을 뜻하지 않는다
3.1.4 상관성은 인과성을 뜻하지 않는다
3.1.5 심슨의 역설
3.2 다변량 가우스(정규) 분포
3.2.1 정의
3.2.2 마할라노비스 거리
3.2.3 MVN의 주변 및 조건부 분포*
3.2.4 예시: 2차원 가우스 조건부화
3.2.5 예시: 결측값 대체*
3.3 선형 가우스 체계*
3.3.1 가우스를 위한 베이즈 규칙
3.3.2 유도*
3.3.3 알 수 없는 스칼라 추론하기
3.3.4 예시: 알 수 없는 벡터 추론
3.3.5 예시: 센서 퓨전
3.4 지수족*
3.4.1 정의
3.4.2 예시
3.4.3 로그 분할 함수는 누율 생성 함수다
3.4.4 지수족의 최대 엔트로피 미분
3.5 혼합 모델
3.5.1 가우스 혼합 모델
3.5.2 베르누이 혼합 모델
3.6 확률적 그래프 모델*
3.6.1 표현
3.6.2 추론
3.6.3 학습
3.7 연습문제
04장. 통계학
4.1 소개
4.2 최대 가능도 추정(MLE)
4.2.1 정의
4.2.2 MLE의 정당화
4.2.3 예시: 베르누이 분포의 MLE
4.2.4 예시: 범주형 분포의 MLE
4.2.5 예시: 일변량 가우스의 MLE
4.2.6 예시: 다변량 가우스의 MLE
4.2.7 예시: 선형 회귀의 MLE
4.3 경험적 위험 최소화(ERM)
4.3.1 예시: 오분류율 최소화
4.3.2 대리 손실
4.4 그 밖의 추정 방법*
4.4.1 적률법
4.4.2 온라인 (재귀) 추정
4.5 정칙화
4.5.1 예시: 베르누이 분포의 MAP 추정
4.5.2 예시: 다변량 가우스를 위한 MAP 추정*
4.5.3 예시: 가중치 소멸
4.5.4 검증 집합을 사용해 정칙자 고르기
4.5.5 교차 검증
4.5.6 조기 중단
4.5.7 더 많은 데이터 사용하기
4.6 베이즈 통계학*
4.6.1 켤레 사전 분포
4.6.2 베타 이항 모델
4.6.3 디리클레-다항 모델
4.6.4 가우스-가우스 모델
4.6.5 켤레 사전 분포를 넘어서
4.6.6 신용 구간
4.6.7 베이즈 머신러닝
4.6.8 연산적 이슈
4.7 빈도주의 통계학*
4.7.1 표본 분포
4.7.2 MLE의 표본 분포의 가우스 근사
4.7.3 임의 추정량의 표본 분포의 부트스트랩 근사
4.7.4 신뢰 구간
4.7.5 주의: 신뢰 구간은 신용할 만하지 않다
4.7.6 편향-분산 트레이드오프
4.8 연습문제
05장. 결정 이론
5.1 베이즈 결정 이론
5.1.1 기초
5.1.2 분류 문제
5.1.3 ROC 곡선
5.1.4 정밀도-재현율 곡선
5.1.5 회귀 문제
5.1.6 확률적 예측 문제
5.2 ‘올바른’ 모델 선택
5.2.1 베이즈 가설 검정
5.2.2 베이즈 모델 선택
5.2.3 오컴의 면도날
5.2.4 교차 검증과 주변 가능도 사이의 관계
5.2.5 정보 기준
5.2.6 효과 크기에 대한 사후 추론 및 베이즈 유의도 검정
5.3 빈도주의 결정 이론
5.3.1 추정량의 위험 계산하기
5.3.2 일치추정량
5.3.3 허용 가능 추정량
5.4 경험적 위험 최소화
5.4.1 경험적 위험
5.4.2 구조적 위험
5.4.3 교차 검증
5.4.4 통계적 학습론*
5.5 빈도주의 가설 검정*
5.5.1 가능도비 검정
5.5.2 귀무가설 유의도 검정(NHST)
5.5.3 p 값
5.5.4 p 값은 유해하다고 간주됨
5.5.5 왜 모두가 베이즈적이지 않은가?
5.6 연습문제
06징. 정보 이론.
6.1 엔트로피
6.1.1 이산 확률 변수의 엔트로피
6.1.2 교차 엔트로피
6.1.3 결합 엔트로피
6.1.4 조건부 엔트로피
6.1.5 퍼플렉서티
6.1.6 연속 확률 변수를 위한 미분 엔트로피*
6.2 상대 엔트로피(KL 발산)*
6.2.1 정의
6.2.2 해석
6.2.3 예시: 두 가우스 사이의 KL 발산
6.2.4 KL의 비음성
6.2.5 KL 발산과 MLE
6.2.6 전진 KL 대 후진 KL
6.3 상호 정보*
6.3.1 정의
6.3.2 해석
6.3.3 예시
6.3.4 조건부 상호 정보
6.3.5 ‘일반화 상관계수’로서의 MI
6.3.6 정규화 상호 정보
6.3.7 최대 정보 계수
6.3.8 데이터 처리 부등식
6.3.9 충분 통계량
6.3.10 파노의 부등식*
6.4 연습문제
07장. 선형대수
7.1 소개
7.1.1 표기법
7.1.2 벡터 공간
7.1.3 벡터와 행렬의 노름
7.1.4 행렬의 속성
7.1.5 특별한 형태의 행렬
7.2 행렬 곱셈
7.2.1 벡터-벡터 곱
7.2.2 행렬-벡터 곱
7.2.3 행렬-행렬 곱
7.2.4 응용: 데이터 행렬 조작
7.2.5 크로네커 곱*
7.2.6 아인슈타인 합*
7.3 역행렬
7.3.1 정방 행렬의 역
7.3.2 슈어 보수*
7.3.3 역행렬 보조정리*
7.3.4 행렬식 보조정리*
7.3.5 응용: MVN의 조건부 분포 유도하기*
7.4 고윳값 분해(EVD)
7.4.1 기본
7.4.2 대각화
7.4.3 대칭 행렬의 고윳값과 고유벡터
7.4.4 이차 형식의 기하학
7.4.5 데이터 표준화 및 백색화
7.4.6 거듭제곱법
7.4.7 수축
7.4.8 고유벡터는 이차 형식을 최적화한다
7.5 특잇값 분해(SVD)
7.5.1 기본
7.5.2 SVD와 EVD 사이의 관계
7.5.3 유사 역행렬
7.5.4 행렬의 SVD와 치역 및 영공간*
7.5.5 절단된 SVD
7.6 그 밖의 행렬 분해*
7.6.1 LU 인수분해
7.6.2 QR 분해
7.6.3 촐레스키 분해
7.7 선형 연립방정식 풀기*
7.7.1 정방 체계 풀기
7.7.2 과소제약 체계 풀기(최소 노름 추정)
7.7.3 과대제약 체계 풀기(최소 제곱 추정)
7.8 행렬 미적분
7.8.1 도함수
7.8.2 기울기
7.8.3 방향 도함수
7.8.4 전도함수*
7.8.5 야코비
7.8.6 헤세
7.8.7 주로 쓰이는 함수의 기울기
7.9 연습문제
08장. 최적화
8.1 개요
8.1.1 국소 대 전역 최적화
8.1.2 제약 대 비제약 최적화
8.1.3 볼록 대 비볼록 최적화
8.1.4 평활 대 비평활 최적화
8.2 일계법
8.2.1 하강 방향
8.2.2 단계 크기(학습률)
8.2.3 수렴률
8.2.4 운동량 방법
8.3 이계법
8.3.1 뉴턴법
8.3.2 BFGS 및 그 밖의 준뉴턴법
8.3.3 신뢰 영역법
8.4 확률적 경사하강
8.4.1 유한합 문제로의 응용
8.4.2 예시: 선형 회귀 적합을 위한 SGD
8.4.3 단계 크기(학습률) 정하기
8.4.4 반복 평균화
8.4.5 분산 축소*
8.4.6 선조건부 SGD
8.5 제약 최적화
8.5.1 라그랑주 승수
8.5.2 KKT 조건
8.5.3 선형 프로그래밍
8.5.4 이차 프로그래밍
8.5.5 혼합 정수 선형 프로그래밍*
8.6 프록시말 경사법*
8.6.1 사영된 경사하강
8.6.2 l1-노름 정칙자를 위한 프록시말 연산자
8.6.3 양자화를 위한 프록시말 연산자
8.6.4 증분 (온라인) 프록시말 방법
8.7 경계 최적화*
8.7.1 일반적인 알고리듬
8.7.2 EM 알고리듬
8.7.3 예시: GMM을 위한 EM
8.8 블랙박스 및 도함수 자유 최적화
8.9 연습문제
2부. 선형 모델
09장. 선형 판별분석
9.1 개요
9.2 가우스 판별분석
9.2.1 이차 결정 경계
9.2.2 선형 결정 경계
9.2.3 LDA와 로지스틱 회귀 사이의 연결점
9.2.4 모델 적합시키기
9.2.5 최근접 중심점 분류기
9.2.6 피셔의 선형 판별분석*
9.3 나이브 베이즈 분류기
9.3.1 예시 모델
9.3.2 모델 적합시키기
9.3.3 베이즈적인 나이브 베이즈
9.3.4 나이브 베이즈와 로지스틱 회귀 사이의 연결점
9.4 생성적 분류기와 판별 분류기
9.4.1 판별 분류기의 장점
9.4.2 생성적 분류기의 장점
9.4.3 결측 특성 다루기
9.5 연습문제
10장. 로지스틱 회귀
10.1 개요
10.2 이항 로지스틱 회귀
10.2.1 선형 분류기
10.2.2 비선형 분류기
10.2.3 최대 가능도 추정
10.2.4 확률적 경사하강
10.2.5 퍼셉트론 알고리듬
10.2.6 반복적 재가중 최소 제곱
10.2.7 MAP 추정
10.2.8 표준화
10.3 다변량 로지스틱 회귀
10.3.1 선형 및 비선형 분류기
10.3.2 최대 가능도 추정
10.3.3 기울기 기반 최적화
10.3.4 경계 최적화
10.3.5 MAP 추정
10.3.6 최대 엔트로피 분류기
10.3.7 계층적 분류
10.3.8 많은 수의 클래스 다루기
10.4 로버스트 로지스틱 회귀*
10.4.1 가능도를 위한 혼합 모델
10.4.2 이중 완화 손실
10.5 베이즈 로지스틱 회귀*
10.5.1 라플라스 근사
10.5.2 사후 예측 분포 근사하기
10.6 연습문제
11장. 선형 회귀
11.1 개요
11.2 최소 제곱 선형 회귀
11.2.1 용어
11.2.2 최소 제곱 추정
11.2.3 MLE를 계산하는 다른 접근법
11.2.4 적합도 측정하기
11.3 릿지 회귀
11.3.1 MAP 추정값 계산하기
11.3.2 릿지 회귀와 PCA 사이의 연결점
11.3.3 정칙자의 강도 선택하기
11.4 라쏘 회귀
11.4.1 라플라스 사전 분포를 갖는 MAP 추정(l1 정칙화)
11.4.2 왜 l1 정칙화는 희박한 해를 내놓는가?
11.4.3 딱딱한 임계화 대 부드러운 임계화
11.4.4 정칙화 경로
11.4.5 최소 제곱, 라쏘, 릿지, 부분집합 선택 비교
11.4.6 변수 선택 일관성
11.4.7 그룹 라쏘
11.4.8 엘라스틱넷(릿지와 라쏘 조합)
11.4.9 최적화 알고리듬
11.5 회귀 스플라인*
11.5.1 B 스플라인 기저 함수
11.5.2 스플라인 기저를 사용해 선형 모델 적합시키기
11.5.3 평활 스플라인
11.5.4 일반화 가법 모델
11.6 로버스트 선형 회귀*
11.6.1 라플라스 가능도
11.6.2 스튜던트-t 가능도
11.6.3 후버 손실
11.6.4 RANSAC
11.7 베이즈 선형 회귀*
11.7.1 사전 분포
11.7.2 사후 분포
11.7.3 예시
11.7.4 사후 예측 계산하기
11.7.5 중심화의 이점
11.7.6 다중공선성 처리하기
11.7.7 자동 적절성 결정(ARD)*
11.8 연습문제
12장. 일반화 선형 모델*
12.1 개요
12.2 예시
12.2.1 선형 회귀
12.2.2 이항 회귀
12.2.3 푸아송 회귀
12.3 비정준 링크 함수로 된 GLM
12.4 최대 가능도 추정
12.5 가공된 예시: 보험 청구 예측하기
3부. 심층 신경망
13장. 표 데이터를 위한 신경망
13.1 개요
13.2 다층 퍼셉트론(MLP)
13.2.1 XOR 문제
13.2.2 미분 가능한 MLP
13.2.3 활성 함수
13.2.4 예시 모델
13.2.5 깊이의 중요성
13.2.6 ‘딥러닝 혁명’
13.2.7 생물학과의 연결점
13.3 역전파
13.3.1 포워드 대 리버스 방식 미분
13.3.2 다층 퍼셉트론을 위한 리버스 방식 미분
13.3.3 보통의 층을 위한 벡터 야코비 곱
13.3.4 계산 그래프
13.4 신경망 훈련
13.4.1 학습률 튜닝
13.4.2 기울기 소실 및 폭증
13.4.3 비포화 활성 함수
13.4.4 잔차 연결
13.4.5 모수 초기화
13.4.6 병렬 훈련
13.5 정칙화
13.5.1 조기 중단
13.5.2 가중치 소멸
13.5.3 희박 DNN
13.5.4 드롭아웃
13.5.5 베이즈 신경망
13.5.6 (확률적) 경사하강의 정칙화 효과*
13.6 다른 종류의 피드포워드 네트워크*
13.6.1 방사 기저 함수 네트워크
13.6.2 전문가 혼합
13.7 연습문제
14장. 이미지를 위한 신경망
14.1 개요
14.2 일반적인 층
14.2.1 합성곱 층
14.2.2 풀링 층
14.2.3 한데 모으기
14.2.4 정규화 층
14.3 이미지 분류를 위한 일반적인 아키텍처
14.3.1 LeNet
14.3.2 AlexNet
14.3.3 GoogLeNet(인셉션)
14.3.4 ResNet
14.3.5 DenseNet
14.3.6 신경 아키텍처 검색
14.4 다른 형태의 합성곱*
14.4.1 팽창 합성곱
14.4.2 전치 합성곱
14.4.3 깊이별 분리 가능 합성곱
14.5 CNN으로 다른 판별적인 비전 과제 풀기*
14.5.1 이미지 태깅
14.5.2 물체 탐지
14.5.3 인스턴스 세분화
14.5.4 의미론적 세분화
14.5.5 인간 자세 추정
14.6 CNN을 뒤집어 이미지 생성하기*
14.6.1 훈련된 분류기를 생성 모델로 변환하기
14.6.2 이미지 사전 분포
14.6.3 CNN으로 학습한 특성 시각화하기
14.6.4 딥드림
14.6.5 뉴럴 스타일 트랜스퍼