대격변 AI 시대, 데이터로 사고하고 데이터로 리드하라 pdf 다운로드를 무료로 제공합니다 데이터 과학 뒤에 감춰진 장막을 걷어내고 “데이터에 대해 비판적으로 사고하고 말하고 이해하고 행동하기 위한 지식과 노하우”를 알려준다
관련 교재 pdf 모음
책 소개
조직 구성원의 성향을 파악하는 일부터 알고리즘 이면의 수학 원리에 이르기까지, 실무에서 활용되는 데이터와 통계에 관한 모든 것을 한 권에 간추렸다. 이 책에서는 데이터 과학 비즈니스를 잘 헤쳐 나갈 수 있는 분석 도구, 용어, 사고방식을 습득하고 데이터에 관련된 어려운 문제를 조금 더 깊게 이해할 수 있다. 학습을 통해 데이터와 분석 결과에 대해 비판적으로 사고하고 데이터에 관한 모든 일에 대해 똑똑하게 자신의 의견을 말할 수 있게 될 것이다. 지금껏 나는 많은 데이터 관련 책을 읽고, 공부하고, 때로는 번역서를 출간하기도 했는데, 이 책은 번역서가 아니라 내가 집필한 책이라면 정말 좋았겠다는 욕심이 날 만큼 대단한 물건이었다. 처음 원서를 받고 장 제목 위주로 쑥 내용을 훑어보았을 때는 ‘내용이 너무 쉬운 거 아닌가?’ 하는 생각이 들었지만 번역을 위해 본격적으로 한 문장씩 내용을 음미하며 읽어나가기 시작한 순간부터 마지막 장이 끝날 때까지, 저자들이 설정한 책의 기획 의도에 맞게 저술하기 위해 들인 노력, 그리고 데이터 분석과 통계에 관한 그들의 깊은 내공에 감탄을 멈출 수 없었다. 흔히 “쉽게 쓰는 것이 가장 어렵다”고들 말한다. 그동안 이 말에 대해 이성적으로는 동의하고 있었지만 정확한 사례를 경험한 적은 거의 없었는데, 이 책을 읽고 나서야 저 말의 진정한 표본을 만났다고 느꼈다. ‘쉽게 쓸 수 있다’는 것은 글쓴이가 관련 내용의 핵심과 논리를 완벽하게 꿰뚫고 있다는 의미며 그럼으로써 쉬우면서도 명쾌하고 논리적인 글이 나올 수 있다. 이 책은 어려울 수도 있는 데이터 분석과 통계에 대해 딱 필요한 만큼의 깊이와 범위를 다룬다. 이 분야를 전공으로 삼으려는 사람들에게 입문서로도 좋지만, 기술적인 분야에 대해 너무 깊이 알 필요는 없지만 데이터 분석가와 의사소통이 가능한 수준까지는 관련 지식을 쌓고 싶은 일반인들에게는 정말 도움이 될 것 같다. 일반 교양서와 본격적인 기술서 사이의 경계선에서 절묘하게 줄타기를 하는 무척 신기한 책이다. 특히 요즘처럼 AI가 급속도로 대중화되고 있는 시대야말로, AI를 동작시키는 원료인 데이터의 ‘본질’에 집중할 필요가 있다. 오늘날 AI에 대해 설명하는 수많은 책과 글이 넘쳐나지만 AI를 가장 정확하게 이해하는 길은 ‘데이터에 기반한 통계적 사고’가 어떻게 AI까지 진화했는지 그 흐름을 쫓아가보는 것이다. 그런 면에서 이 책은 AI 시대를 살아가는 일반 대중에게 첫 교과서와 같은 역할을 할 수 있지 않을까 기대한다.
데이터로 사고하고 데이터 리드하라
[1부] 데이터로 사고하고 리드하기 위한 첫 여정
1장 무엇이 문제일까
_데이터 리드라면 반드시 물어야 할 질문들
___이 문제는 왜 중요한가
___이 문제는 누구에게 영향을 미치는가
___적절한 데이터가 없을 경우 어떻게 해야 할까
___프로젝트는 언제 종료되는가
___결과가 만족스럽지 못할 경우 어떻게 해야 할까
_데이터 프로젝트는 왜 실패했을까
___고객 인식도
___생각해 볼 사항
_중요한 문제에 집중하자
_정리
2장 데이터란 무엇인가
_데이터 vs 정보
___데이터셋 예시
_데이터 유형
_데이터는 어떻게 수집되고 정형화되는가
___관측 데이터 vs 실험 데이터
___정형 데이터 vs 비정형 데이터
_기본적인 요약 통계량
_정리
3장 통계적 사고를 위한 준비를 갖추자
_질문을 하자
_모든 것에는 변동성이 있다
___고객 인식도 시나리오(후속편)
___사례 연구: 신장암 발병률
_확률과 통계
___확률 vs 직관
___통계학을 활용한 발견
_정리
[2부] 데이터를 대하는 태도, 확률과 통계 지식
4장 데이터와 논쟁하자
_여러분이라면 어떻게 했을까
___누락된 데이터가 초래한 재앙
_데이터의 근원을 확인하자
___누가 데이터를 수집했는가
___데이터는 어떤 방식으로 수집됐나
_데이터에 대표성이 있는가
___표본 추출에 편향이 있었는가
___이상값을 어떻게 처리했는가
_확인하지 않은 데이터는 무엇인가
___어떤 방법으로 결측값을 처리했는가
___측정하려는 개념을 측정할 수 있는 데이터인가
_크기를 막론하고 모든 데이터와 논쟁하자
_정리
5장 데이터를 탐색하자
_데이터 리드의 탐색적 데이터 분석
_탐색적 사고의 필요성
__어떤 질문을 해야 할까
___가상 시나리오
_데이터는 여러분의 질문에 답할 수 있는가
___기대치를 설정하고 상식적으로 생각하자
___직관적으로 이해할 수 있는 데이터 값인가
___이상값과 결측값을 잘 관리하라
_데이터에서 어떤 관계성이 보이는가
___상관관계를 이해하자
___상관관계를 오해하지 않도록 주의하자
___상관관계가 인과관계를 의미하지는 않는다
_데이터에서 새로운 탐색 기회를 찾았는가
_정리
6장 확률이란 무엇인가
_추측해 보자
_게임의 법칙
___수학적 표기
___조건부 확률과 독립 사건
___여러 사건의 발생 확률
___동시에 발생하는 두 사건
_확률에 대한 사고 실험
___확률에 대한 3가지 체크 포인트
_사건들이 서로 독립이라 가정할 때는 주의해야 한다
___도박꾼의 오류에 빠지지 말자
_모든 확률은 조건부 확률임을 인지하자
___의존 관계를 바꾸지 말자
___베이즈 정리
_의미가 있는 확률인지를 반드시 확인한다
___보정
___가능성이 희박해도 사건은 일어난다
_정리
7장 통계에 도전하자
_통계적 추론이란
___오차의 여지를 남기자
___데이터가 많아질수록 증거도 늘어난다
___현재 상황에 의문을 제기하자
___현 상황에 반하는 증거가 있는가
___판단 오류 균형 잡기
_통계적 추론 과정
_통계 분석 결과를 검증하기 위해 필요한 질문
___어떤 맥락에서 나온 통계 분석 결과인가
___표본의 크기는 얼마인가
___무엇을 검증하는가
___귀무가설은 무엇인가
___유의 수준은 얼마인가
___얼마나 많이 검증했는가
___신뢰 구간을 제시할 수 있는가
___실제적으로 의미 있는 결과인가
___인과 관계를 가정하고 있는가
_정리
[3부] 다양한 사례로 다시 배우는 머신러닝, 딥러닝, AI 지식
8장 데이터에 감춰진 패턴과 그룹을 찾는 머신러닝
_비지도학습이란
_차원 축소
___복합 변수 만들기
_주성분 분석
___운동 능력 데이터의 주성분
___주성분 분석 요약
___주의해야 할 함정
_군집분석
_k-평균 군집분석
___소매점 군집분석
___주의해야 할 함정
_정리
9장 미래를 예측하고 현상을 설명하는 회귀 모델
_지도학습
_선형 회귀는 무슨 일을 할까
___최소 제곱 회귀(단순히 이름만 기발한 것은 아니다)
_선형 회귀에서 알 수 있는 것
___더 많은 변수를 투입할 때
_선형 회귀가 야기하는 혼란
___누락된 변수들
___다중공선성
___데이터 누수
___외삽 오류
___대부분의 관계는 선형적이지 않다
___설명할 것인가, 예측할 것인가
___회귀 모델의 성능
_그 밖의 회귀 모델
_정리
10장 판단의 기준을 파악할 수 있는 분류 모델
_분류 문제란 무엇일까
___분류 모델의 3가지 방법
___분류 문제 설정
_로지스틱 회귀
___로지스틱 회귀의 장점
_의사결정나무
_앙상블 모델
___랜덤 포레스트
___그래디언트 부스트 트리
___앙상블 모델의 설명력
_흔히 빠지기 쉬운 함정에 주의하자
___데이터 유형에 맞지 않는 모델 적용
___데이터 누수
___모델 구축과 테스트를 위한 데이터셋 분할
___의사결정을 위한 적절한 임곗값 선택
_정확도에 대한 오해
___혼동 행렬
_정리
11장 글 속에 담긴 주제와 감성을 찾아내는 텍스트 분석
_텍스트 분석에 대한 기대
_텍스트를 숫자로 바꾸는 방법
___단어 가방
___N그램
___단어 임베딩
_토픽 모델링
_텍스트 분류
___나이브 베이즈
___감성 분석
_텍스트 분석에서 고려해야 할 실용적인 문제
___빅테크 기업의 기술적 우위
_정리
12장 데이터 리드라면 알아야 할 딥러닝과 AI
_신경망 모델
___신경망은 어떤 면에서 사람의 뇌와 비슷할까
___간단한 신경망 모델
___신경망이 학습하는 방법
___조금 더 복잡한 신경망
_딥러닝 응용 사례
___딥러닝의 장점
___컴퓨터가 이미지를 ‘보는’ 방법
___합성곱 신경망
___언어 처리와 순차 데이터에 활용되는 딥러닝
_딥러닝의 실제 활용 현황
___데이터는 충분한가?
___데이터가 구조화되어 있는가
___신경망은 어떤 모습일까
_AI를 대하는 관점
___빅테크 기업의 유리한 위치
___딥러닝의 윤리적 문제
_정리
[4부] 프로젝트와 조직의 성공을 위해 데이터 리드가 할 일
13장 호시탐탐 곳곳에 도사린 실패와 함정
_데이터의 편향과 기묘한 현상
___생존 편향
___평균으로의 회귀
___심슨의 역설
___확증 편향
___매몰비용 오류
___알고리즘 편향
___그 밖의 편향
_데이터 프로젝트의 대표적인 함정
___통계와 머신러닝 함정
___프로젝트 함정
_정리
14장 조직 구성원의 다양한 성향을 파악하자
_의사소통이 중단되는 7가지 상황
___사후 약방문
___알맹이 없는 발표
___부정확한 정보의 확산
___수렁 속으로
___리얼리티 체크
___권력 장악
___허풍쟁이..
_데이터를 대하는 사람들의 3가지 태도
___데이터 맹신자
___데이터 비관론자
___데이터 리드
_정리
15장 더 높은 곳을 향해