Top 40 인공 지능 확률 과 통계 The 158 Detailed Answer

You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 인공 지능 확률 과 통계 on Google, you do not find the information you need! Here are the best content compiled and compiled by the https://toplist.Experience-Porthcawl.com team, along with other related topics such as: 인공 지능 확률 과 통계 인공지능 조건부확률, 딥러닝 확률과 통계, 인공지능 확률과 통계 책, 머신러닝 확률과 통계, 컴퓨터공학과 확률과 통계, 공학 속 확률과 통계, 알고리즘 조건부확률, 기계공학 확률과 통계


인공지능과 통계학(AI Statistics) – 허명회 교수
인공지능과 통계학(AI Statistics) – 허명회 교수


인공 지능 확률 과 통계

  • Article author: magazine.contenta.co
  • Reviews from users: 6443 ⭐ Ratings
  • Top rated: 3.4 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 인공 지능 확률 과 통계 인공지능을 실현하고자 했던 초창기의 과학자들도 중요한 사실들과 새로운 사실들을 … 이런 상황에서 새로운 돌파구를 다름아닌 확률,통계에서 찾아내게 됩니다. …
  • Most searched keywords: Whether you are looking for 인공 지능 확률 과 통계 인공지능을 실현하고자 했던 초창기의 과학자들도 중요한 사실들과 새로운 사실들을 … 이런 상황에서 새로운 돌파구를 다름아닌 확률,통계에서 찾아내게 됩니다.
  • Table of Contents:
인공 지능 확률 과 통계
인공 지능 확률 과 통계

Read More

확률과 통계 인공지능과 조건부확률 by 학규 손

  • Article author: prezi.com
  • Reviews from users: 28765 ⭐ Ratings
  • Top rated: 3.5 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about
    확률과 통계 인공지능과 조건부확률 by 학규 손
    인공지능과 조건부확률. -조건부 확률의 개념과 인공지능. 기술에 사용 되는 조건부확률. 4차 산업혁명 기술 의 중심, 확률과 통계- 실생활 (온라인 … …
  • Most searched keywords: Whether you are looking for
    확률과 통계 인공지능과 조건부확률 by 학규 손
    인공지능과 조건부확률. -조건부 확률의 개념과 인공지능. 기술에 사용 되는 조건부확률. 4차 산업혁명 기술 의 중심, 확률과 통계- 실생활 (온라인 …
  • Table of Contents:

    확률과 통계 인공지능과 조건부확률 by 학규 손
확률과 통계 인공지능과 조건부확률 by 학규 손

Read More

인공지능을 위한 수학 4. 확률과 통계

  • Article author: velog.io
  • Reviews from users: 31571 ⭐ Ratings
  • Top rated: 4.4 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 인공지능을 위한 수학 4. 확률과 통계 확률과 통계는 ‘어떤 경향을 알아낸 후, 한정된 데이터로부터 전체의 모양을 예측’하기 위해 사용한다. 4-1. 확률. 확률(Probability)는 어떤 사건이 … …
  • Most searched keywords: Whether you are looking for 인공지능을 위한 수학 4. 확률과 통계 확률과 통계는 ‘어떤 경향을 알아낸 후, 한정된 데이터로부터 전체의 모양을 예측’하기 위해 사용한다. 4-1. 확률. 확률(Probability)는 어떤 사건이 … 인공지능을 위한 수학 4. 확률과 통계 🙂
  • Table of Contents:
인공지능을 위한 수학 4. 확률과 통계
인공지능을 위한 수학 4. 확률과 통계

Read More

확률과 통계, 빅데이터와 인공지능
기술에 왜 필요할까? : 네이버 포스트

  • Article author: post.naver.com
  • Reviews from users: 36034 ⭐ Ratings
  • Top rated: 3.4 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 확률과 통계, 빅데이터와 인공지능
    기술에 왜 필요할까? : 네이버 포스트 인공지능은 확률과 통계를 활용하여 과거의 기록을 분석하고 환자의 생존 가능성에 대해 예측합니다. 그리고 이는 무려 95%의 적중률을 보이고 … …
  • Most searched keywords: Whether you are looking for 확률과 통계, 빅데이터와 인공지능
    기술에 왜 필요할까? : 네이버 포스트 인공지능은 확률과 통계를 활용하여 과거의 기록을 분석하고 환자의 생존 가능성에 대해 예측합니다. 그리고 이는 무려 95%의 적중률을 보이고 …
  • Table of Contents:
확률과 통계, 빅데이터와 인공지능
기술에 왜 필요할까?  : 네이버 포스트
확률과 통계, 빅데이터와 인공지능
기술에 왜 필요할까? : 네이버 포스트

Read More

2.6. 확률과 통계 — Dive into Deep Learning documentation

  • Article author: ko.d2l.ai
  • Reviews from users: 4766 ⭐ Ratings
  • Top rated: 4.0 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 2.6. 확률과 통계 — Dive into Deep Learning documentation 확률과 통계¶. 머신 러닝은 어떤 방식이든지 결국 예측을 수행하는 것입니다. 어떤 환자의 의료 기록을 바탕으로 내년에 심장 마비를 겪을 확률 예측하기를 예로 들어 … …
  • Most searched keywords: Whether you are looking for 2.6. 확률과 통계 — Dive into Deep Learning documentation 확률과 통계¶. 머신 러닝은 어떤 방식이든지 결국 예측을 수행하는 것입니다. 어떤 환자의 의료 기록을 바탕으로 내년에 심장 마비를 겪을 확률 예측하기를 예로 들어 …
  • Table of Contents:

261 기초 확률 이론¶

262 여러 확률 변수 다루기¶

263 조건부 독립성¶

264 요약¶

265 문제¶

266 Scan the QR Code to Discuss¶

2.6. 확률과 통계 — Dive into Deep Learning  documentation
2.6. 확률과 통계 — Dive into Deep Learning documentation

Read More

딥러닝을 위한 수학, 확률과 통계 | JuHyung Son

  • Article author: www.sallys.space
  • Reviews from users: 2934 ⭐ Ratings
  • Top rated: 4.8 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 딥러닝을 위한 수학, 확률과 통계 | JuHyung Son 인공지능 시스템의 행동을 분석하기 위해 확률과 통계를 사용한다.
    . 또 일반적인 컴퓨터 과학과는 다르게 기계학습은 대부분 불확실한 것과 확률 … …
  • Most searched keywords: Whether you are looking for 딥러닝을 위한 수학, 확률과 통계 | JuHyung Son 인공지능 시스템의 행동을 분석하기 위해 확률과 통계를 사용한다.
    . 또 일반적인 컴퓨터 과학과는 다르게 기계학습은 대부분 불확실한 것과 확률 … Intro 본 포스팅은 Deep Learning – Ian goodfellow, Mathematical statistic – Hogg 를 공부하며 정리한 내용입니다. 이번에는 기본적인 확률에 관한 내용입니다. 확률은 기본적으로 거의 대부분의 공학, 과학 분야에서 사용되는 기본적인 도구이고 역시 인공지능에서도 중요한 부분을 차지합니다. 인공지능에서 확률은 크게 두가지 방법으로 쓰입니다. 인공지능 시스템은 확률 법칙을 이용하여 무언가를 추론해야한다. 확률을 이용해 많은 식, 변수를 계산하거나 근사하는 알고리즘을 만든다. 인공지능 시스템의 행동을 분석하기 위해 확률과 통계를 사용한다.
    또 일반적인 컴퓨터 과학과는 다르게 기계학습은 대부분 불확실한 것과 확률적인 것을 다루므로 기계학습자에게 확률은 아주 중요한 도구입니다. Frequentist, bayesian probability 확률이 불확실성을 표현하고 추론하는것은 맞지만, 그것이 인공지능 분야에서 요구하는 도구를 모두 제공하지는 않습니다. 기존의 확률 이론은 사건의 빈도수를 분석하기 위해 발전해왔습니다. 특히, 확률에 관한 책을 보면 주로 동전이나 카드를 가지고 이야기하는 것을 자주 볼 수 있는데, 이것들이 반복되는 사건의 아주 쉽고 대표적인 예입니다. 어떤 사건이 발생할 확률이 p라고 하는 것은, 어떤 사건을 무한히 반복했을 때 p의 비율로 사건이 발생한다는 것을 뜻합니다. 하지만 이런 예는 반복되는 사건이 아니라면 적용하기 어렵죠. 만일 의사가 환자에게 감기가 걸릴 확률이 40%라고 한다면, 이건 좀 다른 의미를 가집니다. 생물적으로 같은 환자를 무한히 반복하는 것은 말이 안되고 또 여러 환자들이 같은 환경을 갖고 있지도 않기 때문입니다. 동전, 카드와 달리 변수들이 굉장히 많죠. 이런 경우에는 믿음의 정도를 나타내기 위해 확률을 사용합니다. 믿음 이라는 것이 중요합니다. 위의 동전, 카드의 경우를 frequentist probability라고 하고 후자를 bayesian probability라고 합니다. 통계학은 크게 두 분야로 이루어져 있습니다. 또 다른 관점에서, 확률은 불확실성을 다루는 논리의 연속이기도 합니다. 논리는 명제가 참이거나 거짓임을 결정하는 규칙을 제공합니다. 이런 관점에서 확률은 명제가 참이거나 거짓일 가능성을 제공하는 도구입니다. Probability distribution 확률 분포는 확률 변수(들)이 가진 분포의 모양을 설명합니다. 확률 변수란 $x _ {1},…x _ {n}$와 같은 데이터를 말합니다. 정확히는 확률 변수는 함수입니다. 이 데이터의 분포가 어떤 모양을 갖고 있는 지는 데이터의 확률 분포에 따라 다르죠. 그리고 이런 확률 분포는 이산형 변수와 연속형 변수로 종류가 나뉩니다. 이산형 변수와 PMF 이산형 변수의 분포는 확률 질량 함수, Probability mass function(PMF)로 나타냅니다. PMF는 관습적으로 P로 나타내죠. 그래서 여러가지 PMF가 나올 때는 PMF $P(x), ~ P(y)$를 다른 것으로 읽도록 주의해야 합니다. 이 부분이 확률을 처음 접하는 분에겐 쉽게 익숙해지지 않는 부분이죠. PMF는 확률 변수를 PMF에 해당하는 확률 변수의 확률로 나타냅니다. x = $x$일 확률은 $P(x)$로 표기합니다. x = $x$이 확실하면 이 확률은 1이고, 불가능하다면 0 이 됩니다. PMF를 표현하는 다른 방식은 확률 변수를 함수안에 명시하는 방법입다. P(x = $x$) 혹은 x~P(x)와 같이 표현합니다. PMF는 여러 변수를 다루기도 하는데 그런 확률 분포를 joint probability distribution이라고 합니다. P(x=$x$, y=$y$),$P(x,y)$로 표기 합니다. 확률 변수의 PMF가 되는 함수 P는 밑의 조건을 만족해야 합니다. P의 정의역은 x의 모든 집합이다. 모든 x에 대해서 $0 \leq P(x) \leq 1$이다. $\sum _ {x} P(x) =1$ 이다. 예 쉬운 예로 이산형 변수인 x가 k개 있다고 하자. 이 x는 uniform distribution에서 뽑았다. 즉, 각각의 x의 확률을 PMF로 나타내보면 \(P(x=x _ {i}) = \frac {1} {k}\) 이것을 위의 PMF 조건에 넣어보면 모두 만족함을 알 수 있다. 연속형 변수와 PDF 연속형 변수에서는 확률 밀도 함수, probability density function(PDF)로 확률 분포를 설명합니다. PDF인 함수 p 역시 다음의 조건을 만족시켜야 합니다. p의 정의역은 모든 x의 집합이다. 모든 x에 대해서 $p(x) \geq 0$ 이다. $\int p(x) dx = 1$ 이다. PDF는 x에서의 정확한 확률을 표현하는 것이 아니라 정해진 구간에서의 확률을 표현합다. 연속형 변수임을 생각하면 어떤 x는 구간 내에 무한히 많은 순간 중 아주 짧은 순간이기 때문에 0의 확률을 가지기 때문입니다. 그래서 확률은 구간 $[a,b]$를 적분하여 $\int _ {[a,b]} p(x) dx$로 나타냅니다. Marginal Probability 주변 확률 분포라고 부르는 Marginal probability 입니다. 어떤 변수들의 대한 확률 분포를 알고 있을 때, 그 변수들의 하위 집합(subset)의 분포를 알아야 할 때가 있습니다. 이런 하위 집합에 대한 확률 분포를 marginal probability distribution 이라고 합니다. 예를 들어, 이산형 변수 x, y가 있고 P(x,y)를 알고 있을 때, 덧셈 규칙을 이용해서 P(x)를 구할 수 있습니다. \(\forall x , ~ P(x=x)=\sum _ {y} P(x=x,y=y)\) 연속형 변수인 경우 \(p(x) = \int p _ {x,y} dy\)로 표현합니다. Conditional Probability 어떤 특정한 사건이 발생했을 때의 확률이 필요하기도 합니다. 이것을 나타내는 확률을 조건부 확률 Conditional probability라고 합니다. x = $x$가 발생했을 때의 y = $y$를 $P(y=y | x=x)$로 표현합니다. 그리고 이 조건부 확률은 다음처럼 계산됩니다. \(P(y=y | x=x) = \frac {P(y=y,x=x} {P(x=x)}\) 위 식에서 볼 수 있듯이, 조건부 확률은 $P(x=x) < 0$에서만 정의됩니다. 수학적으로 분모가 0인 분수는 정의되지 않고, 조건부 확률의 의미를 본다면, 일어나지도 않은 사건을 조건으로 확률을 계산할 수 없기 때문이죠. 조건은 한 가지 사건만이 아니라 여러가지 사건이 될 수 있습니다. 즉 $x _ {1},…,x _ {i-1}$이 발생했을 때의 확률도 구할 수 있습니다. Expectation, Variance, Covariance 확률 분포 $P(x)$를 가진 함수 f의 기댓값(Expectation)은 평균을 뜻합니다. 이산형 변수에서는 다음과 같이 계산됩니다. \(\mathbb{E} _ {x \sim P} [f(x)] = \sum _ {x} P(x) f(x)\) 연속형 변수에서의 기댓값은 다음과 같습니다. \(\mathbb{E} _ {x \sim p} [f(x)] = \int p(x) f(x) dx\) 확률 분포가 명시되어 있을 때 확률 변수를 생략하고 간단하게 표현하기도 합니다. $\mathbb{E} [f(x)]$. 보통 $\mathbb{E} [.]$는 기댓값을 뜻하고 경우에 따라 []를 빼기도 합니다. 기댓값은 선형적 성질을 갖고 있기 때문에 다음 식이 성립합니다. $\mathbb{E} _ {x} [\alpha f(x) + \beta g(x)] = \alpha \mathbb{E} _ {x} [f(x)] + \beta \mathbb{E} _ {x} [g(x)]$ 분산(Variance)는 확률 분포의 샘플 x의 다름의 정도에 따라 함수값이 얼마나 변하는 지를 나타냅니다. 분산이 작다면 함수의 모든 값들이 기댓값에 몰리게 되겠죠. 또한 분산의 제곱근을 표준오차라고 합니다. \(Var(f(x)) = \mathbb{E} [(f(x) - \mathbb{E} [f(x)]) ^ {2} ]\) 공분산(Covariance)은 두 값의 상관관계의 정도를 나타냅니다. \(Cov(f(x), g(y)) = \mathbb{E} [(f(x) - \mathbb{E} [f(x)]) (g(y) - \mathbb{E}[g(y)])]\) 공분산의 절대값이 크다면 두 값의 상관관계가 크다는 것입니다. 공분산이 양수이면 두 값은 함꼐 증가하는 것으로 생각 할 수 있습니다. 공분산과 독립은 비슷하지만 다른 개념을 가지고 있습니다. 두 변수가 서로 독립이면 공분산은 0이고 공분산이 0이 아닌 두 변수는 서로 독립이 아니기 때문입니다. 하지만, 독립(Independence)는 공분산과는 구별되는 특성이 있습니다. 독립은 공분산 보다 좀 더 큰 조건입니다. 공분산이 0이라면 두 변수는 반드시 선형관계가 없다고 하지만, 독립인 두 변수는 선형이 아닌 관계도 제외해 버리기 때문입니다. 두 변수가 독립이 아니지만 공분산이 0일 수는 있습니다. 벡터 $x \in \mathbb{R} ^ {n}$의 공분산 행렬은 n*n행렬을 가지는 \(Cov(X) _ {i,j} = Cov(x _ {i}, x _ {j}\) 입니다. 위키보기 Distribution 통계학에서 다루는 확률 분포는 숫자가 꽤 되고 몇몇 분포는 pdf로부터 기댓값을 구하는 것도 어렵습니다. 또 분포들 사이의 관계를 정리하는 것도 만만치 않습니다. 다행히 기계학습에서 쓰이는 분포는 통계를 몇번 보았다면 친숙한 분포들이고 그다지 어렵지 않은 분포들임을 눈치 채셨을 겁니다. 이번에는 bernolli, multinoulli, gaussian, exponential, laplace 분포를 보겠습니다. Bernoulli distribution 몇 가지 분포를 시작하기에 앞서서 가장 간단한, 쉬운 분포인 베르누이 분포를 봅니다. 베르누이 분포는 Jacob Bernoulli(1654~1705)라는 스위스 수학자의 이름에서 나왔죠. 베르누이는 사실 어마어마한 업적들이 있는데 논리, 대수, 기하학등 여러 분야에 업적을 남겼습니다. 심지어 자연로그 e를 발견한 사람이 베르누이입니다. bernoulli distribution은 단 두개의 변수만 있는 분포입니다. Parameter는 p만 있으며 이건 변수가 1이 될 확률을 의미합니다. $P(x=1) = p$ $P(x=0) = 1-p$ $P(x=x) = p ^ {x} (1-p) ^ {1-x}$ $\mathbb{E} _ {x} [x]=p$ $Var(x) = p(1-p)$ Multinoulli distribution Multinoulli, categorical 분포라고도 합니다. 이름에 맞게 k개의 변수를 다루는 분포입니다. Parameter $p \in [0,1] ^ {k-1}$를 갖고 있고 $p _ {i}$는 i번째의 상태에서의 변수가 1이 될 확률을 나타냅다. 마지막 k번째 변수의 확률은 $1-1 ^ {T} p$ 입니다. Multinoulli 분포는 주로 여러 개의 카테고리를 가진 데이터의 분포를 다룰 때 사용하고 변수가 1이 될 확률을 보지만 여기서의 1은 보통 숫자 1을 의미하진 않습니다. softmax와 비슷하죠. 이런 이유로 Multinomial에서 기댓값이나 분산은 굳이 구할 필요가 없습니다. 이 두가지 분포는 거의 모든 분야를 설명할 수 있습니다. 이 두가지 분포가 모든 상황을 설명할 수 있어서라기 보다는 이 두 분포가 가장 간단한 분포이기 때문인데, 세상의 거의 모든 문제는 사실 이산적인 문제로 변환할 수 있기 때문이죠. Gaussian distribution 분포 중 가장 유명하고 많이 쓰이는 분포는 gaussian으로 normal distribution이라고도 불린다. \(N(x; \mu , \sigma ^ {2})=\sqrt{ \frac {1} {2 \pi \sigma ^{2}} } exp(- \frac {1} {2 \sigma ^ {2}} (x- \mu ) ^ {2})\) 정규분포는 $\mu , \sigma$로 결정됩니다. $\mu$는 평균 값으로 중앙의 볼록한 곳, 평균의 위치를 결정하고 $\sigma $, 분산은 분포의 퍼짐 정도를 결정합니다. Normal distribution은 거의 모든 곳에서 쓰입니다. 만일 어떤 변수가 어떤 분포를 가지는 지 모른다면, 보통 normal dist. 를 사용하는 게 가장 좋죠. 왜냐면 거의 모든 변수들은 normal dist에 가깝습니다. The central limit theorem(중심 극한 정리)는 독립의 변수들의 함은 normal dist에 가까워진다는 걸 보여주기도 합니다. 이 말은 많은 복잡한 모델들은 데이터가 많아지면 어떤 것이든 normal dist 로 봐도 된다는 얘기입니다. 정규 분포 역시 다변수로 확장이 가능하고 multivariate normal distribution이라고 부릅니다. \(N(x; \mu , \Sigma ) = \sqrt{ \frac {1} {(2 \pi ) ^ {2} det( \Sigma )}} exp ( - \frac{1}{2} (x- \mu )^ {T} \Sigma ^ {-1} (x- \mu))\) 여기서 $\Sigma$은 positive definite symmetric matrix이고 Covariance matrix와 동일합니다. $\mu$는 역시 평균을 뜻합니다. 중심 극한 정리에 관한 좋은 자료는 여기 Exponential and Laplace distribution 딥러닝을 공부하다 보면 x=0에서 뾰족한 모양을 가지는 분포가 필요할 때가 많습니다. 정규분포도 이 상황에 맞지만 좀 더 뾰족한 분포는 exponential dist입니다. \(p(x; \lambda) = \lambda \mathbb{1} _ {x \geq 0} exp( - \lambda x)\) 여기서 $\mathbb{1} _ {x \geq 0}$은 indicator function이라고 부르고 밑의 조건이 충족되면 1, 그렇지 않으면 0을 뜻합니다. exponential dist 말고도 laplace dist도 이 상황에 사용 가능합니다. \(Laplace(x; \mu \gamma ) = \frac {1} {2 \gamma} exp (- \frac {|x- \mu |} { \gamma })\) Estimators, Bias, Variance 대부분의 기계학습은 Statistical learning이라고 불리는 만큼, 통계학에서 쓰이는 도구를 사용하고 그것에 기초를 두고 있습니다. 기계학습의 가장 기본이 되는 개념은 parameter estimation, bias, variance 입니다. underfitting, overfitting의 개념을 이해하는데 필수적이고 딥러닝의 가장 기초를 이루고 있는 개념이기도 하죠. Point Estimation 굳이 한글로 번역하자면 점추정법 입니다. 점추정은 어떤 것에 대해 한가지 최고의 좋은 예측을 하는 방법입니다. 추정을 하는 것은 변수 하나가 될 수 있고 여러가지 변수의 벡터가 될수도 있습니다. 역시 대부분은 여러 변수를 추정하는 것입니다. 또한 어떤 함수를 추정해야 할 때도 있습니다. 통계학에서는 추정치와 실제를 구분하기 위해 $\hat{\theta}$를 추정값으로 사용합니다. $x_{1},…,x_{m}$의 iid한 데이터가 있다고 합니다. 그렇다면 point estimator 혹은 statistic은 이 데이터에 대한 함수이고 다음과 같이 표현합니다. \(\hat{\theta} _ {m} = g( x_{1},...,x_{m})\) 여기서 함수 g는 꼭 $\theta$ 에 가까울 필요도 없고 어떤 범위 안에 들 필요도 없습니다. 데이터를 추정하는 자에게 높은 자유도를 주는 것입니다. 그래서 대부분의 함수는 estimator가 될 수 있습니다. 좋은 추정치는 $\hat{\theta}$와 $\theta$가 매우 비슷할 때입니다. 실제로 거의 모든 문제에서는 $\theta$를 알 방법이 없습니다. 주식 가격의 파라미터를 모르는 것이 당연한 것처럼요. 그래서 우리는 $\theta$가 고정되어 있으며 모르는 값이고 $\hat{\theta}$를 데이터의 함수라고 가정합니다. 데이터는 무작위로 얻어지기 때문에 데이터의 함수는 랜덤 변수입니다. Bias 추정치의 Bias는 다음과 같이 정의됩니다. \(bias( \hat{\theta} _ {m} ) = \mathbb{E} (\hat{\theta} _ {m}) - \theta\) 쉽게는 예측값 - 실제값입니다. 여기서 $bias( \hat{\theta} _ {m} ) =0$이라면 $\hat{\theta} _ {m}$은 unbiased라고 합니다. 예측값과 실제값이 같다는 얘기입니다. 그리고 $lim _ { m \rightarrow \infty} bias( \hat{\theta} _ {m} ) =0$ 이라면 asymptotically unbiased라고 합니다. 데이터가 많아질수록 예측값과 실제값이 같아진다는 말입니다. 통계학을 배우다 보면 여러가지 estimator에 대한 성질을 배우게 됩다. unbiasedness는 그 중 가장 먼저 배우는 것이고 $\bar{X}$를 좋은 추정치로 배우게 됩니다. Unbiased estimator는 확실히 좋은 estimator이지만 항상 최고의 estimator는 아니라는 것을 알아두면 좋습니다. Variance, S.E. Estimator에 관해 또 하나 알아야할 것은 이것이 데이터 샘플에 따라 얼마나 달라지냐입니다. Bias를 구할 수 있다면 Variance도 구할 수 있습니다. Variance는 데이터의 여러 샘플에 따라 추정값이 얼마나 달라지냐를 값으로 보여줍니다. 샘플에 따라 추정값이 크게 변한다면 상식적으로 좋은 estimator가 아닐 것입니다. 그래서 variance 역시 작을수록 좋은 estimator입니다. $\hat{ \mu } _ {m}$의 standard error는 $\sigma / \sqrt{m}$으로 구해집니다. $\sigma ^ {2}$는 데이터의 실제 variance이기 때문에 데이터가 많을수록 좋은 $\hat{ \mu}$ 를 구하게 됩니다. Estimator의 variance는 데이터가 많아질수록 작아지게 되는데 이것은 몇 estimator의 특징입니다. 다음 consistency에서 봅니다. Consistency 기계학습에서 데이터의 양은 절대적인 지위를 갖습니다. 모델보다도 데이턱 더 중요한 자산이죠. 왜냐면 데이터가 많을수록 $ lim _ {m \rightarrow \infty} \hat{\theta} _ {m} \rightarrow ^ {p} \theta$ 로 기대하기 때문입니다. 즉, 데이터가 많을수록 좋은 모델을 얻을 수 있기 때문입니다. 위의 식을 consistency라고 부릅니다. 다음과 같이 표현되기도 합니다. \(for ~ any ~ \epsilon < 0, ~ P(|\hat{theta} _ {m} - \theta | < \epsilon ) \rightarrow 0 ~ as ~ m \rightarrow \infty\) Consistency는 데이터가 증가함에 따라 estimator의 bias가 작아진다는 것을 보여주기 때문에 중요한 성질 중 하나입니다. 여기서 consistency는 unbiased를 보증하지만 그 반대는 성립하지 않음을 알아두면 좋습니다.probability
  • Table of Contents:

Intro

Frequentist bayesian probability

Probability distribution

이산형 변수와 PMF

연속형 변수와 PDF

Marginal Probability

Conditional Probability

Expectation Variance Covariance

Distribution

Estimators Bias Variance

딥러닝을 위한 수학, 확률과 통계 | JuHyung Son
딥러닝을 위한 수학, 확률과 통계 | JuHyung Son

Read More

Chapter 6. 통계 기반 머신러닝 1 – 확률분포와 모델링 — ArtificialNeuralNetworkForNewbie 0.0.1 documentation

  • Article author: artificialnetworkforstarters.readthedocs.io
  • Reviews from users: 35042 ⭐ Ratings
  • Top rated: 3.2 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about Chapter 6. 통계 기반 머신러닝 1 – 확률분포와 모델링 — ArtificialNeuralNetworkForNewbie 0.0.1 documentation 이 문서는 한빛미디어에서 나온 처음 배우는 인공지능 을 공부하면서 정리한 것이다. 01 통계 모델과 확률분포¶. 확률기반¶. 확률분포 란 확률변수가 특정한 값을 가질 … …
  • Most searched keywords: Whether you are looking for Chapter 6. 통계 기반 머신러닝 1 – 확률분포와 모델링 — ArtificialNeuralNetworkForNewbie 0.0.1 documentation 이 문서는 한빛미디어에서 나온 처음 배우는 인공지능 을 공부하면서 정리한 것이다. 01 통계 모델과 확률분포¶. 확률기반¶. 확률분포 란 확률변수가 특정한 값을 가질 …
  • Table of Contents:

01 통계 모델과 확률분포¶

02 베이즈 통계학과 베이즈 추론¶

03 마르코프 연쇄 몬테카를로 방법¶

04 은닉 마르코프 모델과 베이즈 네트워크¶

Chapter 6. 통계 기반 머신러닝 1 - 확률분포와 모델링 — ArtificialNeuralNetworkForNewbie 0.0.1 documentation
Chapter 6. 통계 기반 머신러닝 1 – 확률분포와 모델링 — ArtificialNeuralNetworkForNewbie 0.0.1 documentation

Read More

[딥러닝 입문 5] 확률·통계의 기초(1/5)

  • Article author: doooob.tistory.com
  • Reviews from users: 45381 ⭐ Ratings
  • Top rated: 4.5 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [딥러닝 입문 5] 확률·통계의 기초(1/5) 여기서는 기계학습에 이용하는 확률, 통계의 개념과 용어를 설명합니다. 세상에는 ‘무작위’로 일어나는 사건이나 배경의 메커니즘을 모르기 때문에 … …
  • Most searched keywords: Whether you are looking for [딥러닝 입문 5] 확률·통계의 기초(1/5) 여기서는 기계학습에 이용하는 확률, 통계의 개념과 용어를 설명합니다. 세상에는 ‘무작위’로 일어나는 사건이나 배경의 메커니즘을 모르기 때문에 … 5. 확률 · 통계의 기초 여기서는 기계학습에 이용하는 확률, 통계의 개념과 용어를 설명합니다. 세상에는 ‘무작위’로 일어나는 사건이나 배경의 메커니즘을 모르기 때문에 무작위로 취급해야만 하는 사건이 존재..해외 트렌드를 찾아서 올리는 블로그 입니다.
  • Table of Contents:

51 확률 · 통계 및 기계학습의 관계

52 확률 변수와 확률 분포

53 결합 분포 · 주변 확률

티스토리툴바

[딥러닝 입문 5] 확률·통계의 기초(1/5)
[딥러닝 입문 5] 확률·통계의 기초(1/5)

Read More

수학의 쓸모 도서 리뷰 : 확률과 통계가 이뤄낸 인공지능 성과 | YES24 블로그

  • Article author: blog.yes24.com
  • Reviews from users: 3945 ⭐ Ratings
  • Top rated: 4.5 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 수학의 쓸모 도서 리뷰 : 확률과 통계가 이뤄낸 인공지능 성과 | YES24 블로그 확률과 통계가 이뤄낸 인공지능 성과 … 수학의 유용성을 다룬 듯한 한글 제목과 달리 이 책의 원제는
  • Most searched keywords: Whether you are looking for 수학의 쓸모 도서 리뷰 : 확률과 통계가 이뤄낸 인공지능 성과 | YES24 블로그 확률과 통계가 이뤄낸 인공지능 성과 … 수학의 유용성을 다룬 듯한 한글 제목과 달리 이 책의 원제는
  • Table of Contents:
수학의 쓸모 도서 리뷰 : 확률과 통계가 이뤄낸 인공지능 성과 | YES24 블로그
수학의 쓸모 도서 리뷰 : 확률과 통계가 이뤄낸 인공지능 성과 | YES24 블로그

Read More


See more articles in the same category here: https://toplist.Experience-Porthcawl.com/blog.

2.6. 확률과 통계 — Dive into Deep Learning documentation

2.6. 확률과 통계¶

머신 러닝은 어떤 방식이든지 결국 예측을 수행하는 것입니다. 어떤 환자의 의료 기록을 바탕으로 내년에 심장 마비를 겪을 확률 예측하기를 예로 들어볼 수 있습니다. 비정상 탐지를 위해서, 비행기 제트 엔진의 센서 데이터가 정상적으로 동작할 때 어떤 값을 갖게 될지 예측을 할 수도 있습니다. 강화학습에서는 에이전트가 주어진 환경에서 똑똑하게 동작하게 만드는 것이 목표입니다. 이 경우에는 주어진 행동들 중에 가장 높은 보상을 받는 확률을 고려해야합니다. 추천 시스템을 만드는 경우에도 확률을 고려해야합니다. 예를 들어 여러분이 대형 온라인 서점에서 일을 한다면, 어떤 책을 홍보했을 때 특정 사용자가 그 책을 구매할지에 대한 확률을 추정하고 싶어할 것입니다. 이를 위해서 우리는 확률과 통계의 언어를 사용할 필요가 있습니다. 확률을 다루는 별도의 과정, 전공, 논문, 직업 심지어는 부서까지도 있습니다. 이 책의 목표는 이 모든 주제들에 대해서 배워보는 것은 아니고, 여러분이 스스로 머신 러닝 모델을 만들 수 있을 정도의 내용을 알려주고, 이후에 스스로 공부해 볼 수 있는 주제들을 선택할 수 있도록 하는 것입니다.

지금까지 확률에 대해서 많이 이야기를 해왔지만, 확률에 정확하게 무엇인지를 설명하지 않았고 구체적인 예제를 들지는 않았습니다. 동물의 사진이 주어졌을 때, 고양이인지 개인지를 구분하는 문제를 조금 자세하게 살펴 보겠습니다. 이 문제는 간단해 보이지만, 사실 쉽지 않은 문제가 있습니다. 우선은 문제의 난이도가 이미지의 해상도에 따라 차이가 있을 수 있습니다.

10px 20px 40px 80px 160px

사람이 320 픽셀 해상도의 이미지에서 개와 고양이를 구분하는 것은 쉽습니다. 하지만, 40 픽셀이 되면 그 분류가 어렵고, 10픽셀로 줄어들면 거의 불가능합니다. 즉, 개와 고양이를 먼 거리에서 판별하는 것은 (또는 낮은 해상도의 이미지에서) 동전 던지기를 해서 추측하는 것과 동일해집니다. 확률은 확실성에 대한 추론을 하는 공식적인 방법을 제공합니다. 만약, 이미지에 고양이가 있다는 것을 완벽하게 확신한다면, 해당 레이블 \(l\) 이 고양이일 확률, \(P(l=\mathrm{cat})\) 는 1.0이라고 말합니다. 만약 \(l =\mathrm{cat}\) 인지 \(l = \mathrm{dog}\) 에 대한 아무런 판단을 못한다면, 두 확률은 동일하다고 하다고 말하며, \(P(l=\mathrm{cat}) = 0.5\) 이 됩니다. 만약 이미지에 고양이가 있다는 것을 확실하지는 않지만 어느 정도 확신한다면, 확률은 \(.5 < P(l=\mathrm{cat}) < 1.0\) 로 주어질 것입니다. 이제 두번째 예를 들어보겠습니다. 대만 날씨에 대한 데이터를 관찰한 데이터가 있을 때, 내일 비가 내릴 확률을 예측하고자 합니다. 여름인 경우에는 비가 내릴 확률이 \(0.5\) 정도가 될 것입니다. 위 두가지 예제 모두 살펴볼 가치가 있습니다. 두 경우 모두 결과에 대한 불확실성이 있지만, 주요 차이점이 있습니다. 첫번째 예제는 이미지가 고양이인지 개이지만, 우리가 어떤 것인지 모르는 경우이고, 두번째 예제는 결과가 실제로 임의로 일어나는 이벤트일 수도 있습니다. 즉, 확률이란 우리의 확실성에 대한 사고를 하기 위한 유연한 언어이며, 다양한 경우에 효과적으로 적용될 수 있습니다. 2.6.1. 기초 확률 이론¶ 주사위를 던져서 다른 숫자가 아닌 1일 나오는 확률이 얼마나 되는지 찾는 경우를 생각해보겠습니다. 주사위가 공정하다면, 모든 6개 숫자들, \(\mathcal{X} = \{1, \ldots, 6\}\), 은 일어날 가능성이 동일합니다. 학술 용어로는 “1은 확률 \(\frac{1}{6}\) 로 일어난다”라고 말합니다. 공장에서 막 만들어진 주사위에 대해서 우리는 이 비율을 알지 못할 수 있고, 주사위가 공정한지 확인해야할 필요가 있습니다. 주사위를 조사하는 유일한 방법은 여러 번 던져보면서 결과를 기록하는 것입니다. 주사위를 던질 때마다, 우리는 \(\{1, 2, \ldots, 6\}\)에 하나의 숫자를 얻게 되고, 이 결과들이 주어지면, 각 숫자들이 일어날 수 있는 확률을 조사할 수 있습니다. 가장 자연스러운 방법은 각 숫자들이 나온 횟수를 전체 던진 횟수로 나누는 것입니다. 이를 통해서 우리는 특정 이벤트에 대한 확률을 추정 합니다. 큰 수의 법칙(the law of large numbers)에 따라, 던지는 횟수가 늘어날 수록 이 추정은 실제 확률과 계속 가까워집니다. 더 자세한 논의를 하기 전에, 실제로 실험을 해보겠습니다. 우선 필요한 패키지들을 import 합니다. [1]: import mxnet as mx from mxnet import nd 다음으로는 주사위를 던지는 것을 해야합니다. 통계에서는 확률 분포에서 샘플을 뽑는 것을 샘플링 이라고 합니다. 연속되지 않은 선택들에 확률이 부여된 분포를 우리는 다항(multinomial) 분포라고 합니다. 분포(distribution) 에 대한 공식적인 정의는 다음에 다루겠고, 지금은 분포를 이벤트들에 확률을 할당하는 것 정도로 생각하겠습니다. MXNet에서 nd.random.multinomial 함수를 이용하면 다항 분포에서 샘플을 추출할 수 있습니다. [2]: probabilities = nd . ones ( 6 ) / 6 nd . random . multinomial ( probabilities ) [2]: [3] 여러 샘플을 뽑아보면, 매번 임의의 숫자를 얻는 것을 확인할 수 있습니다. 주사위의 공정성을 추정하는 예제에서 우리는 같은 분포에서 많은 샘플을 추출하기를 원합니다. Python의 for loop을 이용하면 너무 느리기 때문에, random.multinomial 이 여러 샘플을 한번째 뽑아주는 기능을 이용해서 우리가 원하는 모양(shape)의 서로 연관이 없는 샘플들의 배열을 얻겠습니다. [3]: print ( nd . random . multinomial ( probabilities , shape = ( 10 ))) print ( nd . random . multinomial ( probabilities , shape = ( 5 , 10 ))) [3 4 5 3 5 3 5 2 3 3] [[2 2 1 5 0 5 1 2 2 4] [4 3 2 3 2 5 5 0 2 0] [3 0 2 4 5 4 0 5 5 5] [2 4 4 2 3 4 4 0 4 3] [3 0 3 5 4 3 0 2 2 1]] 이제 주사위를 던지는 샘플을 구하는 방법을 알았으니, 100번 주사위를 던지는 시뮬레이션을 해서, 각 숫자들이 나온 횟수를 카운팅합니다. [4]: rolls = nd . random . multinomial ( probabilities , shape = ( 1000 )) counts = nd . zeros (( 6 , 1000 )) totals = nd . zeros ( 6 ) for i , roll in enumerate ( rolls ): totals [ int ( roll . asscalar ())] += 1 counts [:, i ] = totals 1000번을 던져본 후에 최종 합계를 확인합니다. [5]: totals / 1000 [5]: [0.167 0.168 0.175 0.159 0.158 0.173] 결과에 따르면, 모든 숫자 중에 가장 낮게 추정된 확률은 약 \(0.15\) 이고, 가장 높은 추정 확률은 \(0.188\) 입니다. 공정한 주사위를 사용해서 데이터를 생성했기 때문에, 각 숫자들은 \(1/6\) 즉 \(0.167\) 의 확률을 갖는다는 것을 알고 있고, 예측도 매우 좋게 나왔습니다. 시간이 지나면서 이 확률이 의미 있는 추정치로 어떻게 수렴하는지를 시각해 볼 수도 있습니다. 이를 위해서 우선은 (6, 1000) 의 모양(shape)을 갖는 counts 배열을 살펴봅시다. 1000번을 수행하는 각 단계마다, counts 는 각 숫자가 몇 번 나왔는지를 알려줍니다. 그렇다면, counts 배열의 \(j\) 번째 열의 그때까지 던진 총 횟수로 표준화해서, 그 시점에서의 추정 확률 current 를 계산합니다. counts 객체는 다음과 같습니다. [6]: counts [6]: [[ 0. 0. 0. … 165. 166. 167.] [ 1. 1. 1. … 168. 168. 168.] [ 0. 0. 0. … 175. 175. 175.] [ 0. 0. 0. … 159. 159. 159.] [ 0. 1. 2. … 158. 158. 158.] [ 0. 0. 0. … 173. 173. 173.]] 던진 총 횟수로 표준화 하면, [7]: x = nd . arange ( 1000 ) . reshape (( 1 , 1000 )) + 1 estimates = counts / x print ( estimates [:, 0 ]) print ( estimates [:, 1 ]) print ( estimates [:, 100 ]) [0. 1. 0. 0. 0. 0.] [0. 0.5 0. 0. 0.5 0. ] [0.1980198 0.15841584 0.17821783 0.18811882 0.12871288 0.14851485] 결과에서 보이듯이, 주사위를 처음 던진 경우 하나의 숫자에 대한 확률이 \(1.0\) 이고 나머지 숫자들에 대한 확률이 \(0\) 인 극단적인 예측을 하지만, 100번을 넘어서면 결과가 상당히 맞아 보입니다. 플롯을 그리는 패키지 matplotlib 을 이용해서 이 수렴 과정을 시각화 해봅니다. 이 패키지를 아직 설치하지 않았다면, install it 를 참고해서 지금 하세요. [8]: % matplotlib inline from matplotlib import pyplot as plt from IPython import display display . set_matplotlib_formats ( ‘svg’ ) plt . figure ( figsize = ( 8 , 6 )) for i in range ( 6 ): plt . plot ( estimates [ i , :] . asnumpy (), label = ( “P(die=” + str ( i ) + “)” )) plt . axhline ( y = 0.16666 , color = ‘black’ , linestyle = ‘dashed’ ) plt . legend () plt . show () 각 선은 주사위의 숫자 중에 하나를 의미하고, 1000번 주사위 던지기를 수행하면서 각 횟수마다 각 숫자가 나올 확률의 추정값을 나타내는 그래프입니다. 검은 점선은 진짜 확률(true probability, \(1/6\))을 표시합니다. 횟수가 늘어가면 선들이 진짜 확률에 수렴하고 있습니다. 주사위 던지기 예를 통해서 확률 변수(random variable)라는 개념을 소개했습니다. 여기서 \(X\) 로 표현할 확률 변수는 어떤 양이 될 수 있고, 결정적이지 않을 수 있습니다. 확률 변수는 여러 가능성들의 집합에서 하나의 값을 나타낼 수도 있습니다. 집합은 괄호를 이용해서 표현합니다. 예를 들면, \(\{\mathrm{cat}, \mathrm{dog}, \mathrm{rabbit}\}\) 입니다. 집합에 속한 아이템들은 원소(element) 라고 하고, 어떤 원소 \(x\) 가 집합 \(S\) 에 속한다 라고 하면 표기는 \(x \in S\) 로 합니다. 기호 \(\in\) 는 “속한다”라고 읽고, 포함 관계를 표현합니다. 예를 들어, \(\mathrm{dog} \in \{\mathrm{cat}, \mathrm{dog}, \mathrm{rabbit}\}\) 입니다. 주사위 던지는 것의 경우, 확률 변수 \(X \in \{1, 2, 3, 4, 5, 6\}\) 입니다 연속적이지 않은 확률변수(예를 들어 주사위의 6면)와 연속적인 확률변수(예를 들어 사람의 몸무게나 키) 사이에는 미묘한 차이점이 있다는 것을 기억하세요. 두 사람의 키가 정확하게 같은지를 묻는 경우는 드물 것입니다. 아주 정확한 측정 방법이 있어서 이를 적용한다면, 이 세상에 키가 완전하게 같은 사람 두사람이 없습니다. 사실, 적당히 정교한 측정을 하는 경우에도 아침에 일어났을 때의 키와 밤에 잠자기 전에 잰 키는 다르게 나옵니다. 즉, 어떤 사람의 키가 \(2.00139278291028719210196740527486202\) 미터일 확률을 물어보는 것은 의미가 없습니다. 전체 인구에 대해서도 이 확률은 거의 \(0\) 입니다. 따라서, 어떤 사람의 키가 어느 구간(예를 들면 1.99 와 2.01 미터 사이)에 속하는지를 묻는 것이 더 의미가 있습니다. 이런 경우들에는 우리는 어떤 값을 밀도(density)로 볼 가능성을 정량화 합니다. 정확하게 2.0미터인 키에 대한 확률은 없지만, 밀도는 0이 아닙니다. 서로 다른 두 키의 구간에 대해서는 확률값이 0이 아닌 수가 됩니다. 기억해 두어야할 몇가지 중요한 확률에 대한 공리(axiom)들이 있습니다. 어떤 이벤트 \(z\) 에 대해서, 확률은 절대로 음수가 아닙니다. 즉, \(\Pr(Z=z) \geq 0\)

에 대해서, 확률은 절대로 음수가 아닙니다. 즉, 두 이벤트 \(Z=z\) 과 \(X=x\) 에 대해서, 두 이벤트의 합집합(union)에 대한 확률은 각 이벤트의 확률의 합보다 클 수 없습니다. 즉, \(\Pr(Z=z \cup X=x) \leq \Pr(Z=z) + \Pr(X=x)​\) .

과 에 대해서, 두 이벤트의 합집합(union)에 대한 확률은 각 이벤트의 확률의 합보다 클 수 없습니다. 즉, . 어떤 확률 변수에 대해서, 모든 값들에 대한 확률의 합은 항상 1입니다. 즉, \(\sum_{i=1}^n \Pr(Z=z_i) = 1\) .

. 서로 겹치지 않는 두 사건, \(Z=z\) 과 \(X=x\) , t,에 대해서, 둘 중에 한 사건이 일어날 확률은 각 사건의 확률의 합과 같습니다. 즉, \(\Pr(Z=z \cup X=x) = \Pr(Z=z) + \Pr(X=x)\) .

2.6.2. 여러 확률 변수 다루기¶ 종종 하나 이상의 확률 변수를 동시에 다룰 필요가 생깁니다. 질병과 증상의 관계를 모델링하는 경우를 들 수 있습니다. 질병과 증상이 주어졌을 때, 예를 들면 ‘독감’과 ’기침’, 두개는 어떤 확률로 환자에게 일어날 수도 일어나지 않을 수 있습니다. 이 둘에 대한 확률이 작기를 기대하지만, 더 좋은 의료 처방을 할 수 있도록 확률과 둘 사이의 관계를 예측하고자 합니다. 더 복잡한 예로, 수백만 픽셀로 이루어진 이미지를 들어보겠습니다. 즉, 수백만 확률 변수가 존재합니다. 많은 경우에 이미지들은 이미지에 있는 객체를 지칭하는 레이블을 갖습니다. 이 레이블도 확률 변수로 생각할 수 있습니다. 더 나아가서는, 위치, 시간, 구경(apeture), 초점 거리, ISO, 초점, 카메라 종류 등 과 같은 모든 메타 데이터를 확률 변수로 생각할 수도 있습니다. 이 모든 것은 연관되어 발생하는 확률 변수들입니다. 여러 확률 변수를 다룰 때 몇가지 중요한 것들이 있습니다. 첫번째는 교차 확률 분포 \(\Pr(A, B)\) 입니다. 두 원소 \(a\) 와 \(b\) 가 주어졌을 때, 교차 확률 분포는 동시에 \(A=a\) 이고 \(B=b\) 일 확률이 얼마인지에 대한 답을 줍니다. 임의의 값 \(a\) 와 \(b\) 에 대해서, \(\Pr(A,B) \leq \Pr(A=a)\) 이라는 사실은 쉽게 알 수 있습니다. \(A\) 와 \(B\) 가 일어났기 때문에, \(A\) 가 발생하고, \(B\) 또한 발생해야 합니다. (또는 반대로). 즉, \(A\) 와 \(B\) 가 동시에 일어나는 것은 \(A\) 와 \(B\) 가 별도로 일어나는 것보다는 가능성이 낮습니다. 이 사실로 흥미로운 비율을 정의할 수 있습니다. 즉, \(0 \leq \frac{\Pr(A,B)}{\Pr(A)} \leq 1\). 우리는 이것을 조건부 확률(conditional probability) 이라고 부르며, \(\Pr(B | A)\) 로 표현합니다. 다시 말하면, \(A\) 가 일어났을 때 \(B\) 가 일어날 확률입니다. 조건부 확률의 정의를 이용하면, 확률에서 가장 유용하고 유명한 방정식을 도출할 수 있는데, 이것이 바로 베이즈 이론(Bayes’ theorem)입니다. 이를 도출하는 방법으로 \(\Pr(A, B) = \Pr(B | A) \Pr(A)\) 로부터 출발합니다. 대칭성을 적용하면, \(\Pr(A,B) = \Pr(A | B) \Pr(B)\) 이 돕니다. 조건 변수들 중 하나에 대해서 풀어보면 다음 공식을 얻게 됩니다. \[\Pr(A | B) = \frac{\Pr(B | A) \Pr(A)}{\Pr(B)}\] 어떤 것으로부터 다른 어떤 것을 추론(즉 원인과 효과)하고자 하는데, 반대 방향에 대한 것만 알고 있을 경우에 아주 유용합니다. 주변화(marginalization)는 이것이 작동하게 만드는데 아주 중요한 연산입니다. 이 연산은 \(\Pr(A,B)\) 로 부터 \(\Pr(A)\) 와 \(\Pr(B)\) 를 알아내는 연산입니다. \(A\) 가 일어날 확률은 모든 \(B\)에 대한 교차 확률(joint probability)의 값으로 계산됩니다. 즉, \[\Pr(A) = \sum_{B’} \Pr(A,B’) \text{ and } \Pr(B) = \sum_{A’} \Pr(A’,B)​\] 점검해야 할 아주 유용한 특성은 종속과 독립 입니다. 독립은 하나의 사건의 발생이 다른 사건의 발생에 영향을 주지 않는 것을 의미합니다. 위 경우에는 \(\Pr(B | A) = \Pr(B)\) 를 의미합니다. 그 외의 경우들은 \(A\) 와 \(B\)가 종속적이라고 합니다. 주사위를 두 번 연속으로 던지는 것은 독립적이나, 방의 전등 스위치의 위치와 방의 밝기는 그렇지 않습니다. (이 둘이 완전히 결정적이지는 않습니다. 왜냐하면, 전구가 망가질 수도 있고, 전원이 나갈 수도 있고, 스위치가 망가질 경우 등이 있기 때문입니다.) 그럼 배운 것을 테스트해보겠습니다. 의사가 환자에게 AIDS 테스트를 하는 것을 가정하겠습니다. 이 테스트는 상당히 정확해서, 환자가 음성일 경우 이를 틀리게 예측하는 확률이 1%이고, 환자가 양성일 경우 HIV 검출을 실패하지 않습니다. \(D\) 는 진단 결과를 \(H\) 는 HIV 상태를 표기합니다. \(\Pr(D | H)\) 결과를 표로 만들어보면 다음과 같습니다. 결과 HIV 양성 HIV 음성 테스트 결과 – 양성 1 0.01 테스트 결과 – 음성 0 0.99 같은 열의 값을 더하면 1이나, 행으로 더하면 그렇지 않습니다. 그 이유는 조건부 확률도 합이 확률처럼 1이여야하기 때문입니다. 테스트 결과가 양성일 경우 환자가 AIDS에 결렸을 확률을 계산해보겠습니다. 당연하게 도 이는 질병이 얼마나 일반적인가에 따라 달라집니다. 인구의 대부분이 건강하다고 가정하겠습니다. 즉 \(\Pr(\text{HIV positive}) = 0.0015\). 베이즈 이론(Bayes’ Theorem)을 적용하기 위해서 우리는 다음을 결정해야합니다. \[\begin{split}\begin{aligned} \Pr(\text{Test positive}) =& \Pr(D=1 | H=0) \Pr(H=0) + \Pr(D=1 | H=1) \Pr(H=1) \\ =& 0.01 \cdot 0.9985 + 1 \cdot 0.0015 \\ =& 0.011485 \end{aligned}\end{split}\] 따라서, 우리가 얻는 것은 다음과 같습니다. \[\begin{split}\begin{aligned} \Pr(H = 1 | D = 1) =& \frac{\Pr(D=1 | H=1) \Pr(H=1)}{\Pr(D=1)} \\ =& \frac{1 \cdot 0.0015}{0.011485} \\ =& 0.131 \end{aligned}\end{split}\] 이 결과는 99% 정확도로 테스트 결과가 양성으로 나올지라도 환자가 실제로 AIDS에 걸렸을 확률은 13.1% 밖에 되지 않는 다는 것을 의미입니다. 이 결과에서 보듯이, 통계는 매우 직관적이지 않을 수 있습니다.

2.6.3. 조건부 독립성¶ 그렇다면, 환자가 이렇게 무서운 결과를 받았을 때 어떻게 해야할까요? 아마도 환자는 의사에게 테스트를 다시 해봐달라고 요청할 것입니다. 두번째 테스트는 다르게 나왔다고 하겠습니다. (즉, 첫번째 만큼 좋지 않습니다.) 결과 HIV 양성 HIV 음성 테스트 결과 – 양성 0.98 0.03 테스트 결과 – 음성 0.02 0.97 안타깝게도 두번째 테스트 역시 양성으로 나오고 있습니다. 베이즈 이론(Bayes’ Theorom)을 적용하기 위한 필요한 확률값들을 계산해봅니다. \(\Pr(D_1 = 1 \text{ and } D_2 = 1) = 0.0003 \cdot 0.9985 + 0.98 \cdot 0.0015 = 0.00176955\)

\(\Pr(H = 1 | D_1 = 1 \text{ and } D_2 = 1) = \frac{0.98 \cdot 0.0015}{0.00176955} = 0.831\) 즉, 두번째 테스트 결과는 좋지 않다는 것에 더 확신하게 만듭니다. 두번째 결과는 첫번째 보다 덜 정확함에도 불구하고, 예측 결과를 더 향상시켰습니다. 그렇다면, 첫번째 테스트를 두번하지 않을까요? 결국, 첫번째 테스트가 더 정확했습니다. 두번째 테스트가 필요한 이유는 첫번째 테스트를 독립적으로 확인하기 위함입니다. 즉, \(\Pr(D_1, D_2 | H) = \Pr(D_1 | H) \Pr(D_2 | H)\) 이라는 암묵적인 가정을 했습니다. 통계학에서는 이런 확률 변수를 조건에 독립적이라고 하며, \(D_1 \perp\!\!\!\perp D_2 | H\) 라고 표현합니다.

2.6.4. 요약¶ 이 절에서 우리는 확률, 독립, 조건 독립, 그리고 기본적인 결론을 도출하는데 이것들을 어떻게 사용하는지를 알아봤습니다. 이 개념들은 아주 유용합니다. 다음 절에서는 나이브 베이즈 분류기(Naive Nayes)를 사용한기본적인 예측을 하는데 이 개념들이 어떻게 사용되는지 살펴보겠습니다.

2.6.5. 문제¶ \(\Pr(A)\) 과 \(\Pr(B)\) 확률로 두 사건이 주어졌을 때, \(\Pr(A \cup B)\) 와 \(\Pr(A \cap B)\) 의 상한과 하한을 구하세요. 힌트 – Venn Diagram을 사용하는 상황을 그려보세요. 연속적인 사건, 즉 \(A\) , \(B\) , \(C\) , 들이 있는데, \(B\) 는 \(A\) 에만 의존하고, \(C\) 는 \(B\) 에만 의존한다고 가정합니다. 이 경우 교차 확률(joint probability)를 간단하게 할 수 있을까요? 힌트 – 이는 Markov Chain 입니다.

[딥러닝 입문 5] 확률·통계의 기초(1

반응형

5. 확률 · 통계의 기초

여기서는 기계학습에 이용하는 확률, 통계의 개념과 용어를 설명합니다.

세상에는 ‘무작위’로 일어나는 사건이나 배경의 메커니즘을 모르기 때문에 무작위로 취급해야만 하는 사건이 존재합니다. 이러한 임의의 사건을 이론적으로 취급하자면 사건 자체나, 사건 사이의 관계를 수학적으로 설명할 수 있어야 합니다. 확률론에서는 랜덤 하게 발생한 일을 사건(event)이라고 합니다(정확한 정의는 생략합니다).

여기서는 먼저 사건을 설명하는 도구로서 확률분포를 도입하고 이와 관련된 개념(주변 확률, 조건부 확률, 확률 변수의 독립)을 설명합니다. 또한 이러한 개념을 이용하여 베이즈의 정리를 설명합니다. 베이즈 정리에 의하면, 어떤 사건이 관측되었을 때, 그 원인이 되는 사건이 일어난 확률을 계산할 수 있습니다. 다음은 확률분포 중에서 관측 데이터에 적합한 최적 확률분포를 선택하는 방법인 최대사후확률추정치(MAP 추정)을 소개합니다. 기계 학습의 맥락에서, 이들은 훈련모델의 ‘최적’ 파라미터를 결정하도록 대응합니다. 마지막으로, 기계 학습에서 자주 사용되는 통계 용어(평균, 분산, 표준편차, 상관계수 등)를 설명합니다.

5.1 확률 · 통계 및 기계학습의 관계

기계학습 시스템이 학습에 사용하는 것은 제한된 수의 관측 데이터지만, 대부분의 기계학습 태스크에서 원하는 것은 주어진 관측 데이터 뒤에 있는 보편성과 법칙을 파악하고, 미래의 사건에 대한 예측을 실시하는 것입니다. 기계학습은 그것을 달성하기 위해 통계학의 개념을 이용합니다.

통계학은 어떤 집단 전체에 대하여 조사하기 어려운 경우 집단에서 무작위 샘플링을 실시하여 원래 집단의 특성을 추정합니다. 수중에 있는 관측 데이터를 어떤 법칙에 의해 얻을수 있는 확률적인 샘플로 간주하여, 기계학습과 통계학을 연결시킵니다. 통계학을 이용하는 것으로, 어느 데이터가 미지의 데이터 원천에서 발생하기 쉬운지, 데이터가 틀렸는지, 어떤 방법으로 모델을 학습시키면 좋을지 등의 문제를 객관적으로 판단할 수 있도록 합니다. 또한 학습시킨 모델의 성능에 대한 이론적 보증도 통계에 의해 가능합니다. 이러한 기계학습의 통계적 측면을 강조할 경우를 ‘통계적 기계학습’이라고 합니다.

5.2 확률 변수와 확률 분포

현대 수학에서 널리 이용되는 ‘확률’의 개념을 공식화하기 위해 다양한 준비가 필요하므로, 이 문서에서는 ‘확률’이라는 말을 수학적으로 엄밀하게 정의하지는 않습니다. 대신 다음과 같이 생각합시다. 어느 대상으로 하는 현상에서 다양한 이벤트를 얻을 때, 각각의 이벤트마다 그것이 ‘어느 정도 일어날 것인가’라는 정도를 생각한다면, 확률은 그 정도를 말하는 것으로 합시다. 그리고 그 확률에 따라 다양한 값을 취할 수 있는 확률 변수(random variable)를 알아봅시다. 확률 변수는 이름에 ‘변수’라고 붙어 있습니다 만, ‘이벤트’를 ‘수치’로 변환하는 함수로 생각하면 쉽게 이해할 수 있습니다. 예를 들어, “동전을 던져 앞면이 나온다”는 이벤트를 ‘1’이라는 ‘수치’로 변환하고, “동전을 던져서 뒷면이 나온다”라는 이벤트를 ‘0’이라는 ‘수치’로 변환하는 함수를 생각하면, 이것은 ‘1’또는 ‘0’값 중 하나를 취할 수 있는 확률 변수(주석 1)라는 것입니다.

◇ 주석 1

여기에서는 개념의 설명을 쉽게하기 위해, 이 예와 같이 이산적인 값을 갖는 확률 변수를 고려하고, 특별히 명시하지 않는 이상 연속 값의 확률 변수는 생각하지 않기로 합니다.

그럼 확률적 현상의 예를 생각해 보겠습니다. 어느 찌그러진 주사위가 있어서, “주사위를 던져 x라는 눈이 나왔다”는 사건(주석 2)을 x라는 수치에 대응하는 확률 변수 X가 있다고 합시다. 그리고 이 확률 변수가 취할 수 있는 모든 값이 각각 어떤 확률로 출현하는지를 나타낸 표가 아래와 같습니다.

◇ 주석 2

x 는 1,2,3,4,5,6 중 하나입니다. 즉 x∈{1,2,3,4,5,6}

확률 변수 X값 그 값을 취할 확률 1 0.3 2 0.1 3 0.1 4 0.2 5 0.1 6 0.2

이러한 표를 확률 분포(probability distribution)라고 합니다. 확률 분포에는 중요한 제약이 있으며, 「확률 변수가 취할 수 있는 모든 값의 확률을 모두 더하면 합이 반드시 1이 될 것」 , 「모든 확률은 0이상의 값일 것」 이렇게 두 가지를 항상 충족시켜야 합니다. 위 표의 왼쪽 열의 수치를 실현 값이라고 하며 소문자 x로 나타냅니다. 그리고 오른쪽 열의 각각의 x에 대응하는 확률을 p(x)라고 쓸 수 있습니다. 즉 위의 표에서 p(1)=0.3, p(2)=0.1,…… 입니다. 이 표기법을 사용하면 확률 분포를 가지는 2개의 제약은 다음과 같이 나타낼 수 있습니다.

여기에서 ∑x 는 모든 가능한 x값의 합을 나타내며, 위의 주사위의 예에서는

가 되겠습니다. ∀x는 가능한 x의 모든 값에서, 오른쪽의 조건 ( p(x)≥0 )가 성립한다는 것을 의미합니다.

p(1)=0.3이라는 것은, 확률 변수 X가 1을 취할 확률입니다만, 이것을 p(X=1)=0.3으로 쓰고 있습니다. 위의 p(x)는 확률 변수 X의 존재를 암시적으로 가정하고 p(X=x)를 쉽게 표기한 것, 즉 X라는 확률 변숫값 x를 취하는 확률로 생각할 수 있습니다. 한편, p(X)와 확률 변수만을 인수로 할 경우, 위의 표와 같은 확률 분포를 보입니다.

5.3 결합 분포 · 주변 확률

앞 절에서는 하나의 확률 변수에 대하여 그 분포란 무엇인가와 분포가 가지는 제약에 대해 설명했습니다. 이 절에서는 여러 확률 변수가 등장할 경우에 대해 생각해봅시다.

먼저 구체적인 예를 들어 보면, 2개의 주사위가 있습니다. 각각의 주사위에서 나오는 눈을 2개의 확률 변수 X, Y로 나타냅니다. 이 2개의 주사위를 동시에 흔들어, 첫 번째 주사위 x값을 취하고, 두 번째 주사위 y값을 취하는 사건의 확률은 다음과 같이 표기합니다.

x, y는 모두 1,2,3,4,5,6의 6개의 숫자 중 하나입니다. 예를 들어, “3”과 “5”의 눈이 나올 사건의 확률은

로 표시됩니다. 이와 같이, X=3이 되는 승리하는 Y=5이되는 등 여러 조건을 지정했을 때, 그들이 모두 동시에 성립할 확률을 동시 확률 (joint probability) 이라고합니다.

그럼 다음으로, 2개의 주사위를 별도로 살펴봅시다. 예를 들어, “첫 주사위 눈이 3″이라는 사건이 일어날 확률 p(X=3)은 첫 번째 주사위가 3이고, 두 번째 주사위가 1일 경우 / 2일 경우 / 3일 경우 /… / 6일 경우, 이렇게 6개의 패턴이 발생할 확률을 모두 더한 것입니다. 즉,

로 표시할 수 있습니다. 이때, ∑y는 “Y의 취할 수 있는 모든 값 y에 대한 합”입니다. 이것을 “(두 번째 주사위 값이 뭐든) 첫 번째 주사위 값이 x일 확률”로 일반화하면 다음과 같이 됩니다.

마찬가지로, “(첫 번째 주사위가 뭐든) 두 번째 주사위 y일 확률”은 첫 번째 주사위에 대해 가능한 모든 값의 확률의 합을 취하면 좋기 때문에,

가 됩니다. 이처럼 동시 확률이 주어졌을 때, 주목하지 않는 쪽의 확률변수가 취할 수 있는 모든 값에 대해 동시 확률을 계산하고 그 합을 취하는 것을 주변화(marginalization)라고 부르며, 결과적으로 얻는 확률을 주변 확률(marginal probability)이라고 합니다. 또한 주변 확률을 그 주목하고 있는 확률 변수가 취할 수 있는 모든 값에 대하여 나열하는 것을 주변 확률분포(marginal probability distribution)라고 합니다. 또한, 위의 예처럼 두 확률 변수의 동시 확률을 생각할 때, 취할 수 있는 모든 조합의 확률을 나열하는 것을 결합 분포(joint distribution)라고 합니다.

여기에서 2개의 주사위의 결합 분포표는 커져버리기 때문에 더 간단한 예로, 앞면이 나올 확률과 뒷면이 나올 확률이 다른 2개의 동전을 생각해 봅시다. 이 2개의 동전을 동시에 던질 때의 앞뒤 조합의 결합 분포가 다음과 같다고 합시다.

Y = 앞면 Y = 뒷면 X = 앞면 1 / 5 2 / 5 X = 뒷면 1 / 5 1 / 5

여기에서 첫 번째 동전의 양면을 나타내는 확률 변수를 X, 두 번째 동전의 양면을 나타내는 확률 변수를 Y로 하고 있습니다. 2개의 동전이 모두 앞면이 될 확률은 p(X=앞면,Y=앞면)=1/5 입니다.

그럼, 이 표 안의 숫자를 행별로 합계를 내 봅시다. 첫 번째 줄은

입니다. 이것은

(주석 3)을 계산하는 것이므로, 주변화에 의해 p(X=앞)라는 주변 확률을 추구하는 것과 동일합니다.

◇ 주석 3

y는 두 번째 동전이 취할 수 있는 상태로, 이 경우 ‘앞’과 ‘뒤’의 둘 중 하나.

마찬가지로, 첫 번째 열 값을 합계하여 보면, 이번에는

(주석 4)를 계산하는 것이므로, 주변화에 의해 P(Y=앞)이라는 주변 확률을 계산하는 것입니다.

◇ 주석 4

x는 첫 번째 동전이 취할 수 있는 상태로, 이 경우 ‘앞’과 ‘뒤’의 둘 중 하나.

이렇게 계산된 주변 확률을 위의 결합 분포의 표로 나타내 보겠습니다.

Y = 앞면 Y = 앞면 p(X) X = 앞면 1 / 5 2 / 5 3 / 5 X = 뒷면 1 / 5 1 / 5 2 / 5 p(Y) 2 / 5 3 / 5

이처럼 주변 확률은 종종 동시 분포표로 기술됩니다.

반응형

확률과 통계가 이뤄낸 인공지능 성과

전체보기 블로그형 목록형 웹진형 확률과 통계가 이뤄낸 인공지능 성과 | 나를 위한 책 리뷰 [도서]수학의 쓸모 닉 폴슨,제임스 스콧 공저/노태복 역

더퀘스트 | 2020년 04월 내용 편집/구성 위 상품을 구매하면, 리뷰등록자에게 상품판매대금의 3%가 적립됩니다. (상품당 최대 적립금액 1,000원) 애드온 2 안내 수학을 그럭저럭 열심히 했던 것 같은데 고등학교때부터는 나를 배신하는 수학점수 때문에 수학과 좋은 사이를 유지할 수 없었다. 보란듯이 수학을 삶에서 배제시켜도 되는 과를 전공하며 자유롭게 살았고 맡은 업무에서도 대체로 수학이 필요치 않아 역시 학교에서 배운 수학은 써먹을 데가 없는 거였다며 후련해했다. 때로 통계자료를 활용해야 할 필요성이 생기긴 했지만 요청하는 데이터 처리를 맡아줄 동료가 있어 그냥저냥 수학과 거리를 둔 채 살아도 무방하다고 생각했다. 하지만 가끔 타인의 도움없이 주어진 수치들을 활용해 어떤 의미있는 정보를 얻어야 할 때라거나 통계 자료를 자기입맛에 맞게 뽑아쓴 기사가 미심쩍어 확인하고 싶어질 때, 재테크에 관심을 갖고 이익과 손실을 따질 때 인정하긴 싫지만 수학은 생활에 필요했다.

학창시절 선생님들이 수학 문제만 죽어라 풀리지 말고 생활 속 수학의 유용성에 대해 누군가 일찌감치 일깨워 줬다면 좀더 적극적으로 수학에 매달리지 않았을까 하고 뒤늦은 변명을 해보지만, 어쨌거나 그런 아쉬움과 호기심이 쌓여 과거의 나 같으면 알아서 걸렀을 이 책 <수학의 쓸모>도 읽고 싶어졌다. 수학의 유용성을 다룬 듯한 한글 제목과 달리 이 책의 원제는 이다. AIQ는 여러 약자로 사용되는 것 같지만 이 책에서는 Artificial Intelligence Quotient ‘인공 지능 지수’ 쯤으로 해석이 될 것 같다. 통계학 교수인 2명의 저자는 총 7개의 챕터에서 과거부터 현대까지 국가나 기업, 개인들이 어떻게 통계와 확률, 패턴 등을 읽어내 가치있는 정보로 활용했으며 방정식과 제곱근 규칙, 가정 등을 적용해 문제를 해결하는데 성공하거나 실패했는지 또 이러한 수학적 활용을 통해 과학분야와 현재 인공지능 개발에 이르기까지 기여하는 바가 무엇인지 등을 소개한다.

[I. 넷플릭스가 취향을 읽는 법: 확률이라는 언어]에서는 통계학 역사에서 가장 위대한 업적을 남긴 조건부 확률이라는 알고리즘을 활용해 2차대전에서 그 데이타를 의미있는 자료로 활용한 왈드의 이야기를 소개한다. 덕분에 넷플릭스라던가 현재의 개인화 맞춤형 서비스등이 가능해지기도 했지만 또 대선시 유권자 분열 등으로 악용된 사례들을 지적한다. 이런 시스템의 신뢰할만한 법적인 감독체제의 필요성이나 맞춤형 요법 등 의료시스템의 성장을 가져올 수 있는 알고리즘의 미래도 제시한다.

[II. 수식 한 줄로 미래를 계산하기: 패턴과 예측 규칙]에서는 허블 이전에 ‘헨리에타 레빗’이라는 한 여성천문학자가 별의 거리를 재기 위한 오랜 관측 결과 기록중 반복되는 패턴의 의미를 읽어냄으로써 현대 과학에서 우주 크기 측정이나 암 진단, 농사시 오이 모양 분류 시스템, 인공지능 번역기 등이 가능하게 됐다는 이야기를 소개한다. 그녀가 맥동변광성을 이용해 우주의 크기를 재는 기념비적인 공식을 발표했으나 여성 천문학자를 인정해주지 않았던 당시 시대 상황에 인정받지 못했고, 그 이후 그 공식을 활용한 허블만 주목을 받고 있는 현실을 꼬집기도 했다. 맥동변광성이라던가 헨리에타 레빗의 규칙이라던가 살짝 어렵기는 했지만 두려움을 떨치고 마음을 열면 이해할 수 있는 수준의 도표와 수치가 보이기 시작했다.

[III. 데이터의 홍수에서 살아남기: 베이즈 규칙]에서는 자율주행차가 SLAM(Simulataneous Localization and mapping) 동시적 위치 인식 및 지도 작성을 통해 자신이 도로상에서 어디있는지를 파악하는 베이즈 규칙을 통해 가동되는 원리를 소개한다. 2차 대전에서연합군이 독일의 보트를 찾아내는 데 이 베이지언 검색인데 사전 확률을 통해 검색을 시작해 데이터를 통해 감소한 사후확률로 타 지역의 데이터 확률을 높여 자신의 믿음을 갱신하고 검색을 용이하게 한다는 내용도 흥미로웠다.

[IV. 디지털 비서와 대화하는 법: 통계와 알고리즘]에서는 ‘그레이스 호퍼’라는 미해군 장교였던 여성이 서브루틴 목록을 저장해 필요할 때마다 컴퓨터가 스스로 프로그래밍하도록 하는 컴파일러를 만들어내고 숫자가 아닌 언어를 인식하게 하는 컴퓨터 프로그래밍을 개발해내 가능하게 한 업적이 인상적이었다. 규칙이 너무 많고 모호한 언어의 한계를 극복하기 위해 통계를 활용함으로써 인공지능 분야에 혁신적인 성장을 가져온 사례도 수학적인 예시와 함께 소개한다.

[V. 행운과 스캔들 사이, ‘이상’을 탐지하라: 변동성]에서는 뉴턴이 영국 왕립조폐국에서 근무한 적이 있으며 당시 동전깎기가 성행해 변동성을 일으킨 범죄들을 뉴턴이 견본화폐검사를 사용해 근본적으로 해결하지 못했던 사례를 이야기하며 제곱근 규칙을 사용했더라면 문제를 해결할 수 있었음을 지적한다. 현재는 대량의 데이터 집합으로부터 알고리즘을 통해 변동성을 이해하고 이상을 찾아내는 일을 기계가 수행해 신용카드 부정행위, 경찰관이 소지하는 방사능 센서 작용, F1 자동차경주대회에서 영향을 미칠 수 있는 변수 검사 등에 활용한다고 한다.

[Ⅵ. 일상에서 틀리지 않는 법: ‘잘 세운 가정’의 힘]에서는 이 인공지능 시대에 중요한 것은 기계가 할 수 없는 인간이 세울 수 있는 ‘가정’이며, 어떤 목적을 지니고 어떤 자료를 선별해 어떤 가정을 세우느냐에 따라 다른 결과를 도출시킬 수 있음을 지적한다. 오늘날의 알고리즘은 지시받안 내용만 수행하는 단계이므로 사람은 AI를 활용시 타당한 결과를 얻기위해 데이터 수집과 조직화과정, 의사결정에 책임감을 가져야함도 강조한다.

[Ⅶ. 다음 혁신이 일어날 곳은?: 공중보건과 데이터 과학]에서는 크림전쟁에서 의료서비스에서 수학과 데이터 활용을 통해 공중보건분야에 획기적인 개선효과를 가져온 ‘나이팅게일’의 활약부분을 소개하며 AI시대에 의료통계 수집과 공유, 분석을 통해 의료서비스 시스템의 혁신이 가져올 바람을 드러내기도 한다. 프라이버시 문제나 의료데이터 기록 표준 미흡, 수익창출을 이유로 의료 정보 공유를 꺼려하는 병원들 때문에 의료 데이타 활용의 한계와 함께 해킹에 취약한 병원의 정보보안 시스템 환경도 지적한다.

서문에 ‘수학을 전혀 쓰지 않고도 이 책을 쓸 수 있었다’는 저자의 말처럼 책에 나온 수학적 예시를 다 이해하지 못했음에도 이 책을 그럭저럭 이해하고 저자가 전달하려는 바를 파악할 수 있었다. 그러나 내가 수학을 좀더 잘 알았더라면 이 책의 예시까지 완벽하게 재미있게 읽혔을텐데 하는 아쉬움은 있다. 확실성보다는 확률을 다루고, 무슨 명령을 따아야 하는지 통계 데이타를 학습해 스스로 알아낸다는 ‘AI 알고리즘’의 성격을 가까이 깨닫게 된 것, 수과학분야에서 활약한 멋진 여성 선구자들의 이야기를 알게 된 것도 추가로 얻은 수확이다. ——————————- <책 중에서> // 편향되고 정보가 불충분한 의사결정 알고리즘은 작은 두뇌 속에 있다고 해서 작은 실리콘칩에서 작동하는 것보다 결코 덜 해롭지 않다. 편견에 사로잡힌 사람들 때문에 고통받는 사람들이 AI로부터 다른 조언을 듣게 된다면 세상이 더 나아지지 않을까? AI알고리즘의 추론과 편향은 고칠 수도 있으니까. // 혁신은 전부 함께 힘을 모을 때 일어난다. 모쪼록 플로렌스 나이팅게일의 가장 굳건한 결단력이 여러분 모두의 마음 속에 깃들기를 바란다. // 이 시스템들은 현재 계속 발전하고 있다. 새로운 데이터가 들어올 때마다 부정거래에 관해 조금씩 더 배워가기 때문이다. 솔로몬왕과 아이작 뉴턴이 이 시대에 살았다면 둘다 이런 발전을 자랑스러워 했을 것이다. // 수많은 언어규칙 때문에 정작 본인들조차 의사소통이 원활하지 않은 인류는 어떻게 인간의 언어를 구사하는 기계를 만들었는가.

– 예스24 리뷰어스클럽을 통해 책을 제공받았습니다.

이 글이 좋으셨다면 SNS로 함께 공감해주세요. Tweet 댓글( 0 ) 트랙백( 0 ) 이 리뷰를 | 추천 2 | 수정 | 삭제 이벤트 수정/삭제

So you have finished reading the 인공 지능 확률 과 통계 topic article, if you find this article useful, please share it. Thank you very much. See more: 인공지능 조건부확률, 딥러닝 확률과 통계, 인공지능 확률과 통계 책, 머신러닝 확률과 통계, 컴퓨터공학과 확률과 통계, 공학 속 확률과 통계, 알고리즘 조건부확률, 기계공학 확률과 통계

Leave a Comment