مقدمهای بر احتمالات (ریاضیات پیشنیاز GNN)
عدم قطعیت در زمینه یادگیری ماشین همه جا وجود دارد، بنابراین ما باید از نظریه احتمال برای تعیین کمیت عدم قطعیت استفاده کنیم. در این بخش، برخی از مفاهیم اساسی و توزیعهای کلاسیک در نظریه احتمال را که برای درک بقیه مطالب ضروری هستند، مرور میکنیم.
مفاهیم اولیه و فرمولها
در نظریهٔ احتمال، یک متغیر تصادفی (Random Variable) متغیری است که مقدار آن بهصورت تصادفی تعیین میشود. برای مثال، اگر یک متغیر تصادفی را با \(X\) نشان دهیم که دو مقدار ممکن \(x_1\) و \(x_2\) دارد، آنگاه احتمال اینکه \(X\) برابر با باشد، بهصورت زیر نوشته میشود:
\[P(X=x_1)\]
و برای این وضعیت همیشه معادلۀ زیر برقرار است:
\[P(X=x_1)+P(X=x_2)=1\]
فرض کنید متغیر تصادفی دیگری به نام \(Y\) نیز وجود دارد که مقدار ممکن آن \(y_1\) است. احتمال اینکه و همزمان باشد، بهصورت زیر نوشته میشود و به آن احتمال مشترک (Joint Probability) گفته میشود:
\[P(X=x_1,Y=y_1)\]
گاهی لازم است رابطه بین متغیرهای تصادفی را بدانیم؛ مثلاً احتمال اینکه \(X=x_1\) باشد با فرض اینکه \(Y=y_1\) باشد. این مقدار را میتوان به صورت زیر نوشت:
\[P(X=x_1|Y=y_1)\]
به این مقدار، احتمال شرطی (Conditional Probability) گفته میشود؛ یعنی احتمال اینکه \(X=x_1\) باشد به شرط اینکه باشد.
با استفاده از مفاهیم بالا، میتوانیم دو قاعدهٔ بنیادی نظریه احتمال را بنویسیم:
\[P(X=x)= \sum_y P(X=x,Y=y)\]
\[P(X=x,Y=y)=P(Y=y|X=x).P(X=x)\]
قانون اول، قانون جمع (Sum Rule) و قانون دوم، قانون ضرب (Product Rule) نام دارند. با اندکی تغییر در فرم قانون ضرب، به رابطهٔ مفید دیگری میرسیم:
\[ P(Y = y \mid X = x) = \frac{P(X = x,\; Y = y)}{P(X = x)} = \frac{P(X = x \mid Y = y) \cdot P(Y = y)}{P(X = x)} \]
که به آن فرمول معروف بیز (Bayes Formula) گفته میشود. توجه داشته باشید که این فرمول نهتنها برای دو متغیر، بلکه برای بیش از دو متغیر نیز برقرار است:
\[ P(X_i = x_i \mid Y = y) = \frac{P(Y = y \mid X_i = x_i) \cdot P(X_i = x_i)} {\sum_{j=1}^{n} P(Y = y \mid X_j = x_j) \cdot P(X_j = x_j)} \]
با استفاده از قانون ضرب (Product Rule)، میتوانیم قانون زنجیری (Chain Rule) را نتیجه بگیریم:
\[ P(X_1 = x_1, \cdots, X_n = x_n) =\]\[ P(X_1 = x_1) \prod_{i=2}^{n} P(X_i = x_i \mid X_1 = x_1, \cdots, X_{i-1} = x_{i-1}) \]
که در آن \(X_1,X_2,...,X_n\) تعداد \(n\) متغیر تصادفی هستند.
میانگین یک تابع \(f(x)\) (که در آن \(x\) مقدار یک متغیر تصادفی خاص است) تحت توزیع احتمال \(P(x)\)، امید ریاضی (Expectation) تابع \(f(x)\) نامیده میشود. برای یک توزیع گسسته، امید ریاضی بهصورت زیر نوشته میشود:
\[ \mathbb{E}[f(x)] = \sum_{x} P(x) f(x) \]
معمولاً زمانی که \(x=f(x)\)، امید ریاضی \(\mathbb{E}[f(x)]\) نشاندهندهٔ میانگین مقدار \(x\) است. برای اندازهگیری میزان پراکندگی \(f(x)\) نسبت به مقدار میانگینش \(\mathbb{E}[f(x)]\)، واریانس (Variance) تابع \(f(x)\) را تعریف میکنیم:
\[ \mathrm{Var}(f(x)) = \mathbb{E} \left[ \left( f(x) - \mathbb{E}[f(x)] \right)^2 \right] = \mathbb{E}[f(x)^2] - \left( \mathbb{E}[f(x)] \right)^2 \]
انحراف معیار (Standard Deviation) ریشهٔ دوم واریانس است. در یک سطح مفهومی، کوواریانس (Covariance) میزان تغییرات همزمان دو متغیر را نشان میدهد:
\[ \mathrm{Cov}(f(x), g(y)) = \mathbb{E}\left[\left(f(x) - \mathbb{E}[f(x)]\right) \left(g(y) - \mathbb{E}[g(y)]\right)\right] \]
مقدار بالاتر کوواریانس، نشاندهندهٔ ارتباط (وابستگی) بیشتر بین و است.
توزیع های احتمالی
توزیعهای احتمال (Probability Distributions) احتمال یک متغیر تصادفی یا چند متغیر تصادفی را در هر حالت ممکن توصیف میکنند. چندین توزیع که در حوزهٔ یادگیری ماشین کاربرد زیادی دارند، در ادامه فهرست شدهاند.
1. توزیع گاوسی (Gaussian distribution): که با نام توزیع نرمال (Normal distribution) نیز شناخته میشود، و به صورت زیر تعریف میگردد:
\[ N(x \mid \mu, \sigma^2) = \sqrt{\frac{1}{2\pi \sigma^2}} \, \exp\left(-\frac{1}{2\sigma^2}(x - \mu)^2\right) \]
که در آن:
- \(\mu\) میانگین متغیر \(x\) است.
- \(\sigma^2\) واریانس آن است.
2. توزیع برنولی (Bernoulli distribution): متغیر تصادفی \(X\) میتواند یکی از دو مقدار ۰ یا ۱ را بگیرد، و احتمال اینکه \(X=1\) باشد برابر است با \(p\). تابع توزیع آن به صورت زیر است:
\[ P(X = x) = p^x (1 - p)^{1 - x}, \quad x \in \{0, 1\} \]
واضح است که:
\[ \mathbb{E}(X) = p \quad \text{and} \quad \mathrm{Var}(X) = p(1 - p) \]
3. توزیع دوجملهای (Binomial distribution): اگر آزمایش برنولی را \(N\) بار تکرار کنیم و تعداد دفعاتی که خروجی برابر با ۱ شده را با \(Y\) نمایش دهیم، آنگاه تابع توزیع به صورت زیر خواهد بود:
\[ P(Y = k) = \binom{N}{k} p^k (1 - p)^{N - k} \]
این تابع، توزیع دوجملهای را تشکیل میدهد و دارای خواص زیر است:
\[ \mathbb{E}(Y) = np \quad \text{and} \quad \mathrm{Var}(Y) = np(1 - p) \]
4. توزیع لاپلاس (Laplace distribution): این توزیع به صورت زیر تعریف میشود:
\[ P(x \mid \mu, b) = \frac{1}{2b} \exp\left( -\frac{|x - \mu|}{b} \right) \]
- \(\mu\) میانگین (location parameter) است.
- پارامتر مقیاس (scale parameter) است.