درخت بی‌برگ

یک تناقض آشکار

درخت بی‌برگ

یک تناقض آشکار

درخت بی‌برگ

اگر درختی را نشانتان دادند که برگ نداشت، بدانید که دورتان زده‌اند!

مقدمه‌ای بر احتمالات (ریاضیات پیش‌نیاز GNN)

سه شنبه, ۱۳ فروردين ۱۴۰۴، ۰۳:۴۸ ق.ظ

عدم قطعیت در زمینه یادگیری ماشین همه جا وجود دارد، بنابراین ما باید از نظریه احتمال برای تعیین کمیت عدم قطعیت استفاده کنیم. در این بخش، برخی از مفاهیم اساسی و توزیع‌های کلاسیک در نظریه احتمال را که برای درک بقیه مطالب ضروری هستند، مرور می‌کنیم.

مفاهیم اولیه و فرمول‌ها

در نظریهٔ احتمال، یک متغیر تصادفی (Random Variable) متغیری است که مقدار آن به‌صورت تصادفی تعیین می‌شود. برای مثال، اگر یک متغیر تصادفی را با \(X\) نشان دهیم که دو مقدار ممکن \(x_1\) و \(x_2\) دارد، آنگاه احتمال اینکه \(X\) برابر با باشد، به‌صورت زیر نوشته می‌شود:

\[P(X=x_1)\]

 و برای این وضعیت همیشه معادلۀ زیر برقرار است:

\[P(X=x_1)+P(X=x_2)=1\]

فرض کنید متغیر تصادفی دیگری به نام \(Y\) نیز وجود دارد که مقدار ممکن آن \(y_1\) است. احتمال اینکه و همزمان باشد، به‌صورت زیر نوشته می‌شود و به آن احتمال مشترک (Joint Probability) گفته می‌شود:

\[P(X=x_1,Y=y_1)\]

گاهی لازم است رابطه بین متغیرهای تصادفی را بدانیم؛ مثلاً احتمال اینکه \(X=x_1\) باشد با فرض اینکه \(Y=y_1\) باشد. این مقدار را می‌توان به صورت زیر نوشت:

\[P(X=x_1|Y=y_1)\]

به این مقدار، احتمال شرطی (Conditional Probability) گفته می‌شود؛ یعنی احتمال اینکه \(X=x_1\) باشد به شرط اینکه باشد.

با استفاده از مفاهیم بالا، می‌توانیم دو قاعدهٔ بنیادی نظریه احتمال را بنویسیم:

\[P(X=x)= \sum_y P(X=x,Y=y)\]

\[P(X=x,Y=y)=P(Y=y|X=x).P(X=x)\]

قانون اول، قانون جمع (Sum Rule) و قانون دوم، قانون ضرب (Product Rule) نام دارند.  با اندکی تغییر در فرم قانون ضرب، به رابطهٔ مفید دیگری می‌رسیم:

\[ P(Y = y \mid X = x) =  \frac{P(X = x,\; Y = y)}{P(X = x)} = \frac{P(X = x \mid Y = y) \cdot P(Y = y)}{P(X = x)} \]

که به آن فرمول معروف بیز (Bayes Formula) گفته می‌شود. توجه داشته باشید که این فرمول نه‌تنها برای دو متغیر، بلکه برای بیش از دو متغیر نیز برقرار است:

\[ P(X_i = x_i \mid Y = y) =  \frac{P(Y = y \mid X_i = x_i) \cdot P(X_i = x_i)} {\sum_{j=1}^{n} P(Y = y \mid X_j = x_j) \cdot P(X_j = x_j)} \]

با استفاده از قانون ضرب (Product Rule)، می‌توانیم قانون زنجیری (Chain Rule) را نتیجه‌ بگیریم:

\[ P(X_1 = x_1, \cdots, X_n = x_n) =\]\[ P(X_1 = x_1) \prod_{i=2}^{n} P(X_i = x_i \mid X_1 = x_1, \cdots, X_{i-1} = x_{i-1}) \]

که در آن \(X_1,X_2,...,X_n\) تعداد \(n\) متغیر تصادفی هستند.

میانگین یک تابع \(f(x)\) (که در آن \(x\) مقدار یک متغیر تصادفی خاص است) تحت توزیع احتمال \(P(x)\)، امید ریاضی (Expectation) تابع \(f(x)\) نامیده می‌شود.  برای یک توزیع گسسته، امید ریاضی به‌صورت زیر نوشته می‌شود:

\[ \mathbb{E}[f(x)] = \sum_{x} P(x) f(x) \]

معمولاً زمانی که \(x=f(x)\)، امید ریاضی \(\mathbb{E}[f(x)]\) نشان‌دهندهٔ میانگین مقدار \(x\) است. برای اندازه‌گیری میزان پراکندگی \(f(x)\) نسبت به مقدار میانگینش \(\mathbb{E}[f(x)]\)، واریانس (Variance) تابع \(f(x)\) را تعریف می‌کنیم:

\[ \mathrm{Var}(f(x)) = \mathbb{E} \left[ \left( f(x) - \mathbb{E}[f(x)] \right)^2 \right]  = \mathbb{E}[f(x)^2] - \left( \mathbb{E}[f(x)] \right)^2 \]

انحراف معیار (Standard Deviation) ریشهٔ دوم واریانس است. در یک سطح مفهومی، کوواریانس (Covariance) میزان تغییرات هم‌زمان دو متغیر را نشان می‌دهد:

\[ \mathrm{Cov}(f(x), g(y)) =  \mathbb{E}\left[\left(f(x) - \mathbb{E}[f(x)]\right) \left(g(y) - \mathbb{E}[g(y)]\right)\right] \]

مقدار بالاتر کوواریانس، نشان‌دهندهٔ ارتباط (وابستگی) بیشتر بین \(f(x)\) و \(g(y)\) است.

توزیع های احتمالی

توزیع‌های احتمال (Probability Distributions) احتمال یک متغیر تصادفی یا چند متغیر تصادفی را در هر حالت ممکن توصیف می‌کنند. چندین توزیع که در حوزهٔ یادگیری ماشین کاربرد زیادی دارند، در ادامه فهرست شده‌اند.

1. توزیع گاوسی (Gaussian distribution): که با نام توزیع نرمال (Normal distribution) نیز شناخته می‌شود، و به صورت زیر تعریف می‌گردد:

\[ N(x \mid \mu, \sigma^2) =  \sqrt{\frac{1}{2\pi \sigma^2}} \,  \exp\left(-\frac{1}{2\sigma^2}(x - \mu)^2\right) \]

که در آن:

  • \(\mu\) میانگین متغیر \(x\) است.
  • \(\sigma^2\) واریانس آن است.

2. توزیع برنولی (Bernoulli distribution): متغیر تصادفی \(X\) می‌تواند یکی از دو مقدار ۰ یا ۱ را بگیرد، و احتمال اینکه \(X=1\) باشد برابر است با \(p\). تابع توزیع آن به صورت زیر است:

\[ P(X = x) = p^x (1 - p)^{1 - x}, \quad x \in \{0, 1\} \]

واضح است که:

\[ \mathbb{E}(X) = p \quad \text{and} \quad \mathrm{Var}(X) = p(1 - p) \]

3. توزیع دوجمله‌ای (Binomial distribution): اگر آزمایش برنولی را \(N\) بار تکرار کنیم و تعداد دفعاتی که خروجی برابر با ۱ شده را با \(Y\) نمایش دهیم، آنگاه تابع توزیع به صورت زیر خواهد بود:

\[ P(Y = k) = \binom{N}{k} p^k (1 - p)^{N - k} \]

این تابع، توزیع دوجمله‌ای را تشکیل می‌دهد و دارای خواص زیر است:

\[ \mathbb{E}(Y) = np \quad \text{and} \quad \mathrm{Var}(Y) = np(1 - p) \]

4. توزیع لاپلاس (Laplace distribution): این توزیع به صورت زیر تعریف می‌شود:

\[ P(x \mid \mu, b) = \frac{1}{2b} \exp\left( -\frac{|x - \mu|}{b} \right) \] 

  • \(\mu\) میانگین (location parameter) است.
  • پارامتر مقیاس (scale parameter) است.

نظرات  (۰)

هیچ نظری هنوز ثبت نشده است

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی