Tính trung bình của phân phối chuẩn năm 2024

Định nghĩa: Biến ngẫu nhiên $X$ nhận giá trị trong $[-\infty , +\infty]$ được gọi là tuân theo quy luật phân phối chuẩn hay quy luật phân phối Gauss, ký hiệu là $N[\mu,\sigma^2]$ nếu hàm mật độ xác suất của $X$ có dạng sau: $f[x]= \dfrac{1}{\sqrt{2\pi}\sigma}\exp\left[-\dfrac{[x-\mu]^2}{\sigma^2}\right]$.

Chú ý: Đồ thị của hàm mật độ của phân phối chuẩn có hình cái chuông, và bởi vậy phân phối này còn được gọi là phân phối hình chuông. Trung điểm của cái chuông này chính là điểm $x = \mu$, và độ cao của chuông chính bằng $\dfrac{1}{\sigma\sqrt{2\pi}}$. Nếu $\sigma$ càng nhỏ thì chuông càng cao và càng "hẹp", ngược lại $\sigma$ càng lớn thì chuông càng thấp và càng rộng ra.

Các tham số đặc trưng: $E[X] = \mu$, $D[X] = \sigma^2$, $\sigma[X]=\sigma$.

Định nghĩa: Biến ngẫu nhiên $X$ tuân theo quy luật phân phối chuẩn với $E[X]=0, D[X] = 1$ thì BNN $X$ được gọi là tuân theo quy luật phân phối chuẩn tắc, ký hiệu là $N[0, 1]$.

Hàm mật độ của phân phối chuẩn tắc kí hiệu là $\varphi[x]$ cho bởi: $$\varphi[x]=\dfrac{1}{\sqrt{2\pi}}\exp\left[-\dfrac{x^2}{2}\right].$$

Hàm phân phối của phân phối chuẩn tắc kí hiệu là $\Phi[x]$ có biểu thức $$\Phi[x]=\dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^x\exp\left[-\dfrac{t^2}{2}\right]dt,\quad \forall x\in\mathbb R.$$

Hàm phân phối $\Phi[x]$ có tính chất sau:

  1. $\Phi[-x]=1-\Phi[x]$,
  2. Nếu $X$ có phân phối $N[0,1]$ thì với mọi $a>0$, ta có $$P[|X|>a]=2[1-\Phi[a]]\quad \text{và}\quad P[|X|=30 ta sẽ có phân phối mẫu của trung bình mẫu là phân phối chuẩn. Một số trường hợp, chỉ cần lấy mẫu >= 20 là ta có thể lấy được phân phối mẫu là phân phối chuẩn.

    Nếu lấy mẫu với kích thước nhỏ hơn 20, như kích thước N=5 của hình ở dưới thì ta sẽ ít khả năng có phân phối chuẩn. Như ví dụ sau, phân phối N=5 không phải là phân phối chuẩn, kể cả nếu lấy mẫu 10000 lần.

    Công thức

    Phân phối mẫu của trung bình mẫu là phân phối chuẩn, nên sẽ có 2 giá trị thống kê quan trọng: trung bình và độ lệch chuẩn

    Trung bình của phân phối mẫu

    \[ \mu = \mu_{\overline{x}} \]

    Trong đó:

    • \[ \overline{x} \] là trung bình mẫu
    • \[ \mu_{\overline{x}} \] là trung bình của phân phối mẫu của trung bình mẫu
    • \[ \mu \] là trung bình của tổ hợp
    • \[ n \] là kích thước mẫu

    Độ lệch chuẩn của phân phối mẫu

    \[ \sigma_{\overline{x}} = \frac{\sigma}{\sqrt{n}} = \frac{s}{\sqrt{n}} \] Trong đó:

    • \[ \overline{x} \] là trung bình mẫu
    • \[ \sigma_{\overline{x}} \] là độ lệch chuẩn của phân phối mẫu của trung bình mẫu
    • \[ \sigma \] là độ lệch chuẩn của tổ hợp
    • \[ n \] là kích thước mẫu
    • \[ s \] là độ lệch chuẩn của mẫu. Trên thực tế rất ít khi chúng ta biết độ lệch chuẩn của tổ hợp, nên thường hay dùng độ lệch chuẩn của mẫu

    Áp dụng công thức

    Quay trở lại phân phối mẫu của trung bình mẫu. Nhớ là ta lấy mẫu với kích thước là 25.

    Công thức trung bình của phân phối mẫu: \[ \mu_{\overline{x}} = \mu = 16.74 \]

    Công thức tính độ lệch chuẩn của phân phối mẫu: \[ \sigma_{\overline{x}} = \frac{\sigma}{\sqrt{n}} = \frac{12.02}{\sqrt{25}} = 2.404 \]

    Sử dụng công thức ta sẽ tính được phân phối mẫu của trung bình là phân phối chuẩn, có trung bình là 16.74 và độ lệch chuẩn là gần bằng 2.40. Trong thực nghiệm, trung bình của phân phối mẫu là 16.71, độ lệch chuẩn là 2.39 [mean, sd của phân phối mẫu trong hình N=25]. Con số chúng ta tìm được gần bằng con số thực nghiệm.

    Thay bằng lẫy mẫu 10,000 lần, nếu lấy mẫu 100,000 lần ta sẽ có con số chính xác, gần với thực tế hơn.

    Kết luận

    Hi vọng các bạn nắm được khái niệm về cách tính các giá trị của phân phối mẫu của trung bình mẫu. Đây là một trong những khái niệm quan trọng sử dụng nhiều trong toán thống kê và data science

Chủ Đề