Phân phối xác suất (Distributions) trong không gian xác suất (Probability spaces) là một khái niệm quan trọng trong lý thuyết xác suất và thống kê. Nó là một mô hình toán học mô tả khả năng xảy ra của các giá trị khác nhau mà một biến ngẫu nhiên có thể nhận. Nó là một công cụ quan trọng trong lý thuyết xác suất và thống kê, giúp chúng ta hiểu và dự đoán các sự kiện ngẫu nhiên.
Trong bài 1, chúng ta biết rằng không gian xác suất là một mô hình toán học bao gồm ba phần tử:
- Không gian mẫu: Tập hợp tất cả các kết quả có thể xảy ra của một thử nghiệm.
- Sự kiện: Một tập con của không gian mẫu.
- Xác suất: Một hàm gán cho mỗi sự kiện một số thực từ 0 đến 1, thể hiện khả năng xảy ra của sự kiện đó.
1. Các loại phân phối xác suất
Phân phối xác suất là cách xác định xác suất của các kết quả khác nhau trong không gian xác suất. Phân phối này có thể được mô tả dưới nhiều dạng, tùy thuộc vào ngữ cảnh và loại biến chúng ta đang làm việc.
1.1. Phân phối xác suất rời rạc (Discrete Probability Distribution):
Dùng cho các biến ngẫu nhiên rời rạc (như kết quả của một phép thử ngẫu nhiên có tập hợp hữu hạn các khả năng). Một ví dụ là phân phối xác suất của việc gieo một con xúc xắc, với các giá trị khả dĩ là {1, 2, 3, 4, 5, 6}.
Các loại phân phối xác suất rời rạc là:
-
- Phân phối Bernoulli: Mô tả một thử nghiệm có hai kết quả (thành công hoặc thất bại). Ví dụ: Tung một đồng xu. Kết quả có thể là sấp (1) hoặc ngửa (0). Xác suất mỗi kết quả là 0.5.
- Phân phối nhị thức: Mô tả số lần thành công trong n lần thử nghiệm Bernoulli độc lập. Ví dụ: Tung một đồng xu 10 lần. Số lần xuất hiện mặt sấp là một biến ngẫu nhiên tuân theo phân phối nhị thức.
- Phân phối Poisson: Mô tả số lần xảy ra của một sự kiện trong một khoảng thời gian hoặc không gian nhất định. Ví dụ: Số cuộc gọi đến tổng đài trong một giờ tuân theo phân phối Poisson.
- Phân phối hình chữ nhật: Mô tả một biến ngẫu nhiên có khả năng nhận bất kỳ giá trị nào trong một khoảng giới hạn với xác suất như nhau. Ví dụ: Gieo một con xúc xắc 6 mặt. Mỗi mặt có xác suất xuất hiện bằng nhau.
1.2- Hàm khối xác suất (Probability Mass Function - PMF):
Dùng để mô tả xác suất của mỗi kết quả riêng lẻ. Ví dụ, nếu gieo một con xúc xắc công bằng, PMF là:
1.3. Phân phối xác suất liên tục (Continuous Probability Distribution):
Dùng cho các biến ngẫu nhiên liên tục (như chiều cao của người, thời gian cần để hoàn thành một nhiệm vụ). Trong trường hợp này, xác suất của một kết quả đơn lẻ bằng 0, và chúng ta quan tâm đến xác suất của một khoảng giá trị.
Các loại phân phối xác suất liên tục là:
- Phân phối chuẩn: Là một trong những phân phối quan trọng nhất, thường được sử dụng để mô hình hóa nhiều hiện tượng tự nhiên. Ví dụ: Chiều cao của người trưởng thành thường tuân theo phân phối chuẩn.
- Phân phối đều: Tương tự phân phối hình chữ nhật, nhưng cho biến ngẫu nhiên liên tục. Ví dụ: Thời điểm một xe buýt đến trạm dừng trong khoảng thời gian 1 giờ, nếu xe buýt đến ngẫu nhiên trong khoảng thời gian đó.
- Phân phối mũ: Mô tả thời gian chờ đợi giữa hai sự kiện liên tiếp trong một quá trình Poisson. Ví dụ: Thời gian chờ đợi giữa hai cuộc gọi đến tổng đài tuân theo phân phối mũ.
- Phân phối t: Được sử dụng để kiểm định giả thuyết về trung bình của một mẫu khi độ lệch chuẩn của quần thể không biết. Ví dụ: Sử dụng để kiểm định giả thuyết về trung bình của một mẫu khi độ lệch chuẩn của quần thể không biết.
- Phân phối F: Được sử dụng để so sánh phương sai của hai mẫu. Ví dụ: Sử dụng để so sánh phương sai của hai mẫu.
1.4. Hàm mật độ xác suất (Probability Density Function - PDF):
Mô tả mật độ của xác suất trên một khoảng giá trị. Ví dụ, với một biến ngẫu nhiên liên tục tuân theo phân phối chuẩn (Gaussian Distribution), PDF có dạng:
2. Hàm phân phối xác suất
Hàm phân phối xác suất là một hàm toán học mô tả xác suất để một biến ngẫu nhiên nhận giá trị nhỏ hơn hoặc bằng một giá trị x cho trước. Có hai loại hàm phân phối xác suất chính:
- Hàm khối xác suất (PMF): Áp dụng cho các biến ngẫu nhiên rời rạc. Nó cho biết xác suất để biến ngẫu nhiên nhận đúng một giá trị cụ thể.
- Hàm mật độ xác suất (PDF): Áp dụng cho các biến ngẫu nhiên liên tục. Nó cho biết xác suất để biến ngẫu nhiên nằm trong một khoảng giá trị nhất định.
3. Tại sao phân phối xác suất quan trọng?
Phân phối xác suất giúp chúng ta mô hình hóa các hiện tượng ngẫu nhiên trong thực tế, từ các hiện tượng đơn giản như tung đồng xu đến các hiện tượng phức tạp như biến động giá cổ phiếu. Dựa trên phân phối xác suất, chúng ta có thể dự đoán khả năng xảy ra của các sự kiện trong tương lai. Phân phối xác suất cung cấp cơ sở để đưa ra các quyết định trong nhiều lĩnh vực, từ kinh doanh đến khoa học. Phân phối xác suất là công cụ cơ bản trong kiểm định giả thuyết thống kê.
Chẳng hạn, chúng ta có thể tính toán:
- Xác suất của một biến cố cụ thể: Sử dụng PMF hoặc PDF để xác định xác suất của biến cố xảy ra trong một phạm vi cụ thể.
- Kỳ vọng toán học (Expected Value): Là giá trị trung bình dự kiến của một biến ngẫu nhiên, có thể được tính bằng tích phân (đối với phân phối liên tục) hoặc tổng (đối với phân phối rời rạc) của các giá trị có thể của biến nhân với xác suất tương ứng của chúng.
- Phương sai (Variance): Đo lường mức độ phân tán của biến ngẫu nhiên quanh giá trị kỳ vọng của nó.
4. Ứng dụng của một số loại phân phối xác suất thông dụng
Ứng dụng của một số phân phối xác suất thông dụng bao gồm:
- Phân phối Bernoulli: Được sử dụng cho các phép thử có hai kết quả (thành công hoặc thất bại).
- Phân phối nhị thức (Binomial Distribution): Dùng cho tổng số lần thành công trong nhiều phép thử độc lập.
- Phân phối chuẩn (Normal Distribution): Được dùng rộng rãi trong thống kê, miêu tả các dữ liệu có xu hướng tập trung xung quanh giá trị trung bình.
- Phân phối Poisson: Dùng để mô tả số lượng sự kiện xảy ra trong một khoảng thời gian cố định.