[Xác suất thống kê/Chương V] Mô tả dữ liệu



CHƯƠNG V: MÔ TẢ DỮ LIỆU


I, Tóm tắt số liệu (Numerical summaries of data) 

* Giá trị trung bình mẫu (Sample mean)
- Ký hiệu là \(\overline{x}\), là thước đo xu hướng biểu thị giá trị trung bình của 1 tập dữ liệu mẫu
- Công thức giá trị trung bình mẫu: \[\overline{x} = \frac{x_1 + x_2 + \cdots + x_n}{n}\]

* Trung vị mẫu (Sample median)
- Là thước đo xu hướng biểu thị giá trị ở giữa của 1 tập dữ liệu khi nó được sắp xếp từ nhỏ đến lớn
- Nếu tập dữ liệu có:
+ Số mục chẵn: Trung vị là giá trị trung bình của 2 mục dữ liệu ở giữa
+ Số mục lẻ: Trung vị là mục dữ liệu ở giữa 

* Mốt mẫu (Sample mode)
- Là thước đo xu hướng biểu thị giá trị xuất hiện thường xuyên nhất của 1 tập dữ liệu
- Một tập dữ liệu có thể có:
+ Không có mốt (No mode): Tất cả các giá trị xuất hiện cùng tần suất
+ Đơn phương thức (Unimodal): Một giá trị xuất hiện thường xuyên hơn các giá trị khác
+ Song phương thức (Bimodal): 2 giá trị xuất hiện với tần suất cao nhất
+ Đa phương thức (Multimodal): Có nhiều hơn 2 giá trị xuất hiện với tần suất cao nhất

* Phương sai mẫu (Sample variance)
- Là thước đo mức độ phân tán của các giá trị trong mẫu xung quanh giá trị trung bình mẫu
- Công thức của phương sai mẫu là: \[s^2 = \frac{1}{n-1} \displaystyle \sum_{i = 1}^{n}(x_i - \overline{x})^2\]
- Độ lệch chuẩn mẫu: s

* Phạm vi mẫu (Sample range)
- Là sự khác biệt giữa các mục nhập dữ liệu tối đa và tối thiểu trong tập hợp
+ Dữ liệu phải là định lượng (quantitative)
+ Nếu n quan sát trong 1 mẫu được biểu thị là \(x_1, x_2, \cdots, x_n\) thì phạm vi mẫu là \[r = max x_i - min x_i, \text{ với max và min }\in 1 \leq i \leq n\] 

II, Biểu đồ thân và lá (Stem-and-leaf diagram) 

- Là cách tốt để có được màn hình hiển thị trực quan thông tin về một tập dữ liệu, trong đó \(x_i\) chứa ít nhất 2 giá trị

- Để xây dựng biểu đồ thân lá, ta làm theo các bước:
+ Chia mỗi số \(x_i\) thành 2 phần: Một thân, bao gồm 1 hoặc nhiều chữ số đầu tiên (leading number) và lá, bao gồm các chữ số còn lại
+ Liệt kê các giá trị thân trên 1 cột dọc
+ Ghi lại lá cho mỗi quan sát bên cạnh thân của nó
+ Viết các đơn vị cho thân và lá trên màn hình

Ví dụ: Điểm Listening TOEIC của 12 học sinh được liệt kê như sau: 55, 115, 225, 240, 330, 335, 385, 400, 405, 405, 495, 495
\(\Rightarrow\) Biểu đồ thân và lá là: 


III, Biểu đồ hộp (Box-plots)

* 3 phần 4 (Three quartiles)
-  Chia 1 tập dữ liệu thành 4 phần bằng nhau, các điểm chia được gọi là tứ phân vị (quartiles)
+ Tứ phân vị đầu tiên, \(q_1\) hoặc \(Q_1\): Là giá trị có khoảng 25%
+ Trung vị mẫu hoặc tứ phân vị thứ 2, \(q_2\) hoặc \(Q_2\): Là giá trị có khoảng 50%
Tứ phân vị thứ 3, \(q_3\) hoặc \(Q_3\): Là giá trị có khoảng 75% 
+ Khoảng tứ phân vị: IQR = \(Q_3 - Q_1\)

* Biểu đồ hộp (Box-plots)
- Là hình ảnh hiển thị mô tả các đặc điểm quan trọng của dữ liệu: 3 phần 4 (three quartiles), giá trị tối thiểu/tối đa, giá trị ngoại lai - bất thường (outliers) 


IV, Biểu đồ Histograms 

* Phân phối tần suất (Frequency distribution)
- Tạo phân phối tần suất: Chia phạm vi dữ liệu thành các khoảng (gọi là khoảng lớp, ô hoặc thùng) (intervals, cells or bins). Các thùng (bins) phải có chiều rộng bằng nhau 

Ví dụ: Điểm cuối kì của 1 nhóm 10 học sinh liệt kê như sau: 2.4, 4.4, 4.6, 5.0, 5.0, 5.8, 6.0, 7.4, 8.2, 9.0

Ta chia các khoảng điểm vào 5 thùng: 0-2; 2-4; 4-6; 6-8; 8-10 và đếm các giá trị mỗi khoảng trong các thùng đó



* Biểu đồ Histograms
- Là hình ảnh biểu thị phân phối tần suất
+ Ghi nhãn (label) ranh giới thùng (bin) theo thang ngang
+ Đánh dấu và ghi nhãn thang dọc theo tần suất (frequency) hoặc tần suất tương đối (relative frequency)
+ Trên mỗi thùng (bin), vẽ 1 hình chữ nhật có chiều cao bằng tần suất hoặc tần suất tương đối (relative frequency) tương ứng với thùng đó


* Biểu đồ trình tự thời gian (Times sequence plots) 
- Trình tự thời gian hoặc chuỗi thời gian là 1 tập dữ liệu trong đó các quan sát được ghi lại theo thứ tự chúng xảy ra 
- Biểu đồ chuỗi thời gian là 1 đồ thị trong đó trục dọc biểu thị giá trị quan sát được của biến (ví dụ là x) và trục ngang biểu thị thời gian (ví dụ là giây, phút, ngày, tháng, năm...)

P/s: Tài liệu nghiên cứu thêm (nếu cần) được tổng hợp ở link dưới sau:

Đăng nhận xét

0 Nhận xét