Goodness of fit test là gì

Bảo mật & Cookie

This site uses cookies. By continuing, you agree to their use. Learn more, including how to control cookies.

Các chương trước chúng ta sử dụng hypothesis test và confidence interval để suy diễn ra các parameters cho population (ví dụ mean, proportions), chương 13 sẽ đề cập tới 3 quy trình thống kê được sử dụng khá phổ biến, nhưng không liên quan tới việc xác định popupation parameters. Các quy trình này được gọi là quy trình chi bình phương bởi vì nó dựa vào một loại phân phối là chi-square distribution.

Ba ứng dụng của chi bình phương là:

  • goodness-of-fit test
  • independence test
  • homogeneity test

13.1. Chi-square distribution

Một biến có phân phối chi bình phương nếu nó có dạng nghiêng sang phải (right-skewed curve). Có rất nhiều đường chi bình phương, và cách để phân biệt các đường là dựa vào mức độ tự do (degree of freedom) của nó (tương tự như t-distribution).

Một số đặc điểm của phân phối chi bình phương:

  • Vùng nằm dưới đường chi bình phương có giá trị = 1
  • Đường chi bình phương bắt đầu từ mốc 0 và kéo dài tới vô tận phía bên phải, nhưng không bao giờ chạm đường trục ngang
  • Lệch nghiêng sang phải
  • Khi mức độ tự do (DF) tăng lên thì đường chi bình phương càng giống phân phối chuẩn (normal curve, tức là dạng hình chuông bell shaped curve)

Bảng chi-square:

Bảng chi-square tương tự như bảng t. Cột ngoài cùng bên trái là các bậc tự do degree of freedom, kýhiệu χ20.99 thể hiện giá trị chi-square có phần diện tích alpha=0.99 phía bên phải. Ví dụ, xác định giá trị chi bình phương χ2 vùng alpha=0.10 và có bậc tự do 10, chính là 15.99.

Phần trăm (hay xác suất) của một biến có phân phối chi-square là phần diện tích phía bên phải hay bên trái?

Xác suất alpha = bên phải = giá trị P (X>=chisquare)

Xác xuất 1-alpha = bên trái = P (X <=chisquare)

Như vậy, bảng chi bình phương phía trên, dòng đầu tiên là xác suất P (X<=chisquare), dòng thứ hai là 1-alpha, dòng thứ ba là giá trị Chi-square của từng vùng alpha phía bên phải

13.2. Chi-square goodness-of-fit test (kiểm định độ phù hợp của mô hình)

Ứng dụng đầu tiên của chi bình phương là kiểm định độ thích hợp của mô hình (goodness-of-fit test)

Ví dụ, muốn xác định xem distribution của doanh số bán xe Nissans, Mazdas, Toyota và Honda của năm hiện tại có giống như distribution của năm trước không. Bảng đầu tiên là kết quả của năm trước (expected value E), bảng thứ 2 là kết quả của lấy mẫu 1,000 chiếc xe mới mua trong năm nay (observed value O).

Khi đó, giả thuyết không Ho sẽ là distribution giống nhau (mô hình phù hợp) và giả thuyết đối Ha sẽ là distribution khác nhau (mô hình không phù hợp). Chọn ý nghĩa thống kê alpha = 5%. Tính giá trị chisquare của biến:

Kết quả chạy số liệu, nếu P <= alpha,

thì bác bỏ giả thuyết Ho

13.3. Chi-square independence test (kiểm định tính độc lập của hai biến)

Ứng dụng thứ hai của chi bình phương là kiểm chứng độc lập (independence test).

Giả sử kết quả điều tra sample có hai biến mà chúng ta nghi ngờ nó có liên quan tới nhau (associated), khi đó ta sẽ thực hiện kiểm chứng độc lập trên sample đó và suy diễn ra cho cả population.

Ví dụ, giới tính có mối liên kết (association, connection) gì với thời gian làm homework hay không. Chúng ta sẽ kiểm chứng bằng cách sử dụng chi-square.

Giả thuyết sẽ là: Ho: hai biến không associated, và Ha: hai biến associated.

Chọn ý nghĩ thống kê alpha = 5%

Kết quả tính chi-square, χ2=sum (O-E)^2 / E, nếu P <= alpha, bác bỏ Ho

Cần phân biệt giữa association, correlation và causation: association là sự liên quan giữa biến x và y, nhưng không nhất thiết phải là quan hệ correlation hay causation, nó có thể là bất kỳ mối quan hệ nào. Còn correlation thì x và y có mối quan hệ tuyến tính với nhau, và có thể thể hiện dưới dạng một đường thẳng trên đồ thị (y=a+b*x), ví dụ khi x thay đổi thì y cũng thay đổi. Tuy nhiên, correlation giữa hai biến không nhất thiết là mối quan hệ causation x là nguyên nhân gây ra y, ví dụ x và y cùng biến thiên là do có một biến khác tác động lên cả hai biến

Technically, association refers to any relationship between two variables, whereas correlation is often used to refer only to a linear relationship between two variables.

Association is a very general relationship: one variable provides information about another. Correlation is more specific: two variables are correlated when they display an increasing or decreasing trend.

When we refer to a Pearsons chi-square test, we may be referring to one of two tests: the Pearsons chi-square test of independence or the Pearsons chi-square goodness-of-fit test.

Goodness of fit tests determine whether a data sets distribution differs significantly from a theoretical distribution. The data must be unpaired.

Tests of independence determine if unpaired observations of two variables are independent of one another.

13.4. Chi-square homogeneity test (Kiểm định tính thuần nhất)

Mục tiêu của dạng test này là để so sánh distribution của một variable trên hai hay nhiều population. Ví dụ, bạn có kết quả khảo sát về trình độ học vấn (cấp 3, đại học, thạc sĩ, tiến sĩ, PGS, GS) của người dân ở ba vùng Bắc Trung Nam, khi đó, bạn sẽ có câu hỏi thống kê sau: Cư dân ở ba vùng có đồng đều nhau/thuần nhất về trình độ học vấn không? Trong ví dụ này, ta cần kiểm tra distribution của variable trình độ học vấn trên ba tổng thể population Bắc Trung và Nam

Với dạng test này, Ho: distribution như nhau trên tất cả các tổng thể (thuần nhất), và Ha là distribution khác nhau giữa các tổng thể (không thuần nhất). Nếu P <= alpha thì có thể bác bỏ giả thuyết Ho.

Ví dụ, giả thuyết không Ho: cư dân của ba vùng có sự thuần nhất về trình độ học vấn; và giả thuyết đối Ha: không thuần nhất.

Chọn ý nghĩa thống kê alpha= 5%, hoặc 10%

Nếu kết quả chisquare có P < = alpha , có thể bác bỏ Ho

to be continued