Hướng dẫn chạy stata cho biê n iv

Bài này sẽ hướng dẫn thực hành từng bước hồi quy nhị phân trong Stata, có hình ảnh và dữ liệu minh họa, đồng thời giải thích ý nghĩa kết quả output của hồi quy.(Nhóm MBA Bách Khoa Hỗ Trợ Stata)

Khái niệm

Hồi quy logistic, còn được gọi là mô hình hồi quy logit, hay hồi quy nhị phân, được sử dụng để dự đoán mô hình mà biến phụ thuộc dạng nhị phân 0 hoặc 1. Trong mô hình logit "log odds" của biến phụ thuộc được mô phỏng như một sự kết hợp tuyến tính của các biến độc lập.

Ví dụ

Ở nước Mỹ, việc xét duyệt vào một số trường Đại Học chỉ xét điểm số, và 1 số điểm khác chứ không tổ chức thi trực tiếp như ở Việt Nam. Học Trung Học xong sẽ làm đơn, nộp các bằng cấp chứng chỉ cần thiết để trường Đại Học xét đậu hay rớt vào trường Đại Học đó.

Một nhà nghiên cứu quan tâm đến mô hình hồi quy nhị phân như sau:

3 biến độc lập:

  • Điểm cuối kì GRE
  • Điểm trung bình GPA
  • Uy tín của trường trung học rank ( có 4 mức 1 2 3 4), với 1 là uy tín tốt nhất.

Và 1 biến phụ thuộc :

  • Được chấp nhận/ không được chấp nhận vào trường Đại Học. Biến này là một biến nhị phân.

Dữ liệu có thể được lấy ở đây bằng lệnh sau:

use https://phantichstata.com/data/binary.dta

Sau đó thực hiện chạy thống kê mô tả, tần số biến

Hướng dẫn chạy stata cho biê n iv
Hướng dẫn chạy stata cho biê n iv

Thực hiện chạy hồi quy nhị phân Binary Logistic với Stata

Sử dụng lệnh logit để ước lượng hồi quy nhị phân

logit admit gre gpa i.rank

Hoặc dùng giao diện

Vào menu Statistics > Binary outcomes > Logistic regression

Hướng dẫn chạy stata cho biê n iv

Nhập vào giá trị ô độc lập và phụ thuộc các tên biến như trong hình

Hướng dẫn chạy stata cho biê n iv

Sau đó nhấn OK

Kết quả hồi quy nhị phân như sau:

Hướng dẫn chạy stata cho biê n iv

Giải thích ý nghĩa kết quả

Number of obs = 400 : có 400 quan sát

Trong bảng kết quả có hệ số coefficients, sai số chuẩn standard errors, kiểm định z z-statistic, p-values, và 95% confidence interval of the coefficients. Cả hai biến GRE và GPA đều có ý nghĩa thống kê, cũng như ba chỉ báo của biến RANK ( chỉ báo 2 3 4). Có ý nghĩa thống kê hay không do ta nhìn vào giá trị p-values, chính là cột P>|z| , nếu giá trị này bé hơn 0.05 là quan hệ đó có ý nghĩa thống kê. Hệ số hồi quy coefficients cho biến sự thay đổi của LOG ODDS của biến phụ thuộc khi biến độc lập tăng 1 đơn vị. Cụ thể như sau:

– Khi biến độc lập GRE tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC ( SO VỚI KHÔNG ĐƯỢC CHẤP NHẬN) tăng 0.002.

– Khi biến độc lập GPA tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC tăng 0.804

– Biến RANK là biến phân loại trường học, có cách phân tích khác. Học sinh đã học trường trung học loại 2 so với trường loại 1 sẽ giảm LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC giá trị là 0.675

Muốn kiểm tra tác động chung của biến RANK, dùng lệnh test , Ta thấy biến rank có tác động có ý nghĩa thống kê đến biến phụ thuộc như sau:

test 2.rank = 3.rank ( 1) [admit]2.rank - [admit]3.rank = 0

       chi2(  1) =    5.51  
     Prob > chi2 =    0.0190
Ta có thể lấy lũy thừa cơ số e của hệ số coefficients ( dùng hàm EXP() trong excel) , lúc đó giá trị mới là odds-ratios. Phần mềm Stata sẽ tự tính giá trị odd-ratios luôn bằng cách gõ lệnh sau:

Hướng dẫn chạy stata cho biê n iv
Giờ thì kết luận kiểu khác, khi GPA tăng 1 đơn vị thì ODDS của việc được chấp nhận vào học Đại Học( so với không được chấp nhận vào học Đại Học) tăng một lượng 2.234545

Bảng sau dùng phân loại học sinh đậu vào trường đại học và không đậu vào trường đại học theo hai tiêu chí : quan sát thực tế và dự đoán. Ta vào menu Statistics > Postestimation > Reports and statistics , hoặc menu Statistics > Binary outcomes > Classification statistics after logistic/logit/probit/ivprobit để thực hiện, kết quả ra như sau:

Hướng dẫn chạy stata cho biê n iv

Theo quan sát thực tế, có 254+19 = 273 học sinh rớt đại học, và có 97+30=127 học sinh đậu đại học. Tuy nhiên theo dự đoán có 254+97 = 351 bị rớt, và 19+30=49 học sinh đậu.