Khi bam trong stata ra lỗi independent variable la gi

Nhóm Thạc Sĩ hướng dẫn các bạn tải phần mềm Stata 14 phiên bản miễn phí, không cần cài đặt mà vẫn chạy được

Đầu tiên các bạn download phần mềm Stata 14 ở đây //download.phantichspss.com/download/stata/ bằng cách chọn file stata14.zip

Sau đó giải nén ra, bấm vào file stata để chạy chương trình [ có hai file chạy là StataMP-64.exe và StataMP.exe ứng với hệ điều hành 64 bít và 32 bít. Nếu bạn không rành tốt nhất cứ chọn file StataMP.exe để chạy nhé]

Lần đầu chương trình sẽ hiện lên bảng sau, các bạn chọn chỗ Disable automatic update checking. Sau đó nhấn ok.

Như vậy việc tải và cài đặt Stata 14 miễn phí đã hoàn tất, các bạn có thể sử dụng nhé

Khái niệm hồi quy tobit

Mô hình tobit, cũng được gọi là mô hình hồi quy bị kiểm duyệt [censored regression model], được thiết kế để ước tính mối quan hệ tuyến tính giữa các biến khi biến phụ thuộc có kiểm duyệt bên trái hoặc bên phải. Việc kiểm duyệt bên phải diễn ra khi các trường hợp biến phụ thuộc có giá trị bằng hoặc cao hơn ngưỡng nào đó, nhưng đều lấy giá trị của ngưỡng đó[cho dù giá trị thực có thể bằng ngưỡng, nhưng nó cũng có thể cao hơn]. Trong trường hợp kiểm duyệt từ bên trái, giá trị của biến phụ thuộc cũng được gán bằng giá trị ngưỡng thấp nhất [ cho dù biến phụ thuộc đó có thể có giá trị thấp hơn nữa]

Ví dụ hồi quy tobit

Ví dụ 1: Bạn đi xe máy và, đồng hồ hiển thị tốc độ chỉ số tối đa là 120Km/h. Vì vậy, nếu bạn muốn thử và dự đoán tốc độ tối đa của một chiếc xe từ sự kết hợp giữa sức ngựa và kích thước động cơ, bạn sẽ nhận được số đọc không cao hơn 120, bất kể tốc độ của chiếc xe thực sự di chuyển như thế nào. Đây là một trường hợp cổ kiểm duyệt bên phải [kiểm duyệt từ trên] của dữ liệu. Điều duy nhất chắc chắn là những chiếc xe đó đang đi ít nhất 120 km một giờ[ thực tế có thể cao hơn, nhưng vì đồng hồ không hiển thị được]

Ở Hoa Kì, xem xét tình huống trong đó dự đoán điểm năng lực học tập academic aptitude [ với thang điểm từ 200 đến 800]. Các biến độc lập là: điểm kiểm tra đọc-viết, điểm kiểm tra toán, cũng như loại chương trình mà sinh viên đăng ký học [academic, general, hoặc nghề ]. Vấn đề ở đây là các sinh viên trả lời đúng tất cả các câu hỏi về bài kiểm tra năng lực học thuật nhận được điểm 800, mặc dù có khả năng các sinh viên này không "thực sự" làm bằng năng khiếu[ có thể do may rủi, chọn ngẫu nhiên đáp án]. Điều này cũng đúng với những sinh viên trả lời tất cả các câu hỏi không chính xác. Tất cả các sinh viên như vậy sẽ có điểm số là 200, mặc dù họ có thể không phải tất cả đều có năng lực dở ngang nhau.

Thực hành mô hình hồi quy tobit

Dữ liệu có thể được lấy ở đây bằng lệnh sau: use //phantichstata.com/data/tobit.dta

Ta có 200 mẫu, định nghĩa các biến: Biến phụ thuộc: apt điểm năng lực học tập academic aptitude Biến độc lập: read : điểm reading math : điểm toán prog : chương trình mà sinh viên theo học, sẽ có 1 trong 3 giá trị academic [prog = 1], general [prog = 2], and vocational [prog = 3] Nhìn vào dữ liệu, giá trị thấp nhất của biến phụ thuộc apt là 352, không có sinh viên nào có điểm 200[ mức điểm thấp nhất]. Do đó nếu ta chạy tobit với giới hạn bên dưới, thì cũng không có ý nghĩa vì giới hạn 200 không xảy ra.

Biến phụ thuộc là apt, biến độc lập là read,math,prog

tobit apt read math i.prog, ul[800]

Tham số ul là upper limit, nghĩa là chặn trên. Còn nếu chặn dưới là ll lower limit. Chữ i trước chữ prog có ý nghĩa là prog là biến phân loại, nghĩa là nó mang giá trị 1 2 3 chỉ là tương ứng với 3 loại hình học hành, chứ không phải học loại này là cao hơn loại kia.

Phân tích kết quả hồi quy tobit

Trong 200 mẫu, có 173 mẫu không bị chặn, và có 17 mẫu bị chặn trên với giá trị apt>=800

Chỉ số LR chi2[4]: likelihood ratio chi-square 188.97 [df=4] với p-value = 0.0000 nói lên mô hình này phù hợp, có ý nghĩa hơn là mô hình trống[ là mô hình mà không có biến độc lập]. Bảng kết quả hồi quy,biến read và math và prog=3 có ý nghĩa thống kê. Các diễn giải hệ số hồi quy tobit tương tự như mô hình hồi quy đa biến

Khi biến read tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 2.7 điểm . Khi biến math tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 5.91 điểm. Chỉ có biến prog có một giải thích hơi khác. Giá trị dự đoán của apt thấp hơn 46,14 điểm đối với sinh viên trong chương trình vocational [prog = 3] so với sinh viên trong chương trình academic [prog = 1].

Như vậy nhóm hỗ trợ Stata đã thực hiện xong chạy hồi quy tobit, các bạn cần hỗ trợ chạy hoặc cần xử lý số liệu ra tốt hơn cứ liên hệ nhóm nhé.

Liên hệ:

– SMS, Zalo, Viber:

– Facebook facebook.com/hotroStata

– Email hotrostata@gmail.com

Nhóm Hỗ Trợ Stata giới thiệu về khái niệm tự tương quan, cùng với các kiểm định để xác định xem dữ liệu có bị tự tương quan hay không. Kiểm định này có sự khác biệt khi áp dụng đối với dữ liệu bảng và dữ liệu theo chuỗi thời gian, mỗi loại sẽ có cách kiểm định riêng. Phần này sẽ nói phần thực hành kiểm định tự tương quan trước, sau đó là phần lý thuyết.

Thực hành kiểm định tự tương quan

Kiểm định tự tương quan với dữ liệu chuỗi thời gian

Dùng kiểm định Durbin-Watson, kiểm định Breusch-Godfrey

Cách 1: Gõ lệnh dwstat ngay sau khi chạy hồi quy để tính toán giá trị Durbin-Watson, từ đó mới kết luận có tự tương quan hay không

. dwstat

Durbin-Watson d-statistic[ 7, 174] = 2.079461

Cách 2: Có cách khác để kiểm tra tự tương quan Durbin, đó là dùng lệnh durbinalt [kiểm định thay thế Durbin's alternative test for serial correlation] để tính toán trực tiếp ra mức ý nghĩa thống kê của kiểm định Durbin-Watson luôn.

Cú pháp lệnh là: estat durbinalt

Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan[ đây là điều mong đợi khi làm bài]

Cách 3: Hoặc cách khác nữa, dùng lệnh bgodfrey để kiểm định tự tương quan bằng kiểm định Breusch-Godfrey

Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% của kiểm định Breusch-Godfrey như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan[ đây là điều mong đợi khi làm bài]

Trên đây là tự tương quan bậc 1, nếu muốn bậc 2, hoặc cao hơn thì thêm tham số lags vào, ví dụ lệnh sau kiểm tra tự tương quan bậc 2: estat bgodfrey,lags[2]

Kiểm định tự tương quan với dữ liệu bảng

Dùng kiểm định Wooldridge, với cú pháp như sau: xtserial y x1, x2…. [ y là biến phụ thuộc, x1,x2… là biến độc lập]

Với giả thiết Ho: Không có tương quan chuỗi[no first-order autocorrelation]

Do đó với giá trị Prob>F >5% của kiểm định Wooldridge như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan[ đây là điều mong đợi khi làm bài]

Lý thuyết

Bản chất của tự tương quan là gì ?

Thuật ngữ tự tương quan có thể được định nghĩa như là: quan hệ tương quan giữa các thành viên của chuỗi của các quan sát được sắp xếp theo thời gian [như trong dữ liệu chuỗi thời gian] hoặc không gian [như trong dữ liệu chéo]. Trong ngữ cảnh hồi qui, mô hình hồi qui tuyến tính cổ điển giả định rằng quan hệ tự tương quan không tồn tại trong các nhiễu ui.

Tự tương quan và tương quan chuỗi có khác nhau?

Mặc dù hiện nay trên thực tế thường coi các từ tự tương quan và tương quan chuỗi là đồng nghĩa, một số tác giả vẫn muốn phân biệt hai từ này. Mặc dù sự khác biệt giữa hai từ này có thể là hữu ích, trong bài này chúng ta sẽ coi chúng là đồng nghĩa.

Mặc dù việc xảy ra tự tương quan là hay có với dữ liệu chuỗi thời gian, nó vẫn có thể xảy ra trong dữ liệu chéo. Một số tác giả gọi tự tương quan trong dữ liệu chéo là tự tương quan không gian, tức là tương quan theo không gian chứ không phải là theo thời gian. Tuy nhiên, vấn đề quan trọng là cần nhớ rằng trong phân tích chéo việc sắp xếp thứ tự dữ liệu cần theo lô gich, hoặc lợi ích kinh tế nào đó, để làm cho bất cứ việc xác định xem có tồn tại tự tương quan tồn tại hay không là có ý nghĩa.

Các phương pháp kiểm tra hiện tượng tự tương quan

Đối với dữ liệu bảng : kiểm định Wooldridge Đối với dữ liệu thời gian:kiểm định Durbin-Watson, kiểm định Breusch-Godfrey

MBA Bách Khoa hotrostata@gmail.com trình bài về khái niệm phương sai sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục phương sai sai số thay đổi sử dụng phần mềm Stata.

Định nghĩa phương sai của sai số thay đổi

Một giả thiết quan trọng trong mô hình hồi quy tuyến tính cổ điển là các yếu tố nhiễu ui [hay còn gọi là phần dư residuals] xuất hiện trong hàm hồi quy tổng thể có phương sai không thay đổi [homoscedasticity, còn gọi là phương sai có điều kiện không đổi]; tức là chúng có cùng phương sai. Nếu giả thiết này không được thỏa mãn thì có sự hiện diện của phương sai thay đổi. Phương sai thay đổi [Heteroscedasticity, còn gọi là phương sai của sai số thay đổi] .

Phương sai thay đổi không làm mất đi tính chất không thiên lệch và nhất quán của các ước lượng OLS. Nhưng các ước lượng này không còn có phương sai nhỏ nhất hay là các ước lượng hiệu quả. Tức là chúng không còn là các ước lượng tuyến tính không thiên lệch tốt nhất [BLUE]. Khi có phương sai thay đổi, các phương sai của các ước lượng OLS không được tính từ các công thức OLS thông thường. Nhưng nếu ta vẫn sử dụng các công thức OLS thông thường, các kiểm định t và F dựa vào chúng có thể gây ra những kết luận sai lầm.

Cách phát hiện phương sai sai số thay đổi trong Stata

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy tuyến tính đa biến OLS

Có hai cách chính để kiểm định phương sai sai số thay đổi trong Stata,đó là dùng kiểm định White , hoặc dùng kiểm định Breusch-Pagan

Cách 1: Dùng kiểm định White để kiểm tra phương sai thay đổi[ White’s test]

Cú pháp lệnh:

estat imtest

Cách 2: Dùng kiểm định Breusch-Pagan

estat hettest

Cách đọc kết quả: hai cách trên ,nếu p-value 5%, lúc đó phương sai đồng nhất, phương sai không đổi].

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy dữ liệu bảng sử dụng fix và random effect

Phương sai sai số thay đổi heteroskedasticity của mô hình REM: [sử dụng kiểm định LM – Breusch and pagan Lagrangian Multiplier ]. Dùng lệnh xttest0, nếu p-value < 0.05, bác bỏ Ho [với phát biểu Ho: Phương sai qua các thực thể là không đổi][ làm bài mong đợi p-value >5% để kết luận phương sai ko đổi]

Phương sai sai số thay đổi heteroskedasticity của mô hình FEM[ dùng kiểm định wald]: Dùng lệnh xttest3 [lệnh này không có sẵn trong Stata, phải cài thêm bằng lệnh ssc install xttest3] . Nếu p-value < 0.05, bác bỏ Ho [với phát biểu Ho: Phương sai qua các thực thể là không đổi][ làm bài mong đợi p-value >5% để kết luận phương sai ko đổi]

Bài này sẽ hướng dẫn thực hành từng bước hồi quy nhị phân trong Stata, có hình ảnh và dữ liệu minh họa, đồng thời giải thích ý nghĩa kết quả output của hồi quy.[Nhóm MBA Bách Khoa Hỗ Trợ Stata]

Khái niệm

Hồi quy logistic, còn được gọi là mô hình hồi quy logit, hay hồi quy nhị phân, được sử dụng để dự đoán mô hình mà biến phụ thuộc dạng nhị phân 0 hoặc 1. Trong mô hình logit "log odds" của biến phụ thuộc được mô phỏng như một sự kết hợp tuyến tính của các biến độc lập.

Ví dụ

Ở nước Mỹ, việc xét duyệt vào một số trường Đại Học chỉ xét điểm số, và 1 số điểm khác chứ không tổ chức thi trực tiếp như ở Việt Nam. Học Trung Học xong sẽ làm đơn, nộp các bằng cấp chứng chỉ cần thiết để trường Đại Học xét đậu hay rớt vào trường Đại Học đó.

Một nhà nghiên cứu quan tâm đến mô hình hồi quy nhị phân như sau:

3 biến độc lập:

Điểm cuối kì GRE
Điểm trung bình GPA
Uy tín của trường trung học rank [ có 4 mức 1 2 3 4], với 1 là uy tín tốt nhất.

Và 1 biến phụ thuộc :

Được chấp nhận/ không được chấp nhận vào trường Đại Học. Biến này là một biến nhị phân.

Dữ liệu có thể được lấy ở đây bằng lệnh sau:

use //phantichstata.com/data/binary.dta

Sau đó thực hiện chạy thống kê mô tả, tần số biến

Thực hiện chạy hồi quy nhị phân Binary Logistic với Stata

Sử dụng lệnh logit để ước lượng hồi quy nhị phân

logit admit gre gpa i.rank

Hoặc dùng giao diện

Vào menu Statistics > Binary outcomes > Logistic regression

Nhập vào giá trị ô độc lập và phụ thuộc các tên biến như trong hình

Sau đó nhấn OK

Kết quả hồi quy nhị phân như sau:

Giải thích ý nghĩa kết quả

Number of obs = 400 : có 400 quan sát

Trong bảng kết quả có hệ số coefficients, sai số chuẩn standard errors, kiểm định z z-statistic, p-values, và 95% confidence interval of the coefficients. Cả hai biến GRE và GPA đều có ý nghĩa thống kê, cũng như ba chỉ báo của biến RANK [ chỉ báo 2 3 4]. Có ý nghĩa thống kê hay không do ta nhìn vào giá trị p-values, chính là cột P>|z| , nếu giá trị này bé hơn 0.05 là quan hệ đó có ý nghĩa thống kê. Hệ số hồi quy coefficients cho biến sự thay đổi của LOG ODDS của biến phụ thuộc khi biến độc lập tăng 1 đơn vị. Cụ thể như sau:

– Khi biến độc lập GRE tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC [ SO VỚI KHÔNG ĐƯỢC CHẤP NHẬN] tăng 0.002.

– Khi biến độc lập GPA tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC tăng 0.804

– Biến RANK là biến phân loại trường học, có cách phân tích khác. Học sinh đã học trường trung học loại 2 so với trường loại 1 sẽ giảm LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC giá trị là 0.675

Muốn kiểm tra tác động chung của biến RANK, dùng lệnh test , Ta thấy biến rank có tác động có ý nghĩa thống kê đến biến phụ thuộc như sau:

test 2.rank = 3.rank [ 1] [admit]2.rank - [admit]3.rank = 0

       chi2[  1] =    5.51  
     Prob > chi2 =    0.0190

Ta có thể lấy lũy thừa cơ số e của hệ số coefficients [ dùng hàm EXP[] trong excel] , lúc đó giá trị mới là odds-ratios. Phần mềm Stata sẽ tự tính giá trị odd-ratios luôn bằng cách gõ lệnh sau:

Giờ thì kết luận kiểu khác, khi GPA tăng 1 đơn vị thì ODDS của việc được chấp nhận vào học Đại Học[ so với không được chấp nhận vào học Đại Học] tăng một lượng 2.234545

Bảng sau dùng phân loại học sinh đậu vào trường đại học và không đậu vào trường đại học theo hai tiêu chí : quan sát thực tế và dự đoán. Ta vào menu Statistics > Postestimation > Reports and statistics , hoặc menu Statistics > Binary outcomes > Classification statistics after logistic/logit/probit/ivprobit để thực hiện, kết quả ra như sau:

Theo quan sát thực tế, có 254+19 = 273 học sinh rớt đại học, và có 97+30=127 học sinh đậu đại học. Tuy nhiên theo dự đoán có 254+97 = 351 bị rớt, và 19+30=49 học sinh đậu.

Như vậy trong 273 em bị rớt, có 254 trường hợp dự đoán đúng, như vậy tỷ lệ dự đoán đúng là 254/273=93% . Trong 127 em đậu đại học, dự đoán đúng 30 em, như vậy tỉ lệ dự đoán đúng là 30/127=23.6% . Vậy trung bình tỉ lệ dự đoán đúng là [254+30]/[254+30+97+19] = 71% . Ba giá trị này được tô màu đỏ phía trên. Dựa vào đây có thể kết luận tỉ lệ dự đoán đúng là bao nhiêu phần trăm, xem mô hình có sử dụng được không.

Kết luận

Như các bạn thấy, việc phân tích hồi quy nhị phân khá phức tạp so với hồi quy đa biến tuyến tính. Nhất là việc hiểu các chỉ số hệ số hồi quy, odds ratio, log odd… Các bạn cần hỗ trợ đào tạo, hướng dẫn kiến thức phân tích, hoặc khi chạy ra số liệu không đạt chuẩn, không có ý nghĩa thống kê, cần hỗ trợ xử lý lại số liệu cứ liên hệ nhóm MBA Đại Học Bách Khoa nhé //phantichstata.com/lien-he-gioi-thieu

-Viber/zalo

-Facebook facebook.com/hotroStata

-Email hotrostata@gmail.com

Vấn đề

Khi chạy mô hình gặp hiện tượng phương sai sai số thay đổi, chúng ta cần dùng phương pháp này để cải thiện mô hình cho tốt hơn.

Định nghĩa

Mô hình sai số chuẩn mạnh [Robust Standard errors] , hay còn gọi là Ước lượng sai số chuẩn vững Nhắc lại rằng khi mô hình có hiện tượng phương sai sai số thay đổi, các ước lượng OLS cho các hệ số vẫn là ước lượng không chệch, chỉ có phương sai của các hệ số ước lượng và hiệp phương sai giữa các hệ số ước lượng thu được bằng phương pháp OLS là chệch. Từ đó White [1980] đề xuất phương pháp sai số chuẩn vững [robust standard error] với tư tưởng như sau: vẫn sử dụng các hệ số ước lượng từ phương pháp OLS, tuy nhiên phương sai các hệ số ước lượng thì được tính toán lại mà không sử dụng đến giả thiết phương sai sai số không đổi. Ước lượng mô hình sai số chuẩn mạnh sẽ cho một kết quả ước lượng đúng của sai số chuẩn trong đó chấp nhận sự hiện diện của hiện tượng phương sai thay đổi [heteroskedasticity]. Cách thực hiện trong Stata

– Giả sử có 1 biến phụ thuộc và 3 biến độc lập, ta chạy hồi quy FE thường cú pháp như sau

xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,fe

– Hồi quy với theo phương trình mô hình sai số chuẩn mạnh [Robust Standard errors]: thêm chữ robust vào câu lệnh hồi quy. xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,robust fe

Định nghĩa dữ liệu bảng panel data

Nhóm Hỗ Trợ Stata giúp các bạn hiểu rõ khái niệm dữ liệu bảng bằng cách đưa ra hình trên. Dữ liệu bảng là sự kết hợp của dữ liệu chéo và chuỗi thời gian. Chuỗi thời gian ở đây là 4 năm 2014 2015 2016 2017. Dữ liệu chéo ở đây là tên 3 quốc gia : VietNam ThaiLand Malaysia. Như vậy bảng này có 3×4=12 dòng quan sát. Đây là định nghĩa đơn giản ngắn gọn dễ hiểu nhất về dữ liệu bảng panel data. [ lưu ý số liệu GDP, Population chỉ là minh họa cho dữ liệu bảng, chưa chính xác]. Nói ngắn gọn, dữ liệu bảng có qui mô về thời gian lẫn không gian.

Dữ liệu bảng còn được gọi bằng các tên khác, như là dữ liệu gộp chung [gộp chung các quan sát chéo và chuỗi thời gian], là sự kết hợp của dữ liệu chéo và chuỗi thời gian, dữ liệu bảng vi mô [micropanel data], dữ liệu dọc [longitudinal data] [đó là một nghiên cứu nào đó theo thời gian về một biến hay một nhóm đối tượng], phân tích lịch sử sự kiện [thí dụ, nghiên cứu sự thay đổi theo thời gian của những đối tượng qua các tình trạng hay các điều kiện được tiếp diễn theo thời gian], phân tích theo tổ [cohort analysis]. Mặc dù có những sự thay đổi tinh tế, nhưng tất cả các tên gọi này thực chất muốn nói đến sự thay đổi theo thời gian của các đơn vị chéo. Vì thế, chúng ta sẽ sử dụng thuật ngữ dữ liệu bảng theo nghĩa chung để bao gồm một hay nhiều hơn các thuật ngữ nói trên. Và chúng ta sẽ gọi các mô hình hồi quy dựa trên dữ liệu như thế là các mô hình hồi quy dữ liệu bảng.

Những ưu điểm của dữ liệu bảng so với dữ liệu chéo hay dữ liệu chuỗi thời gian 1. Bởi vì dữ liệu bảng liên hệ đến các cá nhân, các doanh nghiệp, các tiểu bang, các quốc gia v.v theo thời gian, nên chắc chắn có tính không đồng nhất trong các đơn vị này. Các kỹ thuật ước lượng dựa trên dữ liệu bảng có thể tính đến tính không đồng nhất đó một cách rõ ràng bằng cách bao gồm các biến chuyên biệt theo cá nhân, như chúng tôi sắp cho thấy. Chúng tôi sử dụng thuật ngữ cá nhân ở đây theo nghĩa chung nhất để bao gồm các đơn vị vi mô như các cá nhân, doanh nghiệp, tiểu bang và quốc gia. 2. Bằng cách kết hợp chuỗi thời gian của các quan sát chéo, dữ liệu bảng cho chúng ta “dữ liệu chứa nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả cao hơn.” 3. Bằng cách nghiên cứu quan sát lập đi lập lại của các đơn vị chéo, dữ liệu bảng phù hợp hơn cho việc nghiên cứu sự động thái thay đổi theo thời gian của các đơn vị chéo này. Những tác động của thất nghiệp, tốc độ quay vòng việc làm, tính dịch chuyển của lao động được nghiên cứu tốt hơn khi có dữ liệu bảng. 4. Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các tác động mà người ta không thể quan sát được trong dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy. Thí dụ, tác động của các luật về mức lương tối thiểu đối với việc làm và thu nhập có thể được nghiên cứu tốt hơn nếu chúng ta bao gồm các đợt gia tăng mức lương tối thiểu liên tiếp trong các mức lương tối thiểu của liên bang và/hoặc tiểu bang. 5. Dữ liệu bảng làm cho chúng ta có thể nghiên cứu các mô hình hành vi phức tạp hơn. Thí dụ, chúng ta có thể xử lý tốt hơn bằng dữ liệu bảng các hiện tượng như lợi thế kinh tế theo qui mô và thay đổi công nghệ so với dữ liệu chéo hay dữ liệu chuỗi thời gian. 6. Bằng cách cung cấp dữ liệu đối với vài nghìn đơn vị, dữ liệu bảng có thể giảm đến mức thấp nhất hiện tượng chệch có thể xảy ra nếu chúng ta gộp các cá nhân hay các doanh nghiệp theo những biến số có mức tổng hợp cao. Nói tóm lại, dữ liệu bảng có thể làm cho phân tích thực nghiệm phong phú hơn so với cách chúng ta chỉ sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.

Cách xử lý dữ liệu bảng

Hai kỹ thuật nổi bật để xử lý dữ liệu bảng là mô hình các tác động cố định [FEM] và mô hình các tác động ngẫu nhiên [REM] hay mô hình các thành phần sai số [ECM].

Trong FEM, tung độ gốc trong mô hình hồi quy được phép khác nhau giữa các cá nhân do công nhận sự thực là mỗi đơn vị chéo hay cá nhân có thể có một số đặc điểm đặc biệt riêng của nó. Ðể tính đến các tung độ gốc khác nhau, người ta có thể sử dụng các biến giả. FEM sử dụng các biến giả được gọi là mô hình biến giả bình phương nhỏ nhất [Least Square Dummy Variables – LSDV]. FEM thích hợp trong những tình huống mà tung độ gốc chuyên biệt theo cá nhân có thể tương quan với một hay nhiều hơn một biến hồi quy độc lập. Một bất lợi điểm của LSDV là nó dùng hết nhiều bậc tự do khi số đơn chéo, N, rất lớn. Trong trường hợp này chúng ta sẽ phải đưa vào N biến giả [nhưng kìm hãm số hạng tung độ gốc chung]. Một mô hình thay thế cho FEM là REM. Trong REM, người ta giả định rằng tung độ gốc của một đơn vị cá nhân được lấy ra ngẫu nhiên từ một tổng thể lớn hơn nhiều, với giá trị trung bình không đổi. Sau đó, tung độ gốc của cá nhân được thể hiện như một sự lệch khỏi giá trị trung bình không đổi này. Một ưu điểm của REM so với FEM là nó tiết kiệm được bậc tự do, bởi vì chúng ta không phải ước lượng N tung độ gốc chéo. Chúng ta chỉ cần ước lượng giá trị trung bình của tung độ gốc và phương sai của nó. REM thích hợp trong các tình huống mà tung độ gốc [ngẫu nhiên] của mỗi đơn vị chéo không tương quan với các biến hồi quy độc lập. Lựa chọn mô hình

Để lựa chọn giữa OLS và FEM, chạy F test. F test kiểm tra có phải fixed effects =0 hay không. Nếu p-value Linear models and related > Linear regression

Sau đó đưa biến phụ thuộc vào ô Dependent Variable, biến độc lập vào ô Independent Variables [ các biến độc lập cách nhau bởi khoảng trắng, lưu ý chỉ có 1 biến phụ thuộc thôi nhé]

Nhấn tiếp vào tab Reporting, tick vào ô Standardized beta coefficients để hiển thị hệ số hồi quy chuẩn hóa trong phần kết quả hồi quy.

Sau đó nhấn OK, lúc đó kết quả hồi quy sẽ thể hiện như sau:

Giải thích ý nghĩa:

Number of obs = 222 Số quan sát là 222 mẫu F[ 6, 215] = 72.12 Giá trị kiểm định F 6 nhân tố và 215 bậc tự do Prob > F = 0.0000 Mức ý nghĩa của kiểm định F, ở đây bé hơn 5% chứng tỏ R bình phương của tổng thể khác 0. Nói cách khác là các hệ số hồi quy của phương trình hồi quy tổng thể không đồng thời bằng 0 R-squared = 0.6681 R bình phương Adj R-squared = 0.6588 R bình phương hiệu chỉnh, nghĩa là các biến độc lập giải thích được 65.88% biến thiên của biến phụ thuộc[ chuẩn là R2>50%] Root MSE = .43288

Coef. : cột này là giá trị hệ số hồi quy chưa chuẩn hóa

Std. Err. Sai số chuẩn

P>|t| p-value, nếu giá trị này bé hơn 5%[ 0.05] thì mối quan hệ giữa biến độc lập này và biến phụ thuộc có ý nghĩa thống kê.

Beta: là hệ số hồi quy đã chuẩn hóa.

Từ đây có thể viết phương trình hồi quy như sau:

HAILONG = -0.9573228 + 0.1577172 * TINCAY + 0.1859064 * DAPUNG + 0.2044715 * DAMBAO + 0.3033652 *CAMTHONG + 0.2165845 * HUUHINH + 0.2225405 *MINHBACH

Giải thích ý nghĩa hệ số hồi quy. Khi các điều kiện khác không đổi, khi biến TINCAY tăng 1 đơn vị thì biến HAILONG tăng 0.1577172 đơn vị. Tương tự giải thích cho các biến khác

Tiếp đến ta kiểm tra hiện tượng đa cộng tuyến bằng các vào menu Statistics > Linear models and related >Regression diagnostics > Specification tests, etc.

Tiếp đó chọn Variance Inflaction Factors for the independent variables [vif], sau đó nhấn OK

Kết quả cho thấy hệ số VIF đều bé hơn 2 nên kết luận không có hiện tượng đa cộng tuyến trong mô hình này.

Sau đây là video thực hành phân tích hồi quy tuyến tính đa biến sử dụng phần mềm Stata

Trên đây là Hướng dẫn thực hành cách phân tích hồi quy đa biến bằng phần mềm Stata

Các bạn khi chạy có vấn đề gì khó khăn cứ liên hệ nhóm hỗ trợ nhé.

Hôm nay nhóm MBA bàn về hệ số tương quan r trong Stata và cách thực hiện phân tích tương quan cho từng cặp biến trong Stata.

Lý Thuyết tương quan Pearson:

-Hệ số tương quan [r] là một chỉ số thống kê đo lường mối liên hệ tương quan giữa hai biến số, như giữa MỨC ĐỘ HÀI LÒNG [y] và TIỀN LƯƠNG [x]. Hệ số tương quan có giá trị từ -1 đến 1. Hệ số tương quan bằng 0 [hay gần 0] có nghĩa là hai biến số không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối. Nếu giá trị của hệ số tương quan là âm [r 0] có nghĩa là khi x tăng cao thì y cũng tăng, và khi x tăng cao thì y cũng giảm theo. -Có nhiều hệ số tương quan , hệ số tương quan thông dụng nhất: hệ số tương quan Pearson r, được định nghĩa như sau

Cho hai biến số x và y từ n mẫu, hệ số tương quan Pearson được ước tính bằng công thức sau đây:

Trong phân tích áp dụng cho luận văn, kiểm định hệ số tương quan Pearson dùng để kiểm tra mối liên hệ tuyến tính giữa các biến độc lập và biến phụ thuộc. Nếu các biến độc lập với nhau có tương quan chặt thì phải lưu ý đến vấn đề đa cộng tuyến khi phân tích hồi quy [giả thuyết H0: hệ số tương quan bằng 0]. Cụ thể cách chạy như sau:

Thực hành tính hệ số tương quan trong Stata

Vào menu Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Pairwise correlations

Bảng sau hiện ra:

Chọn các độc lập và phụ thuộc đưa vào ô Variales, đồng thời check vào ô Print Significance level for each entry, sau đó nhấn OK, kết quả phân tích tương quan như sau:

pwcorr TINCAY DAPUNG DAMBAO CAMTHONG HUUHINH MINHBACH HAILONG, sig

Giải thích ý nghĩa: ví dụ ta xem xét ô màu đỏ và màu xanh. Đó là giá trị tương quan giữa biến HAILONG và biến TINCAY.

– Ô màu đỏ giá trị là 0.5639 , đó là hệ số tương quan Pearson giữa biến HAILONG và TINCAY.

-Ô màu xanh: là mức ý nghĩa tương quan significant của kiểm định Pearson. Giả thuyết H0: hệ số tương quan bằng 0. Do đó nếu Sig. này bé hơn 5% ta có thể kết luận được là hai biến có tương quan với nhau. Hệ số tương quan càng lớn tương quan càng chặt. nếu Sig. này lớn hơn 5% thì hai biến không có tương quan với nhau.

-Vì một trong những điều kiện cần để phân tích hồi quy là biến độc lập phải có tương quan với biến phụ thuộc, nên nếu ở bước phân tích tương quan này biến độc lập không có tương quan với biến phụ thuộc thì ta loại biến độc lập này ra khỏi phân tích hồi quy.

-Kết quả phân tích tương quan Pearson cho thấy một số biến độc lập có sự tương quan với nhau[sig Create or change data > Create new variable [extended]

Bảng này xuất hiện:

– Ô Generate Variable: nhập vào tên biến mới sẽ được tạo ra

– Mục Egen Fucntion: chọn Row mean

– Ô Egen function argument Variables: nhập vào các biến cần tính trung bình cộng, cách nhau bởi khoảng trắng

Sau đó nhấn OK, như vậy giá trị trung bình cộng đại diện cho nhân tố đã được tính như trên hình đầu tiên.