Nhóm Hỗ Trợ Stata giới thiệu về khái niệm tự tương quan, cùng với các kiểm định để xác định xem dữ liệu có bị tự tương quan hay không. Kiểm định này có sự khác biệt khi áp dụng đối với dữ liệu bảng và dữ liệu theo chuỗi thời gian, mỗi loại sẽ có cách kiểm định riêng. Phần này sẽ nói phần thực hành kiểm định tự tương quan trước, sau đó là phần lý thuyết.
Kiểm định tự tương quan với dữ liệu chuỗi thời gian
Dùng kiểm định Durbin-Watson, kiểm định Breusch-Godfrey
Cách 1: Gõ lệnh dwstat ngay sau khi chạy hồi quy để tính toán giá trị Durbin-Watson, từ đó mới kết luận có tự tương quan hay không
. dwstat
Durbin-Watson d-statistic( 7, 174) = 2.079461
Cách 2: Có cách khác để kiểm tra tự tương quan Durbin, đó là dùng lệnh durbinalt (kiểm định thay thế Durbin's alternative test for serial correlation) để tính toán trực tiếp ra mức ý nghĩa thống kê của kiểm định Durbin-Watson luôn.
Cú pháp lệnh là: estat durbinalt
Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)
Cách 3: Hoặc cách khác nữa, dùng lệnh bgodfrey để kiểm định tự tương quan bằng kiểm định Breusch-Godfrey
Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% của kiểm định Breusch-Godfrey như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)
Trên đây là tự tương quan bậc 1, nếu muốn bậc 2, hoặc cao hơn thì thêm tham số lags vào, ví dụ lệnh sau kiểm tra tự tương quan bậc 2: estat bgodfrey,lags(2)
Kiểm định tự tương quan với dữ liệu bảng
Dùng kiểm định Wooldridge, với cú pháp như sau: xtserial y x1, x2…. ( y là biến phụ thuộc, x1,x2… là biến độc lập)
Với giả thiết Ho: Không có tương quan chuỗi(no first-order autocorrelation)
Do đó với giá trị Prob>F >5% của kiểm định Wooldridge như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)
Lý thuyết
Bản chất của tự tương quan là gì ?
Thuật ngữ tự tương quan có thể được định nghĩa như là: quan hệ tương quan giữa các thành viên của chuỗi của các quan sát được sắp xếp theo thời gian (như trong dữ liệu chuỗi thời gian) hoặc không gian (như trong dữ liệu chéo). Trong ngữ cảnh hồi qui, mô hình hồi qui tuyến tính cổ điển giả định rằng quan hệ tự tương quan không tồn tại trong các nhiễu ui.
Tự tương quan và tương quan chuỗi có khác nhau?
Mặc dù hiện nay trên thực tế thường coi các từ tự tương quan và tương quan chuỗi là đồng nghĩa, một số tác giả vẫn muốn phân biệt hai từ này. Mặc dù sự khác biệt giữa hai từ này có thể là hữu ích, trong bài này chúng ta sẽ coi chúng là đồng nghĩa.
Mặc dù việc xảy ra tự tương quan là hay có với dữ liệu chuỗi thời gian, nó vẫn có thể xảy ra trong dữ liệu chéo. Một số tác giả gọi tự tương quan trong dữ liệu chéo là tự tương quan không gian, tức là tương quan theo không gian chứ không phải là theo thời gian. Tuy nhiên, vấn đề quan trọng là cần nhớ rằng trong phân tích chéo việc sắp xếp thứ tự dữ liệu cần theo lô gich, hoặc lợi ích kinh tế nào đó, để làm cho bất cứ việc xác định xem có tồn tại tự tương quan tồn tại hay không là có ý nghĩa.
Các phương pháp kiểm tra hiện tượng tự tương quan
Đối với dữ liệu bảng : kiểm định Wooldridge
Đối với dữ liệu thời gian:kiểm định Durbin-Watson, kiểm định Breusch-Godfrey