Phương pháp đánh giá tương quan

Tương quan và Hồi quy là 2 phân tích khác biệt nhau. Tương quan là phép phân tích cho phép chúng ta biết mối quan hệ giữa 2 biến không có sự phân biệt độc lập và phụ thuộc. Trong khi đó, phân tích Hồi quy dự đoán giá trị của biến phụ thuộc Y dựa trên giá trị đã biết của 1 hay nhiều biến độc lập.

Phương pháp đánh giá tương quan

1. Tương quan

- Mục đích của tương quan là tìm ra một con số biểu thị mối quan hệ giữa 2 biến A và B với nhau.

- Tương quan phản ánh mức độ liên kết hay độ mạnh trong sự liên kết giữa biến A với biến B. Nếu sự thay đổi của biến A sẽ kéo theo sự thay đổi của biến B và ngược lại. Tương quan là mối quan hệ 2 chiều, A với B cũng như B với A, hệ số tương quan của A đối với B bằng với hệ số tương quan của B đối với A.

- Trong tương quan, khi 2 biến A và B di chuyển cùng hướng, tức A tăng sẽ làm B tăng và ngược lại B tăng làm A tăng, 2 biến này sẽ được coi là có tương quan dương. Nếu 2 biến di chuyển theo 2 hướng khác nhau, A tăng làm B giảm, hoặc B tăng làm A giảm, 2 biến sẽ có tương quan nghịch. Lượng thay đổi của X bằng lượng thay đổi của Y.

- Không có sự phân biệt biến độc lập và biến phụ thuộc, vai trò của A và B là như nhau.

- Tương quan là sự xem xét mối quan hệ giữa từng cặp biến với nhau.

2. Hồi quy

- Mục đích của hồi quy là đi tìm một phương trình mà khi biểu diễn nó trên đồ thị, chúng ta có một đường thẳng phù hợp nhất và ước tính được biến phụ thuộc Y dựa vào những thay đổi của biến độc lập X.

- Hồi quy phản ánh sự ảnh hưởng của việc thay đổi giá trị của biến độc lập X lên biến phụ thuộc Y. Chúng ta sẽ đi ước tính Y dựa vào những giá trị của X. Hồi quy là mối quan hệ 1 chiều từ X lên Y. Hệ số hồi quy sẽ khác nhau nếu đổi X thành biến phụ thuộc, đổi Y thành biến độc lập.

- Trong hồi quy, việc tăng X làm Y tăng nghĩa là biến X có sự tác động thuận chiều lên Y. Nếu X tăng làm Y giảm nghĩa là biến X có sự tác động nghịch chiều lên Y. Lượng thay đổi của X không bằng lượng thay đổi của Y.

- Có sự phân biệt biến độc lập X và biến phụ thuộc Y, hồi quy chỉ xem xét sự tác động của biến độc lập lên biến phụ thuộc.

Phân tích tương quan Pearson r (cung cấp một hệ số tương quan Pearson, được ký hiệu là r) là thước đo độ mạnh của mối liên kết tuyến tính giữa hai biến. Về cơ bản, sự tương quan Pearson cố gắng vẽ một đường phù hợp nhất thông qua dữ liệu của hai biến và hệ số tương quan Pearson, r, cho biết khoảng cách tất cả các điểm dữ liệu này đến đường phù hợp nhất này (tức là các điểm dữ liệu này tốt như thế nào với mô hình / đường mới phù hợp nhất).

1. Khi nào sử dụng?

Phân tích tương quan Pearson, r, có thể được sử dụng làm ước lượng mẫu cho tương quan dân số, ρ (rho). Nó là một chỉ số không có thứ nguyên về mối quan hệ tuyến tính giữa hai biến ngẫu nhiên, giá trị bằng 0 có nghĩa là không có mối quan hệ tuyến tính giữa các biến và giá trị bằng 1 cho thấy mối quan hệ tuyến tính hoàn hảo. Nếu mối tương quan là âm, có nghĩa là giá trị tăng trên một biến được kết hợp với giá trị giảng trên biến kia. Giá trị của r có thể thay đổi giữa −1 và +1 bất kể kích thước đo lường của hai biến.

Tương quan Pearson, r, nên được coi là một thống kê mô tả (descriptive statistic) khi một nhà nghiên cứu muốn định lượng mức độ của mối quan hệ tuyến tính giữa các biến. Một tương quan tham số sẽ thích hợp bất cứ khi nào các phép đo định lượng được thực hiện đồng thời trên hai hoặc nhiều biến, mối quan hệ giữa hai biến là tuyến tính và cả hai biến đều được phân phối chuẩn. Các mối tương quan phải luôn được kiểm tra trước khi thực hiện các phân tích đa biến phức tạp hơn, chẳng hạn như phân tích nhân tố (factor analysis) hoặc phân tích thành phần chính (principal component analysis). Mức độ của mối quan hệ tuyến tính giữa hai biến số có thể khó đánh giá từ biểu đồ phân tán và hệ số tương quan cung cấp một bản tóm tắt ngắn gọn hơn. Tuy nhiên, sẽ không khôn ngoan nếu cố gắng tính toán mối tương quan khi biểu đồ phân tán mô tả một mối quan hệ phi tuyến tính rõ ràng. Khi một nhà nghiên cứu quan tâm đến cả mức khoảng rộng và ý nghĩa của một mối tương quan thì r được sử dụng theo cách suy diễn như một ước lượng của mối tương quan dân số, ρ (rho).

Công thức tính hệ số tương quan Pearson trong hai biến x và y từ n mẫu như sau:

Phương pháp đánh giá tương quan

2. Giả thuyết vô hiệu và suy luận thống kê

Khi ước lượng kích thước của mối tương quan dân số, chúng ta có thể muốn kiểm tra xem nó có ý nghĩa thống kê hay không. Giả thuyết vô hiệu là H0: ρ = 0, nghĩa là, biến X không liên quan tuyến tính với biến Y. Giả thuyết thay thế là H1: ρ ≠ 0. Giả thuyết vô hiệu là một phép kiểm tra xem có bất kỳ mối quan hệ rõ ràng nào giữa các biến X và Y có thể phát sinh một cách tình cờ hay không. Phân phối mẫu của r là không chuẩn khi tương quan dân số lệch khỏi 0 và khi cỡ mẫu nhỏ (n <30). Khi đó, các kiểm định có ý nghĩa r được thay thế bằng một thống kê khác gọi là Fisher’s z.

3. Các giả định thống kê

Trong một số sách thống kê dành cho các nhà khoa học xã hội, người ta khẳng định rằng để sử dụng mối tương quan Pearson, cả hai biến phải có phân phối chuẩn, nhưng trong các văn bản khác, nó nói rằng phân phối của cả hai biến phải đối xứng (symmetrical) và đơn phương (unimodal) nhưng không nhất thiết phải chuẩn. Những ý kiến này gây hoang mang lớn cho các nhà nghiên cứu và cần được làm rõ. Nếu thống kê tương quan chỉ được sử dụng cho mục đích mô tả thì không cần thiết phải sử dụng các giả định chuẩn về hình thức (form) của phân phối dữ liệu. Các giả định duy nhất được yêu cầu là:

  • các phép đo định lượng (mức khoảng hoặc mức tỷ lệ của phép đo) được thực hiện đồng thời trên hai hoặc nhiều biến ngẫu nhiên. Tức là hai biến phải được đo lường trên thang đo khoảng hoặc tỷ lệ. Tuy nhiên, cả hai biến không cần phải được đo lường trên cùng một thang đo (ví dụ, một biến có thể là tỷ lệ và một có thể là khoảng).
  • các phép đo bắt cặp cho mỗi đối tượng (ví dụ, mỗi người tham gia) là độc lập. Ví dụ, bạn đã thu thập thời gian ôn tập (tính bằng giờ) và kết quả thi (đo từ 0 đến 100) từ 100 sinh viên được lấy mẫu ngẫu nhiên tại một trường đại học (tức là bạn có hai biến liên tục: “thời gian ôn tập” và “kỳ thi hiệu suất”). Mỗi người trong số 100 sinh viên sẽ có một giá trị về thời gian ôn tập (ví dụ: “sinh viên số 1” đã học trong “23 giờ”) và kết quả bài kiểm tra (ví dụ: “sinh viên số 1” đạt “81/100”). Do đó, bạn sẽ có 100 giá trị được ghép nối.

Các kết quả thu được sẽ mô tả mức độ mà mối quan hệ tuyến tính được áp dụng cho dữ liệu mẫu.

Ngoài ra, cần nhận xét thận trọng về việc sử dụng r. Đây không phải là những giả định nghiêm ngặt nhưng trong những tình huống nghiên cứu điển hình khi r hoặc là cần được giải thích một cách thận trọng, hoặc không nên sử dụng.

  • Khi phương sai của hai thước đo rất khác nhau, thường liên quan đến các phạm vi khác nhau hoặc có thể là một phạm vi giới hạn cho một biến, thì mối tương quan mẫu sẽ bị ảnh hưởng. Ví dụ: nếu một biến bị hạn chế phạm vi, (một phần của phạm vi điểm số không được sử dụng hoặc không phù hợp) thì điều này sẽ có xu hướng làm giảm (thấp hơn) mối tương quan giữa hai biến.
  • Khi có các giá trị ngoại lệ, r cần được giải thích một cách thận trọng.
  • Khi các quan sát được lấy từ một nhóm không đồng nhất (heterogeneous). Nếu tốt nhất, dữ liệu nên là đồng nhất (homoscedasticity). Đồng nhất trong tương quan có nghĩa là các phương sai dọc theo đường của sự phù hợp nhất vẫn tương tự khi di chuyển dọc theo đường. Nếu các phương sai không giống nhau thì có phương sai thay đổi (hay còn gọi heteroscedasticity). Đồng nhất (hay độ co giãn đồng nhất) được thể hiện dễ dàng nhất bằng sơ đồ, như hình dưới đây:

Phương pháp đánh giá tương quan

  • Khi dữ liệu thưa thớt (có quá ít số đo), r không nên được sử dụng. Với quá ít giá trị, không thể nói liệu mối quan hệ hai biến có tuyến tính hay không. Tương quan Pearson r là thích hợp nhất cho các mẫu lớn hơn (n> 30).
  • Không nên sử dụng tương quan r khi các giá trị trên một trong các biến đã được cố định trước.

4. Phân tích tương quan Pearson r trong SPSS

Ví dụ, một nhà nghiên cứu muốn biết liệu kết quả kỳ thi viết cuối kì môn Toán giải thích có tương quan với thời gian ôn tập cuối kì của các sinh viên hay không. Có 20 sinh viên được mời tham gia một cuộc thử nghiệm, kể từ khi bài học của môn Toán giải tích kết kết đến ngày thi cuối kì, họ được đề nghị ghi lại tổng số giờ ôn bài (cộng dồn của mỗi ngày) dành cho môn Toán. Kết thúc kì thi, nhà nghiên cứu thu thập điểm số của 20 sinh viên này theo thang điểm 100, và tổng hợp theo bảng dưới đây.

Phương pháp đánh giá tương quan

Hai câu hỏi nghiên cứu được xem xét: i) Điểm thi viết cuối kì môn Toán giải thích có liên quan tuyến tính với số giờ ôn tập của các sinh viên hay không? và ii) Số giờ ôn tập của các sinh viên có liên quan tuyến tính với điểm thi viết cuối kì môn Toán giải thích hay không?

Các bước dưới đây hướng dẫn chúng ta cách phân tích Tương quan Pearson r trong Thống kê SPSS.

– Bước 1: Kiểm tra biểu đồ phân tán mô tả mối quan hệ giữa hai biến. Xin vui lòng đọc bài cách vẽ biểu đồ phân tán. Kết quả vẽ biểu đồ phân tán được trình bày trong hình dưới đây.

Phương pháp đánh giá tương quan

Nhận xét: Biểu đồ scatter giữa Điểm thi và Ôn tập gợi ý xu hướng gần đúng tuyến tính, nhưng cỡ mẫu là nhỏ để quan sát rõ ràng một đường tuyến tính. Trong thực tế, chúng ta cần một cỡ mẫu lớn hơn, ít nhất n > 30. Biểu đồ này cũng cho thấy một quan sát ngoại lệ rất rõ ràng (điểm gần giá trị 4 ở trục hoành).

– Bước 2: Khi biểu đồ phân tán dự đoán mối quan hệ tuyến tính, chúng ta tiến hành phân tích tương quan Pearson r. Click Analyze-> Correlate -> Bivariate…

Phương pháp đánh giá tương quan

– Bước 3: Trong hộp thoại Bivariate Correlations, chúng ta chuyển các biến cần kiểm tra tương quan với nhau vào hộp Variables. Chú ý check vào hộp Pearson trong vùng Correlation Coefficients. Sau đó nhấp OK để chạy kết quả.

Phương pháp đánh giá tương quan

Phân tích kết quả:

Bảng Correlations trình bày hệ số tương quan Pearson r, giá trị ý nghĩa p của nó và kích thước mẫu được tính toán. Trong ví dụ này, chúng ta có thể thấy rằng hệ số tương quan Pearson, r, là 0.78 và nó có ý nghĩa thống kê (p = 0.000).

Phương pháp đánh giá tương quan

Chúng ta có thể viết báo cáo rằng, một tương quan Pearson đã được chạy để xác định mối quan hệ tuyến tính giữa Điểm thi viết cuối kì môn Toán giải thích và số giờ ôn tập của các sinh viên. Kết quả cho thấy có mối tương quan thuận giữa Điểm thi viết cuối kì môn Toán giải thích và số giờ ôn tập của các sinh viên (r = 0.780, n = 20, p = 0.000).

– Bước 4: Kiểm tra ý nghĩa của hệ số tương quan r

Một khi mối tương quan đã được tính toán, nhà nghiên cứu có thể muốn biết khả năng xảy ra mối tương quan thu được này như thế nào, nghĩa là, đây có phải là sự xuất hiện tình cờ hay nó đại diện cho mối tương quan dân số đáng kể?

Để thực hiện việc này, r được chuyển đổi, và xác suất của công cụ ước lượng này dựa trên phân phối mẫu của thống kê t (t-statistic). Do đó, ý nghĩa của một hệ số tương quan Pearson thu được được đánh giá bằng cách sử dụng phân phối t (t-distribution) với n − 2 bậc tự do (df) và được cho bởi phương trình sau:

Phương pháp đánh giá tương quan

Giả thuyết vô hiệu được kiểm định là hai biến độc lập, tức là không có mối quan hệ tuyến tính giữa chúng, H0: ρ = 0. Giả thuyết thay thế là, H1: ρ ≠ 0.

Để trả lời câu hỏi, Có mối tương quan đáng kể nào, ở mức 5%, giữa điểm Điểm thi viết cuối kì môn Toán giải thích và số giờ ôn tập của các sinh viên không? t sẽ được tính như sau:

Phương pháp đánh giá tương quan

Tra bảng tới hạn của giá trị t (critical t-value) thu được giá trị là 2.101. Thống kê kiểm tra t là vượt quá giá trị tới hạn này, (5.433 > 2.101), và do đó giả thuyết vô hiệu bị bác bỏ. Chúng ta kết luận rằng mối tương quan có ý nghĩa ở mức 5%.

– Bước 5: Kiểm tra khoảng tin cậy của hệ số tương quan r

Khoảng tin cậy là dựa vào một sự chuyển đổi thống kê r thành thống kê Fisher’s z. Điều này không giống như độ lệch Z (Z-deviate) so với phân phối chuẩn (đôi khi được gọi là điểm Z). Để diễn giải khoảng tin cậy, điểm số Fisher’s z phải được chuyển đổi trở lại số liệu tương quan. Fisher’s z được đánh giá là:

Khoảng tin cậy (95%) cho mối tương quan lưỡng biến giữa Điểm thi viết cuối kì môn Toán giải thích và số giờ ôn tập của các sinh viên được tính bằng công thức:

Phương pháp đánh giá tương quan

Công thức chuyển đổi Fisher’s Z được định nghĩa là:

Phương pháp đánh giá tương quan

Áp dụng các công thức trong ví dụ (với r = 0.78), ta có:

Phương pháp đánh giá tương quan

Khoảng tin cậy (95%):

Phương pháp đánh giá tương quan

\= 0.57 đến 1.52

Các giá trị này bây giờ phải được chuyển đổi trở lại số liệu ban đầu.

Phương pháp đánh giá tương quan

Nhận xét: Chúng ta có thể kết luận rằng chúng ta chắc chắn 95% rằng mối tương quan dân số là dương và nằm trong khoảng 0.515 đến 0.909. Khoảng tin cậy này không bao gồm giá trị 0, điều này cho thấy mối tương quan có ý nghĩa thống kê ở mức 5%.