Chuẩn hóa về thang đo bằng hàm scale trong r năm 2024

Thân chào các bạn, đây là bài thực hành thứ 4 trong dự án Bayes for Vietnam, được reboot lại từ project cùng tên năm 2016. Mục tiêu của dự án này là phổ biến phương pháp thống kê theo trường phái Bayes cho các bạn bác sĩ và sinh viên y khoa, nhằm thay thế cho những công cụ thống kê truyền thống.

Chúng ta đã đi qua 3 chặng đường, dùng Bayes thay thế cho Student t-test, Chisquared test và phân loại bằng hồi quy Logistic. Các bạn đã bắt đầu quen với cấu trúc ngôn ngữ STAN, quy trình chuyển giả thuyết nghiên cứu thành mô hình Bayes, khai thác phân phố hậu định. Qua 2 bài gần đây nhất, ta thấy rằng: 1) Phân tích theo trường phái Bayes có cấu trúc như nhau trong mọi bài toán:

\[p(\theta |outcome, data)\propto p(outcome|\theta) p(\theta ,data)\]

theo đó, phân phối hậu định của một tham số Theta (xác suất điều kiện của theta khi có thông tin về biến kết quả outcome và matrix/vector dữ liệu) tỉ lệ với tích của hàm likelihood (xác suất có điều kiện cho phép ước tính kết quả khi có theta và dữ liệu) với phân phối tiền định (prior= một giả thuyết về phân phối của theta trước khi ta nhìn thấy dữ liệu và kết quả).

  1. Vấn đề là ta phải chuyển câu hỏi nghiên cứu và dữ liệu thành mô hình Bayes, trong đó theta (hoặc outcome) là mục tiêu cần tìm phân phối hậu định, ta phải mô tả được quy luật của hàm likelihood, và cuối cùng, phải cân nhắc trong việc chọn prior. Khi đã phác thảo được mô hình trên giấy thì việc viết code chỉ còn là vấn đề kỹ thuật.
  2. Theo nguyên tắc này, ta có thể thay thế tất cả những công cụ thống kê truyền thống dùng null hypothesis testing và p_value bằng phân tích Bayes.
  3. Sự thay thế có thể thực hiện ở 2 cấp độ (theo 2 cách): hoặc chọn trị số thống kê (thí dụ t cho Student t test, Chisquare cho Pearson’s Chi2 test, và các effect sizes) làm mục tiêu để tìm phân phối hậu định, tức là vẫn bám sát vào truyền thống; hoặc chỉ giữ lại tinh thần của giải pháp mà không chấp chước vào các trị số quy ước, thí dụ thay vì tính t / Cohen’s d thì ta dùng mô hình GLM với likelihood Student-t để khảo sát trực tiếp phân phối hậu định của trung bình khác biệt; thay vì tính Chi2 và Cramer’s V thì ta so sánh trực tiếp 2 tỉ lệ bằng mô hình Binomial Bayes hoặc tính odds-ratio bằng 1 model logistic Bayes, tức là ta bỏ hẳn công cụ đi và chỉ dùng mô hình.

Phân tích tương quan theo Pearson

Bài toán phân tích tương quan rất thường gặp trong nghiên cứu y học. Phân tích tương quan là một giải pháp thống kê rất quan trọng trong nghiên cứu khoa học, nhờ nó mà người ta khám phá ra những quy luật sinh lý bệnh mới, tạo ra thuốc chữa bệnh, liên kết được thông tin mới và cũ, thay thế phương pháp đo lường, biomarker cũ bằng phương pháp mới ưu việt hơn.

Vấn đề là ta có 2 vector X và Y là biến liên tục, và ta muốn biết giữa chúng có sự tương quan hay không. Tùy theo tình huống mà câu hỏi này có thể được diễn đạt khác nhau, thí dụ:

  1. Nếu ta chưa có giả thuyết nào về quan hệ nhân quả, đây sẽ là 1 phân tích mang ý nghĩa chung chung (vô hướng): ta có thể phát biểu giả thuyết: chứng minh X tương quan với Y, hay Y tương quan với X, hay chung chung: có sự tương quan giữa X và Y, hay: X và Y biến thiên cùng (ngược chiều), X và Y tỉ lệ thuận (nghịch)…
  2. Nếu ta có giả thuyết về quan hệ nhân quả, một trong hai biến sẽ là kết quả (Y) và biến còn lại (X) là nguyên nhân. Giả thuyết có thể là: Y phụ thuộc vào X, hay: X gây hiệu ứng lên thay đổi của Y, hay: Sự thay đổi của X gây ra sự thay đổi của Y
  3. Nếu X và Y có cùng bản chất nhưng khác nhau về phương pháp/điều kiện đo lường, hoặc nếu X và Y đều đại diện cho một hiện tượng nào đó, giả thuyết ở đây là: X và Y tương đương với nhau, X có thể thay thế cho Y, hay Y có thể được giải thích bởi X.

Nhưng trong thống kê, phân tích tương quan chỉ là việc đo lường variance của 2 biến số và khảo sát quan hệ giữa chúng, bao nhiêu phần variance của Y chung với X (có thể được giải thích bởi X).

Hệ số tương quan Pearson (kí hiệu : r, thuật ngữ đầy đủ : Pearson’s product moment correlation coefficient) là một trị số thống kê dùng để đo lường độ mạnh và chiều hướng của tương quan giữa 2 biến liên tục X và Y. Một cách tổng quát, r được xác định bằng tỉ số giữa Covariance 2 biến X,Y chia cho tích số của độ lệch chuẩn của chúng:

\[r_{X,Y}=\frac{Cov(XY)}{sd(X)*sd(Y)}\]

Hệ số r dao động trong khoảng -1 đến +1. Giá trị r=0 cho thấy không có tương quan giữa 2 biến. Giá trị r>0 biểu thị cho mối tương quan thuận (X và Y biến thiên cùng chiều), Giá trị r<0 biểu thị cho tương quan nghịch (X tăng thì Y giảm và ngược lại). Càng gần cực trị +/-1 thì tương quan càng mạnh. Giá trị r càng gần 1 cho thấy 2 biến tỉ lệ với nhau một cách hoàn hảo.

Trong trường phái tần số (frequentist), mục tiêu còn là kiểm định ý nghĩa thống kê của r. Một kiểm định t sẽ được áp dụng để phản nghiệm giả thuyết H0 là r=0, ta tính trị số t từ r và cỡ mẫu, t có phân phối Student t, độ tự do = (n-2):

\[t = r\sqrt{\frac{N-2}{1-r^2}}\]

Một hướng đi khác, tốt hơn, đó là dựng một mô hình hồi quy tuyến tính với Y là biến kết quả, X là hiệp biến số. Cách làm này cho ra kết quả phong phú hơn nhiều so với phân tích r đơn giản, vì ngoài độ mạnh, chiều hướng và ý nghĩa của tương quan, mô hình tuyến tính còn cho phép diễn giải mối tương quan theo thang đo tỉ lệ giữa Y và X, thí dụ ta có thể diễn giải : X tăng 1 đơn vị thì Y tăng beta1 đơn vị. Hệ số hồi quy beta do đó cũng có ý nghĩa tương đương với r. Beta và r cùng dấu vì chúng tỉ lệ thuận với nhau. Nếu beta=0 thì r cũng sẽ =0, do đó kiểm định t cho hệ số hồi quy beta giữa Y và X cũng chính là cho ý nghĩa thống kê của mối tương quan, chúng sẽ cho ra cùng trị số t, cùng p_value. Một mô hình tuyến tính còn cho phép đưa thêm biến số X2, X3… để xét mối tương quan riêng phần.

Một nguyên nhân khác khiến mô hình hồi quy tốt hơn Pearson’s r, đó là r nhạy hơn với việc thang đo của X bị chặn (giá trị của X trong mẫu không bao quát hết toàn bộ thang đo của nó trên thực tế), mô hình hồi quy ít bị ảnh hưởng bởi điều này.

Cuối cùng, mô hình hồi quy cho phép diễn giải kết quả với ý nghĩa nhân quả, có định hướng.

Nhược điểm của trường phái frequentist

Trường phái frequentist và null hypothesis testing (với p value) có vài nhược điểm, trong số đó nguy hiểm nhất là 2 vấn đề như sau :

Thứ nhất : Ý nghĩa thống kê hoàn toàn khác với ý nghĩa lâm sàng : Cả r và p value đều không cho phép kết luận về ý nghĩa lâm sàng :

Vấn đề này có thể được minh chứng qua thí dụ mô phỏng sau đây : Quan hệ giữa Y và X là vô cùng nhỏ bé (khoảng 1 phần triệu), tuy nhiên mô hình vẫn cho ra một giá trị p rất đẹp và 1 hệ số tương quan mạnh. Phi lý quá phải không các bạn ?

set.seed(123)  
sample=data.frame(X=c(1:50))%>%mutate(.,Y=0.000001*X+45+rnorm(50,0,0.000005))
## Warning: package 'bindrcpp' was built under R version 3.4.1
sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)
sample%>%lm(Y~X,.)%>%summary()
##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16
cor.test(sample$X,sample$Y)
##   
##  Pearson's product-moment correlation  
##   
## data:  sample$X and sample$Y  
## t = 21.673, df = 48, p-value < 2.2e-16  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  0.9173988 0.9729143  
## sample estimates:  
##      cor   
## 0.952516

Thứ hai : Độ lớn của r và ý nghĩa thống kê (p value) phụ thuộc vào cỡ mẫu, và chúng có thể mâu thuẫn nhau. Bản thân p value không cho biết độ mạnh tương quan và ngược lại. Ta có thể thấy điều này qua thí dụ sau :

Một mối tương quan mạnh (được mô phỏng theo công thức) nhưng cỡ mẫu quá thấp (n=5) sẽ cho ra kết quả p_value không có ý nghĩa thống kê

set.seed(123)  
sample=data.frame(X=c(1:5))%>%mutate(.,Y=X*rnorm(5,5,4)+rnorm(5,5,4))
sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red",fill="gold")+  
  geom_point(shape=21,size=5,color="black",fill="red")+  
  theme_bw()
sample%>%lm(Y~X,.)%>%summary()
##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##       1       2       3       4       5   
## -0.7218 -4.4127 10.1545 -4.1838 -0.8362   
##   
## Coefficients:  
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   11.265      7.198   1.565    0.216  
## X              4.075      2.170   1.877    0.157  
##   
## Residual standard error: 6.863 on 3 degrees of freedom  
## Multiple R-squared:  0.5402, Adjusted R-squared:  0.387   
## F-statistic: 3.525 on 1 and 3 DF,  p-value: 0.1571
cor.test(sample$X,sample$Y)
## Warning: package 'bindrcpp' was built under R version 3.4.1

1

Trong khi đó, chỉ cần tăng cỡ mẫu lên cực lớn,thí dụ =1000, mọi mối tương quan mạnh hay yếu đều trở nên có ý nghĩa thống kê với P_value rất đẹp:

## Warning: package 'bindrcpp' was built under R version 3.4.1

2

sample%>%lm(Y~X,.)%>%summary()
## Warning: package 'bindrcpp' was built under R version 3.4.1

4

cor.test(sample$X,sample$Y)
## Warning: package 'bindrcpp' was built under R version 3.4.1

6

Trong một thí dụ khác, X và Y được mô phỏng theo cùng 1 quy luật phân phối, nhưng cỡ mẫu càng lớn thì kết quả càng có ý nghĩa thống kê, p value càng đẹp

## Warning: package 'bindrcpp' was built under R version 3.4.1

7

Để khắc phục những nhược điểm này và đạt tới một kết quả hòa hợp giữa ý nghĩa thực tiễn, độ tin cậy, giả thuyết và dữ liệu, ta cần tìm một hướng đi khác, và đó là phương pháp Bayes.

Bài toán minh họa

Trong bài này, Nhi sẽ dùng bộ số liệu khảo sát tính tương hợp giữa 2 phương pháp đo gián tiếp cung lượng tim (cardiac output) : TCO đo bằng Thermodilution, FCO đo bằng định luật Fick trên 15 bệnh nhân. Số liệu lấy từ nghiên cứu của Avi A. Weinbroum (Journal of Clinical Monitoring and Computing (2008) 22: 361-366).

Như vậy bài toán này có 2 biến số TCO và FCO.

Do TCO và FCO có cùng ý nghĩa sinh lý, cùng đơn vị đo, đây là 1 bài toán với mục tiêu hoán đổi biến số/chứng minh sự tương hợp. Nhi giả định TCO là biến kết quả, FCO là predictor; Giả thuyết nghiên cứu được phát biểu là:

  1. Chung chung: chứng minh có tương quan thuận giữa TCO và FCO
  2. Cụ thể: chúng minh TCO tương đương với FCO, hay: FCO có thể giải thích gần như toàn bộ variance của TCO.

## Warning: package 'bindrcpp' was built under R version 3.4.1

8 TCO FCO 4.9 5.3 7.4 10.2 8.1 8.7 3.1 3.7 5.7 7.6 3.1 3.7

## Warning: package 'bindrcpp' was built under R version 3.4.1

9

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

0

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

1

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

2

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

3

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

4

Giải pháp Bayes cho phân tích tương quan

Để đi tìm hệ số r bằng phương pháp Bayes, chúng ta phải xây dựng mô hình. Mô hình này là gì ? Ta đã có câu trả lời ở trên: đó là một mô hình hồi quy tuyến tính đơn biến Y ~ X. Vì nếu truy nguyên ta sẽ thấy rằng tất cả khái niệm như hiệp phương sai (covariance), phương sai (variance), độ lệch chuẩn (sigma, là căn bậc 2 của variance), sum of square (tổng bình phương sai số), hệ số tương quan r … đều có quan hệ với nhau và chúng cùng hội tụ về mô hình hồi quy tuyến tính do Karl Pearson và Francis Galton xây dựng vào những năm 1880.

Như vậy bản chất của phân tích tương quan là dựng một mô hình tuyến tính (đường thẳng), sau đó đo lường xem các giá trị quan sát thực tế cách đường thẳng này bào xa, hay nói cách khác, liệu mô hình này có phù hợp với dữ liệu hay không.

Có hai con đường cho phép kết nối giữa hệ số r và mô hình hồi quy tuyến tính, đó là:

Thứ nhất: Hệ số hồi quy beta cho Xi trong một mô hình hồi quy Y =X tỉ lệ thuận với r và có thể được tính từ r qua công thức:

\[b_{X_{i}} =\frac{Cov(X_{i}Y)}{Var(X_{i})} = r_{X,Y}\tfrac{sdY}{sdX}\] Như vậy, trong một mô hình mà cả X và Y đều được chuẩn hóa (về đơn vị là sd), thì hệ số hồi quy beta chính là r

Thứ 2: Cho một mô hình hồi quy tuyến tính, giá trị của r chính là căn bậc hai của hệ số Rsquared.

\[Pearson's \ r(X,Y) = \sqrt{R^2}\] Ta có thể kiểm chứng như sau:

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

5

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

6

Như vậy cả 4 cách làm đều dẫn tới giá trị r như nhau.

Giải pháp Bayes thứ 1: Mô hình XY chuẩn hóa

Trong cách làm thứ nhất, ta sẽ xác định trực tiếp phân phối hậu định của r dựa vào tính chất: r chính là hệ số hồi quy beta của mô hình tuyến tính Y~X mà cả X và Y đều đã chuẩn hóa bằng hàm scale( ).

Như vậy nội dung mô hình STAN như sau:

  1. Block data : khai báo 3 thành phần: cỡ mẫu n là một số nguyên có giá trị nhỏ nhất = 3; X và Y là 2 vector chứa giá trị đã được chuẩn hóa của X và Y
  2. Block parameter : khai báo 3 tham số trong mô hình: intercept là một số thực, beta là hệ số hồi quy của X trong mô hình, nó là 1 số thực nhưng bị chặn trong khoảng -1 đến 1 (ta sẽ dùng beta như hệ số r); sigma là sd của Y trong hàm likelihood, là số thực có giá trị thấp nhất =0)
  3. Block model : khai báo tham số mu là giá trị kỳ vọng của Y trong hàm likelihood, mu là 1 vector có độ dài n;

Sau đó ta khai báo 3 priors cho intercept, beta và sigma. Do ta không có thông tin gì về intercept, nên Nhi chọn một prior vô thưởng vô phạt là phân phối normal, trung bình = 0, sd=100 ;

cho tham số beta (hay r), Nhi có 1 giả định ngay từ đầu đó là X và Y có tương quan rất mạnh (nhận xét trực quan trên đồ thị), nên Nhi dùng 1 prior cụ thể đó là beta có phân phối chuẩn, trung bình =0.95 và sd =0.25 (ta không quên là beta bị chặn ở giá trị =1 nha các bạn)

; và sigma có phân phối half Cauchy, do không có giả thuyết nào cho nó.

Hàm likelihood có nội dung : Y được mô tả bằng phân phối normal (mu,sigma) với mu được ước tính bằng mô hình tuyến tính mu = intercept+beta*X

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

7

Để thi hành mô hình này, trước tiên ta chuẩn hóa TCO và FCO, và chuyển kết quả thành 2 vector Y và X.Sau đó ta tạo data list cho mô hình

Ta sẽ xác định quy trình lấy mẫu MCMC bằng các tùy chỉnh như: số chuỗi (nchain=3), số lượt khởi động (để ổn định quy trình, phần này sẽ không được lưu lại, thinstep để rút ngắn kích thước mẫu, số lượt sẽ được sao lưu trong cả 3 chuỗi (save= 3000 cho mỗi chuỗi), như vậy iter = tổng số lượt lấy mẫu; cores=4 cho phép huy động tối đa 4 lõi vi xử lý cho quy trình lấy mẫu để tăng tốc độ converge.

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

8

sample%>%ggplot(aes(x=X,y=Y))+  
  geom_smooth(method="lm",color="red")+  
  geom_point(shape=21,size=2,color="black",fill="red")+  
  theme_bw()+ylim(44,46)

9

Sau khi thi hành mô hình STAN, ta có thể khai thác kết quả. Kết quả chính của mô hình này là phân phối hậu định cho tham số beta,cũng chính là hệ số tương quan r:

sample%>%lm(Y~X,.)%>%summary()

0

sample%>%lm(Y~X,.)%>%summary()

1

Median của beta là 0.93 (từ 0.79 đến 1), cho thấy một sự tương quan mạnh giữa X và Y

sample%>%lm(Y~X,.)%>%summary()

2

Đây là mục tiêu ta nhắm đến, nhưng chưa phải là một giải pháp tối ưu. Như đã nói ở trên, một mô hình tuyến tính là cách làm tối ưu cho phân tích tương quan. Chúng ta sẽ thực hiện nó bằng phương pháp Bayes:

Giải pháp Bayes thứ 2: Mô hình tuyến tính

Mục tiêu bây giờ đó là dựng một mô hình tuyến tính với Y là kết quả, X là predictor. Trong phương pháp Bayes, điều này có nghĩa là ta đi tìm phân phối hậu định cho các tham số beta0 (intercept) beta1 cho X, 2 tham số này cho phép ước tính Mu là trung bình dự báo của Y. Tham số thứ 3 là sigma, hay SD của phân phối chuẩn của Y.

Một thủ thuật thường dùng trong phân tích hồi quy cho biến định lượng liên tục, đó là di dời mốc thang đo của X về vị trí trung bình (centering), tức là mỗi giá trị Xi trừ cho trung bình của X. Việc di dời này cho phép diễn giải kết quả một cách chính xác hơn. Nó thay đổi intercept nhưng không làm ảnh hưởng gì đến hệ số hồi quy beta.

Centering sẽ được áp dụng trong mô hình Bayes. Ta sẽ xuất kết quả 2 giá trị Intercept, một ở thang đo nguyên thủy của X, một cho thang đo sau khi di dời.

Nội dung của mô hình STAN như sau:

  1. Block data : Khai báo 4 thành phần trong list data: cỡ mẫu n là một số nguyên có giá trị nhỏ nhất = 3, Y là 1 vector cho biến kết quả, có kích thước =n; nX là số predictor trong mô hình (trong trường hợp ta có nhiều hơn 1 predictor), nX là 1 số nguyên, nhỏ nhất =1; X là một matrix (n hàng, nX cột) đại diện cho model matrix.
  2. Block transformed data: nhằm hoán chuyển dữ liệu (ở đây là centering). Trước tiên ta khai báo Xc là một matrix X sau khi di dời thang đo của tất cả nX-1 cột bên trong ; means_X là một vector có kích thước nX-1, chứa giá trị trung bình cho mỗi predictor Xi trong matrix X. Hàm hoán chuyển (centering) là 1 vòng lặp có nội dung lấy mỗi giá trị Xi trừ cho means_X
  3. Block parameters: khai báo tham số trong mô hình, gồm: beta là vector kích thước nX-1, nó chứa hệ số hồi quy cho các predictors Xi trong matrix X (lưu ý; beta không bị ảnh hưởng bởi centering); cbeta0 là một số thực, chứa intercept (chỉ có 1 intercept) của mô hình với matrix Xc; sigma là một số thực, tham số scale cho phân phối normal của Y.
  4. Block transformed parameter không sử dụng
  5. Block model : Đầu tiên ta khai báo tham số trung gian mu, là 1 vector kích thước n, mu chỉ giá trị trung bình của phân phối Normal của Y, mu = giá trị dự báo của Y trong mô hình tuyến tính. Hàm likelihood có nội dung: Y được mô tả bằng 1 phân phối normal, với 2 tham số Mu và Sigma.

Có 3 tham số nên có 3 priors; cụ thể: flat prior được dùng cho beta và cbeta, half Cauchy được dùng cho sigma.

  1. Block transformed parameters cho phép chúng ta tính được Intercept (beta0) ở thang đo gốc từ cbeta0

sample%>%lm(Y~X,.)%>%summary()

3

Ta tạo list data gồm model matrix, vector Y, nX và n, sau đó đưa vào mô hình STAN và thi hành:

sample%>%lm(Y~X,.)%>%summary()

4

sample%>%lm(Y~X,.)%>%summary()

5

Kết quả mô hình sẽ cung cấp cho chúng ta 4 chuỗi MCMC, chứa phân phối hậu định của cbeta0, beta0, beta[1], vaé sigma.

sample%>%lm(Y~X,.)%>%summary()

0

sample%>%lm(Y~X,.)%>%summary()

7

Kiểm tra phẩm chất chuỗi MCMC

Trong bài này, Nhi sẽ giới thiệu với các bạn một bước phụ trong quy trình Bayes, đó là kiểm tra phẩm chất của các chuỗi MCMC. Bản chất của chuỗi MCMC là một quy trình rút ngẫu nhiên một mẫu khá lớn (vài ngàn giá trị) từ phân phối hậu định của tham số, để mô phỏng phân phối này.

Phẩm chất của chuỗi MCMC có thể được cảm nhận trực quan khi biễu diễn nó như 1 chuỗi giá trị theo thời gian (time series data). Chuỗi MCMC tốt có hình ảnh liên tục, đồng nhất, nếu có nhiều chuỗi thì chúng đồng dạng và chổng lắp được với nhau.

sample%>%lm(Y~X,.)%>%summary()

8

Kiểm định Raftery(package coda) là một cách để kiểm tra về tính phù hợp của kích thước chuỗi MCMC với độ tin cậy. Nó sẽ ước tính số lượt lấy mẫu tối thiểu cần thực hiện để đạt độ chính xác nhất định (thí dụ 0.5%). Nếu trên thực tế số lượt lấy mẫu của chúng ta cao hơn giá trị này thì ta có thể yên tâm.

sample%>%lm(Y~X,.)%>%summary()

9

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

0

Phân tích Autocorrelation của chuỗi MCMC: Mục tiêu là xác định giá trị lag của MCMC (như 1 time serie), giá trị lag càng gần 0 càng tốt (tiêu chuẩn là lag < 2), vì theo nguyên tắc các đoạn mẫu nối tiếp trong chuỗi phải độc lập với nhau (không tương quan lẫn nhau).

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

1

Một tiêu chí khác là giá trị R-hat, nó cho phép đo lường tính hiệu quả của quy trình lấy mẫu. Một cách đơn giản, giá trị R-hat càng gần 1 càng tốt (ngưỡng là < 1.05).

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

2

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

3

Cuối cùng, trị số ESS (effective sample size, tỉ lệ cỡ mẫu khả dụng), cho biết tỉ lệ mẫu được mô phỏng một cách hiệu quả so với tổng số lần lấy mẫu, giá trị ess càng gần 1.0 (100%) càng tốt.

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

4

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

3

Diễn giải phân phối hậu định

Bây giờ chúng ta thử kiểm tra lại 100 phiên bản mô hình tuyến tính được định dạng từ phân phối hậu định cho beta0, beta1 và so sánh với model dựng bằng mô hình theo phái REML:

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

6

Thật ngoạn mục, đó là mô hình tuyến tính theo Bayes cũng cho ra hệ số r tương đương với phương pháp tần số

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

7

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

8

Nếu tham vọng, ta có thể tạo ra phân phối hậu định cho r nữa (Thực ra ta đã có thể làm điều này trong block generated quantities của STAN code, nhưng ta không làm như vậy, vì tính toán trên vector MCMC luôn nhanh chóng hơn là cưỡng ép sampler lấy mẫu MCMC cho nhiều trị số). Những trị số có thể suy ra từ tham số trong mô hình nên được tính bên ngoài STAN, sau khi đã có MCMC của những tham số thiết yếu.

Đây là phân phối hậu định của r và Rsquared

##   
## Call:  
## lm(formula = Y ~ X, data = .)  
##   
## Residuals:  
##        Min         1Q     Median         3Q        Max   
## -1.006e-05 -3.111e-06 -4.097e-07  3.330e-06  1.080e-05   
##   
## Coefficients:  
##              Estimate Std. Error   t value Pr(>|t|)      
## (Intercept) 4.500e+01  1.343e-06 3.351e+07   <2e-16 ***  
## X           9.932e-07  4.583e-08 2.167e+01   <2e-16 ***  
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  
##   
## Residual standard error: 4.676e-06 on 48 degrees of freedom  
## Multiple R-squared:  0.9073, Adjusted R-squared:  0.9054   
## F-statistic: 469.7 on 1 and 48 DF,  p-value: < 2.2e-16

9

Sử dụng ROPE và CompVal (bạn xem 2 bài trước để hiểu thêm về 2 phương pháp này), ta có thể kiểm định một số giả thuyết về r:

cor.test(sample$X,sample$Y)

0

cor.test(sample$X,sample$Y)

1

Thí dụ, Nhi muốn kiểm tra 3 câu hỏi: r có cao hơn 0.9 hay không (dùng Compval ) ? Khả năng bao nhiêu % là r cao hơn 0.95 ? bao nhiêu % là r nằm trong khoảng 0.92 tới 0.95 ? (dùng ROPE).

Kết quả cho thấy Trung vị của r=0.9593; ngưỡng LL=0.932, UL=0.963; 99.8% phân phối của r lớn hơn 0.9; 2% r nhỏ hơn 0.92, 14.8% r nằm trong khoảng 0.92-0.95; 84.98% r cao hơn 0.95.

Như vậy ta có thể xác tín rằng tương quan giữa TCO và FCO là rất mạnh, gần như chắc chắn là r cao hơn 0.92

Một công cụ khác cũng rất lợi hại để kiểm tra phân phối hậu định r, đó là tỉ trọng chứng cứ hay Bayes factor. Trong thí dụ sau, Nhi khảo sát Bayes factor cho 11 giả thuyết H1/H0 với ngưỡng so sánh tăng dần từ 0.9 đến 1

cor.test(sample$X,sample$Y)

2

Kết quả cho thấy mức độ xác tín là rất cao trong khoảng 0.9 đến 0.93, và giảm dần cho đến 0.96, và gần như =0 từ 0.97 trở đi, như vậy với dữ liệu hiện thời, ta chỉ có thể xác quyết về giá trị r trong khoảng 0.90 đến 0.93.

Tổng kết

Bài thực hành của chúng ta đến đây là kết thúc. Các bạn đã có thể thay thế phăn tích tương quan cổ điển bằng phương pháp Bayes. Tất cả là nhờ mô hình tuyến tính mà tổ sư Karl Pearson truyền lại, chúng ta chỉ dựng mô hình theo một cách khác.

Một số thông điệp quan trọng có thể rút ra trong bài này, đó là:

  1. Có sự quan hệ giữa hệ số tương quan r và mô hình tuyến tính
  2. Mô hình tuyến tính là giải pháp tốt hơn so với r và t test, vì mô hình sẽ cho nhiều thông tin hơn, bao gồm cả r
  3. Chỉ dùng sampler cho những tham số thực sự thiết yếu, và tính những trị số khác sau đó từ MCMC
  4. Phương pháp frequentist và p_value có nhiều nhược điểm và bẫy nguy hiểm, ta nên thay thế cách làm cũ bằng phương pháp Bayes.

Đây chỉ mới là một khúc dạo đầu cho một chặng đường mới thú vị hơn mà ta sẽ khám phá, đó là mô hình tuyến tính tổng quát (GLM) theo BAYES. Hẹn gặp lại các bạn.

Nếu các bạn có hứng thú tham gia reboot cho dự án Bayes for Vietnam, xin liên lạc với nhóm chúng tôi.

Xin cảm ơn và hẹn gặp lại

