Simple Linear Regression

Tổng quan

Simple linear regression mô hình hóa mối quan hệ tuyến tính giữa một biến phụ thuộc $Y$ và một biến độc lập $X$ duy nhất. Đây là nền tảng cho toàn bộ phân tích hồi quy trong tài chính — được dùng để ước tính mức độ phơi nhiễu nhân tố (factor exposures), dự báo lợi suất, phân tích mối quan hệ giữa các biến kinh tế, và kiểm định xem một biến dự báo có sức giải thích thống kê có ý nghĩa hay không.

Mô hình và Ước lượng OLS

Mô hình hồi quy tổng thể là:

$Y_{i} = b_{0} + b_{1} X_{i} + ε_{i}$

trong đó $b_{0}$ là hệ số chặn (intercept), $b_{1}$ là hệ số góc (slope), và $ε_{i}$ là sai số (error term) — được giả định có kỳ vọng bằng không, phương sai không đổi, và không tương quan với nhau giữa các quan sát. Mô hình ước lượng là:

$\hat{Y}_{i} = \hat{b}_{0} + \hat{b}_{1} X_{i}$

Ordinary Least Squares (OLS) ước lượng $\hat{b}_{0}$ và $\hat{b}_{1}$ bằng cách tối thiểu hóa tổng bình phương phần dư. Ước lượng OLS có nghiệm dạng đóng:

$\hat{b}_{1} = \frac{Cov ( X , Y )}{s _{X}^{2}} \hat{b}_{0} = \overset{ˉ}{Y} - \hat{b}_{1} \overset{ˉ}{X}$

Hệ số góc ước lượng bằng tỷ số giữa hiệp phương sai mẫu của $X$ và $Y$ so với phương sai mẫu của $X$ . Khi các giả định cổ điển được thỏa mãn (tuyến tính, độc lập, homoskedasticity, phân phối chuẩn), OLS là Best Linear Unbiased Estimator (BLUE) — ước lượng tuyến tính không chệch hiệu quả nhất.

Diễn giải Hệ số

Intercept $\hat{b}_{0}$ : Giá trị dự báo của $Y$ khi $X = 0$ . Có thể không mang ý nghĩa kinh tế nếu $X = 0$ nằm ngoài phạm vi dữ liệu.
[[quantitative-methods/glossary/m10-simple-linear-regression#slope-coefficient|Slope $\hat{b}_{1}$ ]]: Khi $X$ tăng một đơn vị, $Y$ thay đổi trung bình $\hat{b}_{1}$ đơn vị, trong điều kiện các yếu tố khác không đổi. Dấu cho biết chiều của mối quan hệ; độ lớn cho biết mức độ mạnh yếu.
Residual $\overset{ε}{^}_{i} = Y_{i} - \hat{Y}_{i}$ : Phần của $Y_{i}$ không được mô hình hồi quy giải thích. Tổng các residual bằng không; phân tích residual giúp phát hiện vi phạm các giả định.

Độ phù hợp: R² và SEE

Biến động trong $Y$ được phân tích như sau:

$Tổng S S T = Giải th \overset{ı}{ˊ} ch đư ợc S S R + Kh \overset{o}{ˆ} ng giải th \overset{ı}{ˊ} ch đư ợc S S E$

Hệ số xác định R² đo tỷ lệ tổng biến động trong $Y$ được giải thích bởi $X$ :

$R^{2} = \frac{S S R}{S S T} = 1 - \frac{S S E}{S S T} \in [0, 1]$

Trong simple linear regression, $R^{2} = r_{X Y}^{2}$ (bình phương của hệ số tương quan Pearson). $R^{2}$ càng cao thì mô hình càng khớp tốt, nhưng $R^{2}$ cao một mình không đủ để xác nhận mô hình là hợp lệ.

Standard error of estimate (SEE) đo kích thước trung bình của residual:

$S E E = \frac{S S E}{n - 2}$

SEE càng nhỏ thì đường hồi quy càng gần với các điểm dữ liệu thực tế. SEE được dùng để xây dựng prediction intervals.

Kiểm định Ý nghĩa: ANOVA và t-Tests

Bảng ANOVA tổ chức phân tích phương sai và tạo ra F-statistic để kiểm định ý nghĩa tổng thể của mô hình:

$H_{0} : b_{1} = 0 F = \frac{M S R}{M S E} = \frac{S S R /1}{S S E / ( n - 2 )}$

Bác bỏ $H_{0}$ (mô hình không có sức giải thích) khi $F > F_{critical}$ .

Các hệ số riêng lẻ được kiểm định bằng t-tests:

$t = \frac{b ^ _{1}}{s _{\hat{b}_{1}}} df = n - 2$

Trong simple linear regression, $F = t_{\hat{b}_{1}}^{2}$ — F-test và slope t-test là tương đương nhau.

Các Giả định Cổ điển và Vi phạm

Bốn giả định cổ điển phải được thỏa mãn để OLS cho ra ước lượng hợp lệ và hiệu quả:

Tuyến tính (Linearity): Mối quan hệ thực sự là tuyến tính. Các vi phạm thường có thể khắc phục bằng cách biến đổi biến (log-log, log-lin, lin-log).
Độc lập (Independence): Các sai số không tương quan với nhau và với $X$ . Vi phạm bởi serial correlation (phổ biến trong chuỗi thời gian), làm lệch sai số chuẩn.
Homoskedasticity: Phương sai sai số là hằng số. Heteroskedasticity (phương sai không ổn định) khiến sai số chuẩn OLS không đáng tin cậy.
Phân phối chuẩn (Normality): Sai số tuân theo phân phối chuẩn. Quan trọng khi suy diễn với mẫu nhỏ; ít quan trọng hơn với mẫu lớn do CLT.

Dự báo

Với giá trị mới $X_{0}$ , giá trị dự báo của $Y$ là $\hat{Y}_{0} = \hat{b}_{0} + \hat{b}_{1} X_{0}$ . Prediction interval tính đến cả sự không chắc chắn của mô hình (confidence interval cho giá trị trung bình) lẫn phương sai của từng quan sát riêng lẻ:

$\hat{Y}_{0} \pm t_{α /2, n - 2} \times s_{f} s_{f} = S E E 1 + \frac{1}{n} + \frac{( X _{0} - X ˉ ) ^{2}}{\sum ( X _{i} - X ˉ ) ^{2}}$

Prediction intervals luôn rộng hơn confidence intervals cho giá trị trung bình. Khoảng tin cậy mở rộng khi $X_{0}$ càng xa $\overset{ˉ}{X}$ — đây là giới hạn quan trọng khi ngoại suy ngoài phạm vi dữ liệu.

Các Module Nguồn

M10 — Simple Linear Regression — nội dung chính
M08 — Hypothesis Testing — t-tests và F-tests dùng trong hồi quy
M06 — Simulation Methods — phân phối F và t dùng cho suy diễn hồi quy

Wiki Hub

Explorer

Simple Linear Regression

Simple Linear Regression

Tổng quan

Mô hình và Ước lượng OLS

Diễn giải Hệ số

Độ phù hợp: R² và SEE

Kiểm định Ý nghĩa: ANOVA và t-Tests

Các Giả định Cổ điển và Vi phạm

Dự báo

Các Module Nguồn

Graph View

Table of Contents