Simple Linear Regression
Tổng quan
Simple linear regression mô hình hóa mối quan hệ tuyến tính giữa một biến phụ thuộc và một biến độc lập duy nhất. Đây là nền tảng cho toàn bộ phân tích hồi quy trong tài chính — được dùng để ước tính mức độ phơi nhiễu nhân tố (factor exposures), dự báo lợi suất, phân tích mối quan hệ giữa các biến kinh tế, và kiểm định xem một biến dự báo có sức giải thích thống kê có ý nghĩa hay không.
Mô hình và Ước lượng OLS
Mô hình hồi quy tổng thể là:
trong đó là hệ số chặn (intercept), là hệ số góc (slope), và là sai số (error term) — được giả định có kỳ vọng bằng không, phương sai không đổi, và không tương quan với nhau giữa các quan sát. Mô hình ước lượng là:
Ordinary Least Squares (OLS) ước lượng và bằng cách tối thiểu hóa tổng bình phương phần dư. Ước lượng OLS có nghiệm dạng đóng:
Hệ số góc ước lượng bằng tỷ số giữa hiệp phương sai mẫu của và so với phương sai mẫu của . Khi các giả định cổ điển được thỏa mãn (tuyến tính, độc lập, homoskedasticity, phân phối chuẩn), OLS là Best Linear Unbiased Estimator (BLUE) — ước lượng tuyến tính không chệch hiệu quả nhất.
Diễn giải Hệ số
- Intercept : Giá trị dự báo của khi . Có thể không mang ý nghĩa kinh tế nếu nằm ngoài phạm vi dữ liệu.
- [[quantitative-methods/glossary/m10-simple-linear-regression#slope-coefficient|Slope ]]: Khi tăng một đơn vị, thay đổi trung bình đơn vị, trong điều kiện các yếu tố khác không đổi. Dấu cho biết chiều của mối quan hệ; độ lớn cho biết mức độ mạnh yếu.
- Residual : Phần của không được mô hình hồi quy giải thích. Tổng các residual bằng không; phân tích residual giúp phát hiện vi phạm các giả định.
Độ phù hợp: R² và SEE
Biến động trong được phân tích như sau:
Hệ số xác định R² đo tỷ lệ tổng biến động trong được giải thích bởi :
Trong simple linear regression, (bình phương của hệ số tương quan Pearson). càng cao thì mô hình càng khớp tốt, nhưng cao một mình không đủ để xác nhận mô hình là hợp lệ.
Standard error of estimate (SEE) đo kích thước trung bình của residual:
SEE càng nhỏ thì đường hồi quy càng gần với các điểm dữ liệu thực tế. SEE được dùng để xây dựng prediction intervals.
Kiểm định Ý nghĩa: ANOVA và t-Tests
Bảng ANOVA tổ chức phân tích phương sai và tạo ra F-statistic để kiểm định ý nghĩa tổng thể của mô hình:
Bác bỏ (mô hình không có sức giải thích) khi .
Các hệ số riêng lẻ được kiểm định bằng t-tests:
Trong simple linear regression, — F-test và slope t-test là tương đương nhau.
Các Giả định Cổ điển và Vi phạm
Bốn giả định cổ điển phải được thỏa mãn để OLS cho ra ước lượng hợp lệ và hiệu quả:
- Tuyến tính (Linearity): Mối quan hệ thực sự là tuyến tính. Các vi phạm thường có thể khắc phục bằng cách biến đổi biến (log-log, log-lin, lin-log).
- Độc lập (Independence): Các sai số không tương quan với nhau và với . Vi phạm bởi serial correlation (phổ biến trong chuỗi thời gian), làm lệch sai số chuẩn.
- Homoskedasticity: Phương sai sai số là hằng số. Heteroskedasticity (phương sai không ổn định) khiến sai số chuẩn OLS không đáng tin cậy.
- Phân phối chuẩn (Normality): Sai số tuân theo phân phối chuẩn. Quan trọng khi suy diễn với mẫu nhỏ; ít quan trọng hơn với mẫu lớn do CLT.
Dự báo
Với giá trị mới , giá trị dự báo của là . Prediction interval tính đến cả sự không chắc chắn của mô hình (confidence interval cho giá trị trung bình) lẫn phương sai của từng quan sát riêng lẻ:
Prediction intervals luôn rộng hơn confidence intervals cho giá trị trung bình. Khoảng tin cậy mở rộng khi càng xa — đây là giới hạn quan trọng khi ngoại suy ngoài phạm vi dữ liệu.
Các Module Nguồn
- M10 — Simple Linear Regression — nội dung chính
- M08 — Hypothesis Testing — t-tests và F-tests dùng trong hồi quy
- M06 — Simulation Methods — phân phối F và t dùng cho suy diễn hồi quy