Practice: M10 — Simple Linear Regression
Module: M10 Glossary: M10 Terms
Topic 1: Introduction to Linear Regression
Question 1: Stellar Energy regression with CPIENG (energy price index):
| Coefficients | Standard error | t-statistic | |
|---|---|---|---|
| Intercept | 0.0138 | 0.0046 | 3.0275 |
| CPIENG (%) | −0.6486 | 0.2818 | −2.3014 |
[[quantitative-methods/glossary/m10-simple-linear-regression#r|]] = 0.0211, Standard error = 0.0710, n = 248
Critical values: one-sided ±1.651, two-sided ±1.967
If CPIENG decreases by 1.0%, the expected return on Stellar is closest to:
A. 0.0073 (0.73%) B. 0.0138 (1.38%) C. 0.0203 (2.03%)
Answer
C. or 2.03% When CPIENG decreases 1%, the negative slope means Stellar returns increase.
📖 Giải thích chi tiết
Ôn lại khái niệm: Trong simple linear regression, phương trình dự đoán là , trong đó là intercept và là slope. Khi thay đổi 1 đơn vị, thay đổi đơn vị. Dấu của slope quan trọng: slope âm nghĩa là quan hệ nghịch chiều.
Tại sao C đúng — cách tính:
- (slope âm: khi CPIENG tăng, return Stellar giảm, và ngược lại)
- CPIENG giảm 1% →
- Hai số âm nhân nhau ra dương → CPIENG giảm → return Stellar tăng
Tại sao B sai: 0.0138 = 1.38% chỉ là intercept () — giá trị này là expected return khi CPIENG = 0, không phải khi CPIENG giảm 1%.
Tại sao A sai: 0.0073 là kết quả sai dấu — bằng . Lỗi này xảy ra nếu tính , nhầm lẫn chiều thay đổi của X.
Question 2: Which of the following is least likely an assumption of simple linear regression?
A. The variance of the error terms each period remains the same B. The error terms from a regression are positively correlated C. Values of the independent variable are not correlated with the error term
Answer
B. One key assumption is that residuals are uncorrelated (independence). Positively correlated errors would violate this assumption. A describes homoskedasticity (true assumption). C is also a valid assumption.
📖 Giải thích chi tiết
Ôn lại khái niệm: Các giả định cơ bản của OLS regression (Gauss-Markov assumptions):
- Quan hệ tuyến tính giữa Y và X
- Homoskedasticity — phương sai sai số không đổi: (hằng số)
- Independence — sai số độc lập với nhau: cho
- Sai số độc lập với biến độc lập X
- Sai số phân phối chuẩn (cho inference)
Tại sao B là “least likely an assumption” (vi phạm giả định): Giả định thực sự là sai số không tương quan với nhau. Nếu sai số dương tương quan (positively correlated residuals), đây là serial correlation / autocorrelation — vi phạm giả định independence. B mô tả một vi phạm, không phải một giả định.
Tại sao A là giả định đúng: Phương sai sai số không đổi = homoskedasticity — đây là giả định chuẩn của OLS. Vi phạm gọi là heteroskedasticity.
Tại sao C là giả định đúng: Nếu X tương quan với sai số , OLS ước lượng sẽ bị biased (lệch) — đây là vấn đề nghiêm trọng. Giả định là cần thiết để OLS unbiased.
Topic 2: Goodness of Fit
Question 3: Regression of mid-cap stock returns on S&P 500 returns:
| Coefficients | Std Error | t-value | |
|---|---|---|---|
| Intercept | 1.71 | 2.950 | 0.58 |
| S&P 500 | 1.52 | 0.130 | 11.69 |
The correlation coefficient between mid-cap returns and S&P 500 returns was:
A. 0.599 B. 0.774 C. 0.130
Answer
B. For simple linear regression: (Positive because slope is positive)
📖 Giải thích chi tiết
Ôn lại khái niệm: Trong simple linear regression (chỉ một biến độc lập), R² = (bình phương của correlation coefficient). Do đó: . Dấu của được xác định bởi dấu của slope coefficient .
Tại sao B đúng: . Vì slope = 1.52 > 0 (dương), correlation cũng dương → .
Tại sao A sai: 0.599 là , không phải . Đây là lỗi nhầm lẫn phổ biến — và là hai đại lượng khác nhau (, không phải ).
Tại sao C sai: 0.130 là standard error của slope coefficient — không liên quan đến correlation coefficient.
Lưu ý quan trọng: Mối quan hệ chỉ đúng với simple linear regression. Trong multiple regression (nhiều biến X), R² không còn bằng bình phương của một correlation coefficient đơn lẻ.
Question 4: From the Stellar/CPIENG regression, which conclusion is incorrect?
A. The intercept is statistically different from zero at 0.05 level B. In the month after CPIENG declines, Stellar’s common stock is expected to exhibit a positive return C. The slope and intercept coefficients are not statistically different from zero at 0.05
Answer
C. The intercept t-stat = 3.0275 > 1.967 → significant. The slope t-stat = |−2.3014| > 1.967 → also significant. So C is incorrect — both ARE statistically different from zero.
📖 Giải thích chi tiết
Ôn lại khái niệm: Kiểm định ý nghĩa thống kê của hệ số hồi quy: so sánh |t-statistic| với critical value. Nếu |t-stat| > , hệ số có ý nghĩa thống kê (statistically different from zero). Dùng two-sided critical value (±1.967) vì kiểm định .
Tại sao C là kết luận sai (và đây là đáp án):
- Intercept: |t| = 3.0275 > 1.967 → có ý nghĩa → khác 0
- Slope: |t| = |-2.3014| = 2.3014 > 1.967 → có ý nghĩa → khác 0
- Vậy C nói “không có ý nghĩa” là sai hoàn toàn
Tại sao A đúng (không phải đáp án): Intercept t-stat = 3.0275 > 1.967 → intercept có ý nghĩa ở mức 5% → A là kết luận đúng.
Tại sao B đúng (không phải đáp án): Slope = −0.6486 < 0 → khi CPIENG giảm (), → expected return tăng → B là kết luận đúng.
Mẹo làm bài: Câu hỏi “which is incorrect” → tìm statement mâu thuẫn với số liệu. Luôn kiểm tra từng phát biểu bằng dữ liệu trong bảng.
Topic 3: ANOVA Table
Question 5: Regression with 5 observations. SSR = 88.0, SSE = 7.2. Complete the ANOVA table and answer:
A. Sample variance of dependent variable? B. Coefficient of determination ()? C. What hypothesis does F-test test? D. Is F-test significant at 0.05? E. Standard error of estimate (SEE)?
Answer
SST = 88.0 + 7.2 = 95.2 A. Sample variance = B. or 92.44% C. F-test tests (slope = 0, no linear relationship) D. , ≈ 10.13 → → Reject , significant E.
📖 Giải thích chi tiết
Ôn lại khái niệm: ANOVA table trong regression phân tách tổng biến thiên của Y thành: SST (total) = SSR (explained by regression) + SSE (unexplained/residual). Các degrees of freedom: SSR có df = k (số biến X = 1), SSE có df = n - k - 1, SST có df = n - 1.
Bảng ANOVA hoàn chỉnh (n=5, k=1):
Source SS df MS F Regression (SSR) 88.0 1 88.0 36.67 Error (SSE) 7.2 3 2.4 Total (SST) 95.2 4 Giải thích từng phần:
- A — Sample variance: — đây là variance của Y trước khi hồi quy
- B — R²: — mô hình giải thích 92.4% biến thiên của Y
- C — F-test hypothesis: Luôn kiểm định (không có quan hệ tuyến tính). Trong multiple regression:
- D — F significance: → bác bỏ mạnh → mô hình có ý nghĩa
- E — SEE: — đơn vị giống Y, đo lường sai số dự đoán trung bình
Topic 4: Prediction Interval
Question 6: US CPI regression: , SEE = 0.0009, n = 60, intercept = 0.0001, slope = 0.9830. For a CPI consensus forecast of 2.8, calculate the 95% prediction interval.
Additional info: t-critical = 2.002, ,
Answer
Predicted value: Prediction interval: → 95% PI: 2.7510 to 2.7540 Closest to answer A: 2.7506 to 2.7544
📖 Giải thích chi tiết
Ôn lại khái niệm: Prediction interval (PI) cho một giá trị Y cụ thể (individual observation) tại rộng hơn confidence interval cho mean Y vì nó phải tính cả uncertainty của: (1) ước lượng conditional mean, và (2) sai số ngẫu nhiên của cá thể đó. Công thức: , trong đó bao gồm cả SEE.
Cách tính chi tiết:
- Bước 1 — Predicted value:
- Bước 2 — Prediction interval:
- → 95% PI: 2.7510 đến 2.7540
Phân biệt Confidence Interval vs Prediction Interval:
- CI cho mean Y: Khoảng tin cậy cho giá trị trung bình của Y tại — hẹp hơn
- PI cho individual Y: Khoảng dự đoán cho một quan sát cụ thể tại — rộng hơn vì thêm variance của sai số ngẫu nhiên
Ý nghĩa của : Mô hình rất tốt, giải thích gần như toàn bộ biến thiên. Vì vậy PI rất hẹp (±0.0015 là rất nhỏ so với giá trị 2.75) — model fit tốt dẫn đến dự đoán chính xác.