Practice: M10 — Simple Linear Regression

Module: M10 Glossary: M10 Terms

Topic 1: Introduction to Linear Regression

Question 1: Stellar Energy regression with CPIENG (energy price index):

	Coefficients	Standard error	t-statistic
Intercept	0.0138	0.0046	3.0275
CPIENG (%)	−0.6486	0.2818	−2.3014

[[quantitative-methods/glossary/m10-simple-linear-regression#r| $R^{2}$ ]] = 0.0211, Standard error = 0.0710, n = 248

Critical values: one-sided ±1.651, two-sided ±1.967

If CPIENG decreases by 1.0%, the expected return on Stellar is closest to:

A. 0.0073 (0.73%) B. 0.0138 (1.38%) C. 0.0203 (2.03%)

Answer

C. $\hat{Y} = 0.0138 + (- 0.6486) (- 0.01) = 0.0138 + 0.006486 = 0.0203$ or 2.03% When CPIENG decreases 1%, the negative slope means Stellar returns increase.

📖 Giải thích chi tiết

Ôn lại khái niệm: Trong simple linear regression, phương trình dự đoán là $\hat{Y} = b_{0} + b_{1} X$ , trong đó $b_{0}$ là intercept và $b_{1}$ là slope. Khi $X$ thay đổi 1 đơn vị, $\hat{Y}$ thay đổi $b_{1}$ đơn vị. Dấu của slope quan trọng: slope âm nghĩa là quan hệ nghịch chiều.

Tại sao C đúng — cách tính:

$b_{1} = - 0.6486$ (slope âm: khi CPIENG tăng, return Stellar giảm, và ngược lại)

CPIENG giảm 1% → $Δ X = - 0.01$

$\hat{Y} = 0.0138 + (- 0.6486) (- 0.01) = 0.0138 + 0.006486 = 0.02029 \approx 2.03%$

Hai số âm nhân nhau ra dương → CPIENG giảm → return Stellar tăng

Tại sao B sai: 0.0138 = 1.38% chỉ là intercept ( $b_{0}$ ) — giá trị này là expected return khi CPIENG = 0, không phải khi CPIENG giảm 1%.

Tại sao A sai: 0.0073 là kết quả sai dấu — bằng $0.0138 - 0.006486$ . Lỗi này xảy ra nếu tính $\hat{Y} = 0.0138 + (- 0.6486) (+ 0.01)$ , nhầm lẫn chiều thay đổi của X.

Question 2: Which of the following is least likely an assumption of simple linear regression?

A. The variance of the error terms each period remains the same B. The error terms from a regression are positively correlated C. Values of the independent variable are not correlated with the error term

Answer

B. One key assumption is that residuals are uncorrelated (independence). Positively correlated errors would violate this assumption. A describes homoskedasticity (true assumption). C is also a valid assumption.

📖 Giải thích chi tiết

Ôn lại khái niệm: Các giả định cơ bản của OLS regression (Gauss-Markov assumptions):

Quan hệ tuyến tính giữa Y và X

Homoskedasticity — phương sai sai số không đổi: $V a r (ϵ_{i}) = σ^{2}$ (hằng số)

Independence — sai số độc lập với nhau: $C o v (ϵ_{i}, ϵ_{j}) = 0$ cho $i \neq = j$

Sai số độc lập với biến độc lập X

Sai số phân phối chuẩn (cho inference)

Tại sao B là “least likely an assumption” (vi phạm giả định): Giả định thực sự là sai số không tương quan với nhau. Nếu sai số dương tương quan (positively correlated residuals), đây là serial correlation / autocorrelation — vi phạm giả định independence. B mô tả một vi phạm, không phải một giả định.

Tại sao A là giả định đúng: Phương sai sai số không đổi = homoskedasticity — đây là giả định chuẩn của OLS. Vi phạm gọi là heteroskedasticity.

Tại sao C là giả định đúng: Nếu X tương quan với sai số $ϵ$ , OLS ước lượng sẽ bị biased (lệch) — đây là vấn đề nghiêm trọng. Giả định $C o v (X_{i}, ϵ_{i}) = 0$ là cần thiết để OLS unbiased.

Topic 2: Goodness of Fit

Question 3: Regression of mid-cap stock returns on S&P 500 returns:

	Coefficients	Std Error	t-value
Intercept	1.71	2.950	0.58
S&P 500	1.52	0.130	11.69

$R^{2} = 0.599$

The correlation coefficient between mid-cap returns and S&P 500 returns was:

A. 0.599 B. 0.774 C. 0.130

Answer

B. For simple linear regression: $r = R^{2} = 0.599 = 0.774$ (Positive because slope is positive)

📖 Giải thích chi tiết

Ôn lại khái niệm: Trong simple linear regression (chỉ một biến độc lập), R² = $r^{2}$ (bình phương của correlation coefficient). Do đó: $r = R^{2}$ . Dấu của $r$ được xác định bởi dấu của slope coefficient $b_{1}$ .

Tại sao B đúng: $r = 0.599 = 0.7740$ . Vì slope = 1.52 > 0 (dương), correlation cũng dương → $r = + 0.774$ .

Tại sao A sai: 0.599 là $R^{2}$ , không phải $r$ . Đây là lỗi nhầm lẫn phổ biến — $R^{2}$ và $r$ là hai đại lượng khác nhau ( $R^{2} = r^{2}$ , không phải $R^{2} = r$ ).

Tại sao C sai: 0.130 là standard error của slope coefficient — không liên quan đến correlation coefficient.

Lưu ý quan trọng: Mối quan hệ $r = R^{2}$ chỉ đúng với simple linear regression. Trong multiple regression (nhiều biến X), R² không còn bằng bình phương của một correlation coefficient đơn lẻ.

Question 4: From the Stellar/CPIENG regression, which conclusion is incorrect?

A. The intercept is statistically different from zero at 0.05 level B. In the month after CPIENG declines, Stellar’s common stock is expected to exhibit a positive return C. The slope and intercept coefficients are not statistically different from zero at 0.05

Answer

C. The intercept t-stat = 3.0275 > 1.967 → significant. The slope t-stat = |−2.3014| > 1.967 → also significant. So C is incorrect — both ARE statistically different from zero.

📖 Giải thích chi tiết

Ôn lại khái niệm: Kiểm định ý nghĩa thống kê của hệ số hồi quy: so sánh |t-statistic| với critical value. Nếu |t-stat| > $t_{critical}$ , hệ số có ý nghĩa thống kê (statistically different from zero). Dùng two-sided critical value (±1.967) vì kiểm định $H_{a} : b \neq = 0$ .

Tại sao C là kết luận sai (và đây là đáp án):

Intercept: |t| = 3.0275 > 1.967 → có ý nghĩa → khác 0

Slope: |t| = |-2.3014| = 2.3014 > 1.967 → có ý nghĩa → khác 0

Vậy C nói “không có ý nghĩa” là sai hoàn toàn

Tại sao A đúng (không phải đáp án): Intercept t-stat = 3.0275 > 1.967 → intercept có ý nghĩa ở mức 5% → A là kết luận đúng.

Tại sao B đúng (không phải đáp án): Slope = −0.6486 < 0 → khi CPIENG giảm ( $Δ X < 0$ ), $b_{1} \times Δ X > 0$ → expected return tăng → B là kết luận đúng.

Mẹo làm bài: Câu hỏi “which is incorrect” → tìm statement mâu thuẫn với số liệu. Luôn kiểm tra từng phát biểu bằng dữ liệu trong bảng.

Topic 3: ANOVA Table

Question 5: Regression with 5 observations. SSR = 88.0, SSE = 7.2. Complete the ANOVA table and answer:

A. Sample variance of dependent variable? B. Coefficient of determination ( $R^{2}$ )? C. What hypothesis does F-test test? D. Is F-test significant at 0.05? E. Standard error of estimate (SEE)?

Answer

SST = 88.0 + 7.2 = 95.2 A. Sample variance = $\frac{S S T}{n - 1} = \frac{95.2}{4} = 23.8$ B. $R^{2} = \frac{S S R}{S S T} = \frac{88.0}{95.2} = 0.9244$ or 92.44% C. F-test tests $H_{0} : b_{1} = 0$ (slope = 0, no linear relationship) D. $M S R = \frac{88.0}{1} = 88.0$ , $M S E = \frac{7.2}{3} = 2.4$ $F = \frac{88.0}{2.4} = 36.67$ $F_{critical} (1, 3, 0.05)$ ≈ 10.13 → $36.67 > 10.13$ → Reject $H_{0}$ , significant E. $S E E = M S E = 2.4 = 1.549$

📖 Giải thích chi tiết

Ôn lại khái niệm: ANOVA table trong regression phân tách tổng biến thiên của Y thành: SST (total) = SSR (explained by regression) + SSE (unexplained/residual). Các degrees of freedom: SSR có df = k (số biến X = 1), SSE có df = n - k - 1, SST có df = n - 1.

Bảng ANOVA hoàn chỉnh (n=5, k=1):

Source SS df MS F
Regression (SSR) 88.0 1 88.0 36.67
Error (SSE) 7.2 3 2.4
Total (SST) 95.2 4

Giải thích từng phần:

A — Sample variance: $s_{Y}^{2} = S S T / (n - 1) = 95.2/4 = 23.8$ — đây là variance của Y trước khi hồi quy

B — R²: $R^{2} = S S R / S S T = 88.0/95.2 = 92.4%$ — mô hình giải thích 92.4% biến thiên của Y

C — F-test hypothesis: Luôn kiểm định $H_{0} : b_{1} = 0$ (không có quan hệ tuyến tính). Trong multiple regression: $H_{0} : b_{1} = b_{2} = ... = b_{k} = 0$

D — F significance: $F = M S R / M S E = 88.0/2.4 = 36.67 ≫ 10.13$ → bác bỏ mạnh $H_{0}$ → mô hình có ý nghĩa

E — SEE: $S E E = M S E = 2.4 = 1.549$ — đơn vị giống Y, đo lường sai số dự đoán trung bình

Source	SS	df	MS	F
Regression (SSR)	88.0	1	88.0	36.67
Error (SSE)	7.2	3	2.4
Total (SST)	95.2	4

Topic 4: Prediction Interval

Question 6: US CPI regression: $R^{2} = 0.9859$ , SEE = 0.0009, n = 60, intercept = 0.0001, slope = 0.9830. For a CPI consensus forecast of 2.8, calculate the 95% prediction interval.

Additional info: t-critical = 2.002, $s_{f} = 0.7539 \times 0.001 = 0.00075$ , $\overset{ˉ}{X} = 1.3350$

Answer

Predicted value: $\hat{Y} = 0.0001 + 0.9830 \times 2.8 = 2.7525$ Prediction interval: $\hat{Y} \pm t_{critical} \times s_{f}$ $= 2.7525 \pm 2.002 \times 0.00075$ $= 2.7525 \pm 0.0015$ → 95% PI: 2.7510 to 2.7540 Closest to answer A: 2.7506 to 2.7544

📖 Giải thích chi tiết

Ôn lại khái niệm: Prediction interval (PI) cho một giá trị Y cụ thể (individual observation) tại $X = X^{*}$ rộng hơn confidence interval cho mean Y vì nó phải tính cả uncertainty của: (1) ước lượng conditional mean, và (2) sai số ngẫu nhiên của cá thể đó. Công thức: $\hat{Y} \pm t_{critical} \times s_{f}$ , trong đó $s_{f}$ bao gồm cả SEE.

Cách tính chi tiết:

Bước 1 — Predicted value: $\hat{Y} = 0.0001 + 0.9830 \times 2.8 = 0.0001 + 2.7524 = 2.7525$

Bước 2 — Prediction interval: $2.7525 \pm 2.002 \times 0.00075 = 2.7525 \pm 0.0015$

→ 95% PI: 2.7510 đến 2.7540

Phân biệt Confidence Interval vs Prediction Interval:

CI cho mean Y: Khoảng tin cậy cho giá trị trung bình của Y tại $X = X^{*}$ — hẹp hơn

PI cho individual Y: Khoảng dự đoán cho một quan sát cụ thể tại $X = X^{*}$ — rộng hơn vì thêm variance của sai số ngẫu nhiên $ϵ$

Ý nghĩa của $R^{2} = 98.6%$ : Mô hình rất tốt, giải thích gần như toàn bộ biến thiên. Vì vậy PI rất hẹp (±0.0015 là rất nhỏ so với giá trị 2.75) — model fit tốt dẫn đến dự đoán chính xác.

Wiki Hub

Explorer

Practice: M10 — Simple Linear Regression

Practice: M10 — Simple Linear Regression

Topic 1: Introduction to Linear Regression

Topic 2: Goodness of Fit

Topic 3: ANOVA Table

Topic 4: Prediction Interval

Graph View

Table of Contents