Data Types

Tổng quan

Hiểu về các loại dữ liệu là nền tảng để lựa chọn phương pháp thống kê và kiểm định phù hợp. Chương trình CFA phân loại dữ liệu theo hai chiều chính: thang đo (measurement scale) và cấu trúc/tổ chức (structure/organization).

Phân loại theo Thang Đo

LoạiPhân nhómMô tảVí dụ
Numerical (Quantitative)ContinuousCó thể nhận bất kỳ giá trị nào trong một khoảngLợi suất, giá, tỷ số
DiscreteChỉ nhận các giá trị đếm đượcSố lượng giao dịch, số lần vỡ nợ
Categorical (Qualitative)NominalKhông có thứ tự tự nhiên; chỉ là nhãnNgành, quốc gia, đơn vị tiền tệ
OrdinalCó thứ tự tự nhiên, nhưng các khoảng cách không bằng nhauXếp hạng tín dụng (AAA > AA > A), điểm khảo sát

Điểm phân biệt quan trọng: Các phép toán số học có ý nghĩa với dữ liệu numerical, nhưng không có ý nghĩa với dữ liệu categorical.

Phân loại theo Tổ Chức / Cấu Trúc

LoạiMô tảVí dụ
Time-seriesQuan sát một thực thể qua nhiều khoảng thời gianLợi suất hàng ngày của cổ phiếu Apple từ 2020–2025
Cross-sectionalQuan sát nhiều thực thể tại một thời điểm duy nhấtChỉ số P/E của 500 cổ phiếu tính đến ngày 31/12/2025
Panel dataNhiều thực thể được quan sát qua nhiều khoảng thời gian (kết hợp hai loại trên)EPS hàng năm của 100 công ty trong 10 năm

Dữ liệu Structured và Unstructured

LoạiMô tảVí dụ
StructuredĐược tổ chức theo hàng/cột; dễ lưu trữ trong cơ sở dữ liệuBáo cáo tài chính, dữ liệu giá, chỉ số kinh tế
UnstructuredKhông có định dạng xác định trước; cần NLP hoặc các kỹ thuật khác để trích xuấtBản ghi cuộc họp thu nhập, bài báo, hình ảnh vệ tinh
Semi-structuredCó tổ chức một phầnDữ liệu JSON/XML, bảng dữ liệu thu thập từ web

Ảnh hưởng đến Phân Tích Thống Kê

  • Dữ liệu Nominal/Ordinal → kiểm định phi tham số (non-parametric tests) (chi-square, Spearman rank): xem M09
  • Dữ liệu Numerical liên tục → kiểm định tham số (parametric tests) (z-test, t-test, hồi quy): xem M08, M10
  • Dữ liệu Unstructured/Big Data → học máy (machine learning), kỹ thuật NLP: xem M11

Các Module Nguồn