回归分析小记

·
日常 no tag April 21, 2020

一元线性回归

概念

偏差:指预报值 $\hat{y_i}$ 与观测值 $y_i$ 之间的差,偏差越小,预报效果越好。

变量

  • $y$ :观测值,用于回归
  • $\hat{y}$ :预测值,由回归计算得出
  • $\bar{y}$ :观测值的均值

统计量

  • 协方差:$S_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{y})(y_i-\bar{x})$
  • 定义 $L_{xy}$ 为n倍的 $S_{xy}$ :

$$ L_{xy}=\sum_{i=1}^{n}x_iy_i-\frac{1}{n}\sum_{i=1}^{n}x_i\sum_{i=1}^{n}y_i$$

一元回归方程

假设一元回归方程为:
$$\hat{y_i}=b_0+bx_i(i=1,2,...,n)$$
要使回归效果最好,即令直线通过更多的散点,使偏差最小。
引入离差平方和
$$Q(b_0,b) = \sum_{i=1}^{n}(y_i-\hat{y_i})^2$$
离差平方和描述了回归直线吻合的情况,Q越小,回归效果越好。以Q最小为基准,推导出最小二乘法。

最小二乘法

$$ \begin{equation} \begin{cases} b_0 = \bar{y}-b\bar{x}\\ b =\Large \frac{\sum_{i=1}^{n}x_i y_i-\frac{1}{n}(\sum_{i=1}^{n}x_i) (\sum_{i=1}^{n}y_i)}{\sum_{i=1}^{n}x_i^2-\frac{1}{n}(\sum_{i=1}^{n}x_i)^2} \end{cases} \end{equation} $$

以此公式计算离差平方和Q最小的一元线性回归方程参数。

回归的方差分析

对于某一个样本点 $y_i$ 的距平值,可以分解成:

$$ \begin{equation} \left|y_i-\bar{y}\right| = \left| (\hat{y_i}-\bar{y})+(y_i-\hat{y_i}) \right| \end{equation} $$

推导得到:

$$ \begin{equation} \sum_{i=1}^{n}(y_i-\bar{y})^2 = \sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2 + \sum_{i=1}^{n}(y_i-\hat{y_i})^2 \end{equation} $$

  • 等式左边第一项:总离差平方和,表示样本自身的变化,记为 $L_{yy}=n\cdot\sigma$ ,为观测样本方差的n倍
  • 等式右边第一项:回归平方,表自变量x的变化而引起y的变化,记为 $U$
  • 等式右边第二项:残差(误差)平方和,表明除x自变量外其他偶然因素对y的影响,记为 $Q$

式(3)可以写为$L_{yy} = U+Q$ 对于给定样本,$L_{yy}$ 是定值,则$U$和$Q$为负相关关系,当 $U$ 较大时,回归效果较好。

回归系数

定义回归系数$r$:

$$ \begin{equation} r^2 = \frac{U}{L_{yy}} = \left[\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}\right] \end{equation} $$

$r$ 反映了预报因子x与预报量y之间的线性相关程度,当 $r=1$ 时,所有实测y值都在回归直线上,当 $r=0$ 时,说明x与y没有线性关系。

多元线性回归

多元线性回归方程模型

设 $y$ 与多个变量 $x_1,x_2,x_3,...,x_p$ 的关系是线性关系的,则其总体回归表达式为:

$$ \begin{equation} \hat{y} = b_0 + b_1x_1 + b_2x_2 + b_3x_3 +\cdots+b_px_p \end{equation} $$

最小二乘法多元回归

OLS基本思想:所有散点离回归线最近,即残差平方和最小。
即使:$Q = \sum_{i=1}^{n}(y_i-\hat{y_i})^2 = \sum[y-(b_0 + b_1x_1 + b_2x_2 + b_3x_3 +\cdots+b_px_p)]^2$ 最小。

由此,推导出p个方程,求解p个b:

$$ \begin{equation} \begin{cases} L_{11}b_1+L_{12}b_2+\cdots+L_{1p}b_p=L_{1y} \\ L_{21}b_1+L_{22}b_2+\cdots+L_{2p}b_p=L_{2y} \\ \cdots \\ L_{p1}b_1+L_{p2}b_2+\cdots+L_{pp}b_p=L_{py} \end{cases} \\ b_0 = \bar{y}-b_1\bar{x}_1-b_2\bar{x}_2-\cdots-b_p\bar{x}_p \end{equation} $$

  • 最近有感
  • Pyplot笔记
取消回复

说点什么?
Title
一元线性回归
概念
变量
统计量
一元回归方程
最小二乘法
回归的方差分析
回归系数
多元线性回归
多元线性回归方程模型
最小二乘法多元回归

© 2022 夜航船 · TOYOHAY Clouds. Using Typecho & Moricolor | 粤ICP备18131337号.