统计气象简要总结
统计量
距平
$$ x_{di} = x_i - \bar{x} \qquad (i=1,2,\cdots,n) $$
标准差与方差
标准差 | 方差 | |
---|---|---|
大样本 | $s = \sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2}$ | $s^2 = \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2$ |
小样本 | $s = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}$ | $s^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$ |
协方差
$$ s_{kl} = \frac{1}{n}\sum_{i=1}^{n}(x_{ki}-\bar{x_k})(x_{li}-\bar{x_l}) $$
$$ s_{xy} =E[xy]-E[x]E[y]= \frac{1}{n}\sum_{i=1}^nx_iy_i - \frac{1}{n^2}\sum_{i=1}^nx_i\sum_{i=1}^ny_i $$
相关系数
$$ r_{kl} = \frac{1}{n}\sum_{i=1}^{n}(\frac{x_{ki}-\bar{x_k}}{s_k})(\frac{x_{li}-\bar{x_l}}{s_l}) $$
偏相关
三个变量 $x_1,x_2,x_3$ ,扣除 $x_3$ 的影响,研究 $x_1,x_2$ 之间的关系:
$$ r_{12.3} = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1-r_{13}^2)(1-r_{23}^2)}} $$
n倍协方差
定义 $L_{xy}$ 为n倍的 $S_{xy}$ ,其中n为序列x与y的长度。
$$ L_{xy}=\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})=\sum_{i=1}^{n}x_iy_i-\frac{1}{n}\sum_{i=1}^{n}x_i\sum_{i=1}^{n}y_i $$
$$ s_{xy} =n(E[xy]-E[x]E[y]) = \sum_{i=1}^nx_iy_i - \frac{1}{n}\sum_{i=1}^nx_i\sum_{i=1}^ny_i $$
残差(误差)平方和
用于检验回归方程效果,Q越小,回归效果越好。
$$ Q(b_0,b) = \sum_{i=1}^{n}(y_i-\hat{y_i})^2 $$
总离差平方和
表示样本自身变化,为样本方差的n倍。
$$ L_{yy}=U+Q=\sum_{i=1}^n(y_i-\overline{y})^2 $$
回归平方和
表自变量x的变化而引起y的变化。
$$ U = \sum_{i=1}^n(\hat{y_i}-\overline{y})^2 $$
回归系数
$r$ 反映了预报因子x与预报量y之间的线性相关程度,当 $r=1$ 时,所有实测y值都在回归直线上,当 $r=0$ 时,说明x与y没有线性关系。
$$ r^2 = \frac{U}{L_{yy}} = \left[\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}\right] $$
计算方法
标准化变量
设原有序列为$x=(x_1,x_2,\cdots,x_n)$,标准化过程为:
$$ x_z = \frac{x_t-\bar{x}}{S_x}\qquad(t=1,2,\cdots,n) $$
检验方法
类型 | 统计量 | 拒绝域 |
---|---|---|
单个样本与正态总体均值相等,总体均值、方差已知 | $U=\frac{\overline{X}-\mu_{0}}{\sigma}\sqrt{n}\sim N(0,1)$ | $\begin{vmatrix}U\end{vmatrix}\ge u_{\frac{\alpha}{2}}$ |
单个样本与正态总体均值相等,总体均值已知,方差未知 | $T=\frac{\overline{x}-\mu_0}{s}\sqrt{n}\sim t(n-1)$ | $\begin{vmatrix}T\end{vmatrix} \ge t_{\frac{\alpha}{2}}(n-1)$ |
两个正态总体,已知$\sigma_x^2=\sigma_y^2$ 检验均值相等 | $U = \frac{\bar{x}-\bar{y}}{\sqrt{\sigma_x^2/n_1+\sigma_y^2/n_2}} \sim N(0,1)$ | $\begin{vmatrix}U\end{vmatrix} \ge u_{\frac{\alpha}{2}}$ |
两个正态总体,方差未知但相等$\sigma_x^2=\sigma_y^2$ 检验均值相等 | $T = \frac{\bar{x}-\bar{y}}{\sqrt{\frac{S_X^2(n_1-1)+S_Y^2(n_2-1)}{n_1+n_2-2}}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$ | $\begin{vmatrix}T\end{vmatrix}\ge t_{\frac{\alpha}{2}}(n_1+n_2-2)$ |
检验总体方差等于某值,$\mu,\sigma$ 未知 | $\chi^2 = \frac{n-1}{\sigma_0^2}S^2 \sim \chi^2(n-1)$ | $\chi^2>\chi^2_{\frac{\alpha}{2}}\quad\mbox{or}\quad\chi^2<\chi^2_{1-\frac{\alpha}{2}}$ |
检验两个总体方差相等,$\mu,\sigma$ 未知 | $F = \frac{S_1^2}{S_2^2} \sim F(n_1-1,n_2-2)$ | $F>F_{\alpha/2} \quad\mbox{or}\quad F < F_{1-\alpha/2}$ |
回归计算
OLS
$$ \Large\begin{cases} b = \frac{L_{xy}}{L_{xx}} = \frac{\sum_{i=1}^nx_iy_i - \frac{1}{n}\sum_{i=1}^nx_i\sum_{i=1}^ny_i}{\sum_{i=1}^nx_i^2 - \frac{1}{n}(\sum_{i=1}^nx_i)^2}\\\\ b_0 = \overline{y}-b\overline{x}=\frac{1}{n}\sum_{i=1}^ny_i-b\frac{1}{n}\sum_{i=1}^nx_i \end{cases} $$
OLS基本思想:所有散点离回归线最近,即残差平方和最小。