跳转至

4.随机变量的数字特征

约 2818 个字 预计阅读时间 9 分钟

为什么要引入数字特征?

数字特征能反映随机变量的分布的某一方面的特征。

我们主要会用到几个重要的数字特征: - 数学期望 - 方差 - 相关系数 - 矩

数学期望

对于一维离散型随机变量 \(P\{X=x_k\}\),数学期望

\[ E(X)=\sum_{k=1}^\infty x_kp_k \]

求解的时候需要确定分布律。

连续性随机变量的数学期望

\[ E(X)=\int_{-\infty}^{+\infty}xf(x)dx \]

对于一个多维随机变量(或随机向量),其数学期望是一个向量,由每个分量的数学期望组成。

假设我们有一个 \(n\)-维随机向量 \(\mathbf{X} = (X_1, X_2, \ldots, X_n)^T\)。该随机向量的数学期望 \(\mathbf{\mu}\) 定义为:

\[ \mathbf{\mu} = \mathbb{E}[\mathbf{X}] = \left( \mathbb{E}[X_1], \mathbb{E}[X_2], \ldots, \mathbb{E}[X_n] \right)^T \]

其中,每个分量 \(\mathbb{E}[X_i]\) 是随机变量 \(X_i\) 的数学期望。

对于连续随机变量,每个分量的数学期望可以通过以下积分来计算:

\[ \mathbb{E}[X_i] = \int x_i f_{X_i}(x_i) \, dx_i \]

其中,\(f_{X_i}(x_i)\)\(X_i\) 的概率密度函数 (PDF)。

对于离散随机变量,每个分量的数学期望可以通过以下求和来计算:

\[ \mathbb{E}[X_i] = \sum_{x_i} x_i p_{X_i}(x_i) \]

其中,\(p_{X_i}(x_i)\)\(X_i\) 取值为 \(x_i\) 的概率。

总之,多维随机变量的数学期望是一个向量,其每个分量都是该随机变量对应分量的数学期望。

随机变量的函数的数学期望

一维的情况:

\(Y\) 是随机变量 \(X\) 的函数:\(Y=g(X)\)

\(X\)离散型随机变量,其分布律为 \(P\{X=x_k\}=p_k,k=1,2,\cdots\),若 \(\sum_{k=1}^{\infty}g(x_k)p_k\) 绝对收敛,则有:

\[ E(Y)=E[g(X)]=\sum_{k=1}^{\infty}g(x_k)p_k \]

\(X\)连续型随机变量,其概率密度为 \(f(x)\),若 \(\int^{\infty}_{-\infty}g(x)f(x)dx\) 绝对收敛,则有

\[ E(Y)=E(g(X))=\int_{-\infty}^{+\infty}g(x)f(x)dx \]

二维随机变量的函数的数学期望

对于二维随机变量 \((X, Y)\),它们的期望值是各自的期望值,即 \(\mathbb{E}[X]\)\(\mathbb{E}[Y]\)。但当我们考虑函数 \(g(X, Y)\) 时,我们实际上是考虑了 \(X\)\(Y\) 的联合行为对函数值的影响。

  1. 二维随机变量的期望:

  2. 对于离散随机变量:

    \(\mathbb{E}[X] = \sum_x x \times p_X(x)\)

    \(\mathbb{E}[Y] = \sum_y y \times p_Y(y)\)

  3. 对于连续随机变量:

    \(\mathbb{E}[X] = \int x \times f_X(x) \, dx\)

    \(\mathbb{E}[Y] = \int y \times f_Y(y) \, dy\)

  4. 函数 \(g(X, Y)\) 的期望:

该期望考虑了 \(X\)\(Y\) 的联合分布如何影响函数值。

  • 对于离散随机变量:

    \(\mathbb{E}[g(X, Y)] = \sum_x \sum_y g(x, y) \times p_{X,Y}(x, y)\)

  • 对于连续随机变量:

    \(\mathbb{E}[g(X, Y)] = \int \int g(x, y) \times f_{X,Y}(x, y) \, dx \, dy\)

简单来说,当我们只计算 \(X\)\(Y\) 的期望值时,我们只关心该随机变量的边缘分布。但当我们考虑函数 \(g(X, Y)\) 的期望时,我们需要考虑 \(X\)\(Y\) 的联合分布,因为函数的值可能同时依赖于 \(X\)\(Y\)

数学期望的性质

  • \(C\) 是常数,则 \(E(C)=C\)
  • \(X\) 是一个随机变量,\(C\) 是常数,则 \(E(CX)=CE(X)\)
  • \(X,Y\) 是两个随机变量,则 \(E(X+Y)=E(X)+E(Y)\)
  • \(X,Y\) 是相互独立的随机变量,则 \(E(XY)=E(X)E(Y)\)

\(X,Y\) 独立能退出 \(E(XY)=E(X)E(Y)\),但是必要性不满足

方差

定义:设 \(X\) 是一个随机变量,若 \(E\{[X-E(X)]^2\}\) 存在,则称 \(E\{[X-E(X)]^2\}\)\(X\) 的方差,记为 \(D(X)\)\(Var(X)\),即

\[ D(X)=Var(X)=E\{[X-E(X)]^2\} \]

另外,我们有 \(\sigma(X)=\sqrt{D(X)}\) 为标准差或均方差。

方差计算公式另外表现为

\[ D(X)=E(X^2)-[E(X)]^2 \]

对于离散型和连续性随机变量,分别有

\[ \begin{cases} \sum_{k=1}^{\infty}[x_k-E(X)]^2p_k \\ \int_{-\infty}^{\infty}[x-E(X)]^2f(x)dx \end{cases} \]

方差的性质

  • \(C\) 为常数时,\(D(C)=0\)
  • \(D(CX)=C^2D(X)\)
  • \(D(C+X)=D(X)\)
  • \(X,Y\) 相互独立,有\(D(X+Y)=D(X)+D(Y)\)
  • 更一般的加法公式:
\[ D(X+Y)=D(X)+D(Y)+2E\{[X-E(X)][Y-E(Y)]\}=D(X)+D(Y)+2\{E(XY)-E(X)E(Y)\} \]

最终结果即为 \(D(X+Y)=D(X)+D(Y)+2\{E(XY)-E(X)E(Y)\}\)

可以通过定义式推倒得出,对于相减情况有 \(D(X-Y)=D(X)+D(Y)-2\{E(XY)-E(X)E(Y)\}\)


常见分布的方差和期望

  1. 均匀分布 \(U(a, b)\):
  2. 期望值: \(E[X] = \frac{a + b}{2}\)
  3. 方差: \(\text{Var}(X) = \frac{(b-a)^2}{12}\)

  4. 伯努利分布 \(\text{Bernoulli}(p)\):

  5. 期望值: \(E[X] = p\)
  6. 方差: \(\text{Var}(X) = p(1-p)\)

  7. 二项分布 \(\text{Binomial}(n, p)\):

  8. 期望值: \(E[X] = np\)
  9. 方差: \(\text{Var}(X) = np(1-p)\)

  10. 泊松分布 \(\text{Poisson}(\lambda)\):

  11. 期望值: \(E[X] = \lambda\)
  12. 方差: \(\text{Var}(X) = \lambda\)

  13. 指数分布 \(\text{Exponential}(\lambda)\):

  14. 期望值: \(E[X] = \frac{1}{\lambda}\)
  15. 方差: \(\text{Var}(X) = \frac{1}{\lambda^2}\)

  16. 正态分布 \(\mathcal{N}(\mu, \sigma^2)\):

  17. 期望值: \(E[X] = \mu\)
  18. 方差: \(\text{Var}(X) = \sigma^2\)

  19. 几何分布 \(\text{Geometric}(p)\)(首次成功所需的试验次数):

  20. 期望值: \(E[X] = \frac{1}{p}\)
  21. 方差: \(\text{Var}(X) = \frac{1-p}{p^2}\)

  22. 负二项分布 \(\text{Negative Binomial}(r, p)\)(达到 \(r\) 次成功所需的试验次数):

  23. 期望值: \(E[X] = \frac{r}{p}\)
  24. 方差: \(\text{Var}(X) = \frac{r(1-p)}{p^2}\)

切比雪夫不等式

理论证明和实际应用往往需要估计某些事件发生的概率。

对于任何随机变量 \(X\) 和任何正数 \(k\),切比雪夫不等式提供了一个界限,描述了随机变量 \(X\) 的值偏离其期望值 \(\mu = \mathbb{E}[X]\) 超过 \(k\) 乘以其标准差 \(\sigma\) 的概率:

\[ P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2} \]

这也可以表示为:

\[ P(|X - \mu| \geq \epsilon) \leq \frac{\sigma^2}{\epsilon^2} \]

其中 \(\epsilon = k\sigma\)

我们甚至可以反推下界:

\[ P(|X - \mu| < \epsilon) \geq 1-\frac{\sigma^2}{\epsilon^2} \]

切比雪夫不等式的意义:

  1. 普遍性:切比雪夫不等式对所有随机变量都成立,而不仅仅是正态分布或其他特定分布。
  2. 概率界限:该不等式为随机变量的值偏离其期望的程度提供了一个上界。
  3. 对分布的无知:无需知道随机变量的具体分布,就可以应用切比雪夫不等式来估计随机变量的值与其期望值的偏差。
  4. 直观:随着我们关心的偏离均值的量 \(\epsilon\) 增大,偏离这个量或更多的概率减小,这与我们的直觉相符。

协方差以及相关系数

找到一个数字特征,刻画 \(X,Y\) 两者之间的相互关系。

协方差:称量 \(E\{[X-E(X)][Y-E(Y)]\}\) 为随机变量 \(X\)\(Y\) 的协方差,记为 \(Cov(X,Y)\),即

\[ Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}=E(XY)-E(X)E(Y) \]

相关系数:称 \(\rho\) 为随机变量 \(X\)\(Y\) 的相关系数。

\[ \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} \]

\(\rho_{XY}\) 表示标准化后的协方差,是没有量纲的量,可以客观反映 \(X,Y\) 之间的关系。


协方差的性质

  • \(Cov(X,X)=D(X)\)
  • \(Cov(X,Y)=Cov(Y,X)\)\(Cov(X,c)=0\)
  • \(Cov(aX,bY)=abCov(X,Y)\)
  • \(Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)\)
  • \(D(X+Y)=D(X)+D(Y)+2Cov(X,Y)\)

相关系数的性质

  • \(|\rho_{XY}|\leq 1\)
  • \(|\rho_{XY}|=1\) 的充要条件是,存在常数 \(a,b\) 使得 \(P\{Y=a+bX\}=1\)

这里可以理解为,\(\rho_{XY}\) 的大小描述了 \(X,Y\) 之间的线性关系的强度。当 \(\rho_{XY}=0\) 时,我们称 \(X,Y\) 不相关(无线性关系)。相互独立可以推出不相关,但不相关不能反过来推出相互独立。

相互独立 \(\iff\) \(f(x,y)=f_X(x)f_Y(y)\)

\(X,Y\) 不相关 \(\iff\) \(D(X+Y)=D(X)+D(Y)\) \(\iff\) \(E(XY)=E(X)+E(Y)\)

矩,协方差矩阵

当我们谈论随机变量的矩和中心矩时,我们通常是在描述随机变量分布的某些特性或性质。

  1. k阶矩: 对于一个随机变量 \(X\),其k阶矩定义为 \(X\) 的k次方的期望值,记为 \(E(X^k)\)。数学上,它可以表示为:

    \(\mu_k = E(X^k)\)

    其中,\(k\) 是一个正整数。例如,当 \(k = 1\) 时,第一阶矩就是随机变量 \(X\) 的期望值。

  2. k阶中心距: k阶中心矩是随机变量 \(X\) 关于其均值的k次方的期望值。数学上,它可以表示为:

    \(\nu_k = E\left[(X - E(X))^k\right]\)

    \(k = 2\) 时,第二阶中心矩就是随机变量 \(X\) 的方差。

  3. k+l阶混合矩: 对于两个随机变量 \(X\)\(Y\),其k+l阶混合矩定义为 \(X\) 的k次方与 \(Y\) 的l次方的乘积的期望值。数学上,它可以表示为:

    \(E(X^k Y^l)\)

  4. k+l阶混合中心距: 对于两个随机变量 \(X\)\(Y\),k+l阶混合中心矩是 \(X\) 关于其均值的k次方与 \(Y\) 关于其均值的l次方的乘积的期望值。数学上,它可以表示为:

    \(E\left[(X - E(X))^k (Y - E(Y))^l\right]\)

    \(k = 1\)\(l = 1\) 时,这就是 \(X\)\(Y\) 之间的协方差。

矩和中心矩提供了描述随机变量或两个随机变量之间关系的有用工具。它们捕捉了分布的各种特性,如位置、分散、偏度和峰度。


协方差矩阵

\(n\) 维随机变量分布未知或太复杂,可以利用协方差矩阵进行研究。

对下面式子,我们注意到对角线上的元素 \(\text{Cov}(X_i, X_i)\) 恰好是 \(X_i\) 的方差。

二维随机变量的协方差矩阵

假设我们有两个随机变量 \(X\)\(Y\)。它们的协方差矩阵 \(\Sigma\) 定义为:

\[ \Sigma = \begin{bmatrix} \text{Cov}(X, X) & \text{Cov}(X, Y) \\ \text{Cov}(Y, X) & \text{Cov}(Y, Y) \end{bmatrix} \]

其中,\(\text{Cov}(X, X)\)\(\text{Cov}(Y, Y)\)\(X\)\(Y\) 的方差。由于协方差是对称的,所以 \(\text{Cov}(X, Y) = \text{Cov}(Y, X)\)

n维随机变量的协方差矩阵

考虑一个n维随机向量 \(\mathbf{X} = [X_1, X_2, \ldots, X_n]^T\)。其协方差矩阵 \(\Sigma\) 定义为一个 \(n \times n\) 矩阵,其中第 \(i\) 行第 \(j\) 列的元素是 \(X_i\)\(X_j\) 之间的协方差:

\[ \Sigma = \begin{bmatrix} \text{Cov}(X_1, X_1) & \text{Cov}(X_1, X_2) & \cdots & \text{Cov}(X_1, X_n) \\ \text{Cov}(X_2, X_1) & \text{Cov}(X_2, X_2) & \cdots & \text{Cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}(X_n, X_1) & \text{Cov}(X_n, X_2) & \cdots & \text{Cov}(X_n, X_n) \end{bmatrix} \]

其中,\(\text{Cov}(X_i, X_i)\)\(X_i\) 的方差。

协方差矩阵是对称的,因为 \(\text{Cov}(X_i, X_j) = \text{Cov}(X_j, X_i)\)。协方差矩阵提供了关于随机变量之间线性关系的重要信息。例如,如果两个随机变量之间的协方差为 \(0\),则表示它们之间没有线性关系。如果协方差矩阵是对角的(即除对角线外的所有元素都是 \(0\)),则所有随机变量都是两两无关的。


\(n\)维正态分布的重要性质

线性变换的结果仍然是正态分布的

如果 \(\mathbf{X}\) 是一个多元正态分布的随机向量,并且 \(\mathbf{A}\) 是一个确定的矩阵,而 \(\mathbf{b}\) 是一个确定的向量,那么 \(\mathbf{Y} = \mathbf{A} \mathbf{X} + \mathbf{b}\) 也服从多元正态分布。

边缘分布仍然是正态的

如果 \(\mathbf{X} = [X_1, X_2, \dots, X_n]^T\) 是一个多元正态分布的随机向量,那么 \(X_i\) 的任何子集都是正态分布的。这意味着你可以从多元正态分布中选取任意维度,并且该维度的分布仍然是正态的。

条件分布也是正态的

对于一个多元正态分布的随机向量 \(\mathbf{X}\),给定某些维度的值,其他维度的条件分布仍然是正态的。

独立性与无相关性等价

对于多元正态随机变量,如果两个或多个组件是无相关的(即它们的协方差为 \(0\)),那么它们也是独立的。这是多元正态分布的一个独特特性,因为对于大多数其他分布,无相关性并不意味着独立性。

\(n\) 维随机变量服从正态分布的充要条件

\(n\) 维随机变量服从正态分布的充要条件是 \(X_1, X_2, \dots, X_n\) 的任意线性组合

\[ l_1X_1+l_2X_2+\cdots+l_nX_n \]

服从一维正态分布。\(l_i\) (不全为 \(0\)