0%

概率论与数理统计-笔记

2019年秋冬学期《概率论与数理统计》上课笔记。

第一章 概率论的基本概念

1.1 样本空间和随机事件

随机试验: 对随机现象作一次观察(或记录、或试验)称为随机试验。
1)可以在相同的条件下重复进行。
2)每次试验可能出现的结果是不确定的, 但是事先能知道试验的所有可能的结果。
基本事件: 只含有一个样本点的子集称为基本事件。基本事件两两不相容(积事件为空集,即互斥)。
理解样本空间与随机事件,事件间的关系与运算,用 集合论 即可。
德摩根定律: (注意理解及灵活运用)
$$\overline {\bigcup_{j=1}^n A_j} = \bigcap_{j=1}^n \overline A_j  \overline {\bigcap_{j=1}^n A_j} = \bigcup_{j=1}^n \overline A_j$$

1.2 频率与概率

注意概率的加法公式及其推广。

1.3 等可能概型

即古典概型,注意 排列组合 的计算问题(多熟悉两个公式)。
抽签问题: (不放回抽样,记住结论)从含有$a$个红球和$b$个白球的共$n$个球中每次随机抽取一个球,并且不放回,第$k$次抽取抽到红球的概率与第$1$次相同,与$k$无关。

1.4 条件概率

条件概率: (区分条件概率和积事件,特别是题干中表述模糊的时候要仔细判别。)$$P(A|B) = \frac{P(AB)}{P(B)}$$
条件概率的乘法公式: (已知条件概率求积事件。)$$P(AB) = P(A) \cdot P(B|A) = P(B) \cdot P(A|B)$$
全概率公式: (直接计算事件A的概率比较困难,通过与之密切相关的事件B的条件概率来求A。应用全概率公式时,要仔细判断题设条件,以及完备事件组的划分。另外在与前面的事件计算结合起来时,要特别注意全概率公式得到的概率的实际适用情况。)$$P(A) = P(AB) + P(A\overline B) = P(B) \cdot P(A|B) + P(\overline B) \cdot P(A|\overline B)$$
贝叶斯公式: (先验概率和后验概率。)$$P(B_k|A) = \frac{P(B_kA)}{P(A)} = \frac{P(B_k)P(A|B_k)}{\sum_{j=1}^nP(B_j)P(A|B_j)}$$

1.5 事件的独立性和独立实验

注意理解相互独立的事件和不相容事件的差别。可以把独立事件看作存在于不同的两个样本空间中的事件,其没有交集也互不影响,不相容事件存在于相同的样本空间但没有交集。
实际中独立事件的判定不依赖于公式的定义,而是根据具体的情况来判断。

第二章 随机变量及其概率分布

2.1 随机变量

随机变量: 随机变量$X = X(e)$为定义在样本空间$S = \lbrace e \rbrace$上的实值单值函数。

2.2 离散型随机变量

离散型随机变量: 随机变量的取值为有限个或者可列个值。
离散型随机变量的概率分布律: 列出随机变量每种可能的取值出现的概率。
1. 0 - 1 分布
可以看作$n=1$的二项分布。关键参数:$X$取值为$1$的概率$p$。

2. 二项分布
$n$重伯努利实验:在n次独立重复实验中,每次实验都只有两种结果,且每次实验中他们发生的概率不变。关键参数:实验总次数$n$以及单次实验事件发生的概率$p$。利用前述等可能概型理解。

3. 泊松分布
用来计算小概率事件的发生次数的概率分布。关键参数:$\lambda = np$。二项分布的近似分布。当二项分布的参数$n$足够大、$p$足够小,$np$适当,可利用泊松分布近似描述二项分布。实际计算时,二项分布连乘项太多,泊松分布计算更为方便。

4.其他
超几何分布:不放回抽样的概率分布。
几何分布:$n$重伯努利实验中,描述某种可能的结果首次发生时的实验次数的概率分布。

2.3 随机变量的概率分布函数

概率分布函数是累计概率函数。

2.4 连续型随机变量

理解概率密度函数。
1. 均匀分布
均匀分布在每个点处取值的概率相同,即密度函数为常数,分布函数为关于$x$的线性函数。

2. 正态分布
最重要的概率分布。关键参数:位置参数(均数)$\mu$、尺度参数(方差)$\sigma^2$。
原始正态变量$Z$变换后服从标准正态分布,参数确定,分布已知。

3. 指数分布
准确理解指数分布的无记忆性:若$X \sim E(\lambda), P\lbrace X > t_0 + t | X > t_0\rbrace = P\lbrace X > t \rbrace$。
或者$P\lbrace X > t_0 + t \rbrace = P\lbrace X > t_0 \rbrace \cdot P\lbrace X > t \rbrace$。

2.5 随机变量函数的分布

本质是找等价事件,求等价事件的概率。

第三章 多元随机变量及其分布

3.1 二元离散型随机变量

注意联合分布,边际分布,条件分布的概念。

3.2 二元随机变量的分布函数

各种分布函数均为累积概率函数。

3.3 二元连续型随机变量

注意偏微分和重积分的计算!!!

3.4 随机变量的独立性

$$f(x, y) = f_X(x) \cdot f_Y(y)$$

3.5 二元随机变量函数的分布

  1. $Z = X + Y$的分布
    利用积分变换来解决。
  2. $M = max(X, Y), N = min(X, Y)$的分布。
    利用第一章中事件的关系和运算来解决。

这一章很多微积分的计算问题,包括分部积分法等要重新熟悉起来。

第四章 随机变量的数字特征

4.1 数学期望

极限的计算问题。
$$E(X) = \int_{-\infty}^{+\infty} xf(x)dx$$
数学期望的性质:
计算多个随机变量的一次方程的函数的期望时,各随机变量的系数与对应的随机变量的期望相乘,常数项单独提出后相加。多个相互独立的随机变量乘积的数学期望等于它们数学期望的乘积。

4.2 方差、变异系数

方差的定义及计算公式: $$Var(X) = E[(X - E(X))^2]  Var(X) = E(X^2) - (E(X))^2$$
方差的性质:
$Var(cX) = c^2Var(X)$  $Var(X + c) = Var(X)$
多个随机变量和的方差等于方差的和。
标准化变量: $$X^* = \frac{X - E(X)}{\sqrt{Var(X)}}$$
变异系数: $$C_v = \frac{\sqrt{Var(X)}}{E(X)}$$

4.3 协方差与相关系数

协方差的定义及计算公式: $$Cov(X, Y) = E[(X - E(X))(Y - E(Y))]  Cov(X, Y) = E(XY) - E(X)E(Y)$$
协方差的性质:
$Cov(X, Y) = Cov(Y, X)$  $Cov(X, X) = Var(X)$
$Cov(aX, bY) = abCov(X, Y)$  $Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)$
相关系数: $$\rho_{XY} = \frac{Cov(X, Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}$$
不相关的判定、相关与独立的区别。

4.4 其他数字特征

矩的定义,中心矩和原点矩的差别。
分位数的定义,$x_{\alpha}$代表的是分位线以上的部分。

4.5 多元随机变量的数字特征

多元随机变量的数学期望与协方差矩阵:
多元随机变量的协方差阵对角线上的元素是各分量的方差,非对角线元素是协方差。
多元正态随机变量:
多元正态变量中的任意$k$元子向量,各分量的任意线性组合,多个线性组合组成的新的多元变量均服从对应的正态分布。

第五章 大数定律及中心极限定理

5.1 大数定律

理解依概率收敛的定义。 这个很重要,后面很多概念需要对依概率收敛的理解。

马尔可夫不等式和切比雪夫不等式: 马尔可夫不等式提供了随机变量在某个界值处的概率与该随机变量$k$阶原点矩的关系。
切比雪夫不等式是马尔可夫不等式取$k = 2$的特殊情况,其重要性在于,不管随机变量的具体分布是什么,只要已知其期望和方差,就可以给出其落入某个界值内的概率估计。

弱大数定律(大数定律): 对任一随机变量的序列,其均值依概率收敛于一常数序列(或常数)。

伯努利大数定律: $n$重伯努利实验中,事件$A$发生的次数为$n_A$,则$\frac{n_A}n$依概率收敛于单次事件发生的概率$p$。

辛钦大数定律: 独立同分布的随机变量序列的均值依概率收敛于原分布的期望。

5.2 中心极限定理

独立同分布的情形:
数学期望为$\mu$,方差为$\sigma^2$的独立同分布的随机变量的部分和的标准化变量近似服从标准正态分布。
由棣莫弗-拉普拉斯中心极限定理,$n$充分大时,二项分布$B(n, p)$可用正态分布$N(np, np(1 - p))$来逼近。
注意独立不同分布的情形。

第六章 统计量及抽样分布

6.1 随机样本与统计量

简单随机样本的定义。 简单随机样本可以看成是独立同分布的随机变量。
统计量 是样本的函数,不含有未知参数。
特别注意样本方差(修正样本方差,注意到其与总体方差,或者是二阶中心矩定义的区别)的定义,分母为$n-1$,根据这个公式计算得到的统计量是总体方差的无偏估计。 彻底理解样本方差为何除以$n-1$。

6.2 $\chi^2$分布,$t$分布,$F$分布

统计量的分布称为抽样分布。 (一次抽样可以计算得到统计量的一个值,多次抽样可以得到统计量的多个值,这些值的分布情况就是抽样分布。)
一下三种分布都是人为构造的分布,重点理解三种分布的定义。

$\chi^2$分布 设$X_1, X_2, …, X_n$为独立同分布的随机变量,且都服从$N(0, 1)$。记$Y = X_1^2 + X_2^2 + … + X_n^2$,则称$Y$服从自由度为$n$的$\chi^2$分布,记为$Y \sim \chi^2(n)$。

$t$分布 设$X \sim N(0, 1)$,$Y \sim \chi^2(n)$,且$X$与$Y$相互独立,则称随机变量$t = \frac{X}{\sqrt{Y/n}}$服从自由度为$n$的$t$分布,记为$t \sim t(n)$。

$F$分布 设$U \sim \chi^2(n_1)$,$V \sim \chi^2(n_2)$,并且$U$与$V$相互独立,则称随机变量$F = \frac{U/n_1}{V/n_2}$服从自由度为$(n_1, n_2)$的$F$分布,记为$F \sim F(n_1, n_2)$。

三种分布另各有一些非常好的性质,要注意记住并灵活运用。

6.3 正态总体下的抽样分布

来自正态总体的样本统计量的抽样分布具有很完美的结果,这为后面经典数理统计的参数估计和假设检验奠定了坚实的基础,有大量的应用是基于这些性质。下面给出具体描述。
来自正态总体$N(\mu, \sigma^2)$的简单随机样本的样本均值$\overline X$有$\overline X \sim N(\mu, \frac{\sigma^2}n)$,样本方差$S^2$有$\frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)$,且$\overline X$与$S^2$互相独立,另有$\frac{\overline X - \mu}{S / \sqrt n} \sim t(n - 1)$(可以作为总体方差未知,样本方差已知时均值的标准化变量)。另来自两正态总体的两个相互独立的简单随机样本,样本方差/总体方差的比值服从$F$分布,均值之差也有对应的$t$分布。

第七章 参数估计

参数估计: 总体的参数未知,需要由样本的统计量对其给出估计。
参数估计分为两类:点估计和区间估计。

7.1 点估计

点估计 的基本思想:根据简单随机样本$X_1, …, X_n$,构建合适的统计量$\hat \theta$的函数,以此作为总体的参数$\theta$的点估计量。当给定样本的具体观测值$x_1, …, x_n$,可计算点估计值。
常用的点估计法有两种:矩法和最大似然法。

矩法估计

矩法 由英国统计学家Pearson首先提出,基本思想:以样本矩估计总体矩,以样本矩的函数估计总体矩的函数。
主要理论依据:辛钦大数定律及其推论(样本容量足够大时,样本矩依概率收敛于相应的总体矩)。
矩法估计的基本步骤:

  1. 求总体的前$m$阶矩关于待估计参数的函数(一般是原点矩,为了求解方便,也可以使用中心距)。
  2. 解方程求得待估计参数关于总体的前$m$阶矩的函数(即把方程反过来)。
  3. 以样本矩代替方程中的总体矩,相应的,得到的统计量视为原参数的矩估计。

用的最多的是一阶和二阶原点矩,一阶原点矩即为数学期望$E(X)$,由样本的均值可得,二阶原点矩即为$X^2$的期望$E(X^2)$,一般利用$Var(X) = E(X^2) - (E(X))^2$来求。

最大似然法估计

最大似然法 由德国数学家Gauss首先提出,由英国统计学家R. A. Fisher重新发现,基本思想:从总体中取得样本$X_1, …, X_n$的观测值为$x_1, …, x_n$这一事件发生的概率$L(\theta)$依赖于参数$\theta$,取$\theta$的估计值使得$L(\theta)$最大。
最大似然法估计的基本步骤:

  1. 构建最大似然函数,设概率密度函数为$f(x, \theta)$。 $$L(\theta) = \prod_{i=1}^{n}f(x_i, \theta)$$
  2. 求得最大似然函数取最大值时对应参数的取值。
    为了计算方便,一般对$L(\theta)$取对数,将等式右边连乘转换为加和,构建对数似然函数。
    对参数$\theta$求偏导(可能存在不止一个参数),求得使导函数为零时(此时原函数取得极值)对应参数的值,即为最大似然估计值。
    若$L(\theta)$对某个参数单调递增(减),则对应参数的最大似然估计值在边界取得。

重点在于最大似然函数的构建。

7.2 估计量的评价标准

(一)无偏性准则 样本估计量的期望等于总体参数,称为无偏估计量。这里涉及到期望的计算,注意灵活运用之前的期望的性质。
(二)有效性准则 对同一参数的两个不同统计量,方差小的那个更为有效。这里涉及到方差的计算,注意方差的性质。
(三)均方误差准则 对同一参数的两个不同统计量,均方误差$E[(\hat \theta - \theta)^2]$小的较优。
(四)相合性准则 统计量$\hat \theta$依概率收敛于参数$\theta$称之为相合估计量。这里注意与无偏性准则相区别,其实就是区别数学意义上的收敛和概率意义上的收敛。

7.3 区间估计

置信区间的定义。
枢轴量法求置信区间的思想。 构造样本$X_1, …, X_n$和参数$\theta$的函数$G(X_1, …, X_n; \theta)$,其分布完全已知,并且不依赖于参数$\theta$,则称$G$为枢轴量。在给定的概率区间(置信水平)内,求枢轴量的上下限,然后将参数分离,得到参数的上下限,即为参数的置信区间。

7.4 正态总体参数的区间估计

枢轴量法的关键在于枢轴量的构造。上述6.3中描述了正态总体的抽样分布有很完美的结果,据此可以解决正态总体的区间估计问题。
这里要特别注意的是不同条件下枢轴量的选择,比如对单个正态总体的均值作区间估计,总体方差已知和未知的情况下选择的枢轴量是不同的。

7.5 非正态总体参数的区间估计

大样本法: 在样本容量比较大时,利用中心极限定理转化为正态分布下的求法。