一、bootstrapping method 具体是指一种什么样的统计方法
简明扼要的用中文来说,就是:1970年代的时候,Efron等人发表了一系列的论文作为诞生的标志,然后经过几代statisticians们的努力,理论基础已经被打好,并且还在蓬勃的发展中,各种相关的方法,以及定理不断涌现,成为统计学发展史上20世纪下半年最为令人心醉的里程碑。英文原意指的是Being or relating to a process that is self-initiating or self-sustaining. Idea是非常Intuitive的,有了这个Idea之后把统计学的发展大大推进了一步
二、统计中的 Bootstrap 方法是指什么
一、Bootstrap
非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:[1]
(1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。
(2)根据抽出的样本计算给定的统计量T。
(3)重复上述N次(一般大于1000),得到N个统计量T。
(4)计算上述N个统计量T的样本方差,得到统计量的方差。
应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。
具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。
进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。
二、在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random samplingwith replacement)。对于小数据集,自助法效果很好。
三、统计中的Bootstrap方法是指什么
在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random samplingwith replacement)。对于小数据集,自助法效果很好。
Bootstrap
非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:[1]
(1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。
(2)根据抽出的样本计算给定的统计量T。
(3)重复上述N次(一般大于1000),得到N个统计量T。
(4)计算上述N个统计量T的样本方差,得到统计量的方差。
应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。
具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。
进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。
四、什么是bootstrap方法
在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。
自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);
但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random sampling with replacement)。对于小数据集,自助法效果很好。
最常用的一种Bootstrap自助法,假设给定的数据集包含d个样本。该数据集有放回地抽样m次,产生m个样本的训练集。这样原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的样本最终形成检验集(测试集)。
显然每个样本被选中的概率是1/m,因此未被选中的概率就是(1-1/m),这样一个样本在训练集中没出现的概率就是m次都未被选中的概率,即(1-1/m)^m。当m趋于无穷大时,这一概率就将趋近于e^-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。
例如:人工样本为1,2,3;只有三个样本,则可以从随机变量X,分布为P(X=k)=1/3, k=1,2,3;这样的经验分布中用计算机根据上述分布自动产生样本,如产生5个样本:1 2 3 2 1;也可以是:3 3 2 1 1
自助法在数据集较小、难以有效划分训练集和测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在初始数据量足够时,留出法和交叉验证法更常用一些。
在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。
优点
bootstrap的一大优点是它的简单性。这是导出复杂分布估计量(例如百分位点、比例、优势比和相关系数)的标准误差和置信区间估计值的直接方法。
Bootstrap也是控制和检查结果稳定性的合适方法。尽管对于大多数问题不可能知道真正的置信区间,但自举法比使用样本方差和正态性假设获得的标准区间渐近更准确。Bootstrapping也是一种方便的方法,它避免了重复实验以获取其他组样本数据的成本。
缺点
尽管自举是(在某些条件下)渐近一致的,但它不提供一般的有限样本保证。结果可能取决于代表性样本。表面上的简单性可能掩盖了这样一个事实,即在进行自举分析(例如样本的独立性)时正在做出重要假设,而这些假设将在其他方法中更正式地说明。此外,引导可能非常耗时。
统计
如果参数可以写为总体分布的函数,则总体参数的点估计量的自举分布已被用于生成参数真实值的自举置信区间。
人口参数是用许多点估计器估计的。点的估计器的流行家族包括均值无偏最小方差估计,中值无偏估计,贝叶斯估计器(例如,后验分布的模式,中位数,平均),和最大似然估计。
根据渐近理论,贝叶斯点估计器和最大似然估计器在样本大小无限时具有良好的性能。对于有限样本的实际问题,其他估计器可能更可取。渐近理论提出了通常可以提高自举估计器性能的技术;最大似然估计量的自举通常可以使用与关键量相关的转换来改进。
以上内容参考百度百科-自助法
文章到此结束,希望我们对于Bootstrapping?的问题能够给您带来一些启发和解决方案。如果您需要更多信息或者有其他问题,请随时联系我们。