当前位置:首页 > 科技资讯 >

2021机器智能研究方向科技资讯

来源:天之家 发表于:2021-01-12 08:28 阅读:

导读:在机器智能向更大的深度神经网络发展的过程中,训练效率将成为Graphcore Research在2021年的重点工作。 大型、过参数化模型的训练不断展现出改进的训练和泛化性能。事实上,在许多领域,较大的模型样本效率更高。这意味着应该将更多的计算预算用于更大的模型...

在机器智能向更大的深度神经网络发展的过程中,训练效率将成为Graphcore Research在2021年的重点工作。

大型、过参数化模型的训练不断展现出改进的训练和泛化性能。事实上,在许多领域,较大的模型样本效率更高。这意味着应该将更多的计算预算用于更大的模型训练,而非更多的迭代训练(Kaplan et al., 2020[1]; Henighan et al., 2020[2])。

大规模的训练效率能够进一步提高任务性能,同时降低计算成本和功耗。

在2020年,我们在和效率有关的研究领域取得了许多进展,包括算术效率、存储有效训练以及分布式训练的有效实施。此外,我们还继续推进了关于概率建模的研究,并在计算机视觉和语言的有效深度架构的研究工作中取得了重大进展。

本文将探讨我们在接下来一年的研究方向。这些研究方向和训练效率有关。我们也会考虑并行训练的新机遇,包括在NeurIPS 2020上发布的我们有关随机基[3]的研究成果(Gressmann et al., 2020[4]),以及我们与加州大学伯克利分校(UC Berkeley)和Google Research进行的本地并行性的研究(Laskin, Metz et al., 2020[5])。

随机学习的优化

在深度神经网络训练过程中减少存储实施的寻址技术也将是一个重点。有效学习在很大程度上取决于新算法和用于随机优化的新标准化技术的发展,这些技术和方法可以实现训练的稳定性以及小批次训练的泛化。

针对深度学习和计算图网络的

新高效模型

通过设计针对不同应用的新处理功能和构建块来提高深度模型的训练性能和计算效率,对无监督或自我监督的预训练以及对下游任务的有监督微调至关重要。

在我们的研究中,我们将继续考虑诸如计算机视觉和自然语言理解之类的基础性应用,同时也把基于计算图网络的应用(包括基因组学和推荐系统)作为目标。

稀疏训练

稀疏训练可使得人工智能从业者减少大型过参数化模型的计算足迹和功耗,其目标是能够训练超出当前可行的更大模型。

在训练结束时对密集模型进行剪枝或在训练过程中逐渐增加稀疏度,使得研究人员可以减小用于推理的模型尺寸。但是,至少在整个训练持续时间的部分过程中,这些方法仍然受到全模型尺寸的计算和存储要求的限制。

通过基于初始化时的深层网络剪枝的方法可减少计算和存储需求,然后再对所得的剪枝后的子网络进行训练(Hayou et al., 2020[6])。但是,在训练过程中保持固定稀疏模式的静态稀疏训练,通常对应着较差的任务性能。

通过在训练期间定期更改稀疏模式来探索大型模型的高维参数空间,动态稀疏训练可以提高任务性能,从而把与稀疏子网络相关的计算成本和功耗维持在更低水平(Evci et al., 2019[7]; Jayakumar et al., 2020[8])。

有效利用动态稀疏训练,并且在向前和向后传递时都具有很高的稀疏性,这将为创新者提供训练过参数化的深度网络的机会,而这些网络比当今可训练的最大模型还要大(Jayakumar et al., 2020[8])。

并行训练的新方向

为了减少训练大型过参数化模型所需的时间,依靠大量处理器上的有效实施来研究大规模分布式训练的优化算法是非常必要的。

通常,通过在多个模型副本上进行数据并行性来获得更快的训练,每个模型副本都处理随机优化算法的一个微小批次的一部分数据。数据并行训练可通过增加批尺寸来提高吞吐量。但是,在训练时间随批尺寸和处理器数量而变化的初始区域之后,继续增加批尺寸就会达到饱和区域。在饱和区域里,增加并行性无法实现进一步加速(Shallue et al., 2018[9])。

随着数据并行性模型尺寸的增加,每个模型副本又可以基于流水线并行性在多个处理器上实施,其中每个副本的各个层被分成流水线的各个阶段。对于大型模型,可以通过在多个处理器上的基本模型并行性进一步划分每个阶段的多个层。流水线并行性提高了吞吐量,与此同时,批尺寸的增加带来流水线阶段数的增加,从而实现加速。因此,对于仍允许训练的最大批尺寸,使用流水线并行性可以减少整体批尺寸中用于数据并行性的那一部分(Huang et al., 2018[10])。

我们正在考虑新的并行处理方法,来进行大型模型的有效分布式训练。

随机基