新加坡科技设计大学研究团队成功开发出小巧而强大的TinyLlama AI模型，仅用90天、3万亿token训练

guoguo • 2023年9月9日上午8:03 • 人工智能 • 阅读 1806

新加坡科技设计大学的研究人员正在进行一项令人瞩目的项目，他们取得了巨大的突破，成功地开发出了一款小巧而强大的AI模型，名为TinyLlama。这个模型采用了一种紧凑的设计，仅占用550MB的内存。不仅如此，令人惊叹的是，这个模型只用了90天时间，在庞大的3万亿token的数据集上完成了训练。

TinyLlama的独特之处在于它被设计用于内存受限的边缘设备，为这些设备提供高性能的人工智能解决方案。随着越来越多的开发者对于创建更小的AI模型的需求增加，因为对于内存和计算能力受限的边缘设备来说，更少的参数更加优化。而且，较小的模型还可以辅助解码更大的模型，正如前特斯拉高级AI总监Andrej Karpathy所指出的那样。

这个由新加坡科技设计大学的研究助理领导的TinyLlama项目旨在在3万亿token的数据集上预训练一个11亿token的Llama模型。尽管仅占用550MB的内存，但团队相信它的紧凑性将满足多种应用的需求，特别是那些对计算和内存占用有限制的实时机器翻译等功能。

TinyLlama的训练于9月1日开始，使用了16个A100-40G GPU，团队计划在短短90天内完成训练。目前为止，团队已经成功完成了1050亿token的训练。

模型的构建者表示，他们正在使用与Meta用于训练Llama2的“完全相同的架构和分词器”，这使得TinyLlama可以轻松应用于基于Llama构建的开源项目。

TinyLlama团队使用了包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集，而这些数据集曾经用于训练一个代码生成模型StarCoder。

一旦完成，TinyLlama将加入越来越多的较小语言模型的行列，这些模型由开发者用于构建各种应用。此外，EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在不断取得进展。

本文来自用户或匿名投稿，不代表大众智能立场；本文所有内容（包括图片、视频等）版权均为原作者所有。涉及的相关问题请查阅本站免责声明，如侵权请及时与本站运营方取得联系（联系我们）我们将按声明中的处理方式进行处理。本文链接：https://dzzn.com/2023/864.html