新加坡科技设计大学研究团队成功开发出小巧而强大的TinyLlama AI模型,仅用90天、3万亿token训练

新加坡科技设计大学的研究人员正在进行一项令人瞩目的项目,他们取得了巨大的突破,成功地开发出了一款小巧而强大的AI模型,名为TinyLlama。这个模型采用了一种紧凑的设计,仅占用550MB的内存。不仅如此,令人惊叹的是,这个模型只用了90天时间,在庞大的3万亿token的数据集上完成了训练。

TinyLlama的独特之处在于它被设计用于内存受限的边缘设备,为这些设备提供高性能的人工智能解决方案。随着越来越多的开发者对于创建更小的AI模型的需求增加,因为对于内存和计算能力受限的边缘设备来说,更少的参数更加优化。而且,较小的模型还可以辅助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所指出的那样。

这个由新加坡科技设计大学的研究助理领导的TinyLlama项目旨在在3万亿token的数据集上预训练一个11亿token的Llama模型。尽管仅占用550MB的内存,但团队相信它的紧凑性将满足多种应用的需求,特别是那些对计算和内存占用有限制的实时机器翻译等功能。

TinyLlama的训练于9月1日开始,使用了16个A100-40G GPU,团队计划在短短90天内完成训练。目前为止,团队已经成功完成了1050亿token的训练。

模型的构建者表示,他们正在使用与Meta用于训练Llama2的“完全相同的架构和分词器”,这使得TinyLlama可以轻松应用于基于Llama构建的开源项目。

TinyLlama团队使用了包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集,而这些数据集曾经用于训练一个代码生成模型StarCoder。

一旦完成,TinyLlama将加入越来越多的较小语言模型的行列,这些模型由开发者用于构建各种应用。此外,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在不断取得进展。

本文来自用户或匿名投稿,不代表大众智能立场;本文所有内容(包括图片、视频等)版权均为原作者所有。涉及的相关问题请查阅本站免责声明,如侵权请及时与本站运营方取得联系(联系我们)我们将按声明中的处理方式进行处理。本文链接:https://dzzn.com/2023/864.html

(0)
上一篇 2023年9月8日 上午11:33
下一篇 2023年9月9日 上午9:02

相关推荐

发表回复

登录后才能评论