近日,苹果发布的一篇最新论文引发了科技界的广泛关注。这篇论文标题为《在超出可用DRAM容量的设备上运行大型语言模型(LLM)的方法》。该论文揭示了一种革命性的技术,有望将大型语言模型(LLM)运行在iPhone等移动设备上。
在论文中,苹果的研究人员详细介绍了一种提高内存使用效率的新方法。通过这种方法,大型语言模型可以在iPhone可用内存的两倍范围内运行,显著提升了性能。同时,该技术在CPU和GPU中的推理速度分别提升了4-5倍和20-25倍。这一突破性技术对于在资源有限的环境中部署高级LLM尤其重要,扩大了其适用性和可访问性。
传统的运算方式中,CPU通常会以DRAM(内存)为“中间桥梁”,把硬盘中的数据复制到内存中来,再在内存中做数据处理。然而,DRAM容量相较于硬盘要小一个数量级。因此,大型语言模型运行时需要处理的数据量庞大,对容量有限的设备来说构成了极大的挑战。
苹果的这篇论文提出了一种新的框架,旨在将模型参数存储在闪存中,并在需要的时候将数据调入DRAM。具体而言,这项技术包括“窗口化”和“行列捆绑”两项关键技术。“窗口化”技术通过重复使用先前激活过的神经元,减少从闪存中传输的数据量。而“行列捆绑”技术则是针对闪存的数据特征,定制访问数据块的顺序,从而增加从闪存读取的数据块大小。
这一突破性研究意味着生成式AI集成到iOS 18的计划或将加快推进。随着技术的不断进步和发展,我们有望在未来看到搭载大型语言模型的iPhone出现。这将为用户带来更加智能、便捷的体验,同时也将推动AI技术在移动设备领域的发展。
苹果的这篇论文为我们揭示了未来AI技术在移动设备领域的发展方向。我们期待着这一技术在未来的实际应用和进一步发展,为我们的生活带来更多的便利和创新。