据 Techradar 报道,亚马逊的研究人员提醒,在大语言模型的训练过程中,需要警惕数据陷阱。他们指出,当前网络上存在大量由机器翻译生成的内容,这些低质量的内容可能会对训练过程造成困扰。
研究人员发现,大量网络内容经常被翻译成多种语言,其中大部分是机器翻译的产物。这种情况在资源较少的语言中尤为普遍,这些语言的网络内容有很大一部分来源于机器翻译。
这可能导致训练出的大语言模型产生更多的不流畅和幻觉的文本。此外,选择偏差也表明,即使在考虑机器翻译错误之前,数据的质量也可能较低。
因此,亚马逊的研究人员提醒,在大语言模型的训练过程中,应特别注意数据的质量和来源,以避免陷入数据陷阱。他们建议使用更精确的数据筛选方法,并强调在训练过程中对数据进行适当的清洗和预处理的重要性。通过这些措施,可以更好地提高大语言模型的质量和准确性,从而为用户提供更好的服务和体验。