研究：网络充斥低质机翻内容，大语言模型训练需警惕数据陷阱

2 月 4 日

亚马逊云计算人工智能实验室的研究人员发现，网络上的大量内容来自机器翻译，而这些翻译内容的质量普遍较低。研究团队指出，这突显了在训练大型语言模型时，数据质量和来源的重要性。他们开发了一个名为多维 cc 矩阵的大资源，包含 90 种语言中 64 亿个独特的句子，用于理解机器翻译内容的特征。研究发现，大量网络内容被翻译成多种语言，并在资源较少的语言中占很大一部分。此外，研究人员还发现，被翻译成多种语言的内容存在选择性偏差，这可能会导致 LLM 模型产生更多「幻觉」。因此，数据质量对于 LLM 训练至关重要。