logo
科技新闻,每天 3 分钟
研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱
2 月 4 日

亚马逊云计算人工智能实验室的研究人员发现,网络上的大量内容来自机器翻译,而这些翻译内容的质量普遍较低。研究团队指出,这突显了在训练大型语言模型时,数据质量和来源的重要性。他们开发了一个名为多维 cc 矩阵的大资源,包含 90 种语言中 64 亿个独特的句子,用于理解机器翻译内容的特征。研究发现,大量网络内容被翻译成多种语言,并在资源较少的语言中占很大一部分。此外,研究人员还发现,被翻译成多种语言的内容存在选择性偏差,这可能会导致 LLM 模型产生更多 「幻觉」。因此,数据质量对于 LLM 训练至关重要。

链接
研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱
新浪科技 / 凤凰科技 / IT 之家 / 中关村在线
专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。
行业标签
二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验