【转载】AI生成的数据，在快速毁掉整个互联网？

在目前的AI发展阶段，用AI做内容生成，是解放人类还是制造垃圾？

目前AI生成的数据内容质量堪忧，已经逐步成了内容平台甚至整个互联网的噩梦。在AI科技领域内，也有Garbage In，Garbage Out （垃圾进、垃圾出）的说法，用来训练AI模型能力的数据质量要求都非常高，毕竟大模型是从数据中发现真理和学习能力。

以往的大模型都是以互联网上历史积累的数据和人类整理的高质量数据为主做训练，同时还做了大量的数据清洗、标注等质量提升的工作，这些数据的核心内容都是人类创造的“真实数据”，有“高质量和基于真实世界的实际业务”的内在属性。

而目前在文本内容生成和图像生成领域的快速应用，已经在互联网上产生了大量垃圾，甚至可能会对后续的大模型继续演化造成严重影响。

最近nature期刊上发表了一篇研究文章，揭示了用AI生成的数据来训练大模型，结果多次训练之后就对大模型的能力产生颠覆性的破坏力，也就是说“大模型崩溃了”。

这会导致两个恐怖的后果。

首先是以后的大模型能力提升没法做了，能力迭代很困难，人类产生的高质量数据基本已经用完了。

其次是人类面对全网的数据，完全是人类数据和AI生成数据混杂在一起的，缺乏必要的分辨手段区分开来，也没法来判断数据的合理性和真实性。这些数据没法用来做大模型训练不说，人类也没法完全信赖这些数据，尤其是被AI多次混淆生成多次的输出，人类基本没有辨别能力，只能任由大模型胡言乱语。

目前业界已经有技术在探索手段来识别AI产生的数据，也有不少内容平台引入简单的算法，希望将AI生成的数据打上标签，但迄今为止都还不成熟。这个问题需要科研界继续研究做出突破，避免在问题恶化到很严重的程度。

转载

免责声明 本站提供的一切软件、教程和内容信息仅限用于学习和研究，不得用于商业或者非法用途，否则，一切后果请用户自负；本站信息来自网络收集整理，版权争议与本站无关，您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除相应的内容；如果您喜欢该内容，请支持正版，得到更好的服务；我们非常重视版权问题，如有侵权请与我们联系，敬请谅解！邮箱：sanshi@sanshi.link