美国趣味科学网站报道了一项最新研究,警告称到2026年,人工智能AI)系统可能会用尽互联网上所有免费知识。这引发了关于AI模型数据饥荒的深入讨论。据研究团队发现,AI的发展离不开大量数据支持,但当前的网络公开数据供给已显不足以满足其需求。

AI用完互联网所有免费知识?2026年前或成现实

AI模型的数据“饕餮盛宴”AI模型的发展离不开大量数据从图像识别到自然语言处理从自动驾驶到医疗诊断每一个成功的AI应用背后都有着海量数据的支撑研究团队发现ChatGPT使用了来自书本、网络文章、维基百科及其他网络资源约570GB、3000亿个单词的文本数据进行训练

AI用完互联网所有免费知识?2026年前或成现实

随着AI模型的不断进步其对数据的需求也在增加如果训练AI算法的数据不足或质量较低就可能产生低质量结果例如美国谷歌公司的“双子座”AI曾建议网友吃石头或者给披萨涂胶水网络公开数据的“有限供给”虽然网络公开数据的规模在不断扩大但与AI模型的需求相比仍然显得捉襟见肘研究团队使用谷歌网页索引计算出目前的网页总数约为2500亿个其中每个页面包含约7000字节文本

AI用完互联网所有免费知识?2026年前或成现实

根据最新预测AI模型将在2026年至2032年间用完所有网络公开数据图像数据也预计将在2030年至2060年耗尽随着AI技术的深入发展对于数据的质量和多样性要求也越来越高这无疑加剧了数据的供需矛盾

AI用完互联网所有免费知识?2026年前或成现实

数据资源的短缺可能会限制AI模型的训练和优化美国人工智能时代研究所研究员巴勃罗·比利亚洛沃斯认为假如聊天机器人耗尽所有可用数据而数据效率没有进一步提升预计该领域的发展将陷入相对停滞如何应对数据“饥荒”?前几天《时代》杂志与OpenAI宣布两家公司达成了一项为期多年的内容协议和战略合作伙伴关系该协议允许OpenAI将《时代》杂志内容引入ChatGPT并帮助训练其最先进的人工智能模型据介绍OpenAI可以通过这笔交易访问《时代》过去100多年的档案和文章

AI用完互联网所有免费知识?2026年前或成现实

与此同时OpenAI还在与数十家出版商洽谈内容授权协议从私人数据库中获取数据正成为AI科技公司解决数据“饥荒”的方向比利亚洛沃斯认为如果相关措施成功落地并且私人数据与公共网络数据一样有用那么主要AI企业有望在2030年以前保持足够多的数据量不过有业内人士警告如果有企业试图在未经许可的情况下获取知识产权或者私人信息可能会面临司法风险

为解决这一挑战,AI企业开始与出版商合作获取私人数据库,以补充公开数据的不足。然而,专家也警告称,未经许可获取私人数据可能面临法律风险。未来AI模型如何平衡数据供给与隐私保护仍是一个重要议题。