在人工智能领域不断创新的谷歌,近日宣布了一项激动人心的计划。谷歌 DeepMind 的首席执行官 Demis Hassabis 在播客节目 Possible 中透露,公司将把其 Gemini AI 模型与 Veo 视频生成模型进行整合。这一举措旨在提升 Gemini 对物理世界的理解能力,助力开发出一个真正能够在现实生活中为用户提供帮助的通用数字助手。
Hassabis 指出,从一开始,Gemini 模型就被设计为一个多模态系统,能够处理多种类型的数据和信息。他表示:“我们的愿景是构建一个能够整合各种媒体形式的助手,这样它才能更好地理解和与世界互动。” 目前,Gemini 模型已经能够生成图像、文本和音频,展示出强大的多模态能力。
值得注意的是,整个 AI 行业正在向 “全能” 模型发展,许多公司都在探索类似的方向。例如,OpenAI 的 ChatGPT 不仅可以处理文本对话,还能生成艺术风格的图像。此外,亚马逊也计划推出一款全新的 “任意到任意” 的模型,旨在实现更高水平的多模态功能。
Hassabis 透露,Veo 模型的训练数据主要来自谷歌旗下的 YouTube 平台。通过分析大量 YouTube 视频,Veo 能够有效学习世界的物理规律。他指出:“Veo2通过观看大量的视频,能够更好地理解现实世界的运作方式。” 这表明,Veo 在训练过程中所使用的数据不仅丰富,而且具有实际应用价值。
谷歌在去年已扩大了其服务条款,以便获取更多的 YouTube 内容用于 AI 模型训练,确保模型的多样性和准确性。这样的数据获取策略无疑将为 Gemini 和 Veo 的结合提供坚实的基础,使得即将推出的智能助手能够更全面、更深刻地理解和响应用户的需求。
随着技术的不断进步,谷歌的这一计划预示着 AI 助手将不再局限于单一任务,而是能够在多个领域提供实用的支持,为用户的生活带来更多的便利。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则