多模态大语言模型相关资讯及多模态大语言模型相关产品

微软发布GeoMap-Bench工具，推动地质图智能化解读进程。

在地质科学领域，地质图被视为理解地球表面及地下结构的关键工具。解读这些包含丰富信息的复杂图表，需要专业的知识和丰富的经验。为了提升这一领域的智能化水平，微软亚洲研究院近期推出了一项重要的创新——Geo…

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

2025 年 2 月 21 日，阿里巴巴国际化团队宣布其新型多模态大语言模型Ovis2 系列正式开源。 Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ov…

全球顶尖人工智能科学家许主洪，出任阿里集团副总裁

2月6日，极目新闻记者从多方获悉，全球顶尖人工智能科学家许主洪教授（Steven Hoi）正式加入阿里巴巴，出任阿里集团副总裁。加入阿里后，许主洪将向吴嘉汇报，负责AI To C业务的多模态基础模型…

 二〇二四年十月二十四日，在第七届世界声博会上，一款人形交互机器人持自拍杆与观众合影。新华社记者傅天摄随着2022年OpenAI正式发布ChatGPT，人工智能技术以迅猛之势席卷全球，真正意义…

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

在多模态大语言模型（MLLMs）的推动下，图像和视频相关的任务取得了革命性的进展，包括视觉问答、叙述生成和交互式编辑等。然而，实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语…

苹果发布MM1.5：多模态 AI 模型的革命，重新定义智能理解？

最近，苹果 AI 研究团队推出了他们的新一代多模态大语言模型（MLLMs）家族 ——MM1.5。这一系列模型能够结合文本、图像等多种数据类型，向我们展示了 AI 在理解复杂任务方面的新能力。像视觉问答…

腾讯推首个开源多模态大语言模型VITA 可与用户进行无障碍沟通

最近，腾讯优图实验室等机构的研究者们推出了首个开源的多模态大语言模型VITA，它能够同时处理视频、图像、文本和音频，而且，它的交互体验也是一流的。 VITA模型的诞生，是为了填补大型语言模型在处理中文…

多所高校共建开源社区LAMM，加入多模态语言模型大家庭的时候到了

LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架，其包括了高度优化的训练框架、全面的评测体系，支持多种视觉模态。 ChatG…

iPhone的AI时刻不远了？苹果Ferret多模态大模型登场

今年10月，作为苹果公司与哥伦比亚大学的研究成果，Ferret就已经发布过一次，只是当时仅供研究使用而非商业许可，所以并未引起多大关注。如今情况发生了转变，随着各大科技公司你追我赶地公布研发成果，关于…

AI时代的知识产权保护编者按“一键出图”“三言两语生成大师作品”“文字图片生成高清视频”……日渐成熟且正实现规模化商用的AI技术，一方面在持续刷新人们对科技水平日新月异的传统认知，另一方面也让社会对传…

AIGC新项目Gobi筹备中，曝OpenAI大模型新进展：将推出多模态大模型

OpenAI意图赶在谷歌推出Gemini多模态大语言模型前，发布其多模态大语言模型。据The Information报道，OpenAI意图赶在谷歌推出多模态大语言模型Gemini前，发布其多模态大语…