内容持续更新中
最近,苹果 AI 研究团队推出了他们的新一代多模态大语言模型(MLLMs)家族 ——MM1.5。这一系列模型能够结合文本、图像等多种数据类型,向我们展示了 AI 在理解复杂任务方面的新能力。像视觉问答…
在多模态大语言模型(MLLMs)的推动下,图像和视频相关的任务取得了革命性的进展,包括视觉问答、叙述生成和交互式编辑等。然而,实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语…
月之暗面公司隆重推出其全新的 SOTA(state-of-the-art)模型 ——k1.5多模态思考模型,标志着在多模态推理和通用推理领域的重大突破。该模型不仅具备出色的多模态处理能力,还展示了卓越…
近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临…