内容持续更新中
清华大学与智谱 AI 合作开发的国产多模态模型 CogVLM-17B 表现出卓越的性能。该模型可以识别图像中的对象,并且能够分辨完整可见和部分可见的物体。CogVLM-17B 采用了独特的深度融合方法…
浙大竺院的一位校友与微软研究院合作,推出了多模态模型LLaVA,挑战GPT-4V。LLaVA在11个测试数据集上表现出色,获得6k+星标。模型综合能力高,超过GPT-4V水平的85%。LLaVA的开源…
上海人工智能实验室与上海交通大学医学院附属瑞金医院等合作伙伴在 “2023 健康中国思南峰会” 上发布了医疗多模态基础模型群 “浦医 2.0”。新版本新增多领域模型,语言参数增量,涵盖医学图像、医学文…
苹果和瑞士洛桑联邦理工学院(EPFL)的研究人员联合开发了一种任意到任意模态的单一模型,可以在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。该模型被命名为4M-21…
面壁小钢炮MiniCPM-V系列的最新版本2.6自发布以来,在全球著名开源社区GitHub和HuggingFace趋势榜上迅速上升至Top3,其GitHub星标数量已破万。自2月1日首次亮相至今,Mi…
来自智源研究院的Emu3团队发布了一套全新的多模态模型Emu3,该模型仅基于下一个token预测进行训练,颠覆了传统的扩散模型和组合模型架构,在生成和感知任务上均取得了最先进的性能。 一直以来,下一个…
亚马逊近日在其 AWS re:Invent 大会上宣布了一系列新的 AI 基础模型,采用全新的 “Nova” 品牌。这些模型将作为亚马逊 Bedrock 模型库的一部分提供,标志着亚马逊在人工智能领域…
李飞飞团队推出了一种新的多模态模型,该模型能够理解和生成人类的动作,并通过结合语言模型,实现了对口头和非口头语言的统一处理。 这一突破性的研究,使得机器不仅可以理解人类的指令,还能读懂动作中蕴含的情绪…
近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临…
全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会(GDC)上,阿里云魔搭社区重磅宣布,首发上线阶跃星辰最新开源的两款多模态模型,包括 全球参数量最大的开源视频生成模型 Step-Vid…
在人工智能领域,阿里通义实验室团队近日宣布开源其最新研发的多模态模型 ——R1-Omni。这一模型结合了强化学习与可验证奖励(RLVR)方法,展现出了在处理音频和视频信息方面的卓越能力。R1-Omni…