内容持续更新中
苹果和哥伦比亚大学的研究人员合作开发了Ferret多模态语言模型,旨在实现高级图像理解和描述。该模型拥有强大的全局理解能力,可以同时处理自由文本和引用区域,性能优于传统模型。研究人员创建了GRIT数据…
新加坡国立大学发布 NExT-GPT 多模态语言模型,支持文本、图像、视频和音频处理,助力多媒体人工智能应用发展。模型采用三层架构,通过 MosIT 技术进行中间层训练,开源贡献为研究者和开发者创造了…
零一万物 Yi-VL 多模态语言模型是零一万物 Yi 系列模型家族的新成员,它在图文理解和对话生成方面具备卓越的能力。Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上都取得了领先成…
最近,Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加,如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现,旨在提升视…
Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型,该模型能够自由混合文本和语音,为音频和文本的多模态任务打开了新的可能性。 SPIRIT LM基于一个70亿参数的预训练文本语言模…