内容持续更新中
还记得那个号称“看图说话”神器GPT-4V吗?它能理解图片内容,还能根据图片执行任务,简直是懒人福音!但它有个致命弱点:眼神不太好! 想象一下,你让GPT-4V帮你点个按钮,它却像个“屏幕瞎子”一样,…
"MiniCPM-V2.6"的端侧多模态人工智能模型,它仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA(State of the Art,即当前最佳水平)成绩,显著…
LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架,其包括了高度优化的训练框架、全面的评测体系,支持多种视觉模态。 ChatG…
GPT-4V新玩法在GitHub走红,web开发者通过简单操作生成网页,引起2700+赞。同时,GitHub发布CopilotWorkspace成为开发者的「第二个大脑」,极大提高开发效率。
针对最近备受关注的视觉语言模型GPT-4V,有研究者构建了一个新基准测试HallusionBench用于检验其图像推理能力。结果发现,GPT-4V等模型在HallusionBench中表现不佳,易受自…
浙大竺院的一位校友与微软研究院合作,推出了多模态模型LLaVA,挑战GPT-4V。LLaVA在11个测试数据集上表现出色,获得6k+星标。模型综合能力高,超过GPT-4V水平的85%。LLaVA的开源…