内容持续更新中
今日上午,阿里巴巴集团旗下的大模型项目通义千问QwenLM的Github页面意外下线,用户在尝试访问包括Qwen2.0在内的相关项目时,遭遇了404错误提示,页面无法正常加载。 面对突发情况,阿里巴巴…
谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 – 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据…
随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息…
在智能驾驶行业,2025年被视为 “VLA 上车元年”,这标志着一种全新的技术范式正在崭露头角。VLA,即视觉语言动作模型(Vision-Language-Action Model),最初由 Deep…
Hugging Face 推出了一款令人瞩目的 AI 模型 ——SmolVLM。这款视觉语言模型的体积小到可以在手机等小型设备上运行,且性能超越了那些需要大型数据中心支持的前辈模型。 SmolVLM-…
在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方…
随着人工智能的快速发展,视觉与语言能力的整合引发了视觉语言模型(VLMs)的突破性进展。这些模型旨在同时处理和理解视觉与文本数据,广泛应用于图像描述、视觉问答、光学字符识别以及多模态内容分析等场景。 …
最近,西雅图的一家初创公司 Moondream 推出了名为 moondream2的紧凑型视觉语言模型。尽管体积小巧,但该模型在各项基准测试中表现出色,备受关注。作为一个开源模型,moondream2有…
AI 初创公司 Moondream 正式宣布完成450万美元的种子融资,并提出了一个颇具颠覆性的观点:在 AI 模型的世界里,小型模型可能更具优势。 该公司得到了 Felicis Ventures、微…
近日,H2O.ai 宣布推出两款新型视觉语言模型,旨在提升文档分析和光学字符识别(OCR)任务的效率。这两款模型分别是 H2OVL Mississippi-2B 和 H2OVL-Mississippi…
8月25日,阿里云推出大规模视觉语言模型Qwen-VL,支持中英文多语种,具备文本和图像的联合理解能力。Qwen-VL基于阿里云此前开源的通用语言模型Qwen-7B,相较其他视觉语言模型,Qwen-V…
最近,NVIDIA 联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。它能看懂图片还能跟你聊天,这相当于一个会看会说的超级助手。 比如在下面…
9月2日,通义千问宣布开源其第二代视觉语言模型Qwen2-VL,并在阿里云百炼平台上推出2B、7B两个尺寸及其量化版本模型的API,供用户直接调用。 Qwen2-VL模型在多个方面实现了性能的全面提升…
近期,多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型,国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉…
清华大学智普AI团队推出CogAgent,该视觉语言模型专注于改善对图形用户界面(GUI)的理解与导航,采用双编码器系统处理复杂GUI元素。模型在高分辨率输入处理、PC和Android平台的GUI导航…
智谱 AI 开源了 CogAgent,这是一个视觉语言模型,拥有 180 亿参数规模。CogAgent 在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。模型支持高分辨…
谷歌发布了名为PaLI-3的小体量视觉语言模型,取得SOTA水平性能。采用对比预训练方法,深入研究了视觉-文本(VIT)模型的潜力,达到多语言模态检索的SOTA水平。PaLI-3将自然语言理解和图像识…
针对最近备受关注的视觉语言模型GPT-4V,有研究者构建了一个新基准测试HallusionBench用于检验其图像推理能力。结果发现,GPT-4V等模型在HallusionBench中表现不佳,易受自…
阿里云开源了视觉语言模型Qwen-VL,这是继8月开源通用模型Qwen-7B和对话模型Qwen-7B-Chat之后,又一个开源的大模型。Qwen-VL支持中英文,可以进行知识问答、图像标题生成、图像问…