主体参考能力相关资讯及主体参考能力相关产品

阿里云通义千问回应 Github 页面 404：已经在联系官方

今日上午，阿里巴巴集团旗下的大模型项目通义千问QwenLM的Github页面意外下线，用户在尝试访问包括Qwen2.0在内的相关项目时，遭遇了404错误提示，页面无法正常加载。面对突发情况，阿里巴巴…

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集，这是一个包含1000亿个图像 – 文本对的庞大数据集，旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据…

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

随着人工智能技术的不断发展，视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档，这一限制影响了自动内容提取和理解能力，进而影响了数据分析、信息…

VLA 技术引领智驾竞赛，英伟达助力黑马企业迅速抢占市场份额

在智能驾驶行业，2025年被视为 “VLA 上车元年”，这标志着一种全新的技术范式正在崭露头角。VLA，即视觉语言动作模型（Vision-Language-Action Model），最初由 Deep…

300倍体积缩减！Hugging Face推SmolVLM模型：小巧智能，手机也能跑AI

Hugging Face 推出了一款令人瞩目的 AI 模型 ——SmolVLM。这款视觉语言模型的体积小到可以在手机等小型设备上运行，且性能超越了那些需要大型数据中心支持的前辈模型。 SmolVLM-…

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

在多模态任务中，视觉语言模型（VLMs）起着至关重要的作用，如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐，以实现更高效的信息处理。然而，目前的 VLMs 在理解否定方…

DeepSeek-AI开源DeepSeek-VL2系列:3B、16B 和27B参数三种模型

随着人工智能的快速发展，视觉与语言能力的整合引发了视觉语言模型（VLMs）的突破性进展。这些模型旨在同时处理和理解视觉与文本数据，广泛应用于图像描述、视觉问答、光学字符识别以及多模态内容分析等场景。 …

小巧强大！口袋级视觉AI模型moondream2：仅有16亿参数，手机就能运行

最近，西雅图的一家初创公司 Moondream 推出了名为 moondream2的紧凑型视觉语言模型。尽管体积小巧，但该模型在各项基准测试中表现出色，备受关注。作为一个开源模型，moondream2有…

Moondream融资450万美元，推仅16 亿参数高效AI模型、GitHub星标5K

AI 初创公司 Moondream 正式宣布完成450万美元的种子融资，并提出了一个颇具颠覆性的观点:在 AI 模型的世界里，小型模型可能更具优势。该公司得到了 Felicis Ventures、微…

小而强大！H2O.ai 发布新AI视觉模型文档分析领域超越科技巨头

近日，H2O.ai 宣布推出两款新型视觉语言模型，旨在提升文档分析和光学字符识别（OCR）任务的效率。这两款模型分别是 H2OVL Mississippi-2B 和 H2OVL-Mississippi…

阿里云通义千问再开源:多模态大模型Qwen-VL

8月25日,阿里云推出大规模视觉语言模型Qwen-VL,支持中英文多语种,具备文本和图像的联合理解能力。Qwen-VL基于阿里云此前开源的通用语言模型Qwen-7B,相较其他视觉语言模型,Qwen-V…

NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天

最近，NVIDIA 联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。它能看懂图片还能跟你聊天，这相当于一个会看会说的超级助手。比如在下面…

通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用

9月2日，通义千问宣布开源其第二代视觉语言模型Qwen2-VL，并在阿里云百炼平台上推出2B、7B两个尺寸及其量化版本模型的API，供用户直接调用。 Qwen2-VL模型在多个方面实现了性能的全面提升…

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

近期，多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型，国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉…

清华大学研发新视觉语言模型CogAgent，深化GUI理解与导航

清华大学智普AI团队推出CogAgent，该视觉语言模型专注于改善对图形用户界面(GUI)的理解与导航，采用双编码器系统处理复杂GUI元素。模型在高分辨率输入处理、PC和Android平台的GUI导航…

智谱 AI 开源视觉语言模型 CogAgent，支持 GUI 图形界面问答

智谱 AI 开源了 CogAgent，这是一个视觉语言模型，拥有 180 亿参数规模。CogAgent 在 GUI 理解和导航方面表现出色，在多个基准测试上取得了 SOTA 的通用性能。模型支持高分辨…

谷歌发布小体量PaLI-3视觉语言模型，实现SOTA性能

谷歌发布了名为PaLI-3的小体量视觉语言模型，取得SOTA水平性能。采用对比预训练方法，深入研究了视觉-文本（VIT）模型的潜力，达到多语言模态检索的SOTA水平。PaLI-3将自然语言理解和图像识…

夕小瑶科技说 | 别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??

针对最近备受关注的视觉语言模型GPT-4V,有研究者构建了一个新基准测试HallusionBench用于检验其图像推理能力。结果发现,GPT-4V等模型在HallusionBench中表现不佳,易受自…

通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入

阿里云开源了视觉语言模型Qwen-VL,这是继8月开源通用模型Qwen-7B和对话模型Qwen-7B-Chat之后,又一个开源的大模型。Qwen-VL支持中英文,可以进行知识问答、图像标题生成、图像问…