内容持续更新中
微软最新发布了Phi-3.5-vision,一款轻量级、多模态的开源AI模型,它是Phi-3模型家族的新成员,专为需要同时处理文本和视觉输入的应用设计。Phi-3.5-vision模型在内存或计算资源…
阿里巴巴达摩院的通义千问团队在2024年8月30日宣布了其最新成果——Qwen2-VL模型的重大更新。Qwen2-VL模型在图像理解、视频处理和多语言支持方面均实现了显著提升,为关键性能指标设定了新的…
在近日的发布会上,阿里国际 AI 团队揭晓了其最新研发的多模态大模型 Ovis,这一创新的 AI 技术无疑为各行业带来了新的机遇。Ovis 具备强大的图像理解和数据处理能力,让人耳目一新。 Ovis …
马斯克旗下xAI公司近日为其AI模型Grok增添了图像理解功能,X平台付费用户现可向AI助手上传图片并进行相关提问。这项更新已经由xAI员工和Grok官方发言人在X平台正式确认。 马斯克在平台上展示了…
在人工智能驱动的图像生成与理解领域,尽管取得了快速进展,但仍存在显著挑战,阻碍了一个无缝、统一的方法的发展。 目前,专注于图像理解的模型往往在生成高质量图像方面表现不佳,反之亦然。这种任务分开的架构不…
月之暗面今日宣布发布全新视觉思考模型k1。这一模型基于强化学习技术,不仅支持端到端的图像理解,还整合了思维链技术,将能力扩展到了数学之外的更多基础科学领域,包括物理和化学。在基准能力测试中,k1模型的…