视觉-语言模型相关资讯及视觉-语言模型相关产品

首页
标签
视觉-语言模型
全部文章

视觉-语言模型

4篇

内容持续更新中

热门

#StarterPackNoAI

01.AI

1. OCR技术2. PaddleOCR算法模型挑战赛3. 场景文本识别算法SVTRv24. 表格识别算法SLANet-LCNetV2

1.58位低精度架构

100万token上下文

11x

1200万美元融资

1688

1950

1Fort

1X 科技

1型糖尿病专病大模型

20个自由度

2K高清图像

2小时学习模式

阅读量飙升

字节豆包开源 Seed 智能体模型 UI-TARS-1.5

字节跳动豆包大模型团队宣布开源 UI-TARS-1.5，这是一款基于视觉 – 语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测…

七个圈

行业资讯

阅读量飙升从文本到复杂角色：最强SVG生成大模型OmniSVG出现了!

2025年4月9日，一款名为OmniSVG的强大SVG（可缩放矢量图形）生成模型正式亮相，标志着矢量图形生成技术迈入全新阶段。这一模型由StepFun与复旦大学联合开发，被誉为目前最先进的SVG生成大…

新鲜出炉，等待你的评论

暂无评论，快留下你的脚印吧！还可以领现金哦~

七个圈

行业资讯

阅读量飙升

Adobe 联合高校推出 METAL 框架：多智能体协作生成精准图表

在当今数据可视化领域，生成准确反映复杂数据的图表仍然是一项微妙的挑战。图表不仅需要捕捉精确的布局、色彩和文本位置，还需将这些视觉细节转化为代码，以重现预期的设计。然而，传统方法通常依赖于直接提示视觉 …

七个圈

行业资讯

阅读量飙升

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日，谷歌宣布推出一款全新的视觉 – 语言模型（Vision-Language Model， VLM），名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力，能够同…

七个圈

行业资讯

贡献榜

贡献文章数

七个圈AIGC破圈俱乐部欢迎您！

9.2万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.7万用户在看

视觉-语言模型

4篇

阅读量飙升从文本到复杂角色：最强SVG生成大模型OmniSVG出现了!

贡献榜

七个圈

创米

AI情报

AI领航员

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

9.2万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.7万 用户在看

视觉-语言模型

4篇

阅读量飙升 从文本到复杂角色：最强SVG生成大模型OmniSVG出现了!

贡献榜

七个圈

创米

AI情报

AI领航员

9.2万用户在看

7.6万用户在看

6.2万用户在看

5.7万用户在看

阅读量飙升从文本到复杂角色：最强SVG生成大模型OmniSVG出现了!