内容持续更新中
字节跳动豆包大模型团队宣布开源 UI-TARS-1.5,这是一款基于视觉 – 语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测…
2025年4月9日,一款名为OmniSVG的强大SVG(可缩放矢量图形)生成模型正式亮相,标志着矢量图形生成技术迈入全新阶段。这一模型由StepFun与复旦大学联合开发,被誉为目前最先进的SVG生成大…
在当今数据可视化领域,生成准确反映复杂数据的图表仍然是一项微妙的挑战。图表不仅需要捕捉精确的布局、色彩和文本位置,还需将这些视觉细节转化为代码,以重现预期的设计。然而,传统方法通常依赖于直接提示视觉 …
近日,谷歌宣布推出一款全新的视觉 – 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同…