内容持续更新中
在视频分析领域,物体的持久性是人类理解物体即使在完全遮挡情况下依然存在的重要线索。然而,目前的物体分割方法大多只关注可见(模态)物体,而缺乏对无模态(可见 + 不可见)物体的处理。 针对这一问题,研究…
2025年3月10日,一项名为 TrajectoryCrafter 的前沿技术正式亮相,引发了科技界和视频创作领域的广泛关注。这项基于扩散模型(diffusion models)的创新技术,能够从单一…
还在对着音乐软件 抠脚 编曲? OUT 啦! 音乐创作领域迎来 核爆级 突破! 全球首个基于扩散模型的端到端音乐模型 DiffRhythm 横空出世, 直接把音乐创作的门槛 夷为平地! 你只需要 动动…
近年来,图像重光照技术的进步得益于大规模数据集和预训练的扩散模型,使得一致性光照的应用变得更加普遍。然而,在视频重光照领域,由于训练成本高昂以及缺乏多样化和高质量的视频重光照数据集,进展相对缓慢。 仅…
来自纽约大学、麻省理工学院和谷歌的研究团队近日提出了一个创新框架,旨在解决扩散模型在推理时间扩展方面的瓶颈问题。这一突破性研究超越了传统简单增加去噪步骤的方法,为提升生成模型性能开辟了新途径。 该框架…
微软研究院推出了一款名为 MatterGen 的强大人工智能系统,该系统能够生成具有特定性质的新材料,可能会加速电池、太阳能电池板等关键技术的开发。 MatterGen 的推出标志着科学家们发现新材料…
近日,一项名为 MangaNinja 的线稿上色方法引起了广泛关注,只需输入线稿和参考图,就能依据参考图给目标线稿上色。这项技术基于扩散模型,专注于参考图像引导的线稿上色,极大地提升了上色的精准度和互…
近日,研究人员开发了一种创新的人工智能系统——DiffSensei,能够自动将书面故事转换成漫画风格。这一系统不仅可以保持角色外观的一致性,还能控制漫画页面的布局,展现了AI在漫画创作领域的巨大潜力。…
在文本生成图像的领域,扩散模型展现出了非凡的能力,但在美学图像生成方面仍存在一定的不足。最近,来自字节跳动和中国科学技术大学的研究团队提出了一种名为 “Cross-Attention Value Mi…
还在为模糊不清的照片烦恼吗?一款名为InvSR的全新图像超分辨率工具横空出世,它能以极简的处理步骤,让图像瞬间变得清晰锐利。这款工具的强大之处在于,它利用了大型预训练扩散模型中蕴藏的丰富图像先验知识,…
网购时,你是不是也被买家秀和卖家秀的巨大差异伤到过?明明是同一件衣服,穿在模特身上时尚感爆棚,怎么到自己身上就变得“惨不忍睹”?别担心!德国比勒费尔德大学的机器学习团队开发了一项名为 TryOffDi…
强化学习在近年来取得了许多成功,但其样本效率低下,限制了其在现实世界中的应用。世界模型作为一种环境生成模型,为解决这一问题提供了希望。它可以作为模拟环境,以更高的样本效率训练强化学习智能体。 目前,大…
研究人员最近开发了一种名为 REPA 的新技术,旨在加速 AI 图像生成模型的训练速度。REPA 代表 REPresentation Alignment,通过整合来自 DINOv2等模型的高质量视觉表…
扩散模型(Diffusion Model)作为AI绘画领域的"顶流"技术,一直以其卓越的生成效果备受瞩目。然而,其漫长的训练过程一直是制约其进一步发展的瓶颈。 近日,一项名为REP…
在数字图像处理领域,一项名为DiPIR(扩散引导的逆向渲染)的创新技术正引起广泛关注。这项由研究人员最新提出的方法,旨在解决将虚拟物体无缝插入真实场景这一长期以来的技术难题。 DiPIR的核心在于其独…
多模态生成模型正引领人工智能的最新潮流,致力于融合视觉与文本数据,创造出能完成多种任务的系统。这些任务从根据文字描述生成高细节的图像到跨数据类型的理解与推理,推动着更互动、智能的 AI 系统的诞生,令…
在3D 建模领域,如何生成逼真的纹理一直是个难题。最近,阿尔伯塔大学、多伦多大学以及华为诺亚方舟实验室的研究人员联合推出了一种新方法 ——TexGen。这项技术能够根据用户的文本描述,生成与之相对应的…
在虚拟试发的领域,现有的头发转移技术常常面临着多样化和复杂发型的挑战,这让很多用户感到失望。最近,一项新的研究提出了一种创新的解决方案,名为 Stable-Hair。这项技术利用扩散模型,旨在将各种真…
随着人工智能技术的迅速发展,AI生成的视频日益逼真,给社会带来了严重的安全隐患。近期,一起涉及2500万美元的诈骗案就利用了AI制作的逼真视频。为应对这一挑战,哥伦比亚工程大学的研究团队开发了一种名为…