内容持续更新中
近年来,随着计算机视觉和动画技术的飞速发展,生成生动的人类动画逐渐成为研究热点。最新的研究成果 EchoMimicV2,利用参考图像、音频片段和手势序列,创造出高质量的半身人类动画。 简单的说,&nb…
近日,研究人员提出了一种名为 JoyVASA 的新技术,旨在提升音频驱动的图像动画效果。随着深度学习和扩散模型的不断发展,音频驱动的人像动画在视频质量和嘴形同步精度方面取得了显著进展。然而,现有模型的…
近日,黑森林实验室发布了全新的FLUX.1Tools工具包,该工具包旨在增强其基础文生图模型FLUX.1的控制性和可操控性,使用户能够精确地修改和再创作真实图片和生成图片。 FLUX.1T…
你是否曾经幻想过,将自己喜欢的动漫角色服装穿到现实生活中?或者,将你设计的服装直接“套”到模特身上,省去繁琐的制作过程? 现在,这一切都可以实现了!一项名为“Comfyui_Object_Migrat…
YouTube在其平台上推出了一项革命性的AI问答功能,让视频观看体验迈入全新的互动时代。这项专为Premium会员打造的新功能,正在彻底改变用户获取视频信息的方式。 只需轻点视频下方的"A…
阿里云重磅推出全新升级的Qwen2.5-Turbo大语言模型,其上下文长度突破至惊人的100万Token。这相当于什么概念?相当于10部《三体》,150小时的语音转录或3万行代码的容量!这回可真是“一…
在移动互联网时代,手机摄影已成为人们日常生活中不可或缺的一部分。最近,一款名为Cooraft的AI驱动相机应用引起了广泛关注。这款应用凭借其强大的人工智能技术,正在重新定义手机摄影的可能性。 这款应用…
终于,所有人都可以用上字节的视频生成模型PixelDance了!现在,字节跳动视频生成模型PixelDance和Seaweed已经在即梦AI全量上线了,用户现可通过即梦 AI 网页版和手机端 APP,…
近期备受关注的AI图像编辑工具Magic Quill凭借其独特的交互设计,在业内引发热议。该工具最大的亮点在于创新性地引入了"双画笔系统",让用户能够通过增减画笔的灵活组合,实现前…
宇树科技日前宣布开源其明星产品G1机器人的操作数据集,这一举措在业内引发广泛关注。该数据集涵盖了数据采集方法、学习算法、训练数据以及相关模型,为机器人研究领域注入了新的活力。 值得注意的是,宇树选择基…
你网购衣服的时候是不是经常对着心仪的衣服犹豫不决,担心买回家不合适?别担心,现在有一项黑科技可以拯救你!Google Research 团队最新研发的 Fashion-VDM 技术,让你足不出户就能体…
兄弟们,一句话P图成真了!还记得之前MJ推出的图片编辑功能吗?涂抹你想要修改的区域,输入提示词就能一键更改原图。 现在,豆包大模型团队也正式上线了类似的功能——SeedEdit。而且,相比于MJ还需要…
来自香港科技大学和清华大学的研究团队推出了一项名为 DimensionX 的全新 AI 框架,仅凭一张图片便能生成充满细节的3D 和4D 场景,为游戏开发、虚拟现实和影视制作等领域带来革命性的突破! …
CogSound 是一款基于人工智能技术的音效生成模型,能够根据视频内容自动生成与画面匹配的音效,为无声视频添加逼真的音频体验。 CogSound 的生成能力涵盖了多种复杂音效,例如爆炸声、水流声以及…
谷歌近日正式推出了一款名为 Vids 的 AI 视频演示应用程序,该应用由其 Gemini AI 模型驱动,用户只需输入简单的文字提示或上传 Google Drive 中的文档,即可轻松生成视频演示文…
在集成了Luma、可灵、海螺、Runway等几大视频模型后,Krea AI又上线了Lora训练功能。 无论你是什么电脑配置,只要上传超过3张以上的图片,你就可以轻松训练出专属于你的角色、风格、产品等。…
谷歌研究院最近推出了一项名为ReCapture的全新技术,这项技术可以让你从全新的视角重新体验你自己的视频。ReCapture技术可以根据用户提供的视频,生成一个带有自定义摄像机轨迹的新版本,这意味着…
近日,字节跳动推出一款最新肖像动画技术X-Portrait2,旨在以超低成本和高效的方式创造富有表现力和逼真的角色动画。用户只需提供静态肖像图像和表现驱动视频,X-Portrait2即可通过将视频中的…
香港科技大学、中国科学技术大学等机构的研究人员近日发布了 GameGen-X 模型,这是一个专为生成和互动控制开放世界游戏视频而设计的扩散变换器模型。 GameGen-X能自己生成开放世界游戏视频,可…
一个革命性的开源音频模型——Hertz-dev横空出世,凭借其惊人的性能指标,让全球开发者为之震撼。这款拥有85亿参数的AI语音巨兽,通过2000万小时高质量音频数据的训练,成功实现了人类梦寐以求的全…
近日,Fish Audio公司发布了全新的语音处理模型Fish Agent V0.13B,这款语音到语音模型能够高效、精确地生成和处理语音,尤其擅长模拟或克隆不同的声音。这意味着,我们距离拥有一个声音…
设计师、开发者们终于可以摆脱被“屏幕适配”支配的恐惧了!Rive 近期发布了名为 Layouts 的全新功能,允许用户创建动态且响应式的动画图形,这些图形可以自动适应不同的设备和屏幕尺寸,同时保持 R…
Meta FAIR 实验室近日发布了一项名为“Sparsh”的人工多模态指尖触觉感知技术,该技术可赋予机器人近似人类的触觉感知能力,有望在机器人操控领域带来革命性的变化。 Sparsh 模型采用自监督…
人工智能公司ElevenLabs最近发布了一个引人注目的开源项目"X-to-Voice",这款工具能够智能分析Twitter用户资料,自动生成与用户个性相匹配的数字声音和动态头像。…
AI音乐生成平台Suno又放大招了!最新推出的Personas功能让用户可以"复制"自己钟爱的音乐风格,一键生成带有个人特色的AI音乐,让每个人都能打造专属音乐IP。 这项突破性功…