分类目录介绍:
精选最新、最前沿的行业视频,深入探索AI技术在各领域的最新应用与未来发展趋势。内容涵盖核心技术、市场机遇,为行业决策者、研究人员和技术爱好者提供一手研究资料与行业洞察。
内容持续更新中
谷歌最近对其 Gemini AI 助手进行了多项升级,特别针对 Android 设备的多媒体处理能力、与其他应用的联动性及可及性进行了全面提升。 此次更新的核心亮点是 “Gemini Live” 功能…
在数据采集的传统方法中,网络爬虫是许多开发者的必备工具。然而,这一时代或许已经走到尽头。Firecrawl Extract推出了全新的数据提取方式,让用户只需通过简单的自然语言提示,就能轻松获取任何网…
日本人工智能公司Sakana AI近日推出了Transformer²,这是一种创新的方法,旨在帮助语言模型更高效地适应多种任务。与现有的人工智能系统不同,Transformer²能够通过两阶段学习过程…
继字节跳动即梦AI攻克中文海报难题后,美图公司也强势入局,其主打高品质素材生成的图像工具WHEE不仅支持中文海报生成,更在功能上实现了突破性升级,为用户带来了前所未有的创作体验。WHEE的核心亮点在于…
在图像融合这块,Krea玩的算是登峰造极了。推出自定义训练后,Krea又推出了升级版实时生成。 升级后的Krea支持FLUX实时图片生成,你可以上传多张图片,抠图,然后转3D,像拼贴画一样创意拼贴组合…
在数字创作领域的技术竞争日趋白热化之际,Kinetix推出了一项令人瞩目的AI视频技术,让角色动作控制达到了新的精准度。这项技术通过创新性地结合真人表演视频和文本指令,实现了对数字角色动作的精确操控。…
Topview AI 近日推出了一款名为“Product Avatar”的全新数字人解决方案,为电商行业带来了颠覆性的变革。这款产品最大的亮点在于,它无需真人模特,仅需上传一张产品图片,AI就能立即生…
OpenBMB 团队近日推出了 MiniCPM-o2.6,这是该系列中最新、功能最强大的多模态大型语言模型(MLLM)。MiniCPM-o2.6的最大亮点在于它的8亿参数,使其在视觉、语音以及多模态直…
Refly作为一款全新的AI写作产品,采用“自由画布”理念,为用户提供从创意到成品的一站式内容创作解决方案。通过整合多主题、多线程对话功能、AI知识库和上下文记忆技术,Refly突破了传统创作工具的局…
在这个万物皆可AI的时代,视频创作又迎来了一次重大升级。潞晨科技最新发布的Video Ocean V2.0不仅完全免费,更在画质、动态表现和创作自由度上实现了突破性进展。 这款源自开源项目Open S…
这个年底,国内视频大厂们都卷疯了!昨天通义万相首创生成汉字视频让AI创作者们沸腾了一波。今天,海螺AI又推出全新主体参考功能,让AI视频创作再上新台阶。用户只需上传一张图片,就能让任何人物角色在各种场…
近日,阿里旗下的通义万相视频生成模型迎来了重磅升级,推出了全新的2.1版本。这一版本分为极速版与专业版,分别着重于高效性能和卓越表现力,为 AI 视频生成带来了新的突破。 此次升级最引人注目的是模型在…
Adobe Research与香港科技大学(HKUST)联合开发的人工智能系统——TransPixar,正在重新定义电影、游戏和交互式媒体中的视觉特效制作方式。这项技术突破性地解决了人工智能生成视频中…
未来,人形机器人市场预计将达到380亿美元。为满足这一巨大的市场需求,尤其是在工业和制造领域,英伟达日前宣布推出一系列机器人基础模型、数据管道和仿真框架,以加速下一代人形机器人的开发。 英伟达创始人兼…
近日,HeyGen 公司宣布将其数字人模型与 OpenAI 的 Sora 模型实现集成,引发业界广泛关注。这一技术突破意味着,我们即将迎来前所未有的、由人工智能驱动的“会说话的虚拟形象”视频。这些虚拟…
近日,一款名为MiniPerplx的开源AI搜索引擎正在技术圈引发热议。这款由Gork驱动的搜索工具不仅能够进行常规网页搜索,还创新性地整合了Twitter和YouTube内容的搜索功能,展现出了超乎…
最近,多模态大型语言模型(MLLM)取得了显著进展,特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及,语音模态的重要性也日益凸显,尤其是在多模态对话系统中。语音不仅是信息传输的关键媒介,还能…
Yukai Engineering 以其创新和奇特的机器人产品而闻名,尤其是其经典作品如 Amagami Ham Ham,这款机器人凭借其独特的功能——咬手指带来“有点愉悦的感觉”——曾引起广泛关注。…
字节跳动近日开源了一项名为 LatentSync 的创新技术,该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。这项技术无需任何中间运动表示,即可实现视频中人物唇部动作与音频的精准同步。与以往…
在传统的AI开发中,构建智能代理一直是一项复杂且技术要求高的任务。开发人员需要处理API集成、环境配置、依赖项管理等多个繁琐的步骤,这使得构建智能代理既耗时又费力。然而,Hugging Face最近推…
昨天晚上,可灵AI悄然推出了一项可能颠覆电商行业的新功能——AI模特。这项创新不仅在技术上实现了突破,更在商业应用上展现出巨大的潜力。它标志着电商行业在视觉呈现方式上,即将迎来一场深刻的变革。 可灵A…
随着人工智能技术的进步,E2E(端到端)测试领域迎来新一轮创新浪潮。字节跳动web-infra团队最新开源的Midscene和独立开发者推出的Shortest等工具,正在改变传统的测试方式。 Mids…
人工智能语音领域再迎重大突破!Hume AI近日推出了一款名为OCTAVE的全新文本与语音引擎,该引擎能够仅凭简单的文本描述或一段5秒的语音录音,即可生成或克隆出逼真的语音和人格特质,为虚拟角色和人机…
用一段简单的哼唱、一段节奏的敲击,就能让AI生成一段高品质的音乐或音效,这不再是幻想。一项名为Sketch2Sound的创新研究成果,展示了一种全新的AI模型,它可以通过声音模仿和文本提示来生成高质量…
近日,来自多伦多大学及向量研究所的研究团队发布了 CAP4D 模型,这是一种基于形变多视角扩散模型(MMDM)的新技术,能够通过任意数量的参考图像生成逼真的4D 头像。 该模型采用双阶段方法,首先利用…
在人机对话的世界里,最让人头疼的莫过于——“你到底说完没”! 这句话看似简单,却成了无数语音助手和客服机器人迈不过去的一道坎儿。 你是不是也经常遇到这种情况:你只是停顿了一下,想思考接下来要说什么,结…
近日,一项名为INFP(Interactive, Natural, Flash and Person-generic)的新技术引起了广泛关注。这项技术旨在解决当前AI虚拟头像在双人对话中存在的互动不足…
Adobe Research与西北大学联合开发出一项突破性的AI系统Sketch2Sound,该技术能将简单的人声模仿和文字描述转化为专业级音效,有望彻底改变声音设计行业的工作方式。 该系统会分析语音…