分类目录介绍:
精选最新、最前沿的行业视频,深入探索AI技术在各领域的最新应用与未来发展趋势。内容涵盖核心技术、市场机遇,为行业决策者、研究人员和技术爱好者提供一手研究资料与行业洞察。
内容持续更新中
近日,一款名为MiniPerplx的开源AI搜索引擎正在技术圈引发热议。这款由Gork驱动的搜索工具不仅能够进行常规网页搜索,还创新性地整合了Twitter和YouTube内容的搜索功能,展现出了超乎…
最近,多模态大型语言模型(MLLM)取得了显著进展,特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及,语音模态的重要性也日益凸显,尤其是在多模态对话系统中。语音不仅是信息传输的关键媒介,还能…
Yukai Engineering 以其创新和奇特的机器人产品而闻名,尤其是其经典作品如 Amagami Ham Ham,这款机器人凭借其独特的功能——咬手指带来“有点愉悦的感觉”——曾引起广泛关注。…
字节跳动近日开源了一项名为 LatentSync 的创新技术,该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。这项技术无需任何中间运动表示,即可实现视频中人物唇部动作与音频的精准同步。与以往…
在传统的AI开发中,构建智能代理一直是一项复杂且技术要求高的任务。开发人员需要处理API集成、环境配置、依赖项管理等多个繁琐的步骤,这使得构建智能代理既耗时又费力。然而,Hugging Face最近推…
昨天晚上,可灵AI悄然推出了一项可能颠覆电商行业的新功能——AI模特。这项创新不仅在技术上实现了突破,更在商业应用上展现出巨大的潜力。它标志着电商行业在视觉呈现方式上,即将迎来一场深刻的变革。 可灵A…
随着人工智能技术的进步,E2E(端到端)测试领域迎来新一轮创新浪潮。字节跳动web-infra团队最新开源的Midscene和独立开发者推出的Shortest等工具,正在改变传统的测试方式。 Mids…
人工智能语音领域再迎重大突破!Hume AI近日推出了一款名为OCTAVE的全新文本与语音引擎,该引擎能够仅凭简单的文本描述或一段5秒的语音录音,即可生成或克隆出逼真的语音和人格特质,为虚拟角色和人机…
用一段简单的哼唱、一段节奏的敲击,就能让AI生成一段高品质的音乐或音效,这不再是幻想。一项名为Sketch2Sound的创新研究成果,展示了一种全新的AI模型,它可以通过声音模仿和文本提示来生成高质量…
近日,来自多伦多大学及向量研究所的研究团队发布了 CAP4D 模型,这是一种基于形变多视角扩散模型(MMDM)的新技术,能够通过任意数量的参考图像生成逼真的4D 头像。 该模型采用双阶段方法,首先利用…
在人机对话的世界里,最让人头疼的莫过于——“你到底说完没”! 这句话看似简单,却成了无数语音助手和客服机器人迈不过去的一道坎儿。 你是不是也经常遇到这种情况:你只是停顿了一下,想思考接下来要说什么,结…
近日,一项名为INFP(Interactive, Natural, Flash and Person-generic)的新技术引起了广泛关注。这项技术旨在解决当前AI虚拟头像在双人对话中存在的互动不足…
Adobe Research与西北大学联合开发出一项突破性的AI系统Sketch2Sound,该技术能将简单的人声模仿和文字描述转化为专业级音效,有望彻底改变声音设计行业的工作方式。 该系统会分析语音…
在最近的更新中,AI创意工具 Krea AI 宣布在Krea Editor推出了令人兴奋的新功能 —— 自定义训练。 据官方介绍,该功能可以在在几秒钟内将真实产品添加到任何图像中,就像变魔术…
Krea AI宣布在其编辑器平台Krea Editor推出自定义培训功能,让用户能够在几秒钟内将真实产品无缝添加到任何图像中。这一新功能的发布,将为电商商家、营销人员和内容创作者带来更高效的视觉内容制…
近日,备受瞩目的Genesis Project正式发布,这款全新的生成式物理引擎旨在以最高的真实感模拟整个物理世界,为虚拟领域带来前所未有的沉浸式体验。 核心亮点:速度惊人,效率卓越 Genesis …
Domo AI近日发布了v2v 5. 0 测试版,其中最引人注目的新功能是推出了一个v2v真实模型。该模型可以实现视频的反向操作,即可以将动漫类型的视频转换为真人视频,给用户带来了前所未有的视觉体验。…
OpenAI 近日推出了其 API 的全新版本 o1模型,命名为 “o1-2024-12-17”,此版本带来了多个激动人心的新功能,包括智能函数调用、支持 JSON 格式的结构化输出以及图像分析能力。…
机器人公司宇树科技(Unitree)近日宣布,将全面开源其机器人训练的源代码,这一举措在业界引发广泛关注。此次开源内容包括强化学习(RL)训练代码,以及从模拟到模拟(Sim-to-Sim)和从模拟到现…
谷歌发布了一款名为Whisk的新AI工具,它颠覆了传统的图像生成模式,允许用户使用图片作为提示词,而非冗长的文字描述。 通过Whisk,你可以上传图片来指定AI生成图像的主题、场景和风格,并且可以为这…
Pika近日推出了其最新的AI视频生成工具——Pika2.0,宣称这是一次重大更新,承诺为用户提供更多的控制权和可定制性。作为AI视频生成领域的早期领导者之一,Pika自推出Pika1.5后,已获得了…
各位“冲浪达人”们,还记得那些年我们追过的表情包吗?从“地铁老人看手机”到“金馆长熊猫头”,它们不仅承包了我们的笑点,也成为了一种独特的网络文化符号。如今,短视频风靡全球,表情包也“与时俱进”,从静态…
OpenAI 在本周四宣布,其为 ChatGPT 开发的类人对话功能"高级语音模式"已实现视觉化。订阅 ChatGPT Plus、Team 或 Pro 的用户现在可以通过手机摄像头…
在为期12天的"ship-mas"产品发布系列中,OpenAI正式推出了备受期待的Sora视频生成AI模型。这款创新技术现已在Sora.com上线,面向美国及大多数国家的ChatG…
Runway Act One的最新更新为视频制作带来了革命性的变化。现在,你可以将自己的表演和声音直接“套用”到其他视频中的角色身上,实现动作和声音的完美同步。 想象一下,你在手机上随意拍摄的表演,可…
随着科技的不断进步,视频修复和增强技术正变得越来越先进。最近,一款名为VISION XL的视频修复和超分辨率工具以其卓越的性能和易用性脱颖而出。这款工具不仅能够修复视频中的缺失部分,去除因拍摄不稳定导…
Fish Audio最近丢出了一枚重磅炸弹——Fish Speech1.5,这款全新的语音合成模型简直是“声”临其境,不仅在准确性、稳定性和跨语言能力上狂甩前辈几条街,还一口气新增了五种语言支持!此外…
Google DeepMind近期发布的Genie2,正以其惊人的世界生成能力,重新定义了AI训练和交互的可能性。 Genie2是一个革命性的基础世界模型,能够通过自然语言指令,实时生成高度多样化且逻…