内容持续更新中
据tech星球消息,阿里通义实验室语音团队负责人鄢志杰已于 2 月 15 日正式离职,其职级为阿里原P序列体系中的P10 级别。 鄢志杰是智能语音领域专家, 2003 年进入中科大语音实验室攻读博士,…
在语音识别领域,中文识别的技术发展一直备受关注。近日,小红书的 FireRed 团队发布了一个全新的开源语音识别模型 ——FireRedASR。这个基于大模型的语音识别系统在多个标准测试集上取得了优异…
今日,豆包大模型官方发布豆包大模型的8个关键时刻!自2024年5月15日首次亮相以来,豆包大模型已破土而出,历经230天加速成长。从初步的学语,到懵懂的世界探索,再到为创作者绘制奇幻梦境,这一路的每一…
Deepgram日前发布了一款革命性的AI语音代理API,为企业和开发者带来了前所未有的自然对话体验。这款API整合了先进的语音识别和合成技术,支持实时对话理解和生成,为构建高效语音助手开辟了新天地,…
摩尔线程近日宣布开源其音频理解大模型MooER(摩耳),成为业界首个基于国产全功能GPU训练和推理的大型开源语音模型。MooER不仅支持中英文语音识别,还具备中译英的语音翻译能力,展现了强大的多语言处…
语音识别技术一直是人工智能发展的重点领域之一。而如今,字节跳动推出的Seed-ASR引擎,正在彻底打破语言和方言的壁垒,为这项技术注入全新活力。 Seed-ASR经过了超过2000万小时的语音数据和近…
近日,阿里巴巴在其 Qwen-Audio 的基础上,推出了全新的开源语音模型 Qwen2-Audio。这款模型不仅在语音识别、翻译和音频分析方面表现出色,更是在功能和性能上实现了显著提升。Qwen2-…
以色列人工智能公司 aiOla 近日在语音识别技术领域取得重大突破,推出了名为 Whisper Medusa 的开源语音识别模型。这款新模型的处理速度比 OpenAI 的 Whisper 模型快50%…
腾讯云最新推出的语音识别系统 ASR 进行了升级,提高了处理方言和噪声的能力。ASR 支持识别 23 种地方言,并能应对方言混战的情况。通过自研的混合识别引擎,ASR 能快速识别并切换不同方言。采用蒸…
近期,利用活人脑细胞构建的AI系统在Nature子刊登上前沿类脑研究,语音识别准确率从30%-40%飙升至78%。该系统可进行无监督学习,类似神经网络,并依赖脑类器官中神经细胞的连接来实现学习。经过两…
亚马逊最新ASR系统覆盖100多语言,通过语音基础模型实现显著准确度提升。系统支持多项特性,成千上万企业利用该系统解锁音频内容见解,提高了可访问性和可发现性。
来源:bilibili哔哩哔哩 作者:@极客湾Geekerwan 视频时长/时间:00:20:26/ 2023-04-30 【内容介绍】 视频讲解了up主使用ChatGPT+VITS语音生成+基于BE…
来源:bilibili哔哩哔哩 作者:@通义听悟 视频时长/时间:00:02:15 / 2023-06-20 【内容介绍】 通义听悟可以在会议、学习、访谈、培训等场景下: 实时记录交流内容,同步翻译 …
随着人工智能技术的发展,电话诈骗者可以利用生成式AI来伪造熟悉声音,进行所谓的“声音网络钓鱼”欺诈。这种新的威胁对普通民众带来了巨大的挑战。为了应对这一风险,技术公司正在研发识别模式,找到阻止这种骗局…
Meta 开源了全球最大的多模式翻译大模型 SeamlessM4T,支持 100 种语言,并能识别地方语言。该模型能执行语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。Seamless…