内容持续更新中
DeepMind最新研究发现,语言模型在逻辑推理方面仍面临挑战。研究表明,任务中前提顺序对语言模型的逻辑推理性能产生显著影响。这一发现可能指导专家在使用语言模型进行基本推理任务时的决策。改变前提顺序可…
印度本土语言版本的ChatGPT——BharatGPT将在4月面世。该模型由印度亚洲首富安巴尼旗下公司与印度8所高校研究院联合推出,支持11种印度语言,覆盖医疗、金融、教育等多个领域。BharatGP…
谷歌最近推出了新一代人工智能系统Gemini,这是其在人工智能领域的重要进展。Gemini支持文本、图像、音频、视频和代码等多种模式,拥有出色的理解和推理能力。该系统在多个基准测试中表现优异,缩小了与…
一项最新研究显示,名为Coscientist的AI系统利用大型语言模型GPT-4以及互联网和文档搜索等工具,在6分钟内成功复现了2010年获得诺贝尔化学奖的一项研究。这表明AI可实现自主科学实验,没有…
Google Cloud与Mistral AI合作,允许Mistral AI在谷歌云基础设施上分发其大型语言模型。Mistral AI将利用Google Cloud的AI优化基础设施进行测试、构建和扩…
印度初创Sarvam AI近日宣布成功融资4100万美元,由Lightspeed、Khosla Ventures和Peak XV领投。成立仅五个月,公司专注于构建支持印度语言的大型语言模型,以语音作为…
谷歌发布了最先进的大型语言模型Gemini Pro,并宣布用户将能够在Google Bard中体验特别调整的Gemini Pro英语版本。Gemini Pro超越了GPT-3.5,六项基准测试中有四项…
美国startup Inflection AI最近发布了新一代语言模型Inflection-2,在多项基准测试中表现优异,性能直追OpenAI的GPT-4,超越了谷歌和Meta的类似产品。Inflec…
新加坡启动5,200万美元国家多模态大语言模型计划,旨在填补西方语言模型的空白。合作伙伴包括IMDA、AI Singapore和Agency for Science,计划引入区域性语境基础模型,提高人…
Mozilla发布了llamafile,这是一种开源方法,可以将一组权重转换为单个可在六种不同操作系统上运行的二进制文件,简化了大型语言模型的分发和运行。llamafile确保特定版本的LLM保持一致…
11月7日,德国AI初创公司Aleph Alpha宣布完成5亿美元B轮融资。主要投资方为德国企业如SAP、Schwarz集团等。Aleph Alpha表示,会利用这笔资金加强语言模型研发,提升自身产品…
来源:Coursera 授课教师:Dr.Jules White,范德比尔特大学 Professor of Computer Science University of Maryland, Colleg…
研究人员在 GitHub 上开源了一个名为 AgentTuning 的项目,该项目提供了一种新的方法来调整语言模型,通过多个智能体任务中的交互轨迹来训练和调整语言模型,以更好地适应不同的任务和场景。这…
谷歌DeepMind最新研究表明,大型语言模型在没有外部指导的情况下,难以自我纠正推理错误。研究人员发现,模型仅依靠自身想法来纠正最初反应时,经常会出错。研究还发现,通过多个模型投票达成一致虽可实现自…
根据微软支持的研究发现,OpenAI 的 GPT-4 语言模型在可信度上表现更好,但也更容易受到攻击。研究团队发现用户可以通过欺骗 GPT-4 来发布偏见结果和泄漏私人信息。然而,这些问题在面向消费者…
商汤科技发布了升级版医疗健康大语言模型 “大医”,并正式向医疗健康产业链上下游机构客户提供服务。该模型包含 13 个预设场景,支持个性化功能,高质量训练和低门槛部署。商汤已与多家医疗机构合作,实现 “…
Stability AI 发布了适用于移动设备的便携式语言模型 Stable LM 3B,参数规模为 30 亿。该模型体积小巧、高效,性能超过同规模语言模型。Stable LM 3B 可在边缘设备和家…
最近,Meta的研究人员提出轻量级微调方法RA-DIT,用于提升语言模型的知识检索能力。该方法通过两阶段调优,一是提升语言模型利用检索信息的能力,二是优化检索器提供更相关内容。实验结果显示,RA-DI…
近年来,Transformer架构的出现使得基于大规模语言模型的生成式AI成为可能。文章详细介绍了Transformer如何通过自注意力机制增强语言处理能力,支持各类生成任务。尽管模型还存在“幻觉”等…
法国初创公司Mistral AI最近发布了性能卓越的Mistral7B语言模型,免费提供给所有用户。该模型基于Apache2.0许可证发布,没有使用或复制限制。Mistral计划推出付费产品,提供权重…
恒生电子宣布,恒生大模型产品 LightGPT 已面向 20 家金融机构开启内测。LightGPT 是专为金融领域打造的大语言模型,具有更专业、更合规和更轻量的特点。光子是基于 LightGPT 的智…
麻省理工学院的研究人员发现,通过多智能体辩论问题的答案,相较于仅使用单个AI系统,可以显著提高响应的准确性和推理能力。这一研究成果为AI领域的进一步发展提供了新的思路和方法,有望改进现有的语言模型,并…
本文探讨了大语言模型(LLM)研究中的十大挑战,包括减少和衡量幻觉、优化上下文长度和上下文构建、融入其他数据模态、提高LLMs的速度和降低成本、设计新的模型架构、开发GPU替代方案、提高agent的可…
学术头条报道,来自清华大学、TAL AI Lab和智谱AI的研究者提出了20亿参数语言模型MathGLM,用于探索大语言模型在数学推理方面的效率。该模型采用Transformer解码器架构,在大规模算…
日本政府与NEC、富士通、软银等主要科技公司合作,投资数亿美元开发文化敏感的日语语言模型。该模型将在国家超级计算机Fugaku上训练,具备至少300亿个参数,旨在解决现有模型在日本市场上的不足。研究人…
腾讯混元大模型在 2023 腾讯全球数字生态大会上正式亮相,并通过腾讯云对外开放。该模型是由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模和超 2 万亿 tokens 的预训练语料。腾讯混元大模型…
云知声推出山海大模型 2.0 版,参数规模达到千亿,并在全球大模型评测中取得了优异的成绩。模型团队通过丰富语料库和在医疗领域的突破,为实现 AGI 的进化打下了基础。
艾伦人工智能研究所(AI2)发布了名为 Dolma 的开放式文本数据集,旨在促进 AI 语言模型的透明度和创新。Dolma 作为 AI2 开放式语言模型 (OLMo) 计划的核心,将为研究人员和开发者…