内容持续更新中
亚马逊希望用户能够更好地评估人工智能模型,并鼓励更多人参与这一过程。AWS推出Bedrock上的模型评估,以评估其存储库中的模型。模型评估包括自动评估和人工评估两个部分,可以根据不同指标评估模型性能。…
谷歌最近推出了新一代人工智能系统Gemini,这是其在人工智能领域的重要进展。Gemini支持文本、图像、音频、视频和代码等多种模式,拥有出色的理解和推理能力。该系统在多个基准测试中表现优异,缩小了与…
Anthropic 推出了一个计划,资助开发新类型的基准测试,以评估 AI 模型的性能和影响,包括像其自己的 Claude 这样的生成模型。 Anthropic 在周一发布了这个计划,将向第三方组织发…
在自然语言处理领域,长语境理解一直是一个挑战。尽管大型语言模型(LLMs)在多种语言任务上表现出色,但它们在处理超出其上下文窗口大小的文本时常常受限。为了克服这一限制,研究者们一直在努力提升LLMs对…
最近,微软发布了一个名为 Windows Agent Arena(WAA)的新平台,专门用于测试人工智能助手在真实 Windows 操作系统环境中的表现。这个创新的基准测试工具旨在加速 AI 助手的发…
在2024年12月19日的发布会上,智源研究院与腾讯宣布推出LongBench v2,这是一个专为评估大语言模型(LLMs)在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动…
在软件工程领域,随着挑战的不断演变,传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变,远不止是孤立的编码任务。自由职业工程师需要处理整个代码库,集成多种系统,并满足复杂的客户需求。而传统…