FTC相关资讯及FTC相关产品

首页
标签
FTC
全部文章

FTC

8篇

内容持续更新中

1688

1950

1X 科技

360公司

360创始人

360智脑

360浏览器

360纳米AI

360苏打办公

360集团

365会员

36氪

3A游戏

3C大赛

阅读量飙升

亚马逊AWS推出人类基准测试团队，改进人工智能模型评估

亚马逊希望用户能够更好地评估人工智能模型，并鼓励更多人参与这一过程。AWS推出Bedrock上的模型评估，以评估其存储库中的模型。模型评估包括自动评估和人工评估两个部分，可以根据不同指标评估模型性能。…

七个圈

行业资讯

阅读量飙升

谷歌推出人工智能系统Gemini,有望扩大在AI领域的影响力

谷歌最近推出了新一代人工智能系统Gemini,这是其在人工智能领域的重要进展。Gemini支持文本、图像、音频、视频和代码等多种模式,拥有出色的理解和推理能力。该系统在多个基准测试中表现优异,缩小了与…

七个圈

行业资讯

阅读量飙升

Anthropic推出新计划，资助新一代AI基准测试的开发

Anthropic 推出了一个计划，资助开发新类型的基准测试，以评估 AI 模型的性能和影响，包括像其自己的 Claude 这样的生成模型。 Anthropic 在周一发布了这个计划，将向第三方组织发…

七个圈

行业资讯

阅读量飙升

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

在自然语言处理领域，长语境理解一直是一个挑战。尽管大型语言模型（LLMs）在多种语言任务上表现出色，但它们在处理超出其上下文窗口大小的文本时常常受限。为了克服这一限制，研究者们一直在努力提升LLMs对…

七个圈

行业资讯

阅读量飙升

微软推Windows Agent Arena，测试AI助手在真实Windows环境中的性能

最近，微软发布了一个名为 Windows Agent Arena（WAA）的新平台，专门用于测试人工智能助手在真实 Windows 操作系统环境中的表现。这个创新的基准测试工具旨在加速 AI 助手的发…

七个圈

行业资讯

阅读量飙升

智源与腾讯推出长文本理解基准测试模型LongBench v2

在2024年12月19日的发布会上，智源研究院与腾讯宣布推出LongBench v2，这是一个专为评估大语言模型（LLMs）在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动…

七个圈

行业资讯

阅读量飙升

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

在软件工程领域，随着挑战的不断演变，传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变，远不止是孤立的编码任务。自由职业工程师需要处理整个代码库，集成多种系统，并满足复杂的客户需求。而传统…

七个圈

行业资讯

贡献榜

贡献文章数

七个圈AIGC破圈俱乐部欢迎您！

8.6万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.8万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.5万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.1万用户在看

FTC

8篇

贡献榜

七个圈

创米

AI情报

AI领航员

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

8.6万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.8万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.5万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.1万 用户在看

FTC

8篇

贡献榜

七个圈

创米

AI情报

AI领航员

8.6万用户在看

6.8万用户在看

5.5万用户在看

5.1万用户在看