AI 初创公司 Cognition 推出了全新的 AI 程序员 “Genie”,它的表现可谓惊人,瞬间击败了 Devin 和 GPT-4,成为全球最强的 AI 编程助手。

​号称全球最强AI程序员 “Genie” 横空出世,击败Devin与GPT-4!

这款 AI 程序员在权威测试平台 SWE-Bench 上,得分高达30.08%,远远超过 Devin 的13.8% 和 Swe-agent+GPT-4的12.47%。

​号称全球最强AI程序员 “Genie” 横空出世,击败Devin与GPT-4!

你可能会好奇,Genie 是怎么做到的?早在2022年12月,Genie 的联合创始人 Alistair Pullen 就在伦敦大学展示过这个项目。他希望创造出一个能像人类一样自动进行编码、调试和优化的 AI 程序。经过一年多的开发,Genie 终于进入了测试阶段,并且获得了250万美元的种子轮融资。

Alistair 提到,Genie 的成功和它的训练数据以及方法密切相关。与传统的大模型微调不同,Genie 使用了一个包含人类程序员推理过程的特殊数据集。这些数据涵盖了知识的逐步发现和基于案例的决策过程,使 Genie 在面对复杂问题时,能够展现出类似人类工程师的判断力。

此外,Genie 还采用了独特的 “自我改进机制”。最初,Genie 在高质量的数据上进行训练,达到 “完美” 状态,但在这个过程中,Genie 对自身错误的判断和改进不足。为了克服这一问题,开发者使用 Genie 生成了一些合成数据,进一步丰富了训练内容。这就好比妈妈教孩子走路,每次跌倒后都给予正确的指导。

​号称全球最强AI程序员 “Genie” 横空出世,击败Devin与GPT-4!

经过多次迭代训练,Genie 的能力大幅提升,甚至能在未见过的问题上展现出创造性解决方案。功能上,Genie 支持多种开发任务,包括功能开发、BUG 修复、代码重构、代码测试等,涵盖了 JavaScript、Python、Java 等几十种编程语言。

现在,Genie 已经开放了申请试用,大家可以通过官网注册,预计在接下来的几周内会发放测试权限。

官方博客:https://cosine.sh/blog/state-of-the-art

体验地址:https://cosine.sh/register

划重点:

🌟 Genie 在 SWE-Bench 测试中得分高达30.08%,成为全球最强 AI 程序员。

🚀 采用特殊数据集和自我改进机制,使 Genie 在复杂编码中表现出色。

📝 目前已开放申请试用,未来将推出更多惊喜功能!