在当今快速发展的人工智能领域,小型语言模型(LLMs)正变得越来越重要。它们不仅能够在消费级硬件上高效运行,还能支持完全离线的应用场景。H2O.AI 团队自豪地推出了 H2O-Danube3,一系列小型语言模型,它们在多种学术、聊天和微调基准测试中展现出了高度竞争力。

H2O-Danube3包含两个模型:H2O-Danube3-4B(4亿参数)和 H2O-Danube3-500M(5千万参数)。这两个模型分别在6T和4T的token上进行了预训练,使用了高质量的Web数据,主要是英文token,并经过三个阶段的不同数据混合,最终进行了监督调整,以适应聊天版本的需求。

技术亮点:

  • 高效的架构:H2O-Danube3的架构设计注重参数和计算效率,使其即使在现代智能手机上也能高效运行,实现本地推理和快速处理能力。

  • 开源许可:所有模型在Apache2.0许可下公开,进一步推动了大型语言模型(LLMs)的普及。

  • 多样化的应用场景:H2O-Danube3可用于聊天机器人、研究、特定用例的微调等,甚至在移动设备上进行离线应用。

开源模型新突破!H2O-Danube3:手机不联网也能用的本地模型

H2O-Danube3在多个学术基准测试中表现优异,例如在CommonsenseQA和PhysicsQA上取得了最佳成绩,并在GSM8k数学基准测试上达到了50.14%的准确率。此外,它在聊天基准测试和微调基准测试中也展现出了强大的性能。

小型语言模型的另一个常见应用是微调。H2O-Danube3在文本分类任务上经过微调后,展现了出色的适应性和性能。即使是参数数量较少的500M模型,也能在微调后表现出高度的竞争力。

为了进一步促进模型在边缘设备上的应用,H2O-Danube3提供了量化版本,这些版本在保持性能的同时显著减少了模型大小。

H2O-Danube3的推出,不仅丰富了开源小型语言模型的生态系统,也为各种应用场景提供了强大的支持。从聊天机器人到特定任务的微调,再到移动设备上的离线应用,H2O-Danube3都展现出了其广泛的适用性和高效性。

模型下载地址