Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布

3月23日，记者从华中科技大学获悉，由该校联合武汉金山办公软件有限公司研究人员开发的Monkey多模态大模型已被人工智能领域国际顶级会议CVPR2024接收，且该大模型曾在大模型开源开放评测体系——“司南”多模态大模型排行榜中名列开源模型榜首。Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布。据悉，Monkey突破了通用文档理解能力边界。它在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集，以及国际上规模最大的文档图像智能数据集OCRBench上取得显著突破，通用文档理解性能大幅超越现有模型。据介绍，多模态大模型是一类可以同时处理和整合多种感知数据的AI架构，在众多场景有广阔的应用潜力。凭借丰富的世界知识和出色的对话能力，多模态大模型能如同人类一样深入理解和感知世界。TextMonkey能帮助人们理解结构化图表、表格以及文档数据。它可将图像内容转化为轻量级的数据交换格式，方便使用者记录和提取。它也能帮助或代替人类在智能手机上执行各种任务，自主操控智能手机应用程序，无需接触后端。研发团队表示，TextMonkey可以模拟人类视觉认知。这使它能识别高清文档图像中各部分的关联，并可灵敏地鉴别出图像内关键要素。同时，基于对用户多样化需求的深入理解，TextMonkey通过文本定位技术强化了答案准确性，提升了模型的解释性，减少了模型的幻觉，提高了在处理各类文档任务时的表现。当前，随着各大企业加速数字化转型，对文档与图像进行多模态结构化分析及内容提取变得尤为重要。无论是处理随意拍摄的图片、电子文档，还是图表分析报告，快速、自动化、精确的数据处理对提升企业生产效率意义重大。研发团队表示，模型有望全面提升通用文档理解能力，推动自动化办公、智慧教育、智慧金融等领域发展。

七个圈AIGC破圈俱乐部欢迎您！

7.6万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

3.7万用户在看

功能强大上手简单还免费的AI翻译同声传译！赶快拿来用！去做优质作品！

3.5万用户在看

ChatGPT整活视频！日涨粉三千！有手就行！

3.4万用户在看

Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布

最近更新

文章目录

Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

7.6万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

3.7万 用户在看

功能强大上手简单还免费的AI翻译同声传译！赶快拿来用！去做优质作品！

3.5万 用户在看

ChatGPT整活视频！日涨粉三千！有手就行！

3.4万 用户在看

Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布

最近更新

文章目录

Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

7.6万用户在看

3.7万用户在看

3.5万用户在看

3.4万用户在看