文 | 智能相对论
作者 | 陈泊丞
报销发票的整理、归纳和处理在公司的日常运行中扮演着极为重要的角色,但同时这又是一件极为繁琐且重复性较强的工作,那么我们是否可以基于AI技术打造一个智能化的发票助手,帮助财会人员快速识别发票信息、整理归档,全面提供工作效率?基于这个想法,我们尝试了多款大模型产品,发现智谱多模态大模型GLM-4V-Flash的推出,正好可以很好地支持我们创建一个智能化的发票助手,为财会工作带来全新的解决方案。
01、什么是GLM-4V-Flash?
GLM-4V-Flash是智谱开放平台(bigmodel.cn)新上线的免费的视觉理解模型。自此,智谱迎来全免费最强“全家桶”产品,不仅基于4V系列模型的各项优秀能力,更在图像处理上实现了精确度的提升,具备多语言、多模态处理能力,支持包括中文、英语、日语、韩语、德语在内的26种语言,并支持图像描述生成、图像分类、视觉推理、视觉问答(VQA)以及图像情感分析等高级图像处理功能。
基于智谱开放平台的“全家桶”产品,能够针对特定垂直行业提供精准的场景解决方案,以低成本投入助力开发者迅速融入大模型时代,无需顾虑大模型图像处理的高昂成本。同时,GLM-4V-Flash无论是在信息提取、内容创作,还是图片识别等领域都具备不错的性能表现和效果反馈,真正将模型的基础能力转化为实际应用场景解决方案。
02、基于GLM-4V-Flash,如何打造智慧发票助手?
智慧发票助手是一个多学科交叉应用的结果,涉及OCR、NLP、计算机视觉、机器学习等多个领域的技术协同工作,以确保发票信息的快速、准确提取和处理。随着技术的发展与应用的深入,这一系统的准确性和效率也会不断提高,从而辅助财会人员高效地处理相关工作。
智慧发票助手的打造需要用到GLM-4V-Flash以下这些能力:
1.多模态处理能力:用于分析发票图像的整体布局,识别文本内容、表格、框线和其他视觉元素,这对于正确解析复杂格式(特别是非结构化的数据)的发票至关重要。此外,这一能力还可以用来检测发票的完整性(例如是否有缺失部分)以及是否为篡改过的文件,以确保发票的合规性。
2.多语言理解能力:考虑跨国企业或跨国业务需求,会有不同国家的发票报销,可用于识别不同国家的语言,拓展智慧发票助手的应用范围。
3.规则引擎:根据预定义的业务逻辑和法规要求来验证发票信息的正确性和合规性。例如,检查税率是否正确应用,或者确认发票上的公司注册号是否存在并有效等等。
4.自适应学习与自动化工作流:随着应用深化,智慧发票助手将可以形成一个完整的发票处理流水线,从接收到发票图片开始,经过多模态处理、识别,再到最终的验证和归档,整个过程都可以被高度自动化,同时还可以根据新出现的发票类型或用户提供的反馈不断优化自身的性能。
03、GLM-4V-Flash实操
一、API调用申请
打开链接
2.申请调用:GLM-4V支持同步调用
二、以下为调用实操:
在这里,我们调用了GLM-4V-Flash系列模型,以实现图像内容的精准识别,来完成对报销发票的处理。
同时,为了让应用更像一个智能化的AI助手,我们还简单地对其进行了命名,叫作“铃声易写1.0”,并配上「智能相对论」的图标Logo,以及对文字内容进行了区别配色,输出为一个直观的聊天窗口,只需要对话即可完成智慧发票助手的工作。
上传发票信息:为了进一步测试性能,我们选择了把所有发票整理到同一个文件夹内,同时上传。
我们在网上找了两张不同的发票,分别为纸质中文发票照片、电子中文发票图片,来让GLM-4V-Flash进行识别。
识别成功:我们还让GLM-4V-Flash在识别后自动归纳重点信息,并输出为一个csv表格,方便财会人员查看、校对。
从输出表格信息可见,GLM-4V-Flash成功识别了报销发票的重要信息,包括买卖双方名称、税号和消费金额、税率、税额等等。
当我们只上传一张发票图片,不需要GLM-4V-Flash输出表格,而是完整的识别信息,可以看到GLM-4V-Flash基于多模态处理能力,会对整张发票进行全面的识别,精准归纳出图片上的一切信息,甚至是发票的盖章情况。
也就是说,如果能进一步用好GLM-4V-Flash的这一能力,我们所打造的智慧发票助手不仅能识别发票信息,甚至还可以验证发票的盖章情况,确认合规性,又进一步节省了财会人员的校对流程,大大提高工作效率。
为了进一步验证GLM-4V-Flash的多语言识别能力,同时考虑到外国没有发票形式,大多采用消费单据来作为报销凭证,结合实际场景需求,我们又上传了一张全英文的消费单据。
结果显示,GLM-4V-Flash依旧可以很好地识别消费单据的具体内容,且条理非常清晰。那么,我们只需要进一步像前面那样,让GLM-4V-Flash将这些信息整理归纳,并输出到同一张csv表格中,就能统一不同国家发票、单据的报销汇总。
当然,若要得到一个更“聪明”的智慧发票助手,我们还需要进一步预定义GLM-4V-Flash的业务逻辑和法规要求,从而让其更好地识别、验证并归纳公司发票信息。但是,不可否认,有了上述这些强大能力的支持,我们想要基于智谱开放平台来打造一个智慧发票助手,并不复杂。
04、人人都能开启企业的数智化转型升级
基于实操表现来看,GLM-4V-Flash具备强大的多模态处理能力、多语言识别能力,不需要开发者做过多的操作就能调用,用于打造一个不错的智慧发票助手。那么,在这个基础上,只要我们基于智谱开放平台,根据不同的业务需求打造多个AI助手,再进行汇总、协同,融入公司的数智化流程以及加入公司的外挂知识库进行训练、微调,我们很容易就能实现公司的数智化转型。
比如,我们现在已经拥有了一个智能识别、整理归纳的智慧发票助手,再把智慧发票助手与公司OA(如供应链采购、员工差旅、营销活动等)结合起来,自动识别各种重要节点的发票信息,并智能化生成各种电子报表,就能协助财会部分做好财务管理、成本控制等,同时也更好地协助业务部门的工作。而这样的能力再拓展,用于合同管理、档案归纳等重要文书工作,也将加速公司资产数智化,全面推进公司转型升级。
可以预想,随着智谱开放平台“全家桶”产品的开放调用,企业的数智化转型也就有了非常强大的技术能力支持,只需要基于公司对业务的理解和需求,再进行简单的调用、开发,就能很容易得到一个全面且强大的AI应用,支持各类重点业务的发展。智谱开放平台的技术能力是没问题的,重点在于公司应该如何去用它,构建自己的AI应用模式。
*本文图片均来源于网络