合合信息TextIn“大模型加速器2.0”上线,破解复杂版面及图表解析难题

图灵汇官网

随着大型人工智能模型在实际生活中的广泛应用,虽然带来了许多便利,但也伴随着“AI幻觉”带来的潜在风险。这些模型的认知能力很大程度上依赖于训练数据的质量。最近,合合信息公司推出了“大模型加速器2.0”版本,这一技术基于先进的智能文档处理能力,能够精确分析和整理复杂文档的排版、布局以及各种元素,从源头上减少模型产生错误的可能性,使模型在与人类交流时更加可靠。

新版的“大模型加速器”在处理复杂文档、表格和图表等方面取得了显著进步。它能准确识别上千种文档中的各种表格和图表,并且解析的稳定性达到99.99%。相比其他同类产品,单页处理时间减少了超过30%。此外,它还能将多种专业图表的数据逆向还原,并转换成模型可以理解的形式。同时,该版本还增加了开源的知识库组件,这有助于医疗、制造和教育等多个行业的开发者创建定制化的知识库。

例如,在教育领域,通过“大模型加速器”的支持,合合信息与赛尔教育合作,提升了模型对复杂文档的理解能力。这样,模型就能按照人们的正常阅读习惯来识别文档结构,自动划分标题、段落、表格和图表等内容,从而更好地理解文档中不同部分之间的联系,减少错误的发生。

赛尔教育的技术负责人杨林指出,教育行业使用的文档格式多样,包含了大量的表格、公式、手写字符和多语言文字等复杂信息。有效地提取这些文档中的文本信息是一项挑战。

杨林提到:“在教育行业,大模型项目的成功与否取决于数据的数量和质量。我们尝试过多种方法,但模型的速度和准确性始终无法满足需求,严重影响了研究工作的进度。”构建行业知识库需要从大量文档中提取文本信息,这就需要高效的工具。合合信息提供的文档解析技术提供了必要的技术支持,有效解决了文档处理中的难题。

除了复杂的文档布局,图表这种空间结构复杂的元素同样是一个难点。“大模型加速器2.0”的图表解析模块能够智能提取图表中的重要数据点、坐标轴信息以及图例说明等内容,并将其转化为完整的Excel表格数据,应用于教育行业的大模型微调、学科知识库建设和智能审核等领域。

为了帮助用户简化专业文档的数据筛选和提取过程,提升解读效率和准确性,“大模型加速器2.0”推出了知识库产品组件,支持复杂文档的智能问答、摘要生成和检索功能。

为了让用户更放心地使用大模型,知识库产品加入了溯源功能。通过对“投喂”给知识库的Markdown和JSON文件进行标记,比如页码和坐标等空间位置信息,实现了对句子和段落的精准定位,为用户提供了一条快速验证的途径。例如,在财务分析中,当大模型从上千页的财报文件中提取出收入和利润等关键数据后,券商分析师可以通过溯源功能找到原始表格,进一步核实信息,避免出现错误或遗漏。

据透露,目前知识库组件已经向开发者开放源代码,方便他们根据自己的需求快速搭建个性化的行业知识库。在此之前,合合信息已经开源了智能文档处理“百宝箱”系列产品,解决了文档解析精度低和效果评估困难的问题,开发者可以根据具体需求灵活组合使用这些工具。(郑湘琪)

本文来源: 图灵汇 文章作者: 广电独家