GPT-4o系列 AI 模型加持,微软 LlamaParse 文档解析能力全面升级

图灵汇官网

微软 LlamaParse 文档解析能力全面提升

微软于11月26日发布了一篇博客文章,宣布在LlamaParse中集成了Azure OpenAI端点,采用GPT-4o系列模型,从而显著提升了非结构化数据提取和多模态文档解析的能力,并将这些数据无缝地与Azure AI Search向量数据库结合,构建了一个完整的检索增强生成(RAG)工作流程。

LlamaParse 简介

微软LlamaParse是一款专门针对生成式人工智能(GenAI)设计的文档解析工具,旨在解析和清理各种文档数据。在传递给下游的大型语言模型(LLM)之前,确保数据的质量。

新增 Azure OpenAI 端点

此次集成使用户能够调用Azure OpenAI的GPT-4o系列模型,实现非结构化数据的提取和文档转换。这一集成充分发挥了双方的优势:LlamaParse负责高效解析,而Azure OpenAI则提供强大的语言模型能力,从而实现了更精准、更智能的文档处理。

更新内容概览

  • 直接连接到Azure OpenAI的GPT-4o和GPT-4o-mini等模型。
  • LlamaParse中的多模态文档解析借助Azure OpenAI的多模态支持。
  • LLM优化的输出,用于增强检索和语义搜索。
  • 数据通过LlamaIndex无缝接入Azure AI Search的向量存储库。
  • 提供企业级安全性和合规性,适用于敏感工作负载。

完整 RAG 工作流程

用户可以借助LlamaCloud、Azure AI Search和Azure OpenAI构建一个完整的RAG工作流程,具体步骤如下:

  • 解析与丰富:使用LlamaParse Premium和Azure OpenAI进行高级文档提取,生成Markdown、LaTeX和Mermaid图表等多种格式的LLM优化输出。
  • 分块和嵌入:使用Azure AI Search作为向量存储,并利用Azure AI模型目录中的嵌入模型对解析后的内容进行分块、嵌入和索引。
  • 搜索与生成:利用Azure AI Search的查询重写和语义重新排序功能提升检索质量。最终,通过Llamaindex编排Azure AI Search和Azure OpenAI,构建生成式AI应用。

通过以上改进,微软LlamaParse不仅提升了文档解析能力,还为企业提供了更加安全、高效的解决方案。

本文来源: 互联网 文章作者: 段祎琳
    下一篇

导读:2024是生成式AI迈入企业的关键一年,今年AI支出激增至138亿美元,较去年的23亿美元增长近6倍。这清晰地体现了企业正从实验转向执行,将AI嵌入其业务战略的核心。支出激增的背后的企业普遍的乐