GPT-4o系列 AI 模型加持,微软 LlamaParse 文档解析能力全面升级
吉永柏
2024-11-28 13:45:53
图灵汇官网
微软LlamaParse集成Azure OpenAI,提升文档处理能力
微软于11月26日发布了一则公告,宣布在LlamaParse中整合Azure OpenAI服务,借助GPT-4o系列模型,进一步增强了非结构化数据提取和多模态文档解析的能力,并将这些数据无缝对接至Azure AI Search向量数据库,形成完整的检索增强生成(RAG)工作流程。
LlamaParse简介
微软LlamaParse是一款专为生成式人工智能(GenAI)设计的文档解析工具,旨在解析和清理各类文档数据,确保在交付给下游大型语言模型(LLM)前的数据质量。
新增Azure OpenAI端点
经过此次整合,用户可以通过LlamaParse调用Azure OpenAI的GPT-4o系列模型,实现非结构化数据提取及文档转换。此次合作充分发挥了双方的优势,其中LlamaParse负责高效解析,而Azure OpenAI则提供强大的语言处理能力,从而实现更加精确和智能化的文档管理。
更新内容概述
- 直接连接Azure OpenAI的GPT-4o和GPT-4o-mini模型。
- LlamaParse支持多模态文档解析,利用Azure OpenAI的多模态功能。
- 输出优化,适用于增强检索和语义搜索。
- 数据可无缝导入Azure AI Search的向量数据库。
- 提供企业级安全性和合规性,适合处理敏感信息。
完整RAG工作流程构建
用户可以借助LlamaCloud、Azure AI Search和Azure OpenAI构建一个全面的RAG工作流程:
- 解析与丰富:运用LlamaParse Premium结合Azure OpenAI,执行高级文档提取任务,生成包括Markdown、LaTeX和Mermaid图表在内的多种格式的LLM优化输出。
- 分块与嵌入:通过Azure AI Search作为向量存储工具,配合Azure AI模型目录内的嵌入模型,对解析内容进行分块、嵌入和索引操作。
- 搜索与生成:利用Azure AI Search的查询重写和语义排序功能,改善检索效果。最后,通过Llamaindex协调Azure AI Search和Azure OpenAI,创建生成式AI应用。