什么是新闻源网站无锡网络推广哪家好
什么是新闻源网站,无锡网络推广哪家好,wordpress西班牙语,html5软件下载电脑版从包含多个文档的集合中理解信息#xff0c;尤其是那些包含丰富视觉元素的文档#xff0c;对于基于文档的问答#xff08;document-grounded QA#xff09;至关重要。本文提出了 VisDoMBench#xff0c;这是首个用于评估多文档、富多模态内容#xff08;包括表格、图表和…从包含多个文档的集合中理解信息尤其是那些包含丰富视觉元素的文档对于基于文档的问答document-grounded QA至关重要。本文提出了VisDoMBench这是首个用于评估多文档、富多模态内容包括表格、图表和演示文稿幻灯片场景下问答系统的综合性基准。我们进一步提出了VisDoMRAG一种新颖的多模态检索增强生成Retrieval Augmented GenerationRAG方法该方法同时利用视觉 RAG 与文本 RAG将强大的视觉检索能力与复杂的语言推理能力相结合。VisDoMRAG 采用多步推理流程包括证据筛选evidence curation和思维链chain-of-thought推理在文本与视觉 RAG 管线中并行执行。VisDoMRAG 的一个关键创新在于其一致性约束的模态融合机制该机制在推理阶段对齐不同模态下的推理过程从而生成连贯一致的最终答案。这一设计在关键信息分散于不同模态的场景中显著提升了准确性并通过隐式的上下文归因提高了答案的可验证性。通过对开源和闭源大型语言模型进行的大规模实验我们在 VisDoMBench 上对当前最先进的文档问答方法进行了系统评测。实验结果表明在端到端多模态文档问答任务中VisDoMRAG 相比单模态方法和长上下文 LLM 基线模型取得了 12%–20% 的性能提升。下面是全文中文翻译保持学术风格与术语一致性适合论文阅读或引用引言Introduction在当今信息高度密集的环境中PDF 文档在金融、法律、科学研究等多个领域中发挥着至关重要的作用用于信息的存储与传播。这类文档通常融合了文本、视觉以及表格数据等多种信息形式使其对信息检索系统而言构成了独特的挑战。与数据库等结构化格式不同PDF 本质上是非结构化的其布局形式多样往往同时包含段落文本、图片、图表和表格。这种复杂性要求采用先进的多模态处理技术以同时理解文本与视觉内容。对 PDF 中多模态内容的有效处理对于下游任务至关重要例如问答系统Ding et al., 2022Mathew et al., 2021、摘要生成Pang et al., 2023以及知识抽取Pal et al., 2023。在这些任务中准确且具备上下文感知能力的数据抽取能够显著提升决策过程的质量。因此如何充分挖掘 PDF 文档的多模态特性已成为一个关键的研究挑战。在真实世界的文档问答系统中用户的查询往往不是针对单一文档而是面向一组源文档系统需要从中定位包含相关答案的文档。这种场景在金融、科学和政策分析等领域尤为常见用户通常需要在规模庞大且内容多样的文档集合中查找特定信息。在此情境下核心挑战在于如何从分散在多个文档中的海量信息中有效定位与查询相关的上下文这一过程类似于在“大海捞针”Wang et al., 2024b。目前多文档问答Multi-document QA数据集仍然十分稀缺。现有的多文档基准Bai et al., 2023Wang et al., 2024c主要聚焦于纯文本信息往往忽略了真实文档中普遍存在的多样化内容形式如表格、图表和其他视觉元素。然而这些视觉富集元素在回答特定类型的问题时至关重要。表格通常包含高密度、结构化的信息难以通过纯文本完整表达而图表和幻灯片则以视觉方式呈现趋势、关系或分布需要超越文本描述的解释能力。缺乏涵盖这些模态的数据集限制了现有问答模型应对复杂多模态问题的能力。例如回答金融或科学领域的问题往往需要同时理解表格中的数值数据、图形中的趋势以及相关的文本说明。在以视觉富集文档为核心的应用场景中现有的 RAG 系统由于依赖单一模态文本或视觉进行检索而面临关键局限。基于文本的系统在语言推理方面表现出色但往往忽视表格和图像等关键视觉元素而利用视觉检索的多模态 RAG 系统Chen et al., 2022虽然能够有效提取视觉信息但其端到端性能常受到 LLM 视觉推理能力的限制。已有研究表明在相同上下文条件下文本输入通常优于视觉输入Deng et al., 2024这可归因于视觉语言模型中的语言偏置Niu et al., 2021Wang et al., 2024a以及视觉幻觉问题Ghosh et al., 2024。主要结果Main Results我们提出了VisDoMBench这是首个专门面向多文档、多模态问答的基准数据集重点覆盖表格、图表和幻灯片等视觉富集内容。VisDoMBench 包含多样化的复杂内容和问题类型并配有人工标注的证据使得对多模态问答系统进行全面评估成为可能。在本研究中我们系统性地评测了多种视觉与文本检索方法在 VisDoMBench 上的表现深入分析了它们在处理视觉富集、多文档查询时的有效性。此外我们提出了VisDoMRAG一种新颖的多模态 RAG 方法通过在文本 RAG 与视觉 RAG 管线之上进行有效的模态融合同时发挥两者的优势。与仅进行纯文本或纯视觉检索的现有方法不同VisDoMRAG 采用并行的文本与视觉 RAG 管线每条管线均包含多步推理过程包括证据筛选Evidence Curation、**思维链推理Chain-of-Thought Reasoning**以及答案生成。随后系统通过一种模态融合机制整合两条管线的输出该机制对不同模态下的推理链施加一致性约束确保在推理阶段对齐跨模态的推理过程从而生成最终答案。与传统的单模态或较为简单的多模态系统相比VisDoMRAG 具有多项显著优势首先它能够全面利用文本与视觉线索在关键信息分布于不同模态的场景中生成更加准确、完整的答案。其次证据筛选步骤天然支持答案的可验证性因为上下文归因已内嵌于系统设计之中。我们在多种开源和闭源大型语言模型设置下进行了广泛实验将 VisDoMRAG 与多种策略进行对比包括长上下文处理、文本 RAG和视觉 RAG。实验结果表明VisDoMRAG 在 VisDoMBench 基准上的端到端问答性能提升显著整体提升幅度达到 12%–20%。下面是你给出的Section 2–4.1 的完整中文翻译我保持了论文级别的学术表达、术语一致性并尽量贴合多模态 RAG / 文档 QA 领域的常用译法方便你直接用于阅读、复述或写作参考。2 相关工作Related Work检索增强生成Retrieval Augmented Generation尽管大型语言模型Large Language ModelsLLMs已经取得了显著进展但在整合外部知识以及适应新的、未见过的数据方面仍然面临挑战。检索增强生成Retrieval Augmented GenerationRAG通过引入外部信息来弥补这些不足从而提升 LLM 输出结果的准确性与可靠性Lewis et al., 2020。RAG 已被广泛应用于多种下游单模态 NLP 任务包括机器翻译Gu et al., 2018He et al., 2021、对话生成Cai et al., 2018、抽象式摘要Peng et al., 2019以及知识密集型生成任务Izacard and Grave, 2020Lewis et al., 2020。在视觉问答Visual Question AnsweringVQA领域Lin and Byrne2022通过目标检测、图像描述生成以及光学字符识别OCR将目标图像转换为文本形式从而应对开放域 VQA 的挑战。在突破纯文本上下文的方向上MuRAG 同时检索文本和图像数据并将图像作为视觉 token 引入模型中Chen et al., 2022。RAMM 则通过独立的网络检索并编码相似的生物医学图像及其对应的描述文本从而提升整体性能Yuan et al., 2023。长上下文文档基准Long Context Document Benchmarks长上下文文档问答基准的对比见表 1突出了不同数据集在内容类型、多文档能力和应用领域方面的多样性。现有基准如 L-EvalAn et al., 2023、MarathonZhang et al., 2023和 LooGLELi et al., 2023主要聚焦于多领域来源的文本内容但并不支持多文档输入。LongBenchBai et al., 2023和 LoongWang et al., 2024c在评测设置中引入了多文档场景但整体仍然以文本为中心。与现有数据集的对比Comparison with Existing Datasets部分基准数据集如 MPDocVQATito et al., 2023、UDAHui et al., 2024以及 MMLONGBENCH-DOCMa et al., 2024通过引入表格、图表和幻灯片拓展了内容模态的覆盖范围但这些数据集仅支持单文档问答。相比之下VisDoMBench 支持跨多文档的问答任务并覆盖文本、表格、图表和幻灯片等多种内容类型构建了一个更为全面的、多领域多模态评测框架。3 问题定义Problem Formulation给定一个查询 ( q )我们有一个包含 ( M ) 个文档的集合[D {d_1, d_2, \ldots, d_M},]其中每个文档 ( d_i ) 由 ( N_i ) 个页面组成表示为[P_i {p_i^1, p_i^2, \ldots, p_i^{N_i}}.]我们的目标是为每个查询 ( q ) 生成文本答案 ( \hat{a} )以准确回答用户的问题。答案生成过程依赖于从一个或多个文档中检索相关的证据上下文。每个查询可能需要来自文档集合 ( D ) 中一个或多个文档、不同页面上的信息。因此我们旨在提出一个能够在多页、多文档文档集合上准确回答问题的框架系统首先在页面级、段落级或文本块级别检索相关证据然后利用检索到的上下文生成最终答案文本。4 VisDoMBenchVisDoMBench 中的每一个数据样本都可以表示为三元组[(q, D, \hat{a}),]其中问题 ( q ) 针对文档集合 ( D ) 提出( \hat{a} ) 为对应的真实答案。我们重新整合了五个已有的文档问答数据集来构建该基准。表 2 汇总了 VisDoMBench 中不同数据划分的统计信息包括样本规模、问答类型以及内容类型。4.1 VisDoMBench 数据构建Data Sourcing在构建文档问答数据集的过程中我们遵循了以下标准包含视觉富集内容如表格、图表和演示文稿幻灯片使用公开可获取的源文档具备可追溯的证据标注grounded evidence。制定这些标准的目的是确保数据集在多模态信息检索任务中的相关性以及其在真实世界问答场景中的适用性。我们的语料库主要由多个已有数据集的测试 / 评测集构成。具体而言我们引入了 UDA BenchmarkHui et al., 2024中的PaperTab和FeTaTab数据划分这两个数据集分别来源于QASPERDasigi et al., 2021和FeTaQANan et al., 2022。对于基于图表的问答样本我们使用了SciGraphQALi and Tajbakhsh, 2023这是一个面向科学论文图表的多轮问答数据集。