使用 Gemini 2.0 Flash 对数百万个文档进行摄取和 RAG
wptr33 2025-08-06 23:25 15 浏览
在大模型盛行的时代,能高效处理海量文档的 RAG(检索增强生成)方案正成为企业的刚需。但现实是:高延迟、高成本、低吞吐,拦住了大多数人。而 Google 最新发布的 Gemini 2.0 Flash,用一次性能的“降维打击”,让 PDF 转文本、并行摄取、快速问答不再遥不可及。
首先将每个 PDF 页面转换为图像,然后将它们发送以进行 OCR,只是为将原始文本转换为可用的 HTML 或 Markdown。接下来,您仔细检测并重新构建每个表,将内容切成块以进行语义检索,最后将它们全部插入到矢量数据库中,整个成本是非常高。
Google 的 Gemini 2.0 Flash就可以简化整个过程。
在一个步骤中捆绑 OCR 和分块,而成本只是其中的一小部分。这篇文章恰恰探讨这种可能性。我将展示 Gemini 2.0 Flash 如何一次性将 PDF 转换为分块的、可用于 Markdown 的文本,让您摆脱冗余的多步骤。然后,我们将这些数据存储在可扩展矢量数据库,用于快速矢量搜索。
本指南介绍如何:
- 使用 Gemini 2.0 Flash将 PDF 页面直接转换为分块文本;
- 将块存储在矢量数据库,用于快速搜索;
- 在 RAG 工作流程中将它们全部联系在一起;
这是目前的模型价格
如果您不需要原始 PDF 中的边界框,这种方法比旧的 OCR 管道简单得多,成本也低得多。
传统的 PDF 摄取问题
为什么 PDF 摄取如此困难?
- 复杂布局 :多列文本、脚注、侧边栏、图像或扫描的表单。
- 表格提取 :传统的 OCR 工具通常会将表格展平为杂乱的文本。
- 高成本 : 使用 GPT-4o 或其他大型 LLM 会很快变得昂贵,尤其是在您处理数百万个页面时。
- 多种工具 :您可以运行 Tesseract for OCR、用于表检测的布局模型、用于 RAG 的单独分块策略等。
许多团队最终会得到一个脆弱且昂贵的巨大管道。新方法是:“只需将 PDF 页面作为图像显示给多模态 LLM,提示它分块,然后看着奇迹发生。”
这就是 Gemini 2.0 Flash的用武之地。
为什么选择 Gemini 2.0 Flash?
成本 :~6,000 页/美元(使用批量调用和最少的输出令牌)。这很容易比许多其他解决方案(GPT-4、专门的 OCR 供应商等)便宜 5-30 倍。
准确性 :标准文本的保真度令人惊讶。大多数错误是微小的结构差异,尤其是对于表格。
最大的缺失部分是边界框数据。如果您需要将像素完美的叠加层重新覆盖到 PDF 上,Gemini 的边界框生成仍然远非准确。但是,如果您主要关心是基于文本的检索或摘要,那么它更便宜、更快、更容易。
端到端架构
分步代码
1)安装依赖并创建基本表
!apt-get update
!apt-get install -y poppler-utils
!pip install -q google-generativeai kdbai-client sentence-transformers pdf2image
import os
import kdbai_client as kdbai
from sentence_transformers import SentenceTransformer
# start session with KDB.AI Server
session = kdbai.Session(endpoint=”http://localhost:8082″)
db = session.database(‘default’)
print(“Connected to KDB.AI:”, db)
您可以注册矢量数据库。免费 AI 服务器在这里:
https://trykdb.kx.com/kdbai/signup/
2)创建 Vector Table
# Define KDB.AI table schema
VECTOR_DIM = 384 # we’ll use all-MiniLM-L6-v2 for embeddings
schema = [
{“name”: “id”, “type”: “str”},
{“name”: “text”, “type”: “str”},
{“name”: “vectors”, “type”: “float32s”}
] # Build a simple L2 distance index
index = [
{ “name”: “flat_index”,
“type”: “flat”,
“column”: “vectors”,
“params”: {“dims”: VECTOR_DIM, “metric”: “L2”}
} ]
table_name = “pdf_chunks”
try:
db.table(table_name).drop
except kdbai.KDBAIException:
pass
table = db.create_table(table_name, schema=schema, indexes=index)
print(f”Table ‘{table_name}’ created.”)
3)将 PDF 页面转换为图像
# Convert PDF to images
import requests
from pdf2image import convert_from_bytes
import base64
import io
pdf_url = “https://arxiv.org/pdf/2404.08865″ # example PDF
resp = requests.get(pdf_url)
pdf_data = resp.content
pages = convert_from_bytes(pdf_data)
print(f”Converted {len(pages)} PDF pages to images.”)
# We’ll encode the images as base64 for easy sending to Gemini
images_b64 = {}
for i, page in enumerate(pages, start=1):
buffer = io.BytesIO
page.save(buffer, format=”PNG”)
image_data = buffer.getvalue
b64_str = base64.b64encode(image_data).decode(“utf-8”)
images_b64[i] = b64_str
4)调用 Gemini 2.0 Flash 进行 OCR + 分块
# Configure Gemini & define chunking prompt
import google.generativeai as genai
GOOGLE_API_KEY = “YOUR_GOOGLE_API_KEY”
genai.configure(api_key=GOOGLE_API_KEY)
model = genai.GenerativeModel(model_name=”gemini-2.0-flash”)
print(“Gemini model loaded:”, model)
CHUNKING_PROMPT = “””\
OCR the following page into Markdown. Tables should be formatted as HTML.
Do not surround your output with triple backticks.
Chunk the document into sections of roughly 250 – 1000 words.
Surround each chunk with <chunk> and </chunk> tags.
Preserve as much content as possible, including headings, tables, etc.
5)使用一个 prompt 处理每个页面
# OCR + chunking function
import re
def process_page(page_num, image_b64):
# We’ll create the message payload:
payload = [
{ “inline_data”: {“data”: image_b64, “mime_type”: “image/png”}
},
{ “text”: CHUNKING_PROMPT
} ]
try:
resp = model.generate_content(payload)
text_out = resp.text
except Exception as e:
print(f”Error processing page {page_num}: {e}”)
return
# parse <chunk> blocks
chunks = re.findall(r”<chunk>(.*?)</chunk>”, text_out, re.DOTALL)
if not chunks:
# fallback if model doesn’t produce chunk tags
chunks = text_out.split(“\n\n”)
results =
for idx, chunk_txt in enumerate(chunks):
# store ID, chunk text
results.append({
“id”: f”page_{page_num}_chunk_{idx}”,
“text”: chunk_txt.strip
})
return results
all_chunks =
for i, b64_str in images_b64.items:
page_chunks = process_page(i, b64_str)
all_chunks.extend(page_chunks)
print(f”Total extracted chunks: {len(all_chunks)}”)
6)在矢量数据库中嵌入块和存储
# Embedding & Insertion
embed_model = SentenceTransformer(“all-MiniLM-L6-v2”)
chunk_texts = [ch[“text”] for ch in all_chunks]
embeddings = embed_model.encode(chunk_texts)
embeddings = embeddings.astype(“float32”)
import pandas as pd
row_list =
for idx, ch_data in enumerate(all_chunks):
row_list.append({
“id”: ch_data[“id”],
“text”: ch_data[“text”],
“vectors”: embeddings[idx].tolist
})
df = pd.DataFrame(row_list)
table.insert(df)
print(f”Inserted {len(df)} chunks into ‘{table_name}’.”)
7)查询和构建 RAG 流程
相似度搜索
# Vector query for RAG
user_query = “How does this paper handle multi-column text?”
qvec = embed_model.encode(user_query).astype(“float32”)
search_results = table.search(vectors={“flat_index”: [qvec]}, n=3)
retrieved_chunks = search_results[0][“text”].tolist
context_for_llm = “\n\n”.join(retrieved_chunks)
print(“Retrieved chunks:\n”, context_for_llm)
8)最终生成
# SNIPPET 8: RAG generation
final_prompt = f”””Use the following context to answer the question:
Context:
{context_for_llm}
Question: {user_query}
Answer:
“””
resp = model.generate_content(final_prompt)
print(“\n=== Gemini’s final answer ===”)
print(resp.text)
最后的思考
- 用户反馈 :真实用户已经用 Gemini 取代了专门的 OCR 供应商进行 PDF 摄取,从而节省了时间和成本 。
- 当边界框很重要时 :如果您必须精确跟踪 PDF 上每个块的位置,您将需要一种混合方法。
- 可扩展性 :制作数百万个页面?确保批量调用和限制令牌。这就是您达到 ~6,000 页/美元的最佳位置的方式。单页调用或大型输出的成本更高。
- 简单性:您可以跳过六个微服务或 GPU 管道。对许多人来说,仅此一项就是一种巨大的解脱。
本文由 @来学习一下 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
相关推荐
- redis的八种使用场景
-
前言:redis是我们工作开发中,经常要打交道的,下面对redis的使用场景做总结介绍也是对redis举报的功能做梳理。缓存Redis最常见的用途是作为缓存,用于加速应用程序的响应速度。...
- 基于Redis的3种分布式ID生成策略
-
在分布式系统设计中,全局唯一ID是一个基础而关键的组件。随着业务规模扩大和系统架构向微服务演进,传统的单机自增ID已无法满足需求。高并发、高可用的分布式ID生成方案成为构建可靠分布式系统的必要条件。R...
- 基于OpenWrt系统路由器的模式切换与网页设计
-
摘要:目前商用WiFi路由器已应用到多个领域,商家通过给用户提供一个稳定免费WiFi热点达到吸引客户、提升服务的目标。传统路由器自带的Luci界面提供了工厂模式的Web界面,用户可通过该界面配置路...
- 这篇文章教你看明白 nginx-ingress 控制器
-
主机nginx一般nginx做主机反向代理(网关)有以下配置...
- 如何用redis实现注册中心
-
一句话总结使用Redis实现注册中心:服务注册...
- 爱可可老师24小时热门分享(2020.5.10)
-
No1.看自己以前写的代码是种什么体验?No2.DooM-chip!国外网友SylvainLefebvre自制的无CPU、无操作码、无指令计数器...No3.我认为CS学位可以更好,如...
- Apportable:拯救程序员,IOS一秒变安卓
-
摘要:还在为了跨平台使用cocos2d-x吗,拯救objc程序员的奇葩来了,ApportableSDK:FreeAndroidsupportforcocos2d-iPhone。App...
- JAVA实现超买超卖方案汇总,那个最适合你,一篇文章彻底讲透
-
以下是几种Java实现超买超卖问题的核心解决方案及代码示例,针对高并发场景下的库存扣减问题:方案一:Redis原子操作+Lua脚本(推荐)//使用Redis+Lua保证原子性publicbo...
- 3月26日更新 快速施法自动施法可独立设置
-
2016年3月26日DOTA2有一个79.6MB的更新主要是针对自动施法和快速施法的调整本来内容不多不少朋友都有自动施法和快速施法的困扰英文更新日志一些视觉BUG修复就不翻译了主要翻译自动施...
- Redis 是如何提供服务的
-
在刚刚接触Redis的时候,最想要知道的是一个’setnameJhon’命令到达Redis服务器的时候,它是如何返回’OK’的?里面命令处理的流程如何,具体细节怎么样?你一定有问过自己...
- lua _G、_VERSION使用
-
到这里我们已经把lua基础库中的函数介绍完了,除了函数外基础库中还有两个常量,一个是_G,另一个是_VERSION。_G是基础库本身,指向自己,这个变量很有意思,可以无限引用自己,最后得到的还是自己,...
- China's top diplomat to chair third China-Pacific Island countries foreign ministers' meeting
-
BEIJING,May21(Xinhua)--ChineseForeignMinisterWangYi,alsoamemberofthePoliticalBureau...
- 移动工作交流工具Lua推出Insights数据分析产品
-
Lua是一个适用于各种职业人士的移动交流平台,它在今天推出了一项叫做Insights的全新功能。Insights是一个数据平台,客户可以在上面实时看到员工之间的交流情况,并分析这些情况对公司发展的影响...
- Redis 7新武器:用Redis Stack实现向量搜索的极限压测
-
当传统关系型数据库还在为向量相似度搜索的性能挣扎时,Redis7的RedisStack...
- Nginx/OpenResty详解,Nginx Lua编程,重定向与内部子请求
-
重定向与内部子请求Nginx的rewrite指令不仅可以在Nginx内部的server、location之间进行跳转,还可以进行外部链接的重定向。通过ngx_lua模块的Lua函数除了能实现Nginx...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
因果推断Matching方式实现代码 因果推断模型
-
git pull命令使用实例 git pull--rebase
-
面试官:git pull是哪两个指令的组合?
-
git pull 和git fetch 命令分别有什么作用?二者有什么区别?
-
git 执行pull错误如何撤销 git pull fail
-
git fetch 和git pull 的异同 git中fetch和pull的区别
-
git pull 之后本地代码被覆盖 解决方案
-
还可以这样玩?Git基本原理及各种骚操作,涨知识了
-
git命令之pull git.pull
-
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)