当前位置: 首页 > api商店 > 千问 OCR · Qwen-VL-OCR · API 说明
千问 OCR · Qwen-VL-OCR

通义千问

模型 ID 32 图像
模型说明
千问 OCR:专为文字提取设计,支持扫描文档、表格、票据等图像 OCR 与结构化抽取;每次上传 1 张图片并输入识别指令,按输入/输出 10K 词元计费。

进入对话页

千问 OCR · Qwen-VL-OCRqwen-vl-ocr-latest)视觉文字识别,请使用 POST /v1/chat / POST /v1/chat/stream 调用。

能力

  • 图像 OCR:上传扫描文档、表格、票据、倾斜/多语言图像,提取纯文本或按 Prompt 输出 JSON 等结构化结果。
  • 图片附件:通过 attachments 上传 1 张图片(单文件 <100MB);网关转为 image_url 并附带 min_pixels / max_pixels(默认 3072 / 8388608)。
  • 识别指令:在 messages 最后一条 user 文本中描述提取规则;未填写时使用默认识别提示。
  • 可选 extra.min_pixelsextra.max_pixels 覆盖默认像素阈值。

计费(元/10K词元)

类型 单价(元/10K词元)
输入 0.0051
输出 0.0085

实际扣费以 API 响应 usage 为准;图像输入 Token 与分辨率相关。

  • 接口说明
  • 调用示例
  • Markdown

左侧为章节切换,右侧为对应内容。

请求头(鉴权)
字段名 类型 必填 说明
Authorization string Bearer 令牌,格式为 Bearer {应用ID}-{应用密钥}(仅在第一个 - 处分割,密钥本身可含连字符)。应用 ID 与密钥在会员中心「我的应用」获取。兼容 OpenAI SDK:将 {应用ID}-{应用密钥} 作为 api_key 传入即可自动携带本请求头。

对接 HTTP 接口请使用上表 Authorization: Bearer {应用ID}-{应用密钥};兼容 OpenAI SDK(将 {应用ID}-{应用密钥} 作为 api_key)。站内网页另有 Cookie 兼容方式,不在此列出。

POST /v1/chat、POST /v1/chat/stream — JSON 请求体根字段

非流式与流式使用同一请求体结构;流式请使用 …/v1/chat/stream 路径。

多轮与上下文:接口按当次请求里的 messages 处理对话,不会替你「记住」上一轮正文。续聊须由客户端在 body 中组装完整历史(含此前的 user / assistant 等)。

字段名 类型 必填 说明
model_id int 模型主键;本页文档对应 `model_id=32`。
messages array 消息对象数组(见 messages[])。至少一条;多轮时须在数组内按顺序包含完整历史(user/assistant/system 等)。按本次列表处理对话,不自动补全缺省轮次。
temperature number 采样温度,默认 0.7;是否生效取决于具体模型。
max_tokens int 或 null 生成长度上限(token);null 表示使用默认。
stream bool 请求体字段,默认 false。**是否流式由 URL 决定**:流式请 POST `/v1/chat/stream`;`/v1/chat` 为非流式。勿仅靠本字段切换 SSE。
attachments array 附件数组,默认 [](见 attachments[])。服务端会把附件整理为模型可识别的上下文(如追加 system 说明 URL 列表)。
extra object 任意 JSON 对象,默认 {}。模型专有参数放于此(如数字人 image_url/audio_url/parameters;文生图/视频类 prompt、尺寸等)。服务端可能合并内部保留字段;请勿使用以下划线 `_` 开头的键名作为业务自定义字段。
messages[] — 单条消息

数组顺序即对话顺序;多轮时把历史轮次一并列入本数组即可。

字段名 类型 必填 说明
role string 角色:如 user、assistant、system 等,与 OpenAI Chat Completions 约定一致。
content string 该轮文本内容。多轮时 assistant 一般为上一轮模型输出,由客户端保存后在后续请求的 messages 中写回。
images array 或 null 历史消息中的多模态图片结构,会话回放用;元素为对象,字段因模型而异。
audios array 或 null 历史消息中的音频结构,会话回放用。
attachments[] — 单条附件
字段名 类型 必填 说明
url string 附件可访问 URL(须能被服务端拉取)。
filename string 或 null 原始文件名,便于展示或日志。
mime string 或 null MIME 类型,如 image/png。
extra object 附件级扩展信息,默认 {}。
本页示例 JSON 涉及字段(model_id=32 · 千问 OCR)

**须上传 1 张图片**(`attachments`,`upload_kind=image`,仅 1 项);网关转为多模态 `content`。流式请 **`POST /v1/chat/stream`**。模型 **`model`**(`qwen-vl-ocr-latest`)由服务端配置。

下列说明与下方「调用示例」JSON 对齐,由本站配置维护。

字段名 类型 必填 说明
model_id int 须为 `32`。
messages array 至少一条 user 消息;`content` 为 OCR 指令文本。
messages[].role string `user` / `assistant` / `system`。
messages[].content string 识别/抽取指令;可与图片附件配合。
attachments[] array 图片附件,**仅 1 张**(见 attachments[])。
attachments[].url string 图片可访问 URL(OSS 临时地址)。
attachments[].upload_kind string 建议 `image`。
extra.min_pixels int 图像最小像素阈值,默认 3072(32×32×3)。
extra.max_pixels int 图像最大像素阈值,默认 8388608(8192×32×32)。
stream bool 流式请用 **`/v1/chat/stream`**。