通义千问
千问 OCR · Qwen-VL-OCR(qwen-vl-ocr-latest)视觉文字识别,请使用 POST /v1/chat / POST /v1/chat/stream 调用。
能力
attachments 上传 1 张图片(单文件 <100MB);网关转为 image_url 并附带 min_pixels / max_pixels(默认 3072 / 8388608)。messages 最后一条 user 文本中描述提取规则;未填写时使用默认识别提示。extra.min_pixels、extra.max_pixels 覆盖默认像素阈值。计费(元/10K词元)
| 类型 | 单价(元/10K词元) |
|---|---|
| 输入 | 0.0051 |
| 输出 | 0.0085 |
实际扣费以 API 响应 usage 为准;图像输入 Token 与分辨率相关。
左侧为章节切换,右侧为对应内容。
| 字段名 | 类型 | 必填 | 说明 |
|---|---|---|---|
Authorization |
string | 是 | Bearer 令牌,格式为 Bearer {应用ID}-{应用密钥}(仅在第一个 - 处分割,密钥本身可含连字符)。应用 ID 与密钥在会员中心「我的应用」获取。兼容 OpenAI SDK:将 {应用ID}-{应用密钥} 作为 api_key 传入即可自动携带本请求头。 |
对接 HTTP 接口请使用上表 Authorization: Bearer {应用ID}-{应用密钥};兼容 OpenAI SDK(将 {应用ID}-{应用密钥} 作为 api_key)。站内网页另有 Cookie 兼容方式,不在此列出。
非流式与流式使用同一请求体结构;流式请使用 …/v1/chat/stream 路径。
多轮与上下文:接口按当次请求里的 messages 处理对话,不会替你「记住」上一轮正文。续聊须由客户端在 body 中组装完整历史(含此前的 user / assistant 等)。
| 字段名 | 类型 | 必填 | 说明 |
|---|---|---|---|
model_id |
int | 是 | 模型主键;本页文档对应 `model_id=32`。 |
messages |
array | 是 | 消息对象数组(见 messages[])。至少一条;多轮时须在数组内按顺序包含完整历史(user/assistant/system 等)。按本次列表处理对话,不自动补全缺省轮次。 |
temperature |
number | 否 | 采样温度,默认 0.7;是否生效取决于具体模型。 |
max_tokens |
int 或 null | 否 | 生成长度上限(token);null 表示使用默认。 |
stream |
bool | 否 | 请求体字段,默认 false。**是否流式由 URL 决定**:流式请 POST `/v1/chat/stream`;`/v1/chat` 为非流式。勿仅靠本字段切换 SSE。 |
attachments |
array | 否 | 附件数组,默认 [](见 attachments[])。服务端会把附件整理为模型可识别的上下文(如追加 system 说明 URL 列表)。 |
extra |
object | 否 | 任意 JSON 对象,默认 {}。模型专有参数放于此(如数字人 image_url/audio_url/parameters;文生图/视频类 prompt、尺寸等)。服务端可能合并内部保留字段;请勿使用以下划线 `_` 开头的键名作为业务自定义字段。 |
数组顺序即对话顺序;多轮时把历史轮次一并列入本数组即可。
| 字段名 | 类型 | 必填 | 说明 |
|---|---|---|---|
role |
string | 是 | 角色:如 user、assistant、system 等,与 OpenAI Chat Completions 约定一致。 |
content |
string | 是 | 该轮文本内容。多轮时 assistant 一般为上一轮模型输出,由客户端保存后在后续请求的 messages 中写回。 |
images |
array 或 null | 否 | 历史消息中的多模态图片结构,会话回放用;元素为对象,字段因模型而异。 |
audios |
array 或 null | 否 | 历史消息中的音频结构,会话回放用。 |
| 字段名 | 类型 | 必填 | 说明 |
|---|---|---|---|
url |
string | 是 | 附件可访问 URL(须能被服务端拉取)。 |
filename |
string 或 null | 否 | 原始文件名,便于展示或日志。 |
mime |
string 或 null | 否 | MIME 类型,如 image/png。 |
extra |
object | 否 | 附件级扩展信息,默认 {}。 |
**须上传 1 张图片**(`attachments`,`upload_kind=image`,仅 1 项);网关转为多模态 `content`。流式请 **`POST /v1/chat/stream`**。模型 **`model`**(`qwen-vl-ocr-latest`)由服务端配置。
下列说明与下方「调用示例」JSON 对齐,由本站配置维护。
| 字段名 | 类型 | 必填 | 说明 |
|---|---|---|---|
model_id |
int | 是 | 须为 `32`。 |
messages |
array | 是 | 至少一条 user 消息;`content` 为 OCR 指令文本。 |
messages[].role |
string | 是 | `user` / `assistant` / `system`。 |
messages[].content |
string | 是 | 识别/抽取指令;可与图片附件配合。 |
attachments[] |
array | 是 | 图片附件,**仅 1 张**(见 attachments[])。 |
attachments[].url |
string | 是 | 图片可访问 URL(OSS 临时地址)。 |
attachments[].upload_kind |
string | 否 | 建议 `image`。 |
extra.min_pixels |
int | 否 | 图像最小像素阈值,默认 3072(32×32×3)。 |
extra.max_pixels |
int | 否 | 图像最大像素阈值,默认 8388608(8192×32×32)。 |
stream |
bool | 否 | 流式请用 **`/v1/chat/stream`**。 |