音频理解

授权

Authorization

string

header

必填

所有接口均需要使用 Bearer Token 进行认证。在请求头中添加：

Authorization: Bearer YOUR_API_KEY

YOUR_API_KEY 为 API Token（sk-... 格式）。

请求体

application/json

model

string

默认值:gemini-2.5-pro

必填

模型名，常用音频模型：

gemini-2.5-pro
nemotron-3-nano-omni（仅 wav/mp3）

示例:

"gemini-2.5-pro"

"nemotron-3-nano-omni"

audio_url

string

必填

音频源。接受以下两种形式：

公网 HTTP/HTTPS URL
data:audio/<type>;base64,<payload> data URI（base64 内联）

各模型音频格式支持：

gemini-2.5-pro：wav/mp3/aiff/aac/ogg/flac/m4a；整个请求体（prompt + system + 内联文件）≤ 20 MB
nemotron-3-nano-omni：仅 .wav / .mp3；data URI 必须使用 audio/wav 或 audio/mpeg，其余返回 422

base64 数据不做体积校验，过大可能触发 422。

Minimum string length: 1

示例:

"https://storage.googleapis.com/cloud-samples-tests/speech/brooklyn.flac"

prompt

string | null

用户提示词。省略时默认为 'Please transcribe this audio file'，与转写场景一致。

Maximum string length: 100000

示例:

"Identify the speakers and emotion in this audio."

sync

boolean

默认值:false

同步模式。true 时端点阻塞直到上游完成并返回完整响应（如同时 stream=true，则返回 SSE 流）；false 时端点立即返回任务 ID，结果通过 GET /v1/tasks/{task_id} 或 SSE 端点获取。

示例:

false

stream

boolean

默认值:false

是否流式。true 时 Submit 响应包含 stream.url 指向 SSE 订阅路径；流式 chunks 统一为 OpenAI chat.completion.chunk 格式。

示例:

false

max_tokens

integer | null

生成 token 上限。可选。

必填范围: x >= 1

示例:

256

temperature

number | null

采样温度，区间 [0, 2]。可选。

必填范围: 0 <= x <= 2

system_prompt

string | null

系统指令。可选。

Maximum string length: 10000

reasoning

boolean | null

是否包含 reasoning tokens。部分思考模型需设为 true。

响应

任务已创建

Submit 响应，对齐统一任务标准形状。results / error 在 submit 阶段固定为 null，任务完成/失败后通过 GET /v1/tasks/{task_id} 返回。

string

必填

任务 ID，格式 task-llm-{timestamp}-{8random}。

示例:

"task-llm-1776874565-yq3szvcu"

object

enum<string>

必填

可用选项:

llm.generation.task

示例:

"llm.generation.task"

type

enum<string>

必填

可用选项:

llm

示例:

"llm"

model

string

必填

客户端提交的模型名（原样回显）

示例:

"gemini-2.5-pro"

status

enum<string>

必填

可用选项:

pending

示例:

"pending"

progress

integer

必填

示例:

0

created

integer

必填

示例:

1776874565

stream

object

stream=true 时返回 {url: ...}；stream=false 时为 null。

Show child attributes

results

object[] | null

submit 阶段固定 null；任务完成后通过 GET /v1/tasks/{task_id} 返回，results[0] 为完整 OpenAI ChatCompletion 响应（音频转写 / 理解输出在 message.content）。

示例:

null

error

object

submit 阶段固定 null；任务失败时通过 GET /v1/tasks/{task_id} 返回。

示例:

null

图像系列

视频系列

音频系列

语言系列

任务管理

文件管理

授权

请求体

响应

图像系列

视频系列

音频系列

语言系列

任务管理

文件管理

Documentation Index

授权

请求体

响应