跳转到主要内容
POST
/
v1
/
audio
/
transcriptions
OpenAI Format - Transcriptions
curl --request POST \
  --url https://api.foxapi.cc/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form file='@example-file' \
  --form model=whisper-1 \
  --form language=zh \
  --form 'prompt=<string>' \
  --form response_format=json \
  --form temperature=0 \
  --form punctuation=true \
  --form max_new_tokens=123
{
  "text": "今天天气不错,我们去公园散步吧。"
}

Documentation Index

Fetch the complete documentation index at: https://docs.foxapi.cc/llms.txt

Use this file to discover all available pages before exploring further.

模型参数说明

OpenAI 语音识别接口在不同模型上支持的字段存在差异。请求体只列出了所有模型通用的核心字段,下文说明各模型独有或受限的字段。

支持的模型

模型 ID用途
whisper-1经典 Whisper V2 模型,支持最完整的输出格式与时间戳粒度
gpt-4o-transcribe高精度识别,仅支持 json 输出,可流式
gpt-4o-mini-transcribe轻量版高精度识别,仅支持 json 输出,可流式
gpt-4o-mini-transcribe-2025-12-15gpt-4o-mini-transcribe 的版本快照
gpt-4o-transcribe-diarize带说话人分离的识别,使用 diarized_json 获取每段说话人标注
cohere-transcribeFal 平台托管的 Cohere 转写模型,支持 14 种语言,可控标点与最大输出长度

response_format 各模型支持矩阵

模型支持的格式
whisper-1json / text / srt / verbose_json / vtt
gpt-4o-transcribegpt-4o-mini-transcribe(-2025-12-15)json
gpt-4o-transcribe-diarizejson / text / diarized_json(要拿到说话人标注必须使用 diarized_json
cohere-transcribejson / text

whisper-1 独有特性

  • timestamp_granularities[] — array,可选值 word / segment,默认 [segment]
    • 词级 / 段级时间戳粒度
    • 仅在 response_format=verbose_json 时生效
    • 表单字段名以 timestamp_granularities[] 形式重复传递(数组)
    • gpt-4o-* 系列因仅支持 json,实际无法使用此参数;gpt-4o-transcribe-diarize 明确禁用
  • 不支持流式:在 whisper-1 上传 stream=true 会被静默忽略。

gpt-4o-* 系列独有参数

适用于 gpt-4o-transcribegpt-4o-mini-transcribegpt-4o-mini-transcribe-2025-12-15
  • include[] — array,可选值仅 logprobs
    • 返回每个 token 的对数概率,用于评估模型识别置信度
    • 仅在 response_format=json生效
    • 不适用于 whisper-1gpt-4o-transcribe-diarize
  • stream — boolean,默认 false
    • 通过 SSE(Server-Sent Events)流式返回识别结果
    • whisper-1 不支持,参数会被忽略
  • chunking_strategy"auto" 字符串 或 server_vad 对象
    • 控制音频如何切分为块。不传则整段音频作为一个块识别
    • 设为 "auto":服务端先做响度归一化,再用 VAD 自动选择切分边界
    • 设为 server_vad 对象(手动调参 VAD):
      字段类型默认说明
      typestring必填,固定为 "server_vad"
      prefix_padding_msinteger300VAD 检测到语音前包含的音频时长(毫秒)
      silence_duration_msinteger200用于判定语音结束的静音时长(毫秒)。值越短响应越快,但可能在短停顿处误切

gpt-4o-transcribe-diarize 独有参数

仅适用于 gpt-4o-transcribe-diarize(说话人分离专用模型)。
  • chunking_strategy — 处理超过 30 秒的音频时必传(推荐 "auto"
  • known_speaker_names[] — array,最多 4 个
    • 已知说话人的标识列表(如 customeragent
    • known_speaker_references[] 一一对应
  • known_speaker_references[] — array,最多 4 个
    • 对应说话人的参考音频,使用 data URL 格式
    • 每段需 2-10 秒
    • 支持的音频格式与 file 字段相同

gpt-4o-transcribe-diarize 不支持的字段

以下字段在 gpt-4o-transcribe-diarize不可用
字段说明
prompt不支持提示词引导
timestamp_granularities[]不支持词级 / 段级时间戳粒度配置
include[]不支持 logprobs 等附加返回
stream不支持流式输出

cohere-transcribe 独有特性

由 Fal 平台托管的 Cohere 转写模型,支持 14 种语言(en / fr / de / it / es / pt / el / nl / pl / zh / ja / ko / vi / ar)。language 传其他取值时由上游返回错误。

独有参数

  • punctuation — boolean,默认 true
    • 控制识别结果是否保留标点符号
  • max_new_tokens — integer,默认 256
    • 限制单次识别输出的最大 token 数

不支持的字段

以下 OpenAI 标准字段在 cohere-transcribe不可用,传入后会被静默忽略(不会报错):
字段说明
prompt不支持提示词引导
temperature不支持温度参数
timestamp_granularities[]不支持词级 / 段级时间戳
include[]不支持 logprobs 等附加返回
stream不支持流式输出
chunking_strategy不支持分块策略
response_format 仅支持 json / text,传入 srt / vtt / verbose_json / diarized_json 等其他值会返回 400。

授权

Authorization
string
header
必填

所有接口均需要使用Bearer Token进行认证

使用时在请求头中添加:

Authorization: Bearer YOUR_API_KEY

请求体

multipart/form-data
file
file
必填

待识别音频文件

说明:

  • 通过 multipart/form-data 上传
  • 支持格式:flac / mp3 / mp4 / mpeg / mpga / m4a / ogg / wav / webm
model
string
必填

语音识别模型 ID,可选值:whisper-1gpt-4o-transcribegpt-4o-mini-transcribecohere-transcribe

示例:

"whisper-1"

language
string

音频语言(ISO-639-1 代码,如 enzhja)。提供该参数能提升识别准确度并加快处理速度。各模型支持的语言集存在差异,详见下方「模型参数说明」。

示例:

"zh"

prompt
string

用于引导模型识别风格或延续上一段音频的可选文本。提示词需与音频语言一致。

response_format
enum<string>
默认值:json

响应格式

可用选项:
json,
text,
srt,
verbose_json,
vtt
temperature
number
默认值:0

采样温度,取值 0-1。值越高输出越随机,0 表示模型自动调整。

必填范围: 0 <= x <= 1
punctuation
boolean

是否保留标点符号。仅 cohere-transcribe 支持,默认为 true;传给其他模型会被忽略。

max_new_tokens
integer

限制单次识别输出的最大 token 数。仅 cohere-transcribe 支持,默认为 256;传给其他模型会被忽略。

响应

语音识别响应

text
string
必填

识别得到的文本

示例:

"今天天气不错,我们去公园散步吧。"