whisper-1(主推)、gpt-4o-transcribe、gpt-4o-mini-transcribe、cohere-transcribeDocumentation Index
Fetch the complete documentation index at: https://docs.foxapi.cc/llms.txt
Use this file to discover all available pages before exploring further.
| 模型 ID | 用途 |
|---|---|
whisper-1 | 经典 Whisper V2 模型,支持最完整的输出格式与时间戳粒度 |
gpt-4o-transcribe | 高精度识别,仅支持 json 输出,可流式 |
gpt-4o-mini-transcribe | 轻量版高精度识别,仅支持 json 输出,可流式 |
gpt-4o-mini-transcribe-2025-12-15 | gpt-4o-mini-transcribe 的版本快照 |
gpt-4o-transcribe-diarize | 带说话人分离的识别,使用 diarized_json 获取每段说话人标注 |
cohere-transcribe | Fal 平台托管的 Cohere 转写模型,支持 14 种语言,可控标点与最大输出长度 |
response_format 各模型支持矩阵| 模型 | 支持的格式 |
|---|---|
whisper-1 | json / text / srt / verbose_json / vtt |
gpt-4o-transcribe、gpt-4o-mini-transcribe(-2025-12-15) | 仅 json |
gpt-4o-transcribe-diarize | json / text / diarized_json(要拿到说话人标注必须使用 diarized_json) |
cohere-transcribe | 仅 json / text |
whisper-1 独有特性timestamp_granularities[] — array,可选值 word / segment,默认 [segment]
response_format=verbose_json 时生效timestamp_granularities[] 形式重复传递(数组)json,实际无法使用此参数;gpt-4o-transcribe-diarize 明确禁用whisper-1 上传 stream=true 会被静默忽略。gpt-4o-transcribe、gpt-4o-mini-transcribe、gpt-4o-mini-transcribe-2025-12-15。
include[] — array,可选值仅 logprobs
response_format=json 时生效whisper-1 与 gpt-4o-transcribe-diarizestream — boolean,默认 false
whisper-1 不支持,参数会被忽略chunking_strategy — "auto" 字符串 或 server_vad 对象
"auto":服务端先做响度归一化,再用 VAD 自动选择切分边界
server_vad 对象(手动调参 VAD):
| 字段 | 类型 | 默认 | 说明 |
|---|---|---|---|
type | string | — | 必填,固定为 "server_vad" |
prefix_padding_ms | integer | 300 | VAD 检测到语音前包含的音频时长(毫秒) |
silence_duration_ms | integer | 200 | 用于判定语音结束的静音时长(毫秒)。值越短响应越快,但可能在短停顿处误切 |
gpt-4o-transcribe-diarize 独有参数gpt-4o-transcribe-diarize(说话人分离专用模型)。
chunking_strategy — 处理超过 30 秒的音频时必传(推荐 "auto")
known_speaker_names[] — array,最多 4 个
customer、agent)known_speaker_references[] 一一对应known_speaker_references[] — array,最多 4 个
file 字段相同gpt-4o-transcribe-diarize 不支持的字段gpt-4o-transcribe-diarize 上不可用:
| 字段 | 说明 |
|---|---|
prompt | 不支持提示词引导 |
timestamp_granularities[] | 不支持词级 / 段级时间戳粒度配置 |
include[] | 不支持 logprobs 等附加返回 |
stream | 不支持流式输出 |
cohere-transcribe 独有特性en / fr / de / it / es / pt / el / nl / pl / zh / ja / ko / vi / ar)。language 传其他取值时由上游返回错误。
punctuation — boolean,默认 true
max_new_tokens — integer,默认 256
cohere-transcribe 上不可用,传入后会被静默忽略(不会报错):
| 字段 | 说明 |
|---|---|
prompt | 不支持提示词引导 |
temperature | 不支持温度参数 |
timestamp_granularities[] | 不支持词级 / 段级时间戳 |
include[] | 不支持 logprobs 等附加返回 |
stream | 不支持流式输出 |
chunking_strategy | 不支持分块策略 |
response_format 仅支持 json / text,传入 srt / vtt / verbose_json / diarized_json 等其他值会返回 400。使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY
待识别音频文件
说明:
语音识别模型 ID,可选值:whisper-1、gpt-4o-transcribe、gpt-4o-mini-transcribe、cohere-transcribe
"whisper-1"
音频语言(ISO-639-1 代码,如 en、zh、ja)。提供该参数能提升识别准确度并加快处理速度。各模型支持的语言集存在差异,详见下方「模型参数说明」。
"zh"
用于引导模型识别风格或延续上一段音频的可选文本。提示词需与音频语言一致。
响应格式
json, text, srt, verbose_json, vtt 采样温度,取值 0-1。值越高输出越随机,0 表示模型自动调整。
0 <= x <= 1是否保留标点符号。仅 cohere-transcribe 支持,默认为 true;传给其他模型会被忽略。
限制单次识别输出的最大 token 数。仅 cohere-transcribe 支持,默认为 256;传给其他模型会被忽略。
语音识别响应
识别得到的文本
"今天天气不错,我们去公园散步吧。"