POST
https://api.yuannengai.com
/
v1
/
audio
/
transcriptions
curl --request POST \
  --url https://api.yuannengai.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@audio.mp3' \
  --form 'model=whisper-1'
{
  "text": "这是转录后的文本内容。音频中的语音会被准确地转换为文字。"
}
  • 支持多种音频格式
  • 支持多语言自动识别
  • 高精度语音转文本
curl --request POST \
  --url https://api.yuannengai.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@audio.mp3' \
  --form 'model=whisper-1'
{
  "text": "这是转录后的文本内容。音频中的语音会被准确地转换为文字。"
}

认证方式

Authorization
string
必填
所有接口均需要使用 Bearer Token 进行认证获取 API Key:访问 API Key 管理页面 获取您的 API Key使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY

请求参数

file
file
必填
要转录的音频文件支持的格式:mp3、mp4、mpeg、mpga、m4a、wav、webm文件大小限制:最大 25MB
model
string
默认值:"whisper-1"
必填
音频转录模型名称目前支持:whisper-1
language
string
音频的语言代码(ISO 639-1 格式)示例:zh(中文)、en(英文)、ja(日文)如不指定,模型将自动检测语言
prompt
string
提示文本用于引导模型的转录风格或提供上下文
response_format
string
默认值:"json"
响应格式支持的格式:
  • json - JSON 格式(默认)
  • text - 纯文本格式
  • srt - SRT 字幕格式
  • vtt - VTT 字幕格式
  • verbose_json - 详细 JSON 格式
temperature
number
默认值:"0"
采样温度,范围 0-1较低的值产生更一致的输出

响应参数

text
string
转录后的文本内容
response_formatverbose_json 时,还会返回:
language
string
检测到的语言
duration
number
音频时长(秒)
segments
array
分段信息