Whisper-1 音频转录

curl --request POST \
  --url https://api.yuannengai.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@audio.mp3' \
  --form 'model=whisper-1'

{
  "text": "这是转录后的文本内容。音频中的语音会被准确地转换为文字。"
}

POST

https://api.yuannengai.com

audio

transcriptions

curl --request POST \
  --url https://api.yuannengai.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@audio.mp3' \
  --form 'model=whisper-1'

{
  "text": "这是转录后的文本内容。音频中的语音会被准确地转换为文字。"
}

支持多种音频格式
支持多语言自动识别
高精度语音转文本

curl --request POST \
  --url https://api.yuannengai.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@audio.mp3' \
  --form 'model=whisper-1'

{
  "text": "这是转录后的文本内容。音频中的语音会被准确地转换为文字。"
}

认证方式

Authorization

string

必填

所有接口均需要使用 Bearer Token 进行认证获取 API Key：访问 API Key 管理页面获取您的 API Key使用时在请求头中添加：

Authorization: Bearer YOUR_API_KEY

请求参数

file

必填

要转录的音频文件支持的格式：mp3、mp4、mpeg、mpga、m4a、wav、webm文件大小限制：最大 25MB

model

string

默认值:"whisper-1"

必填

音频转录模型名称目前支持：whisper-1

language

string

音频的语言代码（ISO 639-1 格式）示例：zh（中文）、en（英文）、ja（日文）如不指定，模型将自动检测语言

prompt

string

提示文本用于引导模型的转录风格或提供上下文

response_format

string

默认值:"json"

响应格式支持的格式：

json - JSON 格式（默认）
text - 纯文本格式
srt - SRT 字幕格式
vtt - VTT 字幕格式
verbose_json - 详细 JSON 格式

temperature

number

默认值:"0"

采样温度，范围 0-1较低的值产生更一致的输出

响应参数

text

string

转录后的文本内容

当 response_format 为 verbose_json 时，还会返回：

language

string

检测到的语言

duration

number

音频时长（秒）

segments

array

分段信息

Wan2.6 视频生成 TTS 文字转语音

⌘I

概览

文字系列

图像系列

视频系列

音频系列

任务管理

账户管理

认证方式

请求参数

响应参数

概览

文字系列

图像系列

视频系列

音频系列

任务管理

账户管理

​认证方式

​请求参数

​响应参数

认证方式

请求参数

响应参数