【图】Whisper语音识别-多语言-large-v3-全国语音交互-梓创网络-青岛梓创网络科技有限公司

FunASR希望在语音识别方面建立学术研究和工业应用之间的桥梁。通过支持在ModelScope上发布的工业级语音识别模型的训练和微调，研究人员和开发人员可以更方便地进行语音识别模型的研究和生产，并促进语音识别生态系统的发展。

最新动态 | 环境安装 | 介绍文档 | 中文教程 | 服务部署 | 模型库 | 联系我们

基于ModelScope进行推理
推理支持音频格式如下：
wav文件路径，例如：data/test/audios/asr_example.wav
pcm文件路径，例如：data/test/audios/asr_example.pcm
wav文件url，例如：https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav
wav二进制数据，格式bytes，例如：用户直接从文件里读出bytes数据或者是麦克风录出bytes数据。
已解析的audio音频，例如：audio, rate = soundfile.read("asr_example_zh.wav")，类型为numpy.ndarray或者torch.Tensor。
wav.scp文件，需符合如下要求：
cat wav.scp
asr_example1  data/test/audios/asr_example1.wav
asr_example2  data/test/audios/asr_example2.wav
...
若输入格式wav文件url，api调用方式可参考如下范例：
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

inference_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='iic/Whisper-large-v3', model_revision="v2.0.5")

rec_result = inference_pipeline(input='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav', language=None)
print(rec_result)
输入音频为pcm格式，调用api时需要传入音频采样率参数fs，例如：
rec_result = inference_pipeline(input='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.pcm', fs=16000)
输入音频为wav格式，api调用方式可参考如下范例:
rec_result = inference_pipeline(input'asr_example_zh.wav')
若输入格式为文件wav.scp(注：文件名需要以.scp结尾)，可添加 output_dir 参数将识别结果写入文件中，api调用方式可参考如下范例:
inference_pipeline(input="wav.scp", output_dir='./output_dir')

Whisper语音识别-多语言-large-v3

智伴科技

机构好评：96

2023涨薪必备技能

如何快速创作火爆全网的手绘作品？

私单涨薪必备技能

UI动效设计师为什么拿高薪？

名师高徒挑战高薪

为什么阿里和OPPO超爱这类插画风格？

高效实战百万人气

都是图标设计，总监和你有什么区别？

高效实战职场技能

梓创网络-青岛梓创网络科技有限公司