Dify工作流实现语音转文字-纯本地模型

wptr33 2025-06-15 19:46 40 浏览

语音转文字（Speech-to-Text, STT）技术的应用越来越广泛，从会议记录到视频字幕生成，STT 技术为我们的生活和工作带来了极大的便利。今天，我将介绍如何使用 Dify 实现语音转文字，具体流程包括上传音频文件、通过 Flask 接口调用 FunASR 模型进行语音识别，最终将生成的文字返回到 Dify 端。全部过程都是本地运行，不依赖其他第三方工具。

视频演示：

演示

1.什么是FunASR？

FunASR 是一个高性能的语音识别工具包，基于 PyTorch 和 Kaldi 构建，支持多种语言和方言，具有高准确率和低延迟的特点。

2.下载FunASR模型

pip install modelscope
modelscope download --model iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch --local_dir D:\downloads\AIModels\FunASR

推荐使用Paraformer语音识别-中文-通用-16k-离线-large-pytorch这个，也就是我们下载的
iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch ，下载好后如下图：

3.下载源码安装依赖

git clone https://github.com/modelscope/FunASR.git

cd源码根目录，然后安装依赖，注意python要>=3.8

pip install -e ./
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118

4.然后测试一下，自己拿手机随便录个音

我照着红框里的文本读了几句，写一个简单的测试代码

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model_dir = "D:/downlaods/AIModels/FunASR"

model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

# en
res = model.generate(
    input=f"D:/workspaces/py_work_space/diyf-api/1.mp3",
    cache={},
    language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=True,
    batch_size_s=60,
    merge_vad=True,  #
    merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

注意：model_dir指向模型保存的目录，而不是某个具体的文件，这个目录下有很多文件，经过测试mp3和wav格式都支持。运行一下看结果还不错。

5.用flask写一个http服务

因为我们要集成到dify中，所以需要一个后台的http服务。接收从dify上传过来的音频文件，然后转成文字后再返回给dify。代码如下：

from flask import Flask, request, jsonify
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess
import os

app = Flask(__name__)

model_dir = "D:/downlaods/AIModels/FunASR"

model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

@app.route('/transcribe', methods=['POST'])
def transcribe():
    # 获取上传的音频文件
    if 'audio' not in request.files:
        return jsonify({'error': 'No audio file provided'}), 400

    audio_file = request.files['audio']
    if audio_file.filename == '':
        return jsonify({'error': 'No selected file'}), 400

    # 保存上传的音频文件
    temp_audio_path = "temp_audio.mp3"
    audio_file.save(temp_audio_path)

    # 调用 FunASR 模型进行语音识别
    res = model.generate(
        input=temp_audio_path,
        cache={},
        language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
        use_itn=True,
        batch_size_s=60,
        merge_vad=True,
        merge_length_s=15,
    )

    # 后处理识别结果
    text = rich_transcription_postprocess(res[0]["text"])

    # 删除临时文件
    os.remove(temp_audio_path)

    # 返回结果
    return jsonify({'text': text})

if __name__ == '__main__':
    app.run(debug=True)

写好以后启动这个程序，然后用接口工具测试一下，正常返回。

6.Dify集成

在Dify里创建一个工作流，起名TTS

开始节点添加一个文件上传框

然后增加一个http请求节点，按照接口工具里的配置一下：注意键名是 audio，和后台接口参数一致，值就是开始节点上传框，我这里都是叫 audio，并且如果dify是用docker部署的，url要用host.docker.internal来访问外部的宿主机。

最后添加一个结束节点，输出变量就是http请求节点的body，即后台的相应内容：

整个工作流如下，发布运行测试一下：

以上就用Dify通过本地STT模型集成了语音转文字的操作。想要完整代码和工作流的小伙伴关注私信获取。

os.remove

上一篇：不会你来骂我!腾讯T5大佬教你Python中删除文件的方法
下一篇：Python os模块的20个应用实例（python中 import os模块用法）

Dify工作流实现语音转文字-纯本地模型

相关推荐

程序员的开源月刊《HelloGitHub》第 71 期

如何将AI助手接入微信（打开ai手机助手）

SparkSQL——DataFrame的创建与使用

使用过 Redis 分布式锁么，它是什么回事?

VUE循环语句的使用(v-for)（vuefor循环的key）

HiveOs系统教程最细手把手教学（hiveos启动）

Python rembg 库去除图片背景

HIVE SQL基础语法（hive-sql）

Spring Boot 概述（spring boot干嘛的）

《循环(for/while)》（循环while语句）