百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

Dify工作流实现语音转文字-纯本地模型

wptr33 2025-06-15 19:46 40 浏览

语音转文字(Speech-to-Text, STT)技术的应用越来越广泛,从会议记录到视频字幕生成,STT 技术为我们的生活和工作带来了极大的便利。今天,我将介绍如何使用 Dify 实现语音转文字,具体流程包括上传音频文件、通过 Flask 接口调用 FunASR 模型进行语音识别,最终将生成的文字返回到 Dify 端。全部过程都是本地运行,不依赖其他第三方工具。

视频演示:

演示

1.什么是FunASR?

FunASR 是一个高性能的语音识别工具包,基于 PyTorch 和 Kaldi 构建,支持多种语言和方言,具有高准确率和低延迟的特点。

2.下载FunASR模型

pip install modelscope
modelscope download --model iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch --local_dir D:\downloads\AIModels\FunASR

推荐使用Paraformer语音识别-中文-通用-16k-离线-large-pytorch这个,也就是我们下载的
iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch ,下载好后如下图:

3.下载源码安装依赖

git clone https://github.com/modelscope/FunASR.git

cd源码根目录,然后安装依赖,注意python要>=3.8

pip install -e ./
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118

4.然后测试一下,自己拿手机随便录个音

我照着红框里的文本读了几句,写一个简单的测试代码

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model_dir = "D:/downlaods/AIModels/FunASR"

model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

# en
res = model.generate(
    input=f"D:/workspaces/py_work_space/diyf-api/1.mp3",
    cache={},
    language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=True,
    batch_size_s=60,
    merge_vad=True,  #
    merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

注意:model_dir指向模型保存的目录,而不是某个具体的文件,这个目录下有很多文件,经过测试mp3和wav格式都支持。运行一下看结果还不错。

5.用flask写一个http服务

因为我们要集成到dify中,所以需要一个后台的http服务。接收从dify上传过来的音频文件,然后转成文字后再返回给dify。代码如下:

from flask import Flask, request, jsonify
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess
import os

app = Flask(__name__)

model_dir = "D:/downlaods/AIModels/FunASR"

model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

@app.route('/transcribe', methods=['POST'])
def transcribe():
    # 获取上传的音频文件
    if 'audio' not in request.files:
        return jsonify({'error': 'No audio file provided'}), 400

    audio_file = request.files['audio']
    if audio_file.filename == '':
        return jsonify({'error': 'No selected file'}), 400

    # 保存上传的音频文件
    temp_audio_path = "temp_audio.mp3"
    audio_file.save(temp_audio_path)

    # 调用 FunASR 模型进行语音识别
    res = model.generate(
        input=temp_audio_path,
        cache={},
        language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
        use_itn=True,
        batch_size_s=60,
        merge_vad=True,
        merge_length_s=15,
    )

    # 后处理识别结果
    text = rich_transcription_postprocess(res[0]["text"])

    # 删除临时文件
    os.remove(temp_audio_path)

    # 返回结果
    return jsonify({'text': text})

if __name__ == '__main__':
    app.run(debug=True)

写好以后启动这个程序,然后用接口工具测试一下,正常返回。

6.Dify集成

在Dify里创建一个工作流,起名TTS

开始节点添加一个文件上传框

然后增加一个http请求节点,按照接口工具里的配置一下:注意键名是 audio,和后台接口参数一致,值就是开始节点上传框,我这里都是叫 audio,并且如果dify是用docker部署的,url要用host.docker.internal来访问外部的宿主机。

最后添加一个结束节点,输出变量就是http请求节点的body,即后台的相应内容:

整个工作流如下,发布运行测试一下:

以上就用Dify通过本地STT模型集成了语音转文字的操作。想要完整代码和工作流的小伙伴关注私信获取。

相关推荐

oracle数据导入导出_oracle数据导入导出工具

关于oracle的数据导入导出,这个功能的使用场景,一般是换服务环境,把原先的oracle数据导入到另外一台oracle数据库,或者导出备份使用。只不过oracle的导入导出命令不好记忆,稍稍有点复杂...

继续学习Python中的while true/break语句

上次讲到if语句的用法,大家在微信公众号问了小编很多问题,那么小编在这几种解决一下,1.else和elif是子模块,不能单独使用2.一个if语句中可以包括很多个elif语句,但结尾只能有一个else解...

python continue和break的区别_python中break语句和continue语句的区别

python中循环语句经常会使用continue和break,那么这2者的区别是?continue是跳出本次循环,进行下一次循环;break是跳出整个循环;例如:...

简单学Python——关键字6——break和continue

Python退出循环,有break语句和continue语句两种实现方式。break语句和continue语句的区别:break语句作用是终止循环。continue语句作用是跳出本轮循环,继续下一次循...

2-1,0基础学Python之 break退出循环、 continue继续循环 多重循

用for循环或者while循环时,如果要在循环体内直接退出循环,可以使用break语句。比如计算1至100的整数和,我们用while来实现:sum=0x=1whileTrue...

Python 中 break 和 continue 傻傻分不清

大家好啊,我是大田。今天分享一下break和continue在代码中的执行效果是什么,进一步区分出二者的区别。一、continue例1:当小明3岁时不打印年龄,其余年龄正常循环打印。可以看...

python中的流程控制语句:continue、break 和 return使用方法

Python中,continue、break和return是控制流程的关键语句,用于在循环或函数中提前退出或跳过某些操作。它们的用途和区别如下:1.continue(跳过当前循环的剩余部分,进...

L017:continue和break - 教程文案

continue和break在Python中,continue和break是用于控制循环(如for和while)执行流程的关键字,它们的作用如下:1.continue:跳过当前迭代,...

作为前端开发者,你都经历过怎样的面试?

已经裸辞1个月了,最近开始投简历找工作,遇到各种各样的面试,今天分享一下。其实在职的时候也做过面试官,面试官时,感觉自己问的问题很难区分候选人的能力,最好的办法就是看看候选人的github上的代码仓库...

面试被问 const 是否不可变?这样回答才显功底

作为前端开发者,我在学习ES6特性时,总被const的"善变"搞得一头雾水——为什么用const声明的数组还能push元素?为什么基本类型赋值就会报错?直到翻遍MDN文档、对着内存图反...

2023金九银十必看前端面试题!2w字精品!

导文2023金九银十必看前端面试题!金九银十黄金期来了想要跳槽的小伙伴快来看啊CSS1.请解释CSS的盒模型是什么,并描述其组成部分。答案:CSS的盒模型是用于布局和定位元素的概念。它由内容区域...

前端面试总结_前端面试题整理

记得当时大二的时候,看到实验室的学长学姐忙于各种春招,有些收获了大厂offer,有些还在苦苦面试,其实那时候的心里还蛮忐忑的,不知道自己大三的时候会是什么样的一个水平,所以从19年的寒假放完,大二下学...

由浅入深,66条JavaScript面试知识点(七)

作者:JakeZhang转发链接:https://juejin.im/post/5ef8377f6fb9a07e693a6061目录由浅入深,66条JavaScript面试知识点(一)由浅入深,66...

2024前端面试真题之—VUE篇_前端面试题vue2020及答案

添加图片注释,不超过140字(可选)1.vue的生命周期有哪些及每个生命周期做了什么?beforeCreate是newVue()之后触发的第一个钩子,在当前阶段data、methods、com...

今年最常见的前端面试题,你会做几道?

在面试或招聘前端开发人员时,期望、现实和需求之间总是存在着巨大差距。面试其实是一个交流想法的地方,挑战人们的思考方式,并客观地分析给定的问题。可以通过面试了解人们如何做出决策,了解一个人对技术和解决问...