Dify工作流实现语音转文字-纯本地模型
wptr33 2025-06-15 19:46 3 浏览
语音转文字(Speech-to-Text, STT)技术的应用越来越广泛,从会议记录到视频字幕生成,STT 技术为我们的生活和工作带来了极大的便利。今天,我将介绍如何使用 Dify 实现语音转文字,具体流程包括上传音频文件、通过 Flask 接口调用 FunASR 模型进行语音识别,最终将生成的文字返回到 Dify 端。全部过程都是本地运行,不依赖其他第三方工具。
视频演示:
1.什么是FunASR?
FunASR 是一个高性能的语音识别工具包,基于 PyTorch 和 Kaldi 构建,支持多种语言和方言,具有高准确率和低延迟的特点。
2.下载FunASR模型
pip install modelscope
modelscope download --model iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch --local_dir D:\downloads\AIModels\FunASR
推荐使用Paraformer语音识别-中文-通用-16k-离线-large-pytorch这个,也就是我们下载的
iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch ,下载好后如下图:
3.下载源码安装依赖
git clone https://github.com/modelscope/FunASR.git
cd源码根目录,然后安装依赖,注意python要>=3.8
pip install -e ./
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118
4.然后测试一下,自己拿手机随便录个音
我照着红框里的文本读了几句,写一个简单的测试代码
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess
model_dir = "D:/downlaods/AIModels/FunASR"
model = AutoModel(
model=model_dir,
vad_model="fsmn-vad",
vad_kwargs={"max_single_segment_time": 30000},
device="cuda:0",
)
# en
res = model.generate(
input=f"D:/workspaces/py_work_space/diyf-api/1.mp3",
cache={},
language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech"
use_itn=True,
batch_size_s=60,
merge_vad=True, #
merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)
注意:model_dir指向模型保存的目录,而不是某个具体的文件,这个目录下有很多文件,经过测试mp3和wav格式都支持。运行一下看结果还不错。
5.用flask写一个http服务
因为我们要集成到dify中,所以需要一个后台的http服务。接收从dify上传过来的音频文件,然后转成文字后再返回给dify。代码如下:
from flask import Flask, request, jsonify
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess
import os
app = Flask(__name__)
model_dir = "D:/downlaods/AIModels/FunASR"
model = AutoModel(
model=model_dir,
vad_model="fsmn-vad",
vad_kwargs={"max_single_segment_time": 30000},
device="cuda:0",
)
@app.route('/transcribe', methods=['POST'])
def transcribe():
# 获取上传的音频文件
if 'audio' not in request.files:
return jsonify({'error': 'No audio file provided'}), 400
audio_file = request.files['audio']
if audio_file.filename == '':
return jsonify({'error': 'No selected file'}), 400
# 保存上传的音频文件
temp_audio_path = "temp_audio.mp3"
audio_file.save(temp_audio_path)
# 调用 FunASR 模型进行语音识别
res = model.generate(
input=temp_audio_path,
cache={},
language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech"
use_itn=True,
batch_size_s=60,
merge_vad=True,
merge_length_s=15,
)
# 后处理识别结果
text = rich_transcription_postprocess(res[0]["text"])
# 删除临时文件
os.remove(temp_audio_path)
# 返回结果
return jsonify({'text': text})
if __name__ == '__main__':
app.run(debug=True)
写好以后启动这个程序,然后用接口工具测试一下,正常返回。
6.Dify集成
在Dify里创建一个工作流,起名TTS
开始节点添加一个文件上传框
然后增加一个http请求节点,按照接口工具里的配置一下:注意键名是 audio,和后台接口参数一致,值就是开始节点上传框,我这里都是叫 audio,并且如果dify是用docker部署的,url要用host.docker.internal来访问外部的宿主机。
最后添加一个结束节点,输出变量就是http请求节点的body,即后台的相应内容:
整个工作流如下,发布运行测试一下:
以上就用Dify通过本地STT模型集成了语音转文字的操作。想要完整代码和工作流的小伙伴关注私信获取。
相关推荐
- Python自动化脚本应用与示例(python办公自动化脚本)
-
Python是编写自动化脚本的绝佳选择,因其语法简洁、库丰富且跨平台兼容性强。以下是Python自动化脚本的常见应用场景及示例,帮助你快速上手:一、常见自动化场景文件与目录操作...
- Python文件操作常用库高级应用教程
-
本文是在前面《Python文件操作常用库使用教程》的基础上,进一步学习Python文件操作库的高级应用。一、高级文件系统监控1.1watchdog库-实时文件系统监控安装与基本使用:...
- Python办公自动化系列篇之六:文件系统与操作系统任务
-
作为高效办公自动化领域的主流编程语言,Python凭借其优雅的语法结构、完善的技术生态及成熟的第三方工具库集合,已成为企业数字化转型过程中提升运营效率的理想选择。该语言在结构化数据处理、自动化文档生成...
- 14《Python 办公自动化教程》os 模块操作文件与文件夹
-
在日常工作中,我们经常会和文件、文件夹打交道,比如将服务器上指定目录下文件进行归档,或将爬虫爬取的数据根据时间创建对应的文件夹/文件,如果这些还依靠手动来进行操作,无疑是费时费力的,这时候Pyt...
- python中os模块详解(python os.path模块)
-
os模块是Python标准库中的一个模块,它提供了与操作系统交互的方法。使用os模块可以方便地执行许多常见的系统任务,如文件和目录操作、进程管理、环境变量管理等。下面是os模块中一些常用的函数和方法:...
- 21-Python-文件操作(python文件的操作步骤)
-
在Python中,文件操作是非常重要的一部分,它允许我们读取、写入和修改文件。下面将详细讲解Python文件操作的各个方面,并给出相应的示例。1-打开文件...
- 轻松玩转Python文件操作:移动、删除
-
哈喽,大家好,我是木头左!Python文件操作基础在处理计算机文件时,经常需要执行如移动和删除等基本操作。Python提供了一些内置的库来帮助完成这些任务,其中最常用的就是os模块和shutil模块。...
- Python 初学者练习:删除文件和文件夹
-
在本教程中,你将学习如何在Python中删除文件和文件夹。使用os.remove()函数删除文件...
- 引人遐想,用 Python 获取你想要的“某个人”摄像头照片
-
仅用来学习,希望给你们有提供到学习上的作用。1.安装库需要安装python3.5以上版本,在官网下载即可。然后安装库opencv-python,安装方式为打开终端输入命令行。...
- Python如何使用临时文件和目录(python目录下文件)
-
在某些项目中,有时候会有大量的临时数据,比如各种日志,这时候我们要做数据分析,并把最后的结果储存起来,这些大量的临时数据如果常驻内存,将消耗大量内存资源,我们可以使用临时文件,存储这些临时数据。使用标...
- Linux 下海量文件删除方法效率对比,最慢的竟然是 rm
-
Linux下海量文件删除方法效率对比,本次参赛选手一共6位,分别是:rm、find、findwithdelete、rsync、Python、Perl.首先建立50万个文件$testfor...
- Python 开发工程师必会的 5 个系统命令操作库
-
当我们需要编写自动化脚本、部署工具、监控程序时,熟练操作系统命令几乎是必备技能。今天就来聊聊我在实际项目中高频使用的5个系统命令操作库,这些可都是能让你效率翻倍的"瑞士军刀"。一...
- Python常用文件操作库使用详解(python文件操作选项)
-
Python生态系统提供了丰富的文件操作库,可以处理各种复杂的文件操作需求。本教程将介绍Python中最常用的文件操作库及其实际应用。一、标准库核心模块1.1os模块-操作系统接口主要功能...
- 11. 文件与IO操作(文件io和网络io)
-
本章深入探讨Go语言文件处理与IO操作的核心技术,结合高性能实践与安全规范,提供企业级解决方案。11.1文件读写11.1.1基础操作...
- Python os模块的20个应用实例(python中 import os模块用法)
-
在Python中,...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
因果推断Matching方式实现代码 因果推断模型
-
git pull命令使用实例 git pull--rebase
-
面试官:git pull是哪两个指令的组合?
-
git 执行pull错误如何撤销 git pull fail
-
git pull 和git fetch 命令分别有什么作用?二者有什么区别?
-
git fetch 和git pull 的异同 git中fetch和pull的区别
-
git pull 之后本地代码被覆盖 解决方案
-
还可以这样玩?Git基本原理及各种骚操作,涨知识了
-
git命令之pull git.pull
-
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)