OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

openai,离线,音频,文本,模型,whisper,net,封装,项目 · 浏览次数 : 847

小编点评

**Whisper 语言模型简介** Whisper 是一个开源的、本地运行的自动语音辨识模型,它可以识别 98 种语言的语音并将其转换为文本。Whisper 使用 Hugging Face 的模型,这些模型经过大量的训练,能够与人类对话相当地自然地理解语音。 **主要功能:** * 语音识别 * 语音翻译 **核心功能:** * 语音识别:将各种语言的语音转换为文本 * 语音翻译:将文本翻译成英文 **优势:** * 本地运行,无需联网 * 保护个人隐私,安全可靠 * 高准确率 **使用方法:** 1. 下载模型: * 或从 Hugging Face 下拉模型:`huggingface.co/ggerganov/whisper.cpp` * 或从 GitHub 下拉模型:`github.com/ggerganov/whisper.cppggml-*.bin` 2. 选择模型: * `small`、`medium`、`large` 三种模型可以选择 * 大模型可能需要更多时间才能运行 3. 设置音频路径: * `audio_path` 指向音频文件路径 4. 设置文本类型: * `text_type` 指向文本类型,例如 `plain` 或 `html` 5. 设置文本保存位置: * `save_path` 指向保存文本文件的路径 6. 开始运行: * 启动 Whisper 后,会打开一个网页,提示输入文本或选择文件进行语音识别。 * 完成识别后,文本将自动保存到指定路径。 **结论:** Whisper 是一个功能强大的语言模型,可以帮助您更便捷地整理会议、讲座和其他相关材料。它完全是本地运行的,提供保护个人隐私的优势,并且拥有高准确率的模型。

正文

whisper介绍

Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。

whisper的核心功能语音识别,对于大部分人来说,可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿;对于影视爱好者,可以将无字幕的资源自动生成字幕,不用再苦苦等待各大字幕组的字幕资源;对于外语口语学习者,使用whisper翻译你的发音练习录音,可以很好的检验你的口语发音水平。 当然,各大云平台都提供语音识别服务,但是基本都是联网运行,个人隐私安全总是有隐患,而whisper完全不同,whisper完全在本地运行,无需联网,充分保障了个人隐私,且whisper识别准确率相当高。

 

语言模型文件:https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp

image

ggml-*.bin则中英文都可以翻译,根据自己对文字的精确要求选择模型,small、medium基本够用。高要求可以使用large,但耗时会多一点。

这么好的一个模型在.NET 社区有很多封装的项目:

 

下面我们体验一下这个开箱即用的工具Whisper,从https://github.com/Const-me/Whisper 下周最新的版本:

1682301496791

运行起来,从Hugging Face 下载模型,

image

选择转化的语言、音频路径、文本类型、文本保存位置,运行一段时间后,打开后就可以看到文本内容了

 

 image

实测medium模型:20min音频,大致耗时20~30min,这个效果是很不错了。 还可以很容易将这个模型集成到自己开发的系统里。

与OpenAI的离线音频转文本模型 Whisper 的.NET封装项目相似的内容:

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与

OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken

经过 Tokenize 之后,一串文本就变成了一串整数组成的向量。OpenAI 的 Tiktoken 是 更高级的 Tokenizer , 编码效率更高、支持更大的词汇表、计算性能也更高。 OpenAI在其官方GitHub上公开了一个开源Python库:tiktoken,这个库主要是用力做字节编码对

基于OpenAI的代码编辑器,有点酷有点强!

最近随着OpenAI的一系列大动作,把软件领域搅的天翻地覆。各行各业各领域,都出现了大量新产品。 开发工具领域首当其冲,各种新工具层出不穷,今天TJ就给大家推荐一个全新的开发工具:Cursor 从官网介绍可以看到,Cursor基于OpenAI实现,继承了最新的GPT-4模型,支持Mac、Window

Yarp项目代理ChatGPT,解决网络无法访问openAI的问题

# 1.创建Yarp项目 目的:通过代理解决网络无法访问openAI的问题 项目源码地址:[https://github.com/raokun/YarpProject](https://github.com/raokun/YarpProject) ## 1.创建.net7 webapi项目 创建一个

[转帖]聊聊Chat GPT-1到GPT-4的发展历程

http://blog.itpub.net/69925873/viewspace-2935360/ OpenAI的Generative Pre-trained Transformer(GPT)模型通过引入非常强大的语言模型,在自然语言处理(NLP)领域引起了巨大震动。这些模型可以执行各种NLP任务,

OpenAI Kubernetes 相关博文读后笔记

一、概述 最近 ChatGPT 和其公司 OpenAI 特别火:ChatGPT 3, ChatGPT 3.5, New Bing, ChatGPT 4... 怀着学习的心态,这几天访问了 OpenAI 的博客, 上边关于 AI 的内容,确实隔行如隔山,完全看不明白。😂 但是翻看过程中,惊喜发现有

基于AIGC的京东购物助手的技术方案设想

随着AIGC的爆火,ChatGPT,GPT-4的发布,我作为一个算法工作者,深感AI发展的迅猛。最近,OpenAI的插件和联网功能陆续向用户公开,我也在第一时间试用了这些最新的功能。在OpenAI的插件市场上,我被一个可以帮助分析食谱,并生成购物清单的功能所吸引。

新版Bing 搜索后台的.NET 技术栈

微软在今天在Redmond 线下举办媒体一场活动,发布了新版的微软必应,在桌面上推出了测试版,移动版也即将推出。微软首席执行官纳德拉称Al-powered搜索为公司自云15年以来最大的事情。 2023年1月初,微软已经在讨论将OpenAI的技术纳入Word、PowerPoint、Outlook和其他

记录一次全栈经验,所有遇到的坑。(文中无需梯子,免费使用chatGPT方法喔)

## 1、先推荐一下自己搭的网站 ### 1.1 网站地址:[chatGPT](https://www.hangyejingling.cn/) ### 1.2 建站原因 为了方便大家在国内使用chatGPT,所以我调研了一下。在国内用腾讯云使用代理访问,gpt3.5API。最后模仿了openAI的官

使用SemanticKernel 进行智能应用开发(2023-10更新)

以OpenAI 的ChatGPT 所掀起的GenAI 快速创新浪潮,其中连接LLM 和 应用之间的桥梁的两大开源项目:LangChain[1]和Semantic Kernel[2] ,在半年前写过一篇文章 LangChain vs Semantic Kernel [3],这半年以来Semantic