打开 “懒猫微服客户端” 下载应用

Whisper

转录翻译音频

107 次下载
0 次点赞
0 条评论
0 次催更
107

安装次数

0

点赞

0

应用评论

0

催更次数

桌面端

移动端

应用描述

OpenAI 的 Whisper AI 模型的 HTML WebUI,可以转录和翻译音频

相关攻略

Whisper : 强大的音频转录翻译工具

## Whisper是什么? Whisper 是 OpenAI 开发并开源的一个 通用语音识别模型(Automatic Speech Recognition, ASR)。 简单来说,它的主要功能是将人类的语音(音频)转换成文本。但它不仅仅是语音转文字那么简单,它还具备以下特点: > 多语言语音识别: 它可以识别多种语言的语音,并将其转录成该语言的文本。 > > 多任务模型: 除了语音转文字,它还能进行语言识别(判断语音是什么语言),以及将非英语的语音翻译成英语。 > > 强大的鲁棒性: 由于它在大量多样化的音频数据(包括不同口音、背景噪音和技术术语)上进行了训练,因此对这些干扰具有较强的抵抗力。 > > 高质量: 它的转录准确性很高,尤其是在通用语音识别方面。 > > 开源: OpenAI 将 Whisper 模型和推理代码开源,这使得开发者和研究人员可以免费使用、部署和进一步研究它,极大地推动了语音技术的发展。 有人形容它是OpenAI的二儿子,大儿子是GPT。 它们的侧重点不同,都是各自领域的“里程碑”: GPT(Generative Pre-trained Transformer) 系列模型在 自然语言处理(NLP) 领域取得了革命性的突破,尤其是在文本生成、对话、问答等方面表现出色,引领了大型语言模型(LLM)的潮流。它被广泛认为是OpenAI的“大儿子”,因为它最先引爆了AI领域的关注热潮。 Whisper 则在 语音识别(ASR) 领域带来了巨大的进步。在此之前,开源的语音识别模型在准确性、多语言支持和鲁棒性方面往往有所欠缺。Whisper 的出现填补了这一空白,提供了一个高质量、通用性强的解决方案,极大地降低了语音AI的开发门槛。它被比作“二儿子”,可能是因为它紧随 GPT 之后发布,并在语音领域产生了类似 GPT 在文本领域的影响力。 Whisper webui这个项目,用web的方式,可以让我们体验到它的功能。 https://appstore.lazycat.cloud/#/shop/detail/cloud.lazycat.app.whisper ## 如何使用 应用安装之后,即可打开功能页面 因为都是英文,我解释一下各模块的功能 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/c2d55fa9-926b-4080-825a-b43d303fc252.png "image.png") 左侧面板:Model (模型) 这个区域允许您选择要使用的 Whisper 模型。不同的模型有不同的尺寸和性能,通常“large”模型更准确但运行时间更长,而“small”模型速度更快但准确性可能略低。 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/fb9d763d-5e07-4057-9814-3014ce738a8f.png "image.png") Language (语言) 这个区域用于指定输入音频的语言。 默认选择的是 Chinese (中文)。这意味着系统会假定上传的音频是中文,并使用中文模型进行识别。 URL (YouTube, etc.) 如果您想转录来自网络(例如 YouTube)的音频,可以在这里粘贴音频或视频的 URL。 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/53626213-6541-451f-bdc3-3d01ce81ed35.png "image.png") Upload Files (上传文件) 这个区域允许直接上传本地的音频文件进行转录。 我上传了一个 硬核的许仙仙人6-半塘吃喝玩乐mp3-大结局.mp3 的文件,大小为 9.6 MB。 Microphone Input (麦克风输入) 这个功能允许您直接通过麦克风录制音频并进行转录。 可以看到有一个“Record from microphone”的按钮,点击后可以开始录音。 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/1e157e54-c39a-438a-9286-dd05f3fef5e9.png "image.png") Task (任务) 这个区域用于选择您希望 Whisper 执行的任务类型。 当前选择的是 transcribe (转录),这意味着系统会将音频内容转换为文本。除了转录,Whisper 还可以进行翻译 (translate)。 VAD (Voice Activity Detection - 语音活动检测) VAD 是语音活动检测的缩写,用于识别音频中哪些部分是人声,哪些部分是静默。 当前选择的是 silero-vad,这是一种常用的 VAD 模型。 VAD - Merge Window (VAD - 合并窗口) 这个设置通常与 VAD 配合使用,用于控制如何处理检测到的语音片段。较小的窗口可能会生成更多短的语音片段,而较大的窗口会将相邻的语音片段合并。 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/9c1f83e4-f3ac-42b1-b44e-a20c0f969a58.png "image.png") 点击Submit之后,右侧就开始跑任务里,我这个音频10分钟时长,有进度提示 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/d6f6b903-58ab-4bcc-8011-53d814ce7be6.png "image.png") 右侧面板 Download (下载) 这个区域列出了您可以下载的与转录结果相关的各种文件。 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/4d86f582-fc07-46e5-9038-b7028f9e16ce.png "image.png") subs.srt (SRT 字幕文件) subs.vtt (VTT 字幕文件) transcript.txt (纯文本转录文件) result.json (JSON 格式的结果文件)。 每个文件旁边都有一个“Download”按钮,可以点击下载。 Transcription (转录结果) 这个大文本框显示了整个音频文件转录后的完整文本内容。 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/00ddd0f6-79d0-4dce-b656-bfa76b4b220e.png "image.png") Segments (分段) 这个区域将转录结果进一步细分为带有时间戳的独立语音片段。 WEBVTT 表示这些分段是以 WebVTT 格式显示的,通常用于网页视频的字幕。 每个分段都包含一个时间范围和对应的转录文本,例如 00:00:00.000 --> 00:01:19.920 硬...仙。 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/d5ee3c4b-6c56-445f-b24d-da8d8c54574b.png "image.png") 最后提醒一下,还是比较占空间的,硬盘和内存要足够 硬盘用了32G ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/9d4ce017-fa72-433e-acf0-be7be90b33f0.png "image.png") 内存5G多 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/62c0dac7-506b-4c05-bd59-f22b8eb08e54.png "image.png") 总的来说,这个应用提供了一个直观的交互方式,让用户可以轻松地上传音频、选择模型和语言、执行转录任务,下载各种格式的转录结果。

懒猫评分/评论

0.0

0 条评论

此 App 尚未收到足够的评分或评论,无法显示评论列表。

应用信息

最新版本

0.0.2

更新日期

6/4/2025

预估安装占用

19.6 GB

不支持平台

--

来源

--

兼容性

可在此设备上使用

"immigrate docker"