Whisper : 强大的音频转录翻译工具

天天

发布于346天前

龙猫也是猫

Whisper是什么？

Whisper 是 OpenAI 开发并开源的一个通用语音识别模型（Automatic Speech Recognition, ASR）。

简单来说，它的主要功能是将人类的语音（音频）转换成文本。但它不仅仅是语音转文字那么简单，它还具备以下特点：

多语言语音识别：它可以识别多种语言的语音，并将其转录成该语言的文本。

多任务模型：除了语音转文字，它还能进行语言识别（判断语音是什么语言），以及将非英语的语音翻译成英语。

强大的鲁棒性：由于它在大量多样化的音频数据（包括不同口音、背景噪音和技术术语）上进行了训练，因此对这些干扰具有较强的抵抗力。

高质量：它的转录准确性很高，尤其是在通用语音识别方面。

开源： OpenAI 将 Whisper 模型和推理代码开源，这使得开发者和研究人员可以免费使用、部署和进一步研究它，极大地推动了语音技术的发展。

有人形容它是OpenAI的二儿子，大儿子是GPT。

它们的侧重点不同，都是各自领域的“里程碑”：

GPT（Generative Pre-trained Transformer）系列模型在自然语言处理（NLP）领域取得了革命性的突破，尤其是在文本生成、对话、问答等方面表现出色，引领了大型语言模型（LLM）的潮流。它被广泛认为是OpenAI的“大儿子”，因为它最先引爆了AI领域的关注热潮。

Whisper 则在语音识别（ASR）领域带来了巨大的进步。在此之前，开源的语音识别模型在准确性、多语言支持和鲁棒性方面往往有所欠缺。Whisper 的出现填补了这一空白，提供了一个高质量、通用性强的解决方案，极大地降低了语音AI的开发门槛。它被比作“二儿子”，可能是因为它紧随 GPT 之后发布，并在语音领域产生了类似 GPT 在文本领域的影响力。

Whisper webui这个项目，用web的方式，可以让我们体验到它的功能。

https://appstore.lazycat.cloud/#/shop/detail/cloud.lazycat.app.whisper

如何使用

应用安装之后，即可打开功能页面

因为都是英文，我解释一下各模块的功能

左侧面板:Model (模型)

这个区域允许您选择要使用的 Whisper 模型。不同的模型有不同的尺寸和性能，通常“large”模型更准确但运行时间更长，而“small”模型速度更快但准确性可能略低。

Language (语言)

这个区域用于指定输入音频的语言。

默认选择的是 Chinese (中文)。这意味着系统会假定上传的音频是中文，并使用中文模型进行识别。

URL (YouTube, etc.)

如果您想转录来自网络（例如 YouTube）的音频，可以在这里粘贴音频或视频的 URL。

Upload Files (上传文件)

这个区域允许直接上传本地的音频文件进行转录。

我上传了一个硬核的许仙仙人6-半塘吃喝玩乐mp3-大结局.mp3 的文件，大小为 9.6 MB。

Microphone Input (麦克风输入)

这个功能允许您直接通过麦克风录制音频并进行转录。

可以看到有一个“Record from microphone”的按钮，点击后可以开始录音。

Task (任务)

这个区域用于选择您希望 Whisper 执行的任务类型。

当前选择的是 transcribe (转录)，这意味着系统会将音频内容转换为文本。除了转录，Whisper 还可以进行翻译 (translate)。

VAD (Voice Activity Detection - 语音活动检测)

VAD 是语音活动检测的缩写，用于识别音频中哪些部分是人声，哪些部分是静默。

当前选择的是 silero-vad，这是一种常用的 VAD 模型。

VAD - Merge Window (VAD - 合并窗口)

这个设置通常与 VAD 配合使用，用于控制如何处理检测到的语音片段。较小的窗口可能会生成更多短的语音片段，而较大的窗口会将相邻的语音片段合并。

点击Submit之后，右侧就开始跑任务里，我这个音频10分钟时长，有进度提示

右侧面板

Download (下载)

这个区域列出了您可以下载的与转录结果相关的各种文件。

subs.srt (SRT 字幕文件)
subs.vtt (VTT 字幕文件)
transcript.txt (纯文本转录文件)
result.json (JSON 格式的结果文件)。

每个文件旁边都有一个“Download”按钮，可以点击下载。

Transcription (转录结果)

这个大文本框显示了整个音频文件转录后的完整文本内容。

Segments (分段)

这个区域将转录结果进一步细分为带有时间戳的独立语音片段。

WEBVTT 表示这些分段是以 WebVTT 格式显示的，通常用于网页视频的字幕。

每个分段都包含一个时间范围和对应的转录文本，例如 00:00:00.000 --> 00:01:19.920 硬...仙。

最后提醒一下，还是比较占空间的，硬盘和内存要足够

硬盘用了32G

内存5G多

总的来说，这个应用提供了一个直观的交互方式，让用户可以轻松地上传音频、选择模型和语言、执行转录任务，下载各种格式的转录结果。

创建于: 2025-07-31 10:08:31

评论

0

暂无评论

说点什么呢~

收藏

0

0

0