AmicoScript - 懒猫应用商店

应用描述

## 功能特性 - 🎧 **音频/视频转录** — 支持 MP3、WAV、M4A、OGG、FLAC、MP4、MOV、MKV 等格式 - 📚 **批量处理** — 支持同时上传多个文件批量转录 - 🧠 **多级 Whisper 模型** — 从 tiny（~39M）到 large-v3（~1.5B），灵活选择精度与速度 - 🗣️ **说话人分离** — 基于 pyannote 的说话人识别（需 HuggingFace Token） - 🤖 **AI 分析** — 摘要、行动要点、翻译、自定义提示词（支持 Ollama / OpenAI 兼容 API） - 🌍 **实时英文翻译** — 转录时可同步翻译为英文 - 🔍 **全文检索** — 基于 SQLite FTS5 的全局搜索 - 🗂️ **文件夹和标签** — 灵活组织和管理转录内容 - ✏️ **逐段编辑** — 修正转录结果 - 📤 **多格式导出** — JSON、SRT、TXT、Markdown - ⌨️ **快捷键** — 快速导航和操作 ### 使用方法 1. 确保顶部导航停留在 **Transcribe** 选项卡，把音频文件拖入 **Drop files or a folder here** 区域（也可点击 browse files 选择） 2. 在左侧面板选择 Whisper 模型（推荐首次使用 `Small` 平衡速度和准确性） 3. 按需设置语言（默认 Auto-detect）或开启说话人分离（Speaker diarization） 4. 点击主区域底部的 **Start transcription** 按钮开始转录 5. 留意底栏 **CONSOLE** 的进度，完成后转录结果将在 **Transcript** 选项卡中展示 ### 配置说话人分离（可选）说话人分离（Diarization）功能需要 HuggingFace Token： 1. 可在左侧“SPEAKERS”中打开 2. 对应填写HF API Key 3. 首次使用会自动下载 pyannote 模型（约 100MB）注意：此功能需要结合小猪佩奇使用，请确保网络可访问 #### 配置LM SETTINGS（可选） 1. 在 **Transcript** 选项卡的左侧栏找到 **LLM SETTINGS** 2. **Base URL** 填入：`https://ollama-ai.<boxname>.heiyu.space`或`https://api.deepseek.com/v1`等API url 3. **Model** 填入：`qwen3:14b`（或按需选择其他模型，可点击 Browse 选择） 4. **API Key (optional)** 对应配置API Key 5. 点击 **Test Connection** 验证连接 ⚠️注意：| 纯音乐/歌曲转录效果差 | Whisper 专为语音识别设计，无法识别纯音乐，甚至在转录带有强烈伴奏的歌曲时可能会出现漏词或完全无输出（Segments: 0） | 音频转录 | 建议上传以人声对话、演讲、会议为主的音频 |

懒猫评分/评论

0.0

0 条评论

此 App 尚未收到足够的评分或评论，无法显示评论列表。

应用信息