FireRedASR-App 是基于 FireRedASR 语音识别系统开发的桌面应用套件,专为普通用户设计,提供完整的语音转文字和文本校对解决方案。
本项目包含两个独立的桌面应用:
- ASR Refine Tools - 语音识别与优化工具 - 整合了FireRedASR以及长语音分段,以及外接LLM校对
- ProofReader - 校对审核助手
暂且仅支持linux系统
- 零门槛使用:图形化界面,无需命令行操作 (Coming Soon)
- 端到端流程:从音频到精确文本的完整工作流
- 智能优化:集成 GPT-5 系列大语言模型进行文本优化
- 高效校对:可视化编辑界面,快捷键操作
- 操作系统:Ubuntu 20.04+
- 硬件要求:
- CPU:8核心以上推荐
- 内存:16GB 以上
- 详见
FireRedASR Readme.md - 存储:至少 20GB 可用空间
Ubuntu/Debian:
sudo apt update && sudo apt install -y \
build-essential curl wget git \
libwebkit2gtk-4.1-dev \
libssl-dev libgtk-3-dev \
libayatana-appindicator3-dev \
librsvg2-dev \
ffmpeg \
python3-pip python3-venv# 安装 Node.js 18+(如果未安装)
curl -fsSL https://deb.nodesource.com/setup_18.x | sudo -E bash -
sudo apt-get install -y nodejs
# 安装 Rust(如果未安装)
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env
# 验证安装
node --version # 应显示 v18.x.x 或更高
npm --version # 应显示 9.x.x 或更高
rustc --version # 应显示 1.70.0 或更高
ffmpeg -version # 应显示版本信息# 克隆项目
git clone https://github.com/yourusername/FireRedASR.git
cd FireRedASR
# 创建 Python 虚拟环境
conda create --name fireredasr python=3.10
conda activate fireredasr
# 安装 Python 依赖
pip install -r requirements.txt
# 设置环境变量
export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH
export PYTHONPATH=$PWD/:$PYTHONPATH从 Hugging Face 下载模型文件:
# 创建模型目录
mkdir -p pretrained_models
# 下载 AED 模型(推荐,平衡性能)
git lfs clone https://huggingface.co/fireredteam/FireRedASR-AED-L pretrained_models/FireRedASR-AED-L
# 或下载 LLM 模型(最高精度,需要更多资源)
git lfs clone https://huggingface.co/fireredteam/FireRedASR-LLM-L pretrained_models/FireRedASR-LLM-L
git lfs clone https://huggingface.co/Qwen/Qwen2-7B-Instruct pretrained_models/Qwen2-7B-Instruct
# 如果使用 LLM 模型,创建符号链接
cd pretrained_models/FireRedASR-LLM-L
ln -s ../Qwen2-7B-Instruct .
cd ../..# 进入应用目录
cd asr-refine-tools
# 安装依赖
npm install
# 开发模式运行(用于测试)
npm run tauri dev
# 构建生产版本
npm run tauri build
# 构建产物位置
# Linux: src-tauri/target/release/bundle/deb/
# Windows: src-tauri/target/release/bundle/nsis/
# macOS: src-tauri/target/release/bundle/dmg/# 进入应用目录
cd ../proof-reader
# 安装依赖
npm install
# 开发模式运行
npm run tauri dev
# 构建生产版本(使用构建脚本)
./build.sh all # 构建所有平台
./build.sh linux # 仅构建 Linux
./build.sh windows # 仅构建 Windows
# 或使用 npm 命令
npm run tauri:build:linux # Linux DEB 包
npm run tauri:build:windows # Windows EXE
# 构建产物位置(注意:在 proof-reader 目录下,不是 src-tauri)
# Linux: target/x86_64-unknown-linux-gnu/release/bundle/deb/
# Windows: target/x86_64-pc-windows-gnu/release/bundle/nsis/ 或 target/x86_64-pc-windows-gnu/release/proof-reader.exe
# macOS: target/release/bundle/dmg/ASR Refine Tools 提供完整的三阶段语音处理流程:
-
阶段一:音频处理与识别
- 批量音频格式转换(自动转为 16kHz 单声道 WAV)
- FireRedASR 语音识别处理
- 实时进度显示和日志输出
- 支持多种音频格式(MP3、M4A、AAC、FLAC 等)
-
阶段二:LLM 智能优化
- 使用 GPT-5 系列模型优化识别结果(仅支持 GPT-5、GPT-5-mini、GPT-5-nano)
- 自定义提示词模板编辑器
- 批量处理支持
- XML 格式编辑追踪,完全透明
-
阶段三:人工校对
- 可视化编辑界面
- 快捷键快速决策
- 支持接受原文、接受建议或自定义修改
- 多格式导出(Markdown、纯文本、HTML)
步骤 1:准备音频文件
# 将音频文件放入指定目录
cp your_audio_files/* asr-refine-tools/src-tauri/src/data/raw_audio/
# 或在应用内使用"导入音频"功能步骤 2:运行音频处理
- 启动应用,进入"阶段一"
- 选择处理模式:
- 仅格式化:只转换音频格式
- 仅 ASR:对已格式化音频进行识别
- 完整处理:格式化 + ASR
- 点击"处理所有音频"
- 等待处理完成
步骤 3:LLM 优化(可选)
- 进入"阶段二"
- 配置 API:
API Key: sk-xxxxx(你的 OpenAI API Key) 模型:GPT-5 / GPT-5-mini / GPT-5-nano - 编辑提示词模板(可选)
- 选择处理模式:
- 处理未处理文件
- 处理所有文件
- 点击"处理 X 个文件"
步骤 4:人工校对
- 进入"阶段三"
- 打开优化后的文件
- 使用快捷键进行校对:
A:接受原始文本S:接受 AI 建议D:输入自定义修改←/→:切换编辑项Ctrl+S:保存进度
- 导出最终文档
- 分屏设计:左侧文档预览,右侧编辑面板
- 颜色编码:
- 🟡 黄色:未决定的编辑
- 🔴 红色:选择原始文本
- 🔵 蓝色:选择 AI 建议
- 🟣 紫色:自定义修改
- 持久化存储:所有决策自动保存
- 断点续审:支持随时暂停和恢复
- 灵活导出:支持多种格式和样式
| 快捷键 | 功能 |
|---|---|
Ctrl+O |
接受原始文本 |
Ctrl+P |
接受 AI 建议 |
Ctrl+Enter |
应用自定义修改 |
←/→ |
导航编辑项 |
C |
聚焦自定义输入框 |
Space |
接受建议并前进 |
Ctrl+Plus |
放大文档 |
Ctrl+Minus |
缩小文档 |
Ctrl+0 |
重置缩放 |
Ctrl+S |
保存进度 |
FireRedASR/
├── fireredasr/ # FireRedASR 核心代码
├── pretrained_models/ # 预训练模型文件
├── asr-refine-tools/ # ASR 优化工具
│ ├── src/ # React 前端代码
│ ├── src-tauri/ # Rust 后端代码
│ │ └── src/data/ # 数据目录
│ │ ├── raw_audio/ # 原始音频文件
│ │ ├── formatted_audio/ # 格式化后的音频
│ │ ├── asr_output/ # ASR 识别结果
│ │ └── AI_pruned_asr_output/ # LLM 优化结果
│ └── package.json
└── proof-reader/ # 校对工具
├── src/ # React 前端代码
├── src-tauri/ # Rust 后端代码
└── package.json
注意:目前仅支持 OpenAI GPT-5 系列模型
OpenAI GPT-5 配置:
{
api_key: "sk-xxxxx",
model: "gpt-5", // 或 "gpt-5-mini", "gpt-5-nano"
reasoning_effort: "high" // 推理强度
}支持的模型:
gpt-5:最强能力,最高精度gpt-5-mini:平衡性能和成本gpt-5-nano:快速响应,成本最低
# 自动加载 OpenAI API Key
export OPENAI_API_KEY="your-api-key-here"
# 使用 conda 环境
conda activate fireredasr检查项:
- 确认所有系统依赖已安装
- Node.js 版本是否为 18+
- Rust 是否正确安装:
rustc --version - 重新运行
npm install
解决方案:
# Linux
sudo apt install ffmpeg
# macOS
brew install ffmpeg
# Windows
# 从官网下载并添加到 PATH可能原因:
- FireRedASR 未正确安装
- Python 环境缺少依赖(特别是
kaldiio) - 模型文件不存在或路径错误
- GPU 内存不足
解决步骤:
# 激活 conda 环境
conda activate fireredasr
# 重新安装依赖
pip install -r requirements.txt
# 验证模型文件
ls -la pretrained_models/检查:
- API Key 是否正确
- 网络连接是否正常
- API 额度是否充足
- 对于本地模型,确认服务器已启动
确认文件位置:
# Linux/macOS
~/.local/share/com.realmer.asr-refine-tools/AI_pruned_asr_output/
# Windows
%APPDATA%\com.realmer.asr-refine-tools\AI_pruned_asr_output\-
音频准备:
- (可选)使用高质量录音(采样率 ≥16kHz)
- (可选)避免背景噪音
-
模型选择:
- FireRedASR-AED:适合大多数场景,资源占用少
- FireRedASR-LLM:追求最高精度,需要更多 GPU 内存
-
LLM 优化:
- 根据内容类型调整提示词
- 对专业术语较多的内容,提供领域相关提示
- 批量处理时保持文件长度相近
-
校对技巧:
- 使用键盘快捷键提高效率
- 定期保存进度(Ctrl+S)
- 对不确定的修改,可以先跳过
- 前端:React + TypeScript + Vite
- 后端:Rust + Tauri 2.0
- 语音识别:FireRedASR(PyTorch)
- UI 框架:Tauri(跨平台桌面应用)
- 状态管理:Zustand
- Markdown 编辑:SimpleMDE / React-Markdown
欢迎提交 Issue 和 Pull Request!
提交前请确保:
- 添加必要的注释
- 更新相关文档
本项目基于 FireRedASR 项目,遵循相同的许可条款。详见主项目仓库。
- 提交 GitHub Issue
由 FireRed Team 开发 | 专注于中文语音识别技术

