Voice Studio: 文字<->语音转换

Audio

ASR

TTS

Streamlit

MLX

Author

Tony D

Published

January 22, 2026

一个强大且美观的 Streamlit 应用，集成了 自动语音识别 (ASR) 和 文本转语音 (TTS) 功能。本项目旨在提供一个便捷的平台，用于对比 NVIDIA、Google 的前沿云端模型与本地 MLX 优化模型的表现。

在线演示

https://jcwinning-speech-text-model.share.connect.posit.cloud/

✨ 核心功能

🎤 语音转文字 (STT)

Google Gemini 2.5 Flash Lite: 通过 OpenRouter 提供的高速、精准云端转写。
NVIDIA Parakeet-CTC: 行业领先的 ASR 性能，基于 NVIDIA Riva Cloud。
本地 MLX 模型: 专为 Apple Silicon 优化的本地私密转写。
- GLM-ASR-Nano: 轻量、高效。
- Whisper-Large-v3-Turbo: 行业顶尖、高精度的转写模型。
双输入模式: 支持实时麦克风录音或上传音频文件（WAV, MP3, M4A）。
即时显示: 结果在每个模型完成时立即显示，无需等待所有模型。
自动归一化: 自动将音频转换为 16kHz 单声道 WAV，确保最高识别准确度。
结果下载: 支持将每个模型的转写结果保存为本地 .md 文件。

🔊 文本转语音 (TTS)

Qwen TTS (DashScope): 阿里通义千问提供的自然语音合成，内置 7 种性格各异的声音。
NVIDIA Riva (Magpie): 专业级多语言合成，采用最新的 Magpie-Multilingual 模型。
动态声音选择: 提供丰富的中文（普通话）和英文发音人选项。

🚀 快速上手

环境要求

Python 3.10+
Apple Silicon (若需使用本地 MLX 功能)
API 密钥:

安装步骤

克隆仓库:
```
git clone <repository-url>
cd ARS
```
安装依赖:
```
pip install -r requirements.txt
```

在项目根目录创建 .env 文件并填入密钥:

OPENROUTER_API_KEY=你的密钥
DASHSCOPE_API_KEY=你的密钥
NVIDIA_API_KEY=你的密钥

运行应用

streamlit run app.py

☁️ 云端部署

本项目已针对 Streamlit Cloud 进行预配置： - 自动检测运行环境，在云端部署时禁用本地模型 (MLX) 以确保系统稳定。 - API 密钥可以通过 Streamlit 的 “Secrets” 面板进行安全管理。

🛠️ 技术栈

界面: Streamlit
本地推理: MLX (针对 Mac M 芯片优化)
云端服务: NVIDIA Riva, OpenRouter (Gemini), 阿里云 DashScope (Qwen)
音频处理: Wave, SoundFile, Streamlit Mic Recorder

--- title: "Voice Studio: 文字<->语音转换" author: "Tony D" date: "2026-01-22" categories: [AI, Audio, ASR, TTS, Streamlit, MLX] image: "images/featured.png" format: html: code-fold: true code-tools: true code-copy: true execute: warning: false --- 一个强大且美观的 Streamlit 应用，集成了 **自动语音识别 (ASR)** 和 **文本转语音 (TTS)** 功能。本项目旨在提供一个便捷的平台，用于对比 NVIDIA、Google 的前沿云端模型与本地 MLX 优化模型的表现。 ::: {.panel-tabset} ## 语音转文字 (STT) 界面 ![](images/my screenshots 3.png) ## 文字转语音 (TTS) 界面 ![](images/my screenshots 2.png) ::: ## 在线演示 [https://jcwinning-speech-text-model.share.connect.posit.cloud/](https://jcwinning-speech-text-model.share.connect.posit.cloud/) ## ✨ 核心功能 ### 🎤 语音转文字 (STT) - **Google Gemini 2.5 Flash Lite**: 通过 OpenRouter 提供的高速、精准云端转写。 - **NVIDIA Parakeet-CTC**: 行业领先的 ASR 性能，基于 NVIDIA Riva Cloud。 - **本地 MLX 模型**: 专为 Apple Silicon 优化的本地私密转写。 - **GLM-ASR-Nano**: 轻量、高效。 - **Whisper-Large-v3-Turbo**: 行业顶尖、高精度的转写模型。 - **双输入模式**: 支持实时麦克风录音或上传音频文件（WAV, MP3, M4A）。 - **即时显示**: 结果在每个模型完成时立即显示，无需等待所有模型。 - **自动归一化**: 自动将音频转换为 16kHz 单声道 WAV，确保最高识别准确度。 - **结果下载**: 支持将每个模型的转写结果保存为本地 `.md` 文件。 ### 🔊 文本转语音 (TTS) - **Qwen TTS (DashScope)**: 阿里通义千问提供的自然语音合成，内置 7 种性格各异的声音。 - **NVIDIA Riva (Magpie)**: 专业级多语言合成，采用最新的 Magpie-Multilingual 模型。 - **动态声音选择**: 提供丰富的中文（普通话）和英文发音人选项。 ## 🚀 快速上手 ### 环境要求 - Python 3.10+ - Apple Silicon (若需使用本地 MLX 功能) - API 密钥: - [OpenRouter](https://openrouter.ai/) - [NVIDIA NIM](https://build.nvidia.com/) - [阿里云 DashScope](https://dashscope.console.aliyun.com/) ### 安装步骤 1. 克隆仓库: ```bash git clone <repository-url> cd ARS ``` 2. 安装依赖: ```bash pip install -r requirements.txt ``` 3. 在项目根目录创建 `.env` 文件并填入密钥: ```env OPENROUTER_API_KEY=你的密钥 DASHSCOPE_API_KEY=你的密钥 NVIDIA_API_KEY=你的密钥 ``` ### 运行应用 ```bash streamlit run app.py ``` ## ☁️ 云端部署本项目已针对 **Streamlit Cloud** 进行预配置： - 自动检测运行环境，在云端部署时禁用本地模型 (MLX) 以确保系统稳定。 - API 密钥可以通过 Streamlit 的 "Secrets" 面板进行安全管理。 ## 🛠️ 技术栈 - **界面**: Streamlit - **本地推理**: MLX (针对 Mac M 芯片优化) - **云端服务**: NVIDIA Riva, OpenRouter (Gemini), 阿里云 DashScope (Qwen) - **音频处理**: Wave, SoundFile, Streamlit Mic Recorder ---