| 会员登录 立即注册

打印 上一主题 下一主题

使用 DeepSpeech 在你的应用中实现语音转文字

[复制链接]
跳转到指定楼层
楼主
3AAA 发表于 2022-2-3 10:24:04 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
楼主
3AAA
2022-2-3 10:24:04 4780 3 看楼主

应用中的语音识别不仅仅是一个有趣的技巧,而且是一个重要的无障碍功能。



计算机的主要功能之一是解析数据。有些数据比其他数据更容易解析,而语音输入仍然是一项进展中的工作。不过,近年来该领域已经有了许多改进,其中之一就是 DeepSpeech,这是 Mozilla 的一个项目,Mozilla 是维护 Firefox 浏览器的基金会。DeepSpeech 是一个语音到文本的命令和库,使其对需要将语音输入转化为文本的用户和希望为其应用提供语音输入的开发者都很有用。

安装 DeepSpeech


DeepSpeech 是开源的,使用 Mozilla 公共许可证(MPL)发布。你可以从其 GitHub页面下载源码。

要安装,首先为 Python 创建一个虚拟环境:
$ python3 -m pip install deepspeech --user
DeepSpeech 依靠的是机器学习。你可以自己训练它,但最简单的是在刚开始时下载预训练的模型文件。
$ mkdir DeepSpeech$ cd Deepspeech$ curl -LO \  https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm$ curl -LO \  https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer

用户应用


通过 DeepSpeech,你可以将语音的录音转录成书面文字。你可以从在最佳条件下干净录制的语音中得到最好的结果。然而,在紧要关头,你可以尝试任何录音,你可能会得到一些你需要手动转录的东西。

为了测试,你可以录制一个包含简单短语的音频文件:“This is a test. Hello world, this is a test”。将音频保存为一个 .wav文件,名为hello-test.wav。

在你的 DeepSpeech 文件夹中,通过提供模型文件、评分器文件和你的音频启动一个转录:
$ deepspeech --model deepspeech*pbmm \  --scorer deepspeech*scorer \  --audio hello-test.wav
输出到标准输出(你的终端):
this is a test hello world this is a test
你可以通过使用 --json选项获得 JSON 格式的输出:
$ deepspeech --model deepspeech*pbmm \  -- json  --scorer deepspeech*scorer \  --audio hello-test.wav
这就把每个词和时间戳一起渲染出来:
{  "transcripts": [    {      "confidence": -42.7990608215332,      "words": [        {          "word": "this",          "start_time": 2.54,          "duration": 0.12        },        {          "word": "is",          "start_time": 2.74,          "duration": 0.1        },        {          "word": "a",          "start_time": 2.94,          "duration": 0.04        },        {          "word": "test",          "start_time": 3.06,          "duration": 0.74        },[...]

开发者


DeepSpeech 不仅仅是一个转录预先录制的音频的命令。你也可以用它来实时处理音频流。GitHub 仓库 DeepSpeech-examples中有 JavaScript、Python、C# 和用于 Android 的 Java 等各种代码。

大部分困难的工作已经完成,所以集成 DeepSpeech 通常只是引用 DeepSpeech 库,并知道如何从主机设备上获得音频(你通常通过 Linux 上的 /dev文件系统或 Android 和其他平台上的 SDK 来完成。)

语音识别


作为一个开发者,为你的应用启用语音识别不只是一个有趣的技巧,而是一个重要的无障碍功能,它使你的应用更容易被有行动问题的人、低视力的人和长期多任务处理的人使用。作为用户,DeepSpeech 是一个有用的转录工具,可以将音频文件转换为文本。无论你的使用情况如何,请尝试 DeepSpeech,看看它能为你做什么。

via: https://opensource.com/article/22/1/voice-text-mozilla-deepspeech

作者:Seth Kenlon选题:lujun9972译者:geekpi校对:wxy

本文由 LCTT原创编译,Linux中国荣誉推出
回复

使用道具 举报

沙发
明星97SHOW 发表于 2022-2-3 10:25:01 | 只看该作者
沙发
明星97SHOW
2022-2-3 10:25:01 看楼主
中文能识别么?
回复 支持 反对

使用道具 举报

板凳
zhongdafanbo 发表于 2022-2-3 10:26:18 | 只看该作者
板凳
zhongdafanbo
2022-2-3 10:26:18 看楼主
虽然没用过,但国外的这类工具在中文方面都是玩具。
回复 支持 反对

使用道具 举报

地板
骚年纯情不滥情 发表于 2022-2-3 10:26:44 | 只看该作者
转发了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 返回列表

3AAA 当前离线
白银会员

查看:4780 | 回复:3

关于我们  |   侵权投诉受理  |   联系我们  |   Archiver  |  
免责声明:邳州信息网所有言论只代表发表者个人观点,与本站无关
Copyright © 2009-2025 pzxxw.com 版权所有:邳州金银杏文化传媒有限公司  

苏公网安备 32038202000401号

快速回复 返回顶部 返回列表