‌ · “ 语音 识别 ” 的 智能 红利 如何 商业化 教育 、 车 联网 、 智能家居 、 可 穿戴 设备 是 目前 最 主要 的 垂直 应用领域 来源 ： 南方 都市报 2015 年 11 月 04 日 版次 ： GC 07 作者 ： 蔡 辉 谢 睿 继 马云 年初 在 德国 刷 脸 支付 淘宝 后 ， 上周 招商银行 也 推出 刷 脸 ATM 取款 。 
相比 于 人脸 识别 、 指纹识别 等 生物 特征 在 金融 领域 大放异彩 ， 语音 识别 则 不 温 不 火地 渗透 到 人们 的 生活 细节 中 。 
10 月初 ， 科大 讯飞 发布 客家话 版本 ， 这是 其 第 14 种 地方 方言 ； 上周 ， 出门 问问 则 获得 Google 的 C 轮 融资 ， 这 也 是 Google 2010 年 退出 中国 后 第 一 笔 投资 。 
从 语言学 角度 说 ， 自然语言 包括 词法 、 语法 、 语义 、 语用 四 个 阶段 。 
目前 语音 识别 从 词法 、 语法 的 理解 ， 逐步 进入 多种 表达 方式 的 语义 阶段 。 
如果 说 人脸 识别 让 安全 进入 生物 阶段 ， 那么 语音 识别 则 让 人工智能 进入 感官 时代 。 
真正 学会 主动 思考 的 机器人 时代 似乎 也 不 遥远 了 。 
从 “ 听 得到 ” 到 “ 听 得 懂 ” 语音 识别 ， 用 人类 比喻 就是 先用 耳朵 ( 前端 模块 ) 听 进去 ， 然后 通过 大脑 ( 识别 系统 ) 理解 ， 然后 再 通过 嘴巴 ( 后 端 解码 ) 表达 出来 。 
耳朵 与 嘴巴 需要 的 是 灵敏度 ， 而 大脑 则 需要 不断 训练 学习 。 
关于 前端 ， 汉王科技 常务 副 总裁 徐 冬 坚 告诉 南都 记者 ： “ 这部分 难度 主要 在于 算法 ， 因为 目前 的 语音 样本 主要 来自 于 移动 设备 ， 都 是非 标准 的 、 自然 场景 的 。 
” 一般 情况 需要 信号处理 与 特征 处理 ， 前者 去除 环境 噪音 ， 后者 则 对 某些 特定 语言 进行 标注 ， 从而 使 语言 成为 机器 能 理解 的 “ 信号 ” 。 
标注 之后 就 进入 了 识别 系统 ， 一 套 语音系统 包括 声学 模型 与 语言 模型 。 
语言 模型 一般 采用 N-Gram 模型 ， 就是 统计 每个 词 前面 的 单词 出现 的 概率 ； 声学 模型 主要 有 深度 网络 与 递进 网络 两 种 ， 微信 、 科大 讯飞 、 出门 问问 都 采用 前者 ， 和 人脑 类似 ， 模型 中 的 神经元 获得 标注 后 ， 对比 已有 的 标注 数据 ， 通过 不断 反馈 错误 ， 使得 每个 神经元 重新 学习 。 
但 出门 问问 CTO 雷欣 告诉 南都 记者 ， 深度学习 网络 需要 人工 标准 ， “ 语音 分析 数据 人工 标注 只需 要 听懂 普通话 就 行 ， 但 对于 语义 分析 的 一些 特定 任务 ， 要求 语言学 研究生 以上 级别 ， 这 导致 其 数据 标注 获取 十分 昂贵 。 
” 大量 数据 的 训练 也 是 语音 识别 的 门槛 之一 ， 像 科大 讯飞 对 一 套 语言 系统 训练 至少 需要 2 万 小时 及 过 百 万 词汇量 ， 没有 足够 的 样本量 也 无法 让 其 理解 语言 与 文字 之间 的 内在 关系 ， 而 云 数据 就 在 这 里面 发挥 了 作用 。 
“ 以前 的 识别 只能 是在 PC 或 嵌入式 的 设备 上 运行 ， 现在 通过 云端 来 提供 服务 是 识别 技术 发展 的 必然 趋势 。 
” 徐 冬 坚 表示 ， 汉王 向 语音 开发者 开放 API 接口 ， 而 也 是 这些 云 平台 的 数据 让 语音 识别 变得 不 那么 “ 高大 上 ” 。 
同时 ， 一 套 语言 系统 更多 的 学习 还 在于 投入 应用 之后 。 
这 也 能 有效 解决 方言 数据 不足 问题 ， 比如说 科大 讯飞 10 月份 刚 上线 客家话 版本 ， 但 实际上 客家话 方言 差异 很大 ， 目前 只是 以 梅州 为主 音 ， 在 未来 需要 用户反馈 去 优化 。 
“ 目前 微软 人工智能 机器人 小冰 上线 一 年 多 ， 一 开始 的 训练 数据 来自 必 应 的 搜索 大数据 ， 而 现在 小冰 已经 实现 了 自我 成长 ， 超过 50% 的 数据 量 来自 于 后期 用户 的 反馈 。 
” 微软 小冰 负责人 李 笛 告诉 南都 记者 ， “ 同时 ， 小冰 还 具有 情感 计算 的 能力 ， 可以通过 用户 的 客观 档案 、 重要 时间 节点 以及 行为 习惯 三 方面 进行 采集 ， 去 理解 每个 用户 的 不同 。 
” 说 比 听 容易 。 
如果 “ 大脑 ” 能够 理解 ， 解码 便 成 了 最 容易 的 事 。 
像 小冰 还 听 不 懂 粤语 ， 但 可以 根据 用户 的 定位 和 行为 习惯 表达 粤语 等 方言 俚语 。 
根据 不同 场景 ， 比如 作为 输入法 的 科大 讯飞 注重 口语翻译 文字 ， 而 出门 问问 的 智能 手表 ticwatch 则 是 将 用户 搜索 内容 通过 发音 字典 “ 说 ” 出来 。 
商业化 前景 一个 语音系统 经过 大量 工程师 、 语言学家 的 训练 推向 市场 ， 就要 考虑 商业化 问题 。 
“ 虽然 语音 不 像 人脸 、 指纹 一样 具有 唯一性 ， 可 作为 金融 领域 等 的 身份 辨别 功能 ， 但 语言 的 输入 与 交互 更加 自然 ” ， 雷欣 如是 表示 。 
目前 ， 语音 识别 面向 消费者 的 应用 场景 主要 包括 翻译 文字 、 垂直 搜索 、 定向 推送 ， 不同 互联网 公司 根据 其 需求 叠加 不同 服务 。 
比如说 在 翻译 文字 上 ， 搜索引擎 谷歌 、 百度 更 注重 网页翻译 ， 阿里巴巴 注重 商品 信息 ， 而 科大 讯飞 则 偏重 口语 ； 而 定向 推送 及 垂直 搜索 主要 是 根据 用户 的 上下文 关联 ， 推送 更多 生活服务 ， 比如 出门 问问 的 可 穿戴 设备 ticwatch 。 
“ 一个 通用 的 语音 识别 引擎 ( 常见 的 输入法 ) 在 识别 某种 特定 领域 ( 如 垂直 类 生活服务 搜索 时 ) ， 效果 不会 很 好 ， 这 需要 特定 声音 模型 与 语音 模型 的 训练 。 
” 雷欣 举例 说 ， “ 比如 ‘ 帮 我 找 一下 附近 的 酒店 ， 3 星级 以上 ， 带 WIFI ， 今晚 入住 ， 明天 退 房 ’ ， 这 需要 理解 用户 核心 需求 找 酒店 以及 其他 关键 信息 。 
” 在 长 时间 训练 下 ， 语音 识别 系统 可以 从 理解 语法 到 理解 语义 ， 应用 于 更多 垂直 行业 领域 — — — 教育 、 车 联网 、 智能家居 是 多家 语音 平台 提到 的 最 主要 的 垂直 应用领域 。 
比如 科大 讯飞 介入 普通话 考试 以及 汽车 互联网 服务 等 领域 ； 而 汉王 则 结合 其 OCR 识别 ( 手写 与 文字 识别 ) ， 来 表达 公式 、 图像 等 教育 内容 。 
比如 车 联网 ， “ 语音 可以 实现 盲 操作 ， 不会 分散 司机 注意力 ， 比起 图像 更 适用 于 高速 驾驶 状态 ” ， 达 晨 创投 南区 TMT 投资 总经理 程 仁 田 告诉 南都 记者 ， 但 实现 车 联网 的 前提 是 硬件 上 要 先 有 联网 功能 。 
“ 人脸 可以 作为 身份 辨别 ， 但 语言 却是 人工智能 的 感官 系统 。 
” 微软 ( 亚洲 ) 互联网 工程院 院长 王永 东 告诉 南都 记者 ， “ 人工智能 助理 小 娜 属于 有用 的 工具 阶段 ， 这 也 是 目前 语音 识别 最 广泛 的 应用领域 ， 而 小冰 希望 通过 情感 学习 成为 ‘ 可 信任 ’ 的 朋友 。 
你 可以 发现 现在 的 语言 输入 基本 是 命令式 的 ， 而 不是 真正 的 交互式 。 
” “ 如果 它 能 取得 用户 信任 ， 理解 用户 的 喜好 ， 它 的 商业 价值 就 更 明显 ， 比如说 电商 推荐 。 
” 王永 东 说 ， 目前 小冰 肯定 不 考虑 商业化 问题 。 
“ 谁 喜欢 一个 没 多 熟 ， 还 天天 ‘ 安利 ’ 的 朋友 啊 ！ 
” 本版 采写 ： 南都 记者 蔡 辉 谢 睿 scrollRightsReserved