‌ · “ 语音 识别 ” 的 智能 红利 如何 商业化 教育 、 车 联网 、 智能家居 、 可 穿戴 设备 是 目前 最 主要 的 垂直 应用领域 来源 : 南方 都市报 2015 年 11 月 04 日 版次 : GC 07 作者 : 蔡 辉 谢 睿 继 马云 年初 在 德国 刷 脸 支付 淘宝 后 , 上周 招商银行 也 推出 刷 脸 ATM 取款 。 相比 于 人脸 识别 、 指纹识别 等 生物 特征 在 金融 领域 大放异彩 , 语音 识别 则 不 温 不 火地 渗透 到 人们 的 生活 细节 中 。 10 月初 , 科大 讯飞 发布 客家话 版本 , 这是 其 第 14 种 地方 方言 ; 上周 , 出门 问问 则 获得 Google 的 C 轮 融资 , 这 也 是 Google 2010 年 退出 中国 后 第 一 笔 投资 。 从 语言学 角度 说 , 自然语言 包括 词法 、 语法 、 语义 、 语用 四 个 阶段 。 目前 语音 识别 从 词法 、 语法 的 理解 , 逐步 进入 多种 表达 方式 的 语义 阶段 。 如果 说 人脸 识别 让 安全 进入 生物 阶段 , 那么 语音 识别 则 让 人工智能 进入 感官 时代 。 真正 学会 主动 思考 的 机器人 时代 似乎 也 不 遥远 了 。 从 “ 听 得到 ” 到 “ 听 得 懂 ” 语音 识别 , 用 人类 比喻 就是 先用 耳朵 ( 前端 模块 ) 听 进去 , 然后 通过 大脑 ( 识别 系统 ) 理解 , 然后 再 通过 嘴巴 ( 后 端 解码 ) 表达 出来 。 耳朵 与 嘴巴 需要 的 是 灵敏度 , 而 大脑 则 需要 不断 训练 学习 。 关于 前端 , 汉王科技 常务 副 总裁 徐 冬 坚 告诉 南都 记者 : “ 这部分 难度 主要 在于 算法 , 因为 目前 的 语音 样本 主要 来自 于 移动 设备 , 都 是非 标准 的 、 自然 场景 的 。 ” 一般 情况 需要 信号处理 与 特征 处理 , 前者 去除 环境 噪音 , 后者 则 对 某些 特定 语言 进行 标注 , 从而 使 语言 成为 机器 能 理解 的 “ 信号 ” 。 标注 之后 就 进入 了 识别 系统 , 一 套 语音系统 包括 声学 模型 与 语言 模型 。 语言 模型 一般 采用 N-Gram 模型 , 就是 统计 每个 词 前面 的 单词 出现 的 概率 ; 声学 模型 主要 有 深度 网络 与 递进 网络 两 种 , 微信 、 科大 讯飞 、 出门 问问 都 采用 前者 , 和 人脑 类似 , 模型 中 的 神经元 获得 标注 后 , 对比 已有 的 标注 数据 , 通过 不断 反馈 错误 , 使得 每个 神经元 重新 学习 。 但 出门 问问 CTO 雷欣 告诉 南都 记者 , 深度学习 网络 需要 人工 标准 , “ 语音 分析 数据 人工 标注 只需 要 听懂 普通话 就 行 , 但 对于 语义 分析 的 一些 特定 任务 , 要求 语言学 研究生 以上 级别 , 这 导致 其 数据 标注 获取 十分 昂贵 。 ” 大量 数据 的 训练 也 是 语音 识别 的 门槛 之一 , 像 科大 讯飞 对 一 套 语言 系统 训练 至少 需要 2 万 小时 及 过 百 万 词汇量 , 没有 足够 的 样本量 也 无法 让 其 理解 语言 与 文字 之间 的 内在 关系 , 而 云 数据 就 在 这 里面 发挥 了 作用 。 “ 以前 的 识别 只能 是在 PC 或 嵌入式 的 设备 上 运行 , 现在 通过 云端 来 提供 服务 是 识别 技术 发展 的 必然 趋势 。 ” 徐 冬 坚 表示 , 汉王 向 语音 开发者 开放 API 接口 , 而 也 是 这些 云 平台 的 数据 让 语音 识别 变得 不 那么 “ 高大 上 ” 。 同时 , 一 套 语言 系统 更多 的 学习 还 在于 投入 应用 之后 。 这 也 能 有效 解决 方言 数据 不足 问题 , 比如说 科大 讯飞 10 月份 刚 上线 客家话 版本 , 但 实际上 客家话 方言 差异 很大 , 目前 只是 以 梅州 为主 音 , 在 未来 需要 用户反馈 去 优化 。 “ 目前 微软 人工智能 机器人 小冰 上线 一 年 多 , 一 开始 的 训练 数据 来自 必 应 的 搜索 大数据 , 而 现在 小冰 已经 实现 了 自我 成长 , 超过 50% 的 数据 量 来自 于 后期 用户 的 反馈 。 ” 微软 小冰 负责人 李 笛 告诉 南都 记者 , “ 同时 , 小冰 还 具有 情感 计算 的 能力 , 可以通过 用户 的 客观 档案 、 重要 时间 节点 以及 行为 习惯 三 方面 进行 采集 , 去 理解 每个 用户 的 不同 。 ” 说 比 听 容易 。 如果 “ 大脑 ” 能够 理解 , 解码 便 成 了 最 容易 的 事 。 像 小冰 还 听 不 懂 粤语 , 但 可以 根据 用户 的 定位 和 行为 习惯 表达 粤语 等 方言 俚语 。 根据 不同 场景 , 比如 作为 输入法 的 科大 讯飞 注重 口语翻译 文字 , 而 出门 问问 的 智能 手表 ticwatch 则 是 将 用户 搜索 内容 通过 发音 字典 “ 说 ” 出来 。 商业化 前景 一个 语音系统 经过 大量 工程师 、 语言学家 的 训练 推向 市场 , 就要 考虑 商业化 问题 。 “ 虽然 语音 不 像 人脸 、 指纹 一样 具有 唯一性 , 可 作为 金融 领域 等 的 身份 辨别 功能 , 但 语言 的 输入 与 交互 更加 自然 ” , 雷欣 如是 表示 。 目前 , 语音 识别 面向 消费者 的 应用 场景 主要 包括 翻译 文字 、 垂直 搜索 、 定向 推送 , 不同 互联网 公司 根据 其 需求 叠加 不同 服务 。 比如说 在 翻译 文字 上 , 搜索引擎 谷歌 、 百度 更 注重 网页翻译 , 阿里巴巴 注重 商品 信息 , 而 科大 讯飞 则 偏重 口语 ; 而 定向 推送 及 垂直 搜索 主要 是 根据 用户 的 上下文 关联 , 推送 更多 生活服务 , 比如 出门 问问 的 可 穿戴 设备 ticwatch 。 “ 一个 通用 的 语音 识别 引擎 ( 常见 的 输入法 ) 在 识别 某种 特定 领域 ( 如 垂直 类 生活服务 搜索 时 ) , 效果 不会 很 好 , 这 需要 特定 声音 模型 与 语音 模型 的 训练 。 ” 雷欣 举例 说 , “ 比如 ‘ 帮 我 找 一下 附近 的 酒店 , 3 星级 以上 , 带 WIFI , 今晚 入住 , 明天 退 房 ’ , 这 需要 理解 用户 核心 需求 找 酒店 以及 其他 关键 信息 。 ” 在 长 时间 训练 下 , 语音 识别 系统 可以 从 理解 语法 到 理解 语义 , 应用 于 更多 垂直 行业 领域 — — — 教育 、 车 联网 、 智能家居 是 多家 语音 平台 提到 的 最 主要 的 垂直 应用领域 。 比如 科大 讯飞 介入 普通话 考试 以及 汽车 互联网 服务 等 领域 ; 而 汉王 则 结合 其 OCR 识别 ( 手写 与 文字 识别 ) , 来 表达 公式 、 图像 等 教育 内容 。 比如 车 联网 , “ 语音 可以 实现 盲 操作 , 不会 分散 司机 注意力 , 比起 图像 更 适用 于 高速 驾驶 状态 ” , 达 晨 创投 南区 TMT 投资 总经理 程 仁 田 告诉 南都 记者 , 但 实现 车 联网 的 前提 是 硬件 上 要 先 有 联网 功能 。 “ 人脸 可以 作为 身份 辨别 , 但 语言 却是 人工智能 的 感官 系统 。 ” 微软 ( 亚洲 ) 互联网 工程院 院长 王永 东 告诉 南都 记者 , “ 人工智能 助理 小 娜 属于 有用 的 工具 阶段 , 这 也 是 目前 语音 识别 最 广泛 的 应用领域 , 而 小冰 希望 通过 情感 学习 成为 ‘ 可 信任 ’ 的 朋友 。 你 可以 发现 现在 的 语言 输入 基本 是 命令式 的 , 而 不是 真正 的 交互式 。 ” “ 如果 它 能 取得 用户 信任 , 理解 用户 的 喜好 , 它 的 商业 价值 就 更 明显 , 比如说 电商 推荐 。 ” 王永 东 说 , 目前 小冰 肯定 不 考虑 商业化 问题 。 “ 谁 喜欢 一个 没 多 熟 , 还 天天 ‘ 安利 ’ 的 朋友 啊 ! ” 本版 采写 : 南都 记者 蔡 辉 谢 睿 scrollRightsReserved