张 兰 《 人民日报 海外版 》 ( 2016 年 11 月 29 日第 07 版 )     资料图片     将 电视机 调 成 “ 静音 ” 模式 后 , 你 能 “ 看 懂 ” 主持人 说 的 话 吗 ? 在 这个 情景 之内 , 你 或许 感觉 这是 一个 游戏 , 但 “ 唇 读 ” 已 伴随 人工智能 越来越 精准 。     据 BBC 报道 , 谷歌 最近 与 英国牛津大学 合作 开发 了 一 套 唇 读 软件 , 通过 收看 数千 小时 BBC 的 电视节目 来 开启 唇 读 功能 。 -- 她 熟练 高超 的 唇 读 技术 , 让 人 很 难 发现 她 是 一名 耳聋 者 。     值得一提 的 是 , 谷歌 的 人工智能 唇 读 软件 , 学习 了 BBC 一 系列 的 电视节目 , 所有 视频资料 加 起来 约有 11.8 万 句 话 , 经过 了 约 5000 小时 的 训练 , 便 迅速 掌握 了 唇 读 技能 。 研究人员 用 人工智能 软件 对 电视节目 嘉宾 进行 唇 语 解读 , 准确率 为 46.8% , 而 专业 的 唇 语 专家 在 接受 同样 的 测试 时 , 准确率 仅 为 12.4% 。     无独有偶 , 牛津大学 的 另 一 独立 小组 也 于 不久前 开发 了 一 款 类似 的 人工智能 唇 读 软件 , 在 测试 中 达到 了 93.4 % 的 准确率 , 而 人类 的 准确率 仅 为 52.3 % 。 但 该 测试 所用 的 材料 均 为 志愿者 事先 录制 好 的 固定 句子 , 没有 任何 复杂 的 事件 背景 可言 。 以 测试 视频 当中 的 单词 为 例 , 这 款 类似 的 人工智能 唇 读 的 软件 中 有 51 个 特殊 词汇 , 而 此次 谷歌 选取 的 BBC 节目 数据库 却 包含 了 惊人 的 17500 个 特殊 词汇 。 在 没有 任何 背景 介绍 的 情况 下 直接 对 BBC 节目 的 嘉宾 进行 唇 语 解读 , 如果 完全 采用 人工 , 工作量 之 大 无法 想象 , 因此 对于 人工智能 而言 是 一个 巨大 的 挑战 。     为了 避免 视频流 与 音频 流 不 同步 的 障碍 , 团队 采取 了 让 计算机 先 学会 完全 同步 的 音视频 流 , 掌握 发音 与 唇 形 间 的 关联 , 进而 自行 推断 音视频 流 中 哪些 画面 是 不 同步 的 , 再 进行 自动 修正 。     来自 牛津大学 里普 耐特 研究 团队 的 阿萨 埃尔 对此 技术 的 评价 是 : “ 我们相信 人工智能 唇 读 技术 是 一 种 非常 实用 的 辅助性 技术 , 比如 更 智能 的 助听器 。 此外 , 人工智能 技术 还 可 应用 于 外交 、 破案 等 领域 , 甚至 可能 在 普及 之后 改变 人们 的 生活 。     人工智能 业内 专家 称 : “ 这 绝对 是 建构 全自动 唇 读 系统 的 第 一 步 ! 现有 的 各类 庞大 数据库 完全 可以 支持 深度学习 技术 的 发展 。 ”     将 电视机 调 成 “ 静音 ” 模式 后 , 你 能 “ 看 懂 ” 主持人 说 的 话 吗 ? 在 这个 情景 之内 , 你 或许 感觉 这是 一个 游戏 , 但 “ 唇 读 ” 已 伴随 人工智能 越来越 精准 。     据 BBC 报道 , 谷歌 最近 与 英国牛津大学 合作 开发 了 一 套 唇 读 软件 , 通过 收看 数千 小时 BBC 的 电视节目 来 开启 唇 读 功能 。 -- 她 熟练 高超 的 唇 读 技术 , 让 人 很 难 发现 她 是 一名 耳聋 者 。     值得一提 的 是 , 谷歌 的 人工智能 唇 读 软件 , 学习 了 BBC 一 系列 的 电视节目 , 所有 视频资料 加 起来 约有 11.8 万 句 话 , 经过 了 约 5000 小时 的 训练 , 便 迅速 掌握 了 唇 读 技能 。 研究人员 用 人工智能 软件 对 电视节目 嘉宾 进行 唇 语 解读 , 准确率 为 46.8% , 而 专业 的 唇 语 专家 在 接受 同样 的 测试 时 , 准确率 仅 为 12.4% 。     无独有偶 , 牛津大学 的 另 一 独立 小组 也 于 不久前 开发 了 一 款 类似 的 人工智能 唇 读 软件 , 在 测试 中 达到 了 93.4 % 的 准确率 , 而 人类 的 准确率 仅 为 52.3 % 。 但 该 测试 所用 的 材料 均 为 志愿者 事先 录制 好 的 固定 句子 , 没有 任何 复杂 的 事件 背景 可言 。 以 测试 视频 当中 的 单词 为 例 , 这 款 类似 的 人工智能 唇 读 的 软件 中 有 51 个 特殊 词汇 , 而 此次 谷歌 选取 的 BBC 节目 数据库 却 包含 了 惊人 的 17500 个 特殊 词汇 。 在 没有 任何 背景 介绍 的 情况 下 直接 对 BBC 节目 的 嘉宾 进行 唇 语 解读 , 如果 完全 采用 人工 , 工作量 之 大 无法 想象 , 因此 对于 人工智能 而言 是 一个 巨大 的 挑战 。     为了 避免 视频流 与 音频 流 不 同步 的 障碍 , 团队 采取 了 让 计算机 先 学会 完全 同步 的 音视频 流 , 掌握 发音 与 唇 形 间 的 关联 , 进而 自行 推断 音视频 流 中 哪些 画面 是 不 同步 的 , 再 进行 自动 修正 。     来自 牛津大学 里普 耐特 研究 团队 的 阿萨 埃尔 对此 技术 的 评价 是 : “ 我们相信 人工智能 唇 读 技术 是 一 种 非常 实用 的 辅助性 技术 , 比如 更 智能 的 助听器 。 此外 , 人工智能 技术 还 可 应用 于 外交 、 破案 等 领域 , 甚至 可能 在 普及 之后 改变 人们 的 生活 。     人工智能 业内 专家 称 : “ 这 绝对 是 建构 全自动 唇 读 系统 的 第 一 步 ! 现有 的 各类 庞大 数据库 完全 可以 支持 深度学习 技术 的 发展 。