首页 - - > > 中青 创 家 - - > > KABAPP 下载 王小川 : 未来 人工智能 的 三个 方向 发布 时间 : 2016 - 12 - 0514 : 43   来源 : 中青在线   作者 : KAB 创业 俱乐部 ( 微信 ID : KABClub ) 导读 在 第三届 世界 互联网 大会 上 , 搜狗 公司 首席 执行官 王小川 发表 了 关于 人工智能 的 主题 演讲 , 王小川 认为 , 作为 产品 经理 , 可以 看到 人工智能 的 三个 方向 : 识别 、 创造 与 判断 , 而 其中 有 重要 意义 的 是在 判断 。 王小川 相信 随着 技术 的 突破 , 搜索引擎 会 自然而然 演化 成为 问答 引擎 。 以下 为 王小川 演讲 全文 ↓ 前面 的 十 二 场 演讲 中 , 嘉宾 有 讲 技术 、 有 讲 产品 , 我 希望 给 大家 的 分享 一些 不同 的 内容 , 以及 自己 独有 的 视角 。 今天 大家 都 提到 了 AlphaGo , 作为 引爆 人工智能 的 开端 , 深度学习 在 其中 承担 了 最 重要 的 责任 。 今天 当 大家 开始 畅想 的 时候 , 有 可能 认为 人工智能 未来 真的 会 取代 人 。 那么 我 希望 今天 的 分享 更多 地 能够 知道 人工智能 在 今天 能 做 什么 ? 不能 做 什么 ? 未来 终极 的 理想 又是 什么 ? AlphaGo 之后 , 我们 看到 最 重要 的 突破 领域 是在 语音 和 图像 领域 , 在 文字 领域 的 进展 很 缓慢 。 今天 我们 在 机器翻译 方面 取得 了 一些 突破 , 但是 问答 和 对 语义 的 理解 是 不够 的 。 回到 图灵 测试 , 上个世纪 五十年代 图灵 提出 了 问答 机器 推想 这样 一个 概念 , 今天 我们 直观 感受 是 语音 图像 进步 很快 , 但是 自然语言 的 处理 其实 是 比较 慢 的 。 抛开 技术 , 以 一个 产品 经理 的 身份 来看 , 人工智能 有 三个 产品 方向 , 一 是 识别 — — 语音 识别 、 图像 识别 、 视频 识别 ; 二 是 图像 — — 我们 去 生产 图像 , 生成 识别 ; 三 是 创造 。 大家 提到 了 人工智能 进步 的 层次 , 我 想 换 一个 方式 描述 — — 工程师 在 人工智能 时代 会 处于 越来越 重要 的 位置 。 我们 开始 提到 传统 的 方法 是 把 规则 教给 机器 , 随着 统计 系统 的 发展 , 包括 深度学习 , 我们 开始 更 容易 地 将 答案 教给 机器 。 在 数据 的 积累 下 我们 就 可以 让 机器 变得 更加 聪明 。 这 里面 更 前沿 的 方式 是 将 目标 教给 机器 , AlphaGo 融合 了 几 套 算法 , 但是 我 和 他们 工程师 沟通 的 时候 , 这样 的 把 目标 教给 机器 的 强化 学习 , 还 并 不 成熟 , 也就是说 如果 没有 之前 三 千 万 局 人机 对 战 的 棋谱 的 话 , AlphaGo 没 能够 做到 只 通过 强化 学习 来 战胜 人类 , 这是 技术 层面 需要 往 下 突破 的 重点 。 如果 将 目标 教给 机器 , 机器 能够 做 自我 学习 , 这方面 有 新 的 突破 , 那 我们 离 新 的 人工智能 时代 就 更 近 了 。 今年 六 月份 , 我 去 了 英国 伦敦 , 和 DeepMind 公司 的 工程师 做 了 交流 , 我 特别 好奇 的 事情 就是 下棋 的 第 四 局 机器 输 掉 了 , 发生 了 什么 事情 ? 他们 说 不是 程序 有 BUG , 就是 深度学习 本身 有 瓶颈 , 围棋 比赛 是 三月份 , 我 是在 六 月份 去 的 伦敦 , 已经 过 了 三个 月 , 三个 月 的 时间 , 这个 问题 依然 没有 解决 。 但是 我 离开 以后 一个 星期 , 他们 的 程序 能够 正确 面对 之前 的 第 四 局 棋谱 , 我 问 他 是否 这个 BUG 修好 了 , 工程师 说 没有 , 只是 代表 第 四 局 那个 特定 问题 , 正好 机器 可以 解决 。 但是 我们 依然 不 知道 再 什么 情况 下 , AlphaGo 会 继续 出错 。 所以 深度学习 这样 一个 体系 其实 还是 有 瓶颈 所在 的 。 所以 在 今天 我 更多 想 谈 的 是以 深度学习 为 代表 的 今天 的 人工智能 技术 , 还有 哪些 不靠 谱 的 地方 ? 在 产品 上 不 适用 之 处 有 哪些 ? 第 一个 问题 , 语音 识别 靠 谱 吗 ? 在 百度 、 腾讯 , 都 提到 了 语音 识别 的 能力 , 今天 我 给 大家 的 演示 也 用到 了 语音 识别 , 这是 搜狗 自己 的 技术 。 在 安静 的 环境 里面 我们 的 识别 准确度 已经 到 了 95% , 甚至 97% , 但是 一旦 有 噪音 , 准确率 迅速 下降 。 当 噪音 还 只是 汽车 的 引擎 噪音 、 风 的 噪音 时 , 我们 把 噪音 当成 原始 数据 进入 监督 学习系统 里 去 , 把 这种 噪音 变成 机器 见 过 的 问题 之一 。 但是 事实上 我们 见到 更多 的 情况 , 如果 同时 两个 人 说话 会 怎样 ? 在 今天 的 学术界 依然 无 解 。 今年 六 月份 , 我 问 学术界 的 人 , 人和 机器 在 语音 识别 上 的 区别 , 究竟 怎么 破解 ? 我们 用 机器 的 时候 , 采用 立体声 的 方式 做 定向 的 识别 , 也就是说 我们 做 一个 麦克风 矩阵 , 通过 立体 的 方式 知道 其中 一 个人 在 说话 , 把 另外 一 个人 说话 去掉 , 但 人 本身 是 这样 干 的 吗 ? 如果 把 一 只 耳朵 堵 上 , 我 是否 没 办法 分离 出 谁 在 说话 ? 或者 把 两个 说话 的 声音 录 在 一个 单 声道 里面 , 人 可以 识别 吗 ? 人 当然 是 可以 的 , 所以 人 的 方法 和 机器 不 一样 。 人 怎么 识别 ? 因为 人 的 音色 不 一样 , 还是 因为 两个 人 的 一个 声音 大 一个 声音 小 , 还是 因为 他们 不同 的 语音 , 博士 说 但凡 同时 两个 人 说话 的 时候 , 只要 能够 找到 差别 , 人 就 能够 把 其中 的 一个 声音 识别 出来 , 所以 人 在 和 机器 处理 过程 当中 有 巨大 的 不同 。 语音 识别 最 成熟 的 领域 其实 还是 和 人 有 很大 的 区别 。 另外 一 件 事情 是 语义 靠 谱 吗 ? 对 语言 的 理解 , 谷歌 在 之前 是 用 知识 图谱 的 方法 解决 , 现在 遇到 了 瓶颈 , 也 是 今年 六月 , 我 在 一个 实验室 看到 最 先进 的 人机 对话 系统 , 这个 系统 可以 帮 你 订餐 订酒店 , 对话 过程 当中 机器 的 表现 非常 惊艳 , 我们 上去 试 , 有 一个 环节 , 机器 问 你 : “ 你 是 需要 停车位 还是 不要 停车位 ? ” 这个 时候 我们 回答 要 或者 不要 都 没 问题 , 如果 回答 “ 我 没 车 ” , 大家 知道 机器 会 怎么样 吗 ? 他们 完全 不 理解 我 没 车 代表 着 我 不 需要 停车位 , 因为 今天 的 机器 , 在 自然语言 概念 的 理解 方面 , 还是 远远 不够 的 。 所以 自然语言 处理 是 可以 做 的 , 但是 语义 理解 到 现在 还是 一个 不靠 谱 的 阶段 。 谷歌 也 在 今年 发布 了 一 套 对于 自然语言 能够 做 句子 分析 的 引擎 , 把 主语 、 谓语 、 宾语 提出 来 , 但是 准确度 只有 90% , 提 不 上去 了 , 因为 这个 时候 光 靠 统计 靠 语法 已经 不能 支撑 , 往 下 是 需要 对 句子 当中 的 具体 概念 有 理解 才能 消除 歧义 。 我们 知道 不能 把 马路 放在 冰箱 上面 , 这 对于 人 来讲 非常 好 理解 , 但是 对 计算机 的 挑战 非常 大 , 这是 深度学习 人工智能 还 不够 的 地方 。 很 敏感 的 问题 , 无人驾驶 靠 谱 吗 ? 今天 百度 在 大会 上 也 提出 了 发布 无人驾驶 汽车 , 但是 从 我 的 了解 , 如果 以 今天 人类 的 技术 , 我们 确实 再见 过 的 场景 和 封闭 场景 中 都 可以 使用 。 但是 对于 真正 开放 的 环境 , 不只 跑 在 高速 上 的 汽车 , 以 现在 人类 的 技术 是 不 安全 的 , 因为 这个 场景 只要 没 见 过 , 可能 会 犯 严重 的 错误 , 就 像 AlphaGo 下棋 一样 会 突然 发疯 , 所以 作为 辅助 驾驶 是 可以 的 , 无人驾驶 在 真正 的 技术 突破 以前 还 做 不到 。 今天 的 深度学习 缺乏 推理 , 缺乏 对 符号 的 理解 , 如果 没有 符号 , 对 自然语言 的 理解 就 会 成为 瓶颈 。 即便 是 这样 , 我们 也 提到 了 ( 人工智能 ) 能够 取代 一些 行业 , 比如说 棋手 、 医生 、 司机 , 机器 在 里面 都 可以 做 很 好 的 辅助 , 但是 对于 大家 没 见 过 的 创造性 的 事情 , 比如 规划 、 科研 , 其实 对于 机器 来说 还 很 难 , 今天 在 媒体 上 机器 自动 写 文章 、 自动 画图 , 在 科研 层面 展示 出 了 一些 魔力 , 但是 还 没有 到 可以 取代 人 的 阶段 , 所以 在 这 里面 我 先 把 大家 对 人工智能 预期 降低 下来 。 有人 在 问 , ( 人工智能 ) 是否 会 出现 第 三 次 退潮 , 前 两 次 我们 都 认为 人工智能 到来 了 , 但是 这次 可能 会 比 之前 好 , 之前 的 人工智能 两 次 退潮 前 , 我们 问 一个 老师 , 说 你 是 研究 人工智能 的 吗 ? 这是 骂 他 的 话 。 因为 ( 大家 认为 ) 人工智能 不靠 谱 , 这次 是 ( 人工智能 ) 第一次 真正 进入 到 了 使用 , 切实 在 语言 处理 、 声音 处理 、 图象处理 , 和 在 一些 高维 数据 空间 上 能够 比人 做 的 更好 。 所以 这次 的 区别 就是 大量 资金 、 资本 投入 到 了 人工智能 。 也 有 大量 的 研究人员 在 毕业 以后 从事 人工智能 工作 , 这是 和 之前 不 一样 的 。 所以 一方面 我们 开始 使用 这项 技术 , 另外 一方面 我们 开始 期待 不断 产生 新 的 突破 。 我 个人 对 这次 人工智能 的 浪潮 是 乐观 的 , 但是 我 也 很 紧张 , 也许 我们 自己 做 的 搜索引擎 就是 会 被 颠覆 的 一部分 。 在 这 里面 我们 开始 畅想 未来 的 路 在 什么 地方 , 从 我 自己 的 描述 来看 , 搜索 的 未来 就是 人工智能 时代 的 皇冠 , 为什么 这么 说 , 搜索 的 未来 是 什么 , 人工智能 的 未来 又是 什么 , 为什么 是 皇冠 ? 简单 来讲 , 我 认为 搜索 的 未来 就是 问答 机器人 。 因为 我们 习惯 了 一 件 事情 : 做 搜索 的 时候 我们 先 输入 关键词 , 然后 搜索 给 你 十 条 结果 , 或者 叫 十 条 链接 。 但是 这 真是 最好 的 方法 吗 ? 肯定 是 不够 的 。 我们 也 会 提到 是否 我们 用 个性化 的 方法 能够 使得 搜索 的 结果 更 准 , 但是 其实 个性化 能够 提供 的 信息 非常 的 有限 。 真正 能够 使得 这个 系统 变得 有用 的 办法 是 用 问句 。 以前 不用 问句 的 原因 是 因为 机器 听 不 懂 你 在 说 什么 , 真正 到 了 问句 以后 , 机器 会 从 给 你 十 条 链接 , 变成 给 你 一个 答案 , 就 会 好 很多 。 如果 你 去 问 机器 四 个 字 , “ 乌镇 大会 ” , 机器 不 可能 给 你 想要 的 内容 , 最 多 把 新闻 , 乌镇 的 百科 或者 是 官 网 介绍 给 你 , 只有 你 问 乌镇 大会 哪 天开 , 这个 时候 机器 才能 理解 你 要 什么 , 才 有 机会 给 你 最好 的 答案 , 我 相信 随着 技术 的 突破 , 搜索引擎 会 自然而然 演化 成为 问答 引擎 。 很多 公司 都 在 做 这件 事 , 苹果 、 微软 、 亚马逊 、 谷歌 。 这 里面 起步 最早 做 对话 系统 的 是 苹果 的 Siri 。 但是 这个 系统 并 不 成功 , 在 中国 用 的 人 很少 。 为什么 ? 因为 现在 技术 没有 到来 , 对于 自然语言 的 处理 能力 、 自然语言 的 理解 能力 非常 有限 。 那么 为什么 苹果 这样 一个 追求 极致 的 公司 , 会 把 这个 系统 发布 出来 呢 ? 一 种 可能性 是 苹果 对 技术 了解 不够 ; 另 一 种 可能性 是 我 认为 这是 乔布斯 的 一个 遗愿 。 我们 知道 发布 iPhone 手机 的 时候 , 乔布斯 病重 , 只能 躺 在 病床 上 看 发布会 , 发布会 完成 之后 , 他 很快 就 离开 人世 了 , 所以 Siri 就 像 一个 早产 的 婴儿 , 在 iPhone4s 里面 发布 出来 , 所以 我 认为 这样 的 系统 代表 着 人类 终极 人机 交互 的 畅想 。 事实上 在 大量 的 文学作品 、 科幻电影 里面 , 都 会 提到 问答 机器人 , 不管 是 《 星球大战 》 、 《 超能 陆战队 》 , 还是 《 星际 穿越 》 都 提到 了 。 阿西莫夫 的 短篇小说 《 最后 的 问题 》 , 描绘 就是 人类 造 了 一个 机器 , 把 所有 的 资源 都 用 了 上去 。 这个 机器 可以 回答 其他 任何 问题 , 却 有 一个 问题 回答 不了 , 就是 “ 宇宙 是 怎么 诞生 的 ” , 这是 文学作品 对 问答 机器 的 思考 。 除了 搜索引擎 做 问答 以外 , 咱们 知道 在 中国 搜狗 输入法 在 移动 端 拥有 三 亿 用户 , 输入法 的 未来 是 什么 呢 ? 和 自动 问答 有 关系 , 大家 一起 来看 一个 视频 。 之前 我们 讨论 输入法 的 时候 很多 朋友 和 我 说 语音 是 最 重要 的 , 搜狗 有 完整 的 语音 识别 技术 和 语音 合成 技术 , 但是 在 我 内心 , 这个 远 不是 输入法 的 极致 。 输入法 真正 的 极致 是 能够 开始 寻找 信息 , 帮 你 思考 。 刚才 给 大家 演示 的 是 搜狗 输入法 的 分享 的 能力 , 真正 的 回答 能力 可以 在 后面 给 大家 做 一个 新 的 演示 。 在 我们 讨论 问答 技术 和 讨论 人机 对话 的 时候 , 输入法 也许 是 最好 的 一个 切入 场景 。 输入法 作为 一 个人 的 分身 , 更 容易 帮助 你 建立 思考 。 输入法 也 会 从 一个 拼音 工具 走向 一个 对话 和 问答 系统 。 搜狗 有 两个 核心 产品 , 一个 是 输入法 一个 是 搜索 , 一个 是 搜索 信息 一个 是 表达 信息 。 随着 AI 技术 的 发展 , 我们 能 更好 地 解放 人 的 思考 。 我们 有 一个 理念 , 包括 两 件 事情 : 一个 是 做 自然 的 交互 , 不 只是 语音 , 还 包括 语言 ; 另外 就是 做 知识 的 计算 , 能 让 机器 开始 逐步 建立 推理 的 能力 。 搜狗 输入法 在 中国 拥有 最大 的 语言 数据处理 积累 , 我们 有 机会 在 这个 领域 取得 突破 。 【 责任 编辑 : 于 璧 嘉 】 相关 新闻 冰点 暖 闻 app 下载 中青在线 版权 与 免责 声明 新闻 娱乐 教育 法治 经济 旅游 卡斯特罗 下葬 仪式 举行 弟弟 劳尔 亲自 安葬 骨灰 乌克兰 名模 嫁 中国 小伙 一 大波 江苏 高校 镇 校 萌 宠 来 袭 ! 你家 的 那 只 在 哪 ? 笑靥 如花 的 姐妹俩 孪生 姐妹 考上 大学 查出 尿毒症 双双 决定 捐献 遗体 被 新 支付 手段 抢 了 地盘 银行 为啥 跑 不过 支付宝 们 ? 各位 专家学者 合影 留念 图片 阅读 更多 > > 泰国 民众 纪念 国王 普密蓬 诞辰 松花江 上 采 冰 忙 看 ! 新疆 阿勒泰 雾凇 美景 如 童话 世界 卡斯特罗 下葬 仪式 举行 弟弟 劳尔 亲自 安葬 骨灰 直 击 赤峰 煤矿 爆炸 事故 现场 枫林 尽 染 探访 90 后 特警 女 教官 教 男队员 打枪 格斗 乌克兰 5 名 警察 被 当作 盗贼 遭 同事 误杀 ( 组图 ) 意大利 举行 修宪 公投 美国 女孩 5 岁 扛 枪 7 岁 使用 来福 枪杀 鹿 河北 廊坊 捣毁 传销 窝点 50 余 处 传销 人员 有 寝室 有 教室