首页 - - > > 中青 创 家 - - > > KABAPP 下载 王小川 ： 未来 人工智能 的 三个 方向 发布 时间 ： 2016 - 12 - 0514 : 43 　 来源 ： 中青在线 　 作者 ： KAB 创业 俱乐部 （ 微信 ID ： KABClub ） 导读 在 第三届 世界 互联网 大会 上 ， 搜狗 公司 首席 执行官 王小川 发表 了 关于 人工智能 的 主题 演讲 ， 王小川 认为 ， 作为 产品 经理 ， 可以 看到 人工智能 的 三个 方向 ： 识别 、 创造 与 判断 ， 而 其中 有 重要 意义 的 是在 判断 。 
王小川 相信 随着 技术 的 突破 ， 搜索引擎 会 自然而然 演化 成为 问答 引擎 。 
以下 为 王小川 演讲 全文 ↓ 前面 的 十 二 场 演讲 中 ， 嘉宾 有 讲 技术 、 有 讲 产品 ， 我 希望 给 大家 的 分享 一些 不同 的 内容 ， 以及 自己 独有 的 视角 。 
今天 大家 都 提到 了 AlphaGo ， 作为 引爆 人工智能 的 开端 ， 深度学习 在 其中 承担 了 最 重要 的 责任 。 
今天 当 大家 开始 畅想 的 时候 ， 有 可能 认为 人工智能 未来 真的 会 取代 人 。 
那么 我 希望 今天 的 分享 更多 地 能够 知道 人工智能 在 今天 能 做 什么 ？ 
不能 做 什么 ？ 
未来 终极 的 理想 又是 什么 ？ 
AlphaGo 之后 ， 我们 看到 最 重要 的 突破 领域 是在 语音 和 图像 领域 ， 在 文字 领域 的 进展 很 缓慢 。 
今天 我们 在 机器翻译 方面 取得 了 一些 突破 ， 但是 问答 和 对 语义 的 理解 是 不够 的 。 
回到 图灵 测试 ， 上个世纪 五十年代 图灵 提出 了 问答 机器 推想 这样 一个 概念 ， 今天 我们 直观 感受 是 语音 图像 进步 很快 ， 但是 自然语言 的 处理 其实 是 比较 慢 的 。 
抛开 技术 ， 以 一个 产品 经理 的 身份 来看 ， 人工智能 有 三个 产品 方向 ， 一 是 识别 — — 语音 识别 、 图像 识别 、 视频 识别 ； 二 是 图像 — — 我们 去 生产 图像 ， 生成 识别 ； 三 是 创造 。 
大家 提到 了 人工智能 进步 的 层次 ， 我 想 换 一个 方式 描述 — — 工程师 在 人工智能 时代 会 处于 越来越 重要 的 位置 。 
我们 开始 提到 传统 的 方法 是 把 规则 教给 机器 ， 随着 统计 系统 的 发展 ， 包括 深度学习 ， 我们 开始 更 容易 地 将 答案 教给 机器 。 
在 数据 的 积累 下 我们 就 可以 让 机器 变得 更加 聪明 。 
这 里面 更 前沿 的 方式 是 将 目标 教给 机器 ， AlphaGo 融合 了 几 套 算法 ， 但是 我 和 他们 工程师 沟通 的 时候 ， 这样 的 把 目标 教给 机器 的 强化 学习 ， 还 并 不 成熟 ， 也就是说 如果 没有 之前 三 千 万 局 人机 对 战 的 棋谱 的 话 ， AlphaGo 没 能够 做到 只 通过 强化 学习 来 战胜 人类 ， 这是 技术 层面 需要 往 下 突破 的 重点 。 
如果 将 目标 教给 机器 ， 机器 能够 做 自我 学习 ， 这方面 有 新 的 突破 ， 那 我们 离 新 的 人工智能 时代 就 更 近 了 。 
今年 六 月份 ， 我 去 了 英国 伦敦 ， 和 DeepMind 公司 的 工程师 做 了 交流 ， 我 特别 好奇 的 事情 就是 下棋 的 第 四 局 机器 输 掉 了 , 发生 了 什么 事情 ？ 
他们 说 不是 程序 有 BUG ， 就是 深度学习 本身 有 瓶颈 ， 围棋 比赛 是 三月份 ， 我 是在 六 月份 去 的 伦敦 ， 已经 过 了 三个 月 ， 三个 月 的 时间 ， 这个 问题 依然 没有 解决 。 
但是 我 离开 以后 一个 星期 ， 他们 的 程序 能够 正确 面对 之前 的 第 四 局 棋谱 ， 我 问 他 是否 这个 BUG 修好 了 ， 工程师 说 没有 ， 只是 代表 第 四 局 那个 特定 问题 ， 正好 机器 可以 解决 。 
但是 我们 依然 不 知道 再 什么 情况 下 ， AlphaGo 会 继续 出错 。 
所以 深度学习 这样 一个 体系 其实 还是 有 瓶颈 所在 的 。 
所以 在 今天 我 更多 想 谈 的 是以 深度学习 为 代表 的 今天 的 人工智能 技术 ， 还有 哪些 不靠 谱 的 地方 ？ 
在 产品 上 不 适用 之 处 有 哪些 ？ 
第 一个 问题 ， 语音 识别 靠 谱 吗 ？ 
在 百度 、 腾讯 ， 都 提到 了 语音 识别 的 能力 ， 今天 我 给 大家 的 演示 也 用到 了 语音 识别 ， 这是 搜狗 自己 的 技术 。 
在 安静 的 环境 里面 我们 的 识别 准确度 已经 到 了 95% ， 甚至 97% ， 但是 一旦 有 噪音 ， 准确率 迅速 下降 。 
当 噪音 还 只是 汽车 的 引擎 噪音 、 风 的 噪音 时 ， 我们 把 噪音 当成 原始 数据 进入 监督 学习系统 里 去 ， 把 这种 噪音 变成 机器 见 过 的 问题 之一 。 
但是 事实上 我们 见到 更多 的 情况 ， 如果 同时 两个 人 说话 会 怎样 ？ 
在 今天 的 学术界 依然 无 解 。 
今年 六 月份 ， 我 问 学术界 的 人 ， 人和 机器 在 语音 识别 上 的 区别 ， 究竟 怎么 破解 ？ 
我们 用 机器 的 时候 ， 采用 立体声 的 方式 做 定向 的 识别 ， 也就是说 我们 做 一个 麦克风 矩阵 ， 通过 立体 的 方式 知道 其中 一 个人 在 说话 ， 把 另外 一 个人 说话 去掉 ， 但 人 本身 是 这样 干 的 吗 ？ 
如果 把 一 只 耳朵 堵 上 ， 我 是否 没 办法 分离 出 谁 在 说话 ？ 
或者 把 两个 说话 的 声音 录 在 一个 单 声道 里面 ， 人 可以 识别 吗 ？ 
人 当然 是 可以 的 ， 所以 人 的 方法 和 机器 不 一样 。 
人 怎么 识别 ？ 
因为 人 的 音色 不 一样 ， 还是 因为 两个 人 的 一个 声音 大 一个 声音 小 ， 还是 因为 他们 不同 的 语音 ， 博士 说 但凡 同时 两个 人 说话 的 时候 ， 只要 能够 找到 差别 ， 人 就 能够 把 其中 的 一个 声音 识别 出来 ， 所以 人 在 和 机器 处理 过程 当中 有 巨大 的 不同 。 
语音 识别 最 成熟 的 领域 其实 还是 和 人 有 很大 的 区别 。 
另外 一 件 事情 是 语义 靠 谱 吗 ？ 
对 语言 的 理解 ， 谷歌 在 之前 是 用 知识 图谱 的 方法 解决 ， 现在 遇到 了 瓶颈 ， 也 是 今年 六月 ， 我 在 一个 实验室 看到 最 先进 的 人机 对话 系统 ， 这个 系统 可以 帮 你 订餐 订酒店 ， 对话 过程 当中 机器 的 表现 非常 惊艳 ， 我们 上去 试 ， 有 一个 环节 ， 机器 问 你 ： “ 你 是 需要 停车位 还是 不要 停车位 ？ 
” 这个 时候 我们 回答 要 或者 不要 都 没 问题 ， 如果 回答 “ 我 没 车 ” ， 大家 知道 机器 会 怎么样 吗 ？ 
他们 完全 不 理解 我 没 车 代表 着 我 不 需要 停车位 ， 因为 今天 的 机器 ， 在 自然语言 概念 的 理解 方面 ， 还是 远远 不够 的 。 
所以 自然语言 处理 是 可以 做 的 ， 但是 语义 理解 到 现在 还是 一个 不靠 谱 的 阶段 。 
谷歌 也 在 今年 发布 了 一 套 对于 自然语言 能够 做 句子 分析 的 引擎 ， 把 主语 、 谓语 、 宾语 提出 来 ， 但是 准确度 只有 90% ， 提 不 上去 了 ， 因为 这个 时候 光 靠 统计 靠 语法 已经 不能 支撑 ， 往 下 是 需要 对 句子 当中 的 具体 概念 有 理解 才能 消除 歧义 。 
我们 知道 不能 把 马路 放在 冰箱 上面 ， 这 对于 人 来讲 非常 好 理解 ， 但是 对 计算机 的 挑战 非常 大 ， 这是 深度学习 人工智能 还 不够 的 地方 。 
很 敏感 的 问题 ， 无人驾驶 靠 谱 吗 ？ 
今天 百度 在 大会 上 也 提出 了 发布 无人驾驶 汽车 ， 但是 从 我 的 了解 ， 如果 以 今天 人类 的 技术 ， 我们 确实 再见 过 的 场景 和 封闭 场景 中 都 可以 使用 。 
但是 对于 真正 开放 的 环境 ， 不只 跑 在 高速 上 的 汽车 ， 以 现在 人类 的 技术 是 不 安全 的 ， 因为 这个 场景 只要 没 见 过 ， 可能 会 犯 严重 的 错误 ， 就 像 AlphaGo 下棋 一样 会 突然 发疯 ， 所以 作为 辅助 驾驶 是 可以 的 ， 无人驾驶 在 真正 的 技术 突破 以前 还 做 不到 。 
今天 的 深度学习 缺乏 推理 ， 缺乏 对 符号 的 理解 ， 如果 没有 符号 ， 对 自然语言 的 理解 就 会 成为 瓶颈 。 
即便 是 这样 ， 我们 也 提到 了 （ 人工智能 ） 能够 取代 一些 行业 ， 比如说 棋手 、 医生 、 司机 ， 机器 在 里面 都 可以 做 很 好 的 辅助 ， 但是 对于 大家 没 见 过 的 创造性 的 事情 ， 比如 规划 、 科研 ， 其实 对于 机器 来说 还 很 难 ， 今天 在 媒体 上 机器 自动 写 文章 、 自动 画图 ， 在 科研 层面 展示 出 了 一些 魔力 ， 但是 还 没有 到 可以 取代 人 的 阶段 ， 所以 在 这 里面 我 先 把 大家 对 人工智能 预期 降低 下来 。 
有人 在 问 ， （ 人工智能 ） 是否 会 出现 第 三 次 退潮 ， 前 两 次 我们 都 认为 人工智能 到来 了 ， 但是 这次 可能 会 比 之前 好 ， 之前 的 人工智能 两 次 退潮 前 ， 我们 问 一个 老师 ， 说 你 是 研究 人工智能 的 吗 ？ 
这是 骂 他 的 话 。 
因为 （ 大家 认为 ） 人工智能 不靠 谱 ， 这次 是 （ 人工智能 ） 第一次 真正 进入 到 了 使用 ， 切实 在 语言 处理 、 声音 处理 、 图象处理 ， 和 在 一些 高维 数据 空间 上 能够 比人 做 的 更好 。 
所以 这次 的 区别 就是 大量 资金 、 资本 投入 到 了 人工智能 。 
也 有 大量 的 研究人员 在 毕业 以后 从事 人工智能 工作 ， 这是 和 之前 不 一样 的 。 
所以 一方面 我们 开始 使用 这项 技术 ， 另外 一方面 我们 开始 期待 不断 产生 新 的 突破 。 
我 个人 对 这次 人工智能 的 浪潮 是 乐观 的 ， 但是 我 也 很 紧张 ， 也许 我们 自己 做 的 搜索引擎 就是 会 被 颠覆 的 一部分 。 
在 这 里面 我们 开始 畅想 未来 的 路 在 什么 地方 ， 从 我 自己 的 描述 来看 ， 搜索 的 未来 就是 人工智能 时代 的 皇冠 ， 为什么 这么 说 ， 搜索 的 未来 是 什么 ， 人工智能 的 未来 又是 什么 ， 为什么 是 皇冠 ？ 
简单 来讲 ， 我 认为 搜索 的 未来 就是 问答 机器人 。 
因为 我们 习惯 了 一 件 事情 ： 做 搜索 的 时候 我们 先 输入 关键词 ， 然后 搜索 给 你 十 条 结果 ， 或者 叫 十 条 链接 。 
但是 这 真是 最好 的 方法 吗 ？ 
肯定 是 不够 的 。 
我们 也 会 提到 是否 我们 用 个性化 的 方法 能够 使得 搜索 的 结果 更 准 ， 但是 其实 个性化 能够 提供 的 信息 非常 的 有限 。 
真正 能够 使得 这个 系统 变得 有用 的 办法 是 用 问句 。 
以前 不用 问句 的 原因 是 因为 机器 听 不 懂 你 在 说 什么 ， 真正 到 了 问句 以后 ， 机器 会 从 给 你 十 条 链接 ， 变成 给 你 一个 答案 ， 就 会 好 很多 。 
如果 你 去 问 机器 四 个 字 ， “ 乌镇 大会 ” ， 机器 不 可能 给 你 想要 的 内容 ， 最 多 把 新闻 ， 乌镇 的 百科 或者 是 官 网 介绍 给 你 ， 只有 你 问 乌镇 大会 哪 天开 ， 这个 时候 机器 才能 理解 你 要 什么 ， 才 有 机会 给 你 最好 的 答案 ， 我 相信 随着 技术 的 突破 ， 搜索引擎 会 自然而然 演化 成为 问答 引擎 。 
很多 公司 都 在 做 这件 事 ， 苹果 、 微软 、 亚马逊 、 谷歌 。 
这 里面 起步 最早 做 对话 系统 的 是 苹果 的 Siri 。 
但是 这个 系统 并 不 成功 ， 在 中国 用 的 人 很少 。 
为什么 ？ 
因为 现在 技术 没有 到来 ， 对于 自然语言 的 处理 能力 、 自然语言 的 理解 能力 非常 有限 。 
那么 为什么 苹果 这样 一个 追求 极致 的 公司 ， 会 把 这个 系统 发布 出来 呢 ？ 
一 种 可能性 是 苹果 对 技术 了解 不够 ； 另 一 种 可能性 是 我 认为 这是 乔布斯 的 一个 遗愿 。 
我们 知道 发布 iPhone 手机 的 时候 ， 乔布斯 病重 ， 只能 躺 在 病床 上 看 发布会 ， 发布会 完成 之后 ， 他 很快 就 离开 人世 了 ， 所以 Siri 就 像 一个 早产 的 婴儿 ， 在 iPhone4s 里面 发布 出来 ， 所以 我 认为 这样 的 系统 代表 着 人类 终极 人机 交互 的 畅想 。 
事实上 在 大量 的 文学作品 、 科幻电影 里面 ， 都 会 提到 问答 机器人 ， 不管 是 《 星球大战 》 、 《 超能 陆战队 》 ， 还是 《 星际 穿越 》 都 提到 了 。 
阿西莫夫 的 短篇小说 《 最后 的 问题 》 ， 描绘 就是 人类 造 了 一个 机器 ， 把 所有 的 资源 都 用 了 上去 。 
这个 机器 可以 回答 其他 任何 问题 ， 却 有 一个 问题 回答 不了 ， 就是 “ 宇宙 是 怎么 诞生 的 ” ， 这是 文学作品 对 问答 机器 的 思考 。 
除了 搜索引擎 做 问答 以外 ， 咱们 知道 在 中国 搜狗 输入法 在 移动 端 拥有 三 亿 用户 ， 输入法 的 未来 是 什么 呢 ？ 
和 自动 问答 有 关系 ， 大家 一起 来看 一个 视频 。 
之前 我们 讨论 输入法 的 时候 很多 朋友 和 我 说 语音 是 最 重要 的 ， 搜狗 有 完整 的 语音 识别 技术 和 语音 合成 技术 ， 但是 在 我 内心 ， 这个 远 不是 输入法 的 极致 。 
输入法 真正 的 极致 是 能够 开始 寻找 信息 ， 帮 你 思考 。 
刚才 给 大家 演示 的 是 搜狗 输入法 的 分享 的 能力 ， 真正 的 回答 能力 可以 在 后面 给 大家 做 一个 新 的 演示 。 
在 我们 讨论 问答 技术 和 讨论 人机 对话 的 时候 ， 输入法 也许 是 最好 的 一个 切入 场景 。 
输入法 作为 一 个人 的 分身 ， 更 容易 帮助 你 建立 思考 。 
输入法 也 会 从 一个 拼音 工具 走向 一个 对话 和 问答 系统 。 
搜狗 有 两个 核心 产品 ， 一个 是 输入法 一个 是 搜索 ， 一个 是 搜索 信息 一个 是 表达 信息 。 
随着 AI 技术 的 发展 ， 我们 能 更好 地 解放 人 的 思考 。 
我们 有 一个 理念 ， 包括 两 件 事情 ： 一个 是 做 自然 的 交互 ， 不 只是 语音 ， 还 包括 语言 ； 另外 就是 做 知识 的 计算 ， 能 让 机器 开始 逐步 建立 推理 的 能力 。 
搜狗 输入法 在 中国 拥有 最大 的 语言 数据处理 积累 ， 我们 有 机会 在 这个 领域 取得 突破 。 
【 责任 编辑 ： 于 璧 嘉 】 相关 新闻 冰点 暖 闻 app 下载 中青在线 版权 与 免责 声明 新闻 娱乐 教育 法治 经济 旅游 卡斯特罗 下葬 仪式 举行 弟弟 劳尔 亲自 安葬 骨灰 乌克兰 名模 嫁 中国 小伙 一 大波 江苏 高校 镇 校 萌 宠 来 袭 ！ 
你家 的 那 只 在 哪 ？ 
笑靥 如花 的 姐妹俩 孪生 姐妹 考上 大学 查出 尿毒症 双双 决定 捐献 遗体 被 新 支付 手段 抢 了 地盘 银行 为啥 跑 不过 支付宝 们 ？ 
各位 专家学者 合影 留念 图片 阅读 更多 > > 泰国 民众 纪念 国王 普密蓬 诞辰 松花江 上 采 冰 忙 看 ！ 
新疆 阿勒泰 雾凇 美景 如 童话 世界 卡斯特罗 下葬 仪式 举行 弟弟 劳尔 亲自 安葬 骨灰 直 击 赤峰 煤矿 爆炸 事故 现场 枫林 尽 染 探访 90 后 特警 女 教官 教 男队员 打枪 格斗 乌克兰 5 名 警察 被 当作 盗贼 遭 同事 误杀 ( 组图 ) 意大利 举行 修宪 公投 美国 女孩 5 岁 扛 枪 7 岁 使用 来福 枪杀 鹿 河北 廊坊 捣毁 传销 窝点 50 余 处 传销 人员 有 寝室 有 教室