概念迷宫 就好比一张现实版的藏宝图,循着藏宝图中的指示,企业最终找到他们的最佳决策和权衡。而一个好的领导者,就是要善于使用手中的这张 藏宝图 ,带领他的团队找到丰富的宝藏。但是不同于传说,我们的 藏宝图 不是现成的,不同领域,也有不同的成功路径。
我非常乐意以我熟悉的领域 人工智能(AI)初创公司 为例解释 概念迷宫 ,这对我来说也是件十分有趣的事。下图便是我们所说的迷宫的草图。接下来,我会详细地解释其中的每一步。
准确性高达80%-90%的MVP(最简化可实行产品)。 在机器学习领域人们常有这样一句话, 机器学习在解决部分问题时确实具有十分明显的优势。 对于大多数的问题,我们确实可以比较轻松地建立一个解决模型,并且在大多数情况下可以保证80%-90%的正确率。然而在此之后,用不了多久,时间、金钱、脑力还有数据等等,这些的收益便开始急剧减少。按照以往的经验,你首先要花几个月的时间来达到80%的准确性,然后在接下来的几年里或者甚至是一辈子的时间去争取剩下20%的改进空间。
这个时候,正如我们的图例中所示,你将面临第一个决策。你有两个选择:1)尝试把准确性提高到100%,越接近越好;或者2)设计一款产品即使在部分情况下会出现差错也丝毫不影响产品的正常使用。这样的产品设计,我把它称为 容错用户体验 。
容错用户体验。 iOS系统的自动更正和Google搜索中的模糊搜索特点等,都是容错用户体验的极好例子。你也可以说,Google搜索本身就是一个 容错用户体验 产品:每次搜索后系统会显示10条候选搜索结果链接,而不是直接根据算法的结果排序给出一个不一定是用户想要的却最符合搜索条件的结果。设计一个容错用户体验产品,不代表宣告投降,但是某种程度上也的确意味着一系列完全不同的产品需求。(特别是,当你希望人和机器完美地合作时,潜在因素很重要 也通常会影响你的技术架构。)
现在,我们再来假设你决定追求100%的精确。这时候该怎么做呢?仅通过算法是很难弥补这10%-20%的误差的。你只有通过收集尽可能多的数据来测试你的模型。数据是人工智能的关键,理由如下:1)关键之一:数据缺失 我们有伟大的算法以及几乎无穷无尽的计算资源,但是最关键的数据远远不够;2)关键之二:数据不共享 算法大多是由研究人员共同开发的一个共享资源。但公共数据集,从另一方面来说,并不十分有效。好的数据集要么很难找到要么属于私有。
缩小领域。 你所需要的数据量和你想要解决的问题的深度息息相关。所以在你开始收集数据之前,最好先缩小你的领域。与其不切实际地想造一个无所不能的虚拟机器人(运气好的话,说不定还能通过图灵测试),不如创造一个可以帮助处理议程安排的简单机器人。与其不切实际地想设计一个无所不知的云服务,不如创造一个在交易出现欺诈时可以提前预警的服务,如此例子数不胜数。
进一步缩小领域。 在缩小领域之后,试着再进一步缩小!即使你的期望是设计产品X,有时候先设计属于产品X的部分MVP也是最终完成产品X的一个绝佳方式。所以我的建议是不断地缩小你的领域直到不能再缩小,直到再缩小之后这个MVP就没有用武之地。在此之后,随便什么时候你都可以扩大功能范围。
如何获取你的数据? 广义地说,有两个办法:一个是自己建立数据库或者采用另一种方式 众包。这里又有一个类似的例子:Google地图和Waze地图。Google公司雇佣了上千人驾着车穿梭在城市中间挖掘各种犄角旮旯完善地图内容。而Waze地图则采用了众包的方式,让成千上万的人一起帮助他们完善地图信息。要完成Google的任务,没有大量的资金几乎是不可能的(少则几亿多则数十亿),而对于普通的,甚至是刚起步的初创公司来说,很难拿出这么多的资金。
于是对于初创公司来说,要获得数据也就只有两个较好选择。 1)试图从公共资源中挖掘有利数据;2)像Waze地图一样,众包。
对于第一个选择,最常见的办法就是用程序爬取网络内容或者借助于维基百科一类的大型网站。你可以说,Google搜索的本质也就是爬取网络。事实上很多初创公司也确实试图从维基百科一类网站挖掘数据,但是就我所知,效果不理想。
但是最佳的途径是用众包的方式采集数据。这可以归结为众包设计了一种创新服务,可以激励用户帮助系统返回数据提高使用体验。设计众包产品主要是为了收集数据(这也是我们的 概念迷宫 中有部分指向了另一个迷宫: 嵌套概念迷宫 ),但是我更愿意提供另一个用众包采集数据的办法的例子,那是我们去年投资的一家公司Wit.ai曾尝试过的方法。Wit的点子是给开发者提供开发音转文字技术和自然语言处理的服务平台。v1.0版本的系统大多数时候能给出正确的答案,但有时候仍避免不了出错。但是系统还提供了一个仪表板和应用程序界面(API),通过这些辅助功能开发者可以自己更正错误提高结果的准确性。那些可以使用免费版本的开发人员,他们所做的贡献将促使整个系统更加智能。Facebook最近收购了Wit,所以未来Wit将成为大型公司的一部分。但是Wit曾经采用的方法非常创新有启发,可以应用到更多的其他人工智能领域。
以上就是我对人工智能初创公司的 概念迷宫 的粗浅认识。在此我还想做两点补充说明:1)我可能会被误解,或者会忽视这个迷宫中的其他途径 概念迷宫 的意义是帮助讨论有序进行,而不是严格的真理或信条;2)正如开篇的巴拉吉所说,新的技术发展可以 推动前进和改变当下 。尤其是那些新的基础技术(互联网、智能手机、云计算、比特币等等),这些技术可以在许多不同的迷宫中解锁新的通道,即便是曾经看起来毫不相关的技术。