“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”

编辑:小优 2019-12-04 16:28:24 互联网
浏览:216次
文章简介:带着这样的疑问,我们最近拜访了 Magi 的团队 Peak Labs,从团队两位核心人物—季逸超、刘欣旸口中得到的信息是,上述所有的浪花和遥远的想象,都非常戏剧性地不在团队的规划之内。图丨两位受访创始

带着这样的疑问,我们最近拜访了 Magi 的团队 Peak Labs,从团队两位核心人物—季逸超、刘欣旸口中得到的信息是,上述所有的浪花和遥远的想象,都非常戏剧性地不在团队的规划之内。

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图1)

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图2)

图丨两位受访创始人(Peak Labs)

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图3)

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图4)

季逸超曾经在高中时期一人设计并出猛犸浏览器,并在之后获得了 Macworld 2011 的特等奖,在者群体中小有名气。他于 2012 年创办 Peak Labs,专注于新形态互联网产品。Peak Labs 曾经在成立初期获得真格、红杉的投资,团队成员目前的平均年龄不到 27 岁。

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图5)

描述—特斯拉的创始人、特斯拉的灵魂人物、OpenAI的创始人之一、SpaceX的CEO、AI的怀疑者…。

属性—包括公司成立、家庭成员信息…。

标签—公司、CEO、企业家…。

近义项—硅谷钢铁侠、Twitter、Model E。

红黄绿三种不同颜色的色块,则代表此处信息的可靠程度。上述展示中均没有出现广告。

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图6)

据介绍,这种学习过程是在无人干预的情况下 7 x 24 小时不间断运行的,实时新闻事件中的知识一般只需要 5 分钟就会被掌握。随着可交叉验证的信息源不断增加,先前学习到的知识的可信度会被重新评估,使结果中的错误被自动纠正。

Peak Labs 也在一份 Magi 的说明中写到:“知识提取的重要性远高于单纯地回答问题,主动发现潜在知识并持续提炼修正,显著强于被动地根据输入的问题去匹配结果。”

用季逸超的话来说,Magi 将是“AI 背后的 AI”

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图7)

一则是希望它作为一个 Demo 展示,为企业用户演示我们能力范围内可以利用 NLP 技术构建怎样的服务(例如行业知识图谱)把企业用户提出的天花乱坠的需求尽量合理化。

据介绍,Magi 这一名称的灵感,一则来自于其“东方智者”的寓意,一则来自著名科幻动画 EVA 中的名为“MAGI System”的超级电脑。

Magi 在最脏的互联网世界中自我学习并成长为具备有时效性的“跨领域常识”的知识引擎的过程中,还将孵化出自然语言处理领域的类似“ImageNet”的大规模有标注数据集。熟悉计算机视觉领域的人都清楚,计算机视觉之所以成为全球范围内最热门的 AI 应用方向,进而诞生出这么多独角兽公司,ImageNet 的存在是起推动作用的必不可少的一环。

比起“新的 AI 搜索引擎干掉百度”这条故事线的难度并不见得会更小。

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图8)

现象级产品背后,两大认知智能技术正处于漫长的爆发前夜

过去数十年的人工智能浪潮,主要基于深度学习的爆发,以语音识别、计算机视觉为代表的感知智能技术,享受“数据、算法、算力”三位一体的红利得到充分发展,而以自然语言处理、知识图谱等为代表的认知智能技术,目前形成的市场规模远不及前两者,尤其是相比于已经成长为庞然大物的计算机视觉。

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图9)

以自然语言处理为例,其技术准确率远远没有达到计算机视觉和语音识别的水平,相应的应用产品(比如语音助手)经常被人讽刺只能用来调戏,缺少实际价值。在创业公司方面,自然语言处理领域也没有产生像商汤、旷视、依图、云从这样的“小巨头”有业内人士曾表示,自然语言处理目前的发展大约落后于计算机视觉 3~5 年左右。

针对自然语言处理技术的商业化现状,该方向的著名学者、宾夕法尼亚大学教授 Dan Roth 在接受《麻省理工科技评论》采访时分析道:“在各种专业应用中,必须要选择正确的自然语言模型,没有任何单一模型可以解决自然语言领域中所遇到的所有问题,自然语言处理没有一个可以解决所有问题的魔术盒子存在,你必须要把所有相关的知识库放进盒子里,选择对的算法,并且针对性的处理特定问题,那么这个盒子最后才有作用”

这个过程中吊诡的地方还在于,有多少人工才能有多少认知智能。

冲在这个建设大潮中第一线的大量“数据标注民工”就印证着这一点。现阶段,对于绝大多数行业来说,进行足够好的数据采集和数据标注,是搭建供 AI 发挥价值的“基础设施”的关键步骤。曾有业内人士直接断言,在相当长的时间内,数据质量决定了 AI 算法在真实场景中提供体验的天花板。

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图10)

图丨基于知识图谱的认知智能复旦“知识工场”

知识图谱的行业应用也在遵循类似宿命。知识图谱旨在用图的形式模拟人的知识,而语言正是人类知识的载体,借助自然语言处理,知识图谱技术可以帮助机器拥有真正的知识。但在这之前,重复性的数据标注同样难以避开。尤其在诸如医疗这样的高标注门槛领域,需要浪费极其宝贵的智力资源—医生—投入到大量的重复性劳作中,才能有之后收获 AI 降低工作效率的可能。

Peak Labs 团队则认为,存在一种从纯文本自动构建可信知识图谱的技术能够改变这种局面,“我们要给知识图谱送”

因此,区别于一般 AI 初创公司在成长初期优先聚焦特定行业的思路,2015 年,Peak Labs 启动了一款生产线—扎根开放领域的互联网文本进行知识提取的 Magi 项目,并选择直面规模化和准确度这两个知识工程中的核心矛盾点。

从“最脏的互联网文本”中成长出来的通用知识

开放领域的互联网文本。看到这几个字,相信一些人的脑海中会出现这样的认知:这里面的信息该多脏啊。

对于这一事关 Magi 最终呈现的准确度问题,季逸超表示:我们很难说 Magi 自动构建信息的质量一定好于人工整理的文本。但是,首先,它的质量不差,并且可以量化。

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图11)

图丨诞生于 1994 年第一代真正基于互联网的搜索引擎 Lycos(互联网)

而要实现这样的效果,摆在整个 Magi 项目面前的是以下 6 个重要技术:

2、构造大规模的带标注的跨领域数据集。类似于打造 NLP 领域的“ImageNet”目前整个 NLP 领域都没有一个可以达到类似 ImageNet 在计算机视觉领域地位的数据集。

4、获取常识并结构化。现实中,越基础的知识越缺乏结构化的整理,Magi 则通过理解大量的纯文本中的信息去掌握这些未被整理过的知识。

5、多任务迁移学习和跨领域迁移学习。即先通过整个互联网文本进行宽泛的背景知识学习,迁移到某个具体领域中,为企业客户减轻负担。就像迁移能力帮助 CV 产生规模化的商业价值一样,NLP 的商业化进程迁移学习能力将同样重要。

6、面向远期可解释 AI 保证知识可溯源。这是为面向未来的人工智能发展所做的准备。尽管 Magi 仍然使用了深度学习技术,无法避开黑箱问题,但学习到的信息都留下了可溯源的痕迹。

据季逸超介绍,其中前两个方向是目前学术领域也在攻坚的问题,同时兼顾这 6 个方向也要求相当的工程能力。

在质量参差不齐的海量互联网文本中,为了提升信息的利用率,Magi 必须尽可能彻底地从每一段质量参差不齐且主题各异的文本中提取出全部知识。这也决定一切现有的技术方案都不可用:这不再是一个清晰的序列标注问题,交错叠加的关系使得搜索空间式增长,不受限制的领域还意味着根本没有可用的训练数据。

因此,团队用了近 4 年时间从零设计研发了整个技术堆栈:采用原创 succinct 索引结构的分布式搜索引擎、使用专门设计的 Attention 网络的神经提取、不依赖 Headless 浏览器的流式抓取、支持混合处理 170 余种语言的自然语言处理管线…与此同时,在团队里语言学家的帮助下,Magi 收获了独一无二的训练/预训练数据。

“这个角度来说,我们是知识图谱的好伙伴。”

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图12)

意外走红彻底打乱前进节奏,潜在企业客户正在排队提需求

从 2015 年启动到今年年初,Peak Labs 才终于完成整个 Magi 的基本。Magi 的部分数据与相关研究成果也将定期公开于 Zenodo 和 arXiv 等平台。

在验证了 Magi 的商业价值、有了几个代表性的 NLP 行业应用案例之后,预计大约是明年的三、四季度,Peak Labs 才会开始寻求新一轮融资。

尽管按照预想 Magi 本身的技术天然不挑行业,但基于商业运作的考量,Peak Labs 更倾向于以下两种类型的客户:

两位创始人都表示,团队正考虑重新规划节奏,to C 的产品改进也会和面向企业的探索同时提上日程,但不会做竞价排名,广告不会被展示在 Magi 学习到的的结果之前。

对于 Magi 未来的命运走向,季逸超也曾在自己的微博中直言:“现在的 Magi 和当年的猛犸对我来说并没有什么不同,都饱含一个工程师朴素的初心,既不想拿广告恶心你,也对你的隐私毫无兴趣。我变秃了变胖了也变强了。”

“没想干掉百度搜索, 但Magi正成为最大的通用知识图谱系统”(图13)

图丨季逸超也是一位幽默的创业者,上图为他亲自撰写并散播的个人坊间传闻(知乎)

本文相关词条概念解析:

知识

知识是人类的认识成果。来自社会实践。其初级形态是经验知识,高级形态是系统科学理论。知识就是概念之间的连结。它是概念的内容的一个方面。概念的内容的另一个方面,就是与直观之间的连结。我们构造概念的目的归根结底是为了把握直观。因此,概念与概念之间必需彼此连结形成知识。有了知识才有力量,才能去把握直观。知识是个体通过与环境相互作用后获得的信息以及组织。按现代认知心理学的理解,知识有广义与狭义之分。广义的知识可以分为两类,即陈述性知识、程序性知识。陈述性知识是描述客观事物的特点及关系的知识,也称为描述性知识。陈述性知识主要包括三种不同水平:符号表征、概念、命题。

网友评论