类别:行业新闻 发布时间:2024-04-29 07:57:03 浏览: 次
龙8头号玩家11 月初,一个名为“的 AI 搜索引擎出现。如同一颗石子坠入到中文互联网世界这片怒海狂潮,新的产品或多或少总会有一些存在的反馈。
但现实情况是,基于知识图谱+自然语言理解技术的 掀起了不小的浪头:上线 万用户周活;登上国内第七大搜索引擎的位置;有网友在体验之后,甚至期待它将是一款能够摆脱“搜索引擎原罪”、真正面向 AI 时代的产品,乃至撬动现有的搜索引擎竞争格局。
带着这样的疑问,我们最近拜访了 Magi 的开发团队 Peak Labs,从团队两位核心人物——季逸超、刘欣旸口中得到的信息是,上述所有的浪花和遥远的想象,都非常戏剧性地不在团队的规划之内。
“开发我们没想过要干掉百度搜索。百度已经占据了国内搜索引擎市场的 75%,形成了自己的护城河,我们起初并不是为了进入到 to C 的市场去与巨头竞争……
我们没有投入这么多资源在 magi.com 上,在公众发现 magi.com 的当天就出现了服务器压力预警,现在每天都有黑客在攻击我们……这种情况已经打乱了团队原有的前进节奏。”在采访中,身为团队创始人的季逸超道出 Peak Labs 目前面临的一连串“甜蜜的烦恼”。
季逸超曾经在高中时期一人设计并开发出猛犸浏览器,并在之后获得了 Macworld 2011 的特等奖,在开发者群体中小有名气。他于 2012 年创办 Peak Labs,专注于开发新形态互联网产品。Peak Labs 曾经在成立初期获得真格、红杉的投资,团队成员目前的平均年龄不到 27 岁。
描述——特斯拉的创始人、特斯拉的灵魂人物、OpenAI的创始人之一、SpaceX的CEO、AI的怀疑者……;
不难看出,这四个板块中的信息对应用户搜索“麻省理工科技评论”可能会出现的一些基本问题。而右侧则为以上信息的“主要学习来源”。接下来才是常见的信息链接罗列。
而且,magi .com 还有一个自学习的过程,当用户停留在首页超过 5 秒,你就能看到 magi.com 正在从哪个信源中又学习到了哪个知识点。
据介绍,这种学习过程是在无人干预的情况下 7 x 24 小时不间断运行的,实时新闻事件中的知识一般只需要 5 分钟就会被掌握。随着可交叉验证的信息源不断增加,先前学习到的知识的可信度会被重新评估,使结果中的错误被自动纠正。
2019 年,伴随着互联网诞生 50 周年,搜索引擎也在人类世界走过了近 30 年,成为仅次于即时通信的互联网第二大应用,搜索引擎的全球市场格局进入到相对的稳定期,但也被诟病商业化程度过高, 此时横空出世,意不在杀入这片江湖,尽管拥有一个搜索引擎的表皮,它为网友们提供了互联网数据交互的新方式。
magi.com 不被直接感知到的,是它与经典搜索引擎最本质的不同:不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识。
Peak Labs 也在一份 Magi 的官方说明中写到:“知识提取的重要性远高于单纯地回答问题,主动发现潜在知识并持续提炼修正,显著强于被动地根据输入的问题去匹配结果。”
这也是 Peak Labs 设想的企业版 Magi 系统身为一个收费 AI 的自觉:7 x 24 小时不间断地从“最脏的互联网文本中自主阅读文本并持续纠错”,理解并充分利用互联网中无穷无尽的知识完成“通识教育”,先成长为最大的通用知识图谱,然后带着最基本的人类世界的“常识”杀入到行业中,成为行业知识图谱服务成长起来的最底层土壤,进而提供定制化的服务。
也就是说,被公众认知为 AI 搜索引擎的 magi.com,其实只是 Peak Labs 为 Magi 系统开发的一个必要组件兼功能展示界面。
图丨面向公众的和面向企业的 Magi 系统作为整个 Magi 项目的一体两面(来源:Peak Labs)
一则是希望它作为一个 Demo 展示,为企业用户演示我们能力范围内可以利用 NLP 技术构建怎样的服务(例如行业知识图谱),把企业用户提出的天花乱坠的需求尽量合理化;
二则是我们利用 magi.com 通过互联网进行远程监督,积累出一个巨大的有标注数据集并持续自动优化 Magi 的开放信息提取模型,进而通过迁移学习为各行各业降低应用 NLP 的门槛。”季逸超说。
据介绍,Magi 这一名称的灵感,一则来自于其“东方智者”的寓意,一则来自日本著名科幻动画 EVA 中的名为“MAGI System”的超级电脑。
Magi 在最脏的互联网世界中自我学习并成长为具备有时效性的“跨领域常识”的知识引擎的过程中,还将孵化出自然语言处理领域的类似“ImageNet”的大规模有标注数据集。熟悉计算机视觉领域的人都清楚,计算机视觉之所以成为全球范围内最热门的 AI 应用方向,进而诞生出这么多独角兽公司龙8国际头号玩家,ImageNet 的存在是起推动作用的必不可少的一环。
对于很多吃瓜群众来说, 甫一上线便搅动互联网世界一潭春水,也因为在长期被感知智能技术所支配的 AI 发展线中,他们第一次有机会得以一窥认知智能技术的神奇所在。
过去数十年的人工智能浪潮,主要基于深度学习的爆发,以语音识别、计算机视觉为代表的感知智能技术,享受“数据、算法、算力”三位一体的红利得到充分发展,而以自然语言处理、知识图谱等为代表的认知智能技术,目前形成的市场规模远不及前两者,尤其是相比于已经成长为庞然大物的计算机视觉。
以自然语言处理为例,其技术准确率远远没有达到计算机视觉和语音识别的水平,相应的应用产品(比如语音助手)经常被人讽刺只能用来调戏,缺少实际价值。在创业公司方面,自然语言处理领域也没有产生像商汤、旷视、依图、云从这样的“小巨头”。有业内人士曾表示,自然语言处理目前的发展大约落后于计算机视觉 3~5 年左右。
针对自然语言处理技术的商业化现状,该方向的著名学者、宾夕法尼亚大学教授 Dan Roth 在接受《麻省理工科技评论》采访时分析道:“在各种专业应用中,必须要选择正确的自然语言模型,没有任何单一模型可以解决自然语言领域中所遇到的所有问题,自然语言处理没有一个可以解决所有问题的魔术盒子存在,你必须要把所有相关的知识库放进盒子里,选择对的算法,并且针对性的处理特定问题,那么这个盒子最后才有作用”。
冲在这个建设大潮中第一线的大量“数据标注民工”就印证着这一点。现阶段,对于绝大多数行业来说,进行足够好的数据采集和数据标注,是搭建供 AI 发挥价值的“基础设施”的关键步骤。曾有业内人士直接断言,在相当长的时间内,数据质量决定了 AI 算法在真实场景中提供体验的天花板。
知识图谱的行业应用也在遵循类似宿命。知识图谱旨在用图的形式模拟人的知识,而语言正是人类知识的载体,借助自然语言处理,知识图谱技术可以帮助机器拥有真正的知识。但在这之前,重复性的数据标注同样难以避开。尤其在诸如医疗这样的高标注门槛领域,需要浪费极其宝贵的智力资源——医生——投入到大量的重复性劳作中,才能有之后收获 AI 降低工作效率的可能。
Peak Labs 团队则认为,存在一种从纯文本自动构建可信知识图谱的技术能够改变这种局面,“我们要给知识图谱送弹药”。
因此,区别于一般 AI 初创公司在成长初期优先聚焦特定行业的思路,2015 年,Peak Labs 启动开发了一款“弹药”生产线——扎根开放领域的互联网文本进行知识提取的 Magi 项目,并选择直面规模化和准确度这两个知识工程中的核心矛盾点。
开放领域的互联网文本。看到这几个字,相信一些人的脑海中会出现这样的认知:这里面的信息该多脏啊。
对于这一事关 Magi 最终呈现的准确度问题,季逸超表示:“我们很难说 Magi 自动构建信息的质量一定好于人工整理的文本。但是,首先,它的质量不差,并且可以量化。
其次,它的信息覆盖率远非人工所及。现在知识图谱的准确度已经不是问题,因为知识图谱更多是基于本来就存在的结构化的内容来进一步描述实体之间的关系。知识图谱现在主要的问题是不太堪用,经常出现的一种情形是,它对自己能力范围之外的只能回答 对不起不知道,所以我们要做的是,让知识图谱原本不知道的这些内容也能被收录,并达到一个较高的可信度。”
1、从纯文本自动构建可信的全领域知识图谱。此前业内主要依赖于人工编辑的各类数据库或百科等结构化或半结构化数据源进行整理,以构建可信的知识图谱;
2、构造大规模的带标注的跨领域数据集。类似于打造 NLP 领域的“ImageNet”,目前整个 NLP 领域都没有一个可以达到类似 ImageNet 在计算机视觉领域地位的数据集;
3、通过互联网进行终身学习持续优化。过去,机器学习存在的问题在于,数据训练模型往往是静态的,针对模型缺陷的每一次反馈和调整都需要手动介入;另一方面,很多信息是实时更新的:以一款新发布的手机为例,发布会信息出来之后,通过抓取文本,产品的价格属性很快就能得到更新,如果是百度百科之类还需要等待人工进行编辑;
4、获取常识并结构化。现实中,越基础的知识越缺乏结构化的整理,Magi 则通过理解大量的纯文本中的信息去掌握这些未被系统整理过的知识;
5龙8国际头号玩家、多任务迁移学习和跨领域迁移学习。即先通过整个互联网文本进行宽泛的背景知识学习,然后迁移到某个具体领域中,为企业客户减轻负担。就像迁移能力帮助 CV 产生规模化的商业价值一样,NLP 的商业化进程迁移学习能力将同样重要;
6、面向远期可解释 AI 保证知识可溯源。这是为面向未来的人工智能发展所做的准备。尽管 Magi 仍然使用了深度学习技术,无法避开黑箱问题,但系统学习到的信息都留下了可溯源的痕迹。
据季逸超介绍,其中前两个方向是目前学术领域也在攻坚的问题,同时兼顾这 6 个方向也要求相当的工程能力。
在质量参差不齐的海量互联网文本中,为了提升信息的利用率,Magi 必须尽可能彻底地从每一段质量参差不齐且主题各异的文本中提取出全部知识。这也决定一切现有的技术方案都不可用:这不再是一个清晰的序列标注问题,交错叠加的关系使得搜索空间爆炸式增长,不受限制的领域还意味着根本没有可用的训练数据。
因此,团队用了近 4 年时间从零设计研发了整个技术堆栈:采用原创 succinct 索引结构的分布式搜索引擎、使用专门设计的 Attention 网络的神经提取系统、不依赖 Headless 浏览器的流式抓取系统、支持混合处理 170 余种语言的自然语言处理管线……与此同时,在团队里语言学家的帮助下,Magi 收获了独一无二的训练/预训练数据。
这个系统通过引入传统搜索中的 query-independent 质量因素,使得优质可靠的消息源会更被重视;而在泛化能力上,其基于多级迁移学习的提取模型,则摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节,并且可在 zero-resource 的前提下直接应用到各种外语文本上;随着数据的积累以及来源多样性的扩充,这个系统还能够持续学习与调整,自动消除学习到的噪音和错误结果。
他认为,Magi 背后的技术既可以用来从零为行业构建知识图谱,也可以和行业已有的专用知识图谱结合,即知识图谱填充。例如说人类专家描述一个病症把发病率之类的信息列举出来,但是 Magi 基于一些病友在网上交流发布的内容,能够把更多病症相关的信息结构化地填充进来。
从 2015 年启动到今年年初,Peak Labs 才终于完成整个 Magi 系统的基本开发。Magi 的部分数据与相关研究成果也将定期公开于 Zenodo 和 arXiv 等平台。
按照团队原本拟定的 Magi 商业进程,上线之后将引入一些企业用户,以验证 Magi 的商业价值,即是否能够真正帮助企业在应用 AI 上减少前期流程和投入的成本,帮助提高 AI 产品的交付等。
在验证了 Magi 的商业价值、有了几个代表性的 NLP 行业应用案例之后,预计大约是明年的三、四季度,Peak Labs 才会开始寻求新一轮融资。
尽管按照预想 Magi 本身的技术天然不挑行业,但基于商业运作的考量,Peak Labs 更倾向于以下两种类型的客户:
“一类是例如旅行、社区型的有大量 UGC、PGC 内容的客户,他们希望能把用户生产的文本中的价值利用起来更好地服务他们的用户,确切来说即能替换掉一些原来由人力进行重复阅读与整理的环节;另一类就是有大量结构化数据需求的客户,例如金融、猎头等行业,他们在工作流程中需要整理大量的外部或者内部积累的文本资料供自身下游环节使用。”
涌入的巨大流量一方面让更多潜在企业客户慕名而来,现覆盖的行业领域已经包括金融、咨询、旅游甚至是医疗保险和人力资源,这些客户正处于排队提需求的状态,另一方面也让团队重新思考了 to C 的 AI 搜索引擎的价值:或许 magi.com 线 后这一批互联网原住民成长的互联网产品。
两位创始人都表示,团队正考虑重新规划节奏,to C 的产品改进也会和面向企业的探索同时提上日程,但不会做竞价排名,广告不会被展示在 Magi 学习到的的结果之前。
对于 Magi 未来的命运走向,季逸超也曾在自己的微博中直言:“现在的 Magi 和当年的猛犸对我来说并没有什么不同,都饱含一个工程师朴素的初心,既不想拿广告恶心你,也对你的隐私毫无兴趣。我变秃了变胖了也变强了。”
图丨季逸超也是一位幽默的创业者,上图为他亲自撰写并散播的个人坊间传闻(来源:知乎)返回搜狐,查看更多