人们要对自己的决定负责,因此反对黑箱工具是很自然的。arXlive 让人类参与其中,帮助人们对技术研究做出更明智的决定。
arXlive [读作 {arc-live}] 是一个开源平台,用于实时监控 arXiv 文章中的创新活动。arXiv 充满了开创性的物理、定量和计算研究,从第一份关于发现石墨烯的报告,到人工智能研究的开创性进展和新物质构成要素的发现。作为丰富的研究数据来源,我们已经基于 arXiv 数据进行了两项研究:“深度学习,深刻变革? ”和“人工智能中的性别多样性”。arXlive 最初源于这项研究,我们开发了工具来完全自动化其中一篇论文,以便保持结果的相关性。但从那时起,arXlive 已经发展成为一个更通用的工具,将人类放在中心位置。
arXlive:人机交互工具
在创新地图绘制团队中,我们开发工具和基础设施,使人们能够做出更好的决策,并能够利用最新的数据来做出决策。我们向依赖最新科学、技术和社会创新的地方、国家和国际政策制定者和资助者提供工具。由于这些人要对自己的决策负责,因此通常排除采用“黑箱”方法的工具。我们解决这个问题的方法是开发“人机交互”工具,我们最新的此类示例是arXlive,它以数据分析和生产系统为基础,可协调数据收集、丰富和机器学习的稳定管道。
HierarXy:上下文搜索引擎
众所周知,当您使用搜索引擎时,您将获得与您的搜 喀麦隆电话号码数据 索查询完全匹配、部分匹配或近似匹配的结果。当您搜索非常具体的内容时,这些近似精确匹配非常完美,但是当您想要进行广泛的上下文搜索时,您必须使用复杂的“高级”搜索,同时还要有专家为您提供关键字列表。假设您想查找有关 5G 系统的最新有趣工作,如果您不是该领域的专家,很难想象如何找到一组广泛的相关结果。HierarXy通过明确执行上下文搜索大大简化了此过程,这样您就不会陷入寻找稀有宝石的困境。让我举两个例子。
示例 1)可持续发展与人工智能
想象一下,您正在使用常规搜索引擎。您如何找到“AI”和“可持续发展”交集处的学术文章?一种方法是搜索{AI、机器学习、大数据}中的任何术语以及{可持续发展、贫困、自然资源}中的任何术语。这里的问题是“AI”和“大数据”(或“可持续发展”和“贫困”)是相关术语,但它们绝对不是一回事。因此,按照这种策略,您最终会得到很多垃圾结果,除此之外,搜索“可持续发展”和“AI”与搜索“自然资源”和“大数据”在上下文上存在显着差异。HierarXy 的上下文搜索通过将与“可持续发展”和“AI”在上下文上最相似的结果排名靠前来解决这个问题。
例 2)在 BERT 之前,BERT 是什么样的?
机器学习领域最重大的进步之一是谷歌的 BERT,在众多应用中,它是目前最先进的自动问答和句子完成系统。但在 2018 年出现的 BERT 之前,情况如何?使用 HierarXy,您只需搜索“BERT”,然后选择 2018 年之前的日期即可。术语“BERT”在 2018 年之前没有出现这一事实并不重要,因为上下文才是游戏的名称。
关于“新颖性”的注释
新颖性无法用任何单个数字完全表示,因为它没有直接的定义。新颖性通常可以定义为{新的、原创的、不寻常的}中的任何一个(或更多),我们遵循的程序最好地概括了“不寻常”的概念(或者更正式地说,“你与最近的邻居有多大 不同?” )。我们在这个更具技术性的博客中描述了这一点,以及我们为 HierarXy 制定的整个程序(您可以在此处查看我们的代码库)。 Nesta 正在开发其他更复杂的新颖性定义,这些定义是由Rhodonite python 包实现的。
关键词工厂:我还应该搜索什么?
您可能仍然认为 HierarXy 有点太黑箱化,不符合您的喜好;或者您正在寻找的文章根本不在 arXiv 上。关键字工厂允许您完全基于 arXiv 数据扩展您的技术词汇量。例如,您可能正在搜索与区块链相关的最新研究,但您是否知道您可能还会查看智能合约?除了搜索石墨烯之外,您还可以考虑gnrs,或者更确切地说,石墨烯纳米带?