荣恒机械网 >> 红木家具

抓错能手!MIT发布首个贝叶斯“数据清理”机器人:7金刚砂轮.5小时洗220万条数据金刚砂轮

2022-09-06
抓错能手!MIT发布首个贝叶斯“数据清理”机器人:7.5小时洗220万条数据 导读:麻省理工学院的研究人员发明了一种新的系统,可以自动清除“脏数据”——数据分析师、数据工程师和数据科学家害怕的打字错误、重复、拼写错误和不一致。
麻省理工学院(MIT)的研究人员发明了一种新的系统,可以自动清除脏数据(dirty data)——数据分析师、数据工程师和数据科学家害怕的打字错误、重复、缺失值、拼写错误和不一致。
这个系统被称为PClean,是概率计算项目(Probabilistic Computing Project)研究人员编写的商业摄影针对特定领域的概率编程语言,旨在简化人工智能应用程序的开发并实现自动化,例如时间序列和数据库进行建模。
根据Anaconda和Figure Eight进行的调查,数据清理可能需要数据科学家四分之一的时间。自动化数据清理这项任务,一直是很有挑战性的,因为不同的数据集需要不同类型的清理,而且经常需要对世界上的对象进行常理性的判断。PClean为这些判断用提供了通用的常识性模型,这些判断可以根据特定的数据库和错误类型进行定制。
PClean使用一种基于知识的方法来自动化数据清理过程:用户对数据库的背景知识以及可能出现的问题进行编码。用户可以给PClean关于域和关于数据可能被破坏的背景知识。PClean通过常识概率推理结合这些知识来得出答案。
这篇论文的主要作者、电子工程和计算机科学系(EECS)的博士生亚历克斯·卢(Alex Lew)说,他最兴奋的是PClean提供了一种从计算机获取帮助的方式,就像人们相互寻求帮助一样。
PClean是第一个基于生成数据建模的可扩展、设计良好、通用的解决方案,这必须是正确的道路。结果不言自明。合著者Agrawal补充说:现有的数据清理方法在表达能力上受到了更多的限制,而这可能更加用户友好,但代价是相当有限。此外,我们发现PClean可以扩展到非常大的数据集,这些数据集在现有系统下运行时不现实。
PClean建立在概率编程的最新进展之上,包括在麻省理工概率计算项目中建立的一个新的人工智能编程模型,该模型使应用人类知识的现实模型来解释数据变得更加容易。PClean的修复是基于贝叶斯推理(Bayesian reasoning)的,这种方法结合了先验概率(给定的手头数据)和后验概率,能够对填补的数据给出一个概率值。
PClean是第一个贝叶斯数据清理系统,它可以结合领域专业知识和常识性推理,自动清理数据库中的数百万条记录。PClean通过三项创新实现了这一效率:
- 首先,PClean的脚本语言允许用户对他们知道的内容进行编码。这将产生精确的模型,即使对于复杂的数据库也是如此。
- 第二,PClean的推理算法使用了一种两阶段的方法,基于一次处理记录,电话终端对如何清除记录做出有根据的猜测,然后重新访问判断调用来修复错误。这将产生强大、准确的推理结果。
- 第三,PClean提供了一个自定义编译器,可以生成快速推理代码。这使得PClean能够以比其他竞争方法更快的速度运行在有上百万条记录的数据库上。
与所有概率程序一样,该工具工作所需的代码行数要比其他最先进的选择少得多:PClean程序只需要大约50行代码就可以在准确性和运行时方面超过基准测试。做个比较你就明白这种提升有多明显:一款简单的蛇形手机游戏需要两倍多的代码才能运行,而《我的世界》的代码就超过了100万行。
在他们刚刚于2021年人工智能和统计学会会议上提交的论文中,作者展示了PClean的能力,通过使用PClean来检测错误,并在220万行全国医疗保险医师比较数据集中输入缺失值,可以扩展到包含数百万条记录的数据集。仅仅运行了7个半小时,PClean就发现了8000多个错点胶机误。然后作者通过手工验证(通过搜索医院网站和医生LinkedIn页面),结果显示:对于超过96%的患者,PClean提出的修复方案是正确的。
由于PClean是基于贝叶斯概率的,它也可以给出其不确定性的校准估计。它可以维持多个假设——给你分级的判断,而不仅仅是背心是/否的答案。
(原标题:抓错能手!MIT发布首个贝叶斯数据清理机器人:7.5小时洗220万条数据)
小儿反复包皮粘连需注意预防和护理
酒精性脑萎缩做哪些检查
牙外伤
宫颈癌晚期的护理非常重要
友情链接