一家公司可以梳理来自美国专利和商标局的数据,并且在收购另一家公司前,可以通过记录察看它的知识产权是否正深陷法律诉讼。然而,在实际操作时,审查这么多信息需要耗费很多时间和精力去精心策划。
分类和过滤:BigSheets让用户利用类似桌面电子表格软件的工具,分析来自网络的杂乱数据。
IBM希望一种名为BigSheets的新工具能帮助用户更轻松地分析网络数据。IBM公司已经为大不列颠图书馆开发了这款软件的一个测试版本。
“任何用户都能对他们自己感兴趣的数据类型进行分析,这样的时代正在到来。”IBM新兴因特网技术副总裁罗德.史密斯(Rod Smith)如是说。
BigSheets的构架基于另一款名为Hadoop的软件。它是一个开源平台,通过将任务化整为零,递送给不同计算机集群,处理海量网络数据。Hadoop经常被用来分析大量杂乱的网络数据。
BigSheets应用Hadoop扒取网页,对它们进行句法分析,以提取出关键短语和其他有用数据。BigSheets把这些信息组织到一个巨大的电子表格中,在里面,用户就能利用桌面电子表格软件中的工具和宏命令对这些信息进行分析了。然而,不同于传统的电子表格软件,通过BigSheets构造出的电子表格的大小是没有限制的。
要使用BigSheets,用户需要给它一组网站链接或者数据位置。短语列表可被用于将数据组织成行和表格,而这些一会还能再进行调整。
史密斯表示,IBM选择电子表格作为组织数据的模型,是因为大多数用户已经熟悉这样的软件了。如果用户想要以更复杂的形式展示数据,这款工具还将利用IBM一款名为多眼(Many Eyes)的可视化软件来工作,或者其他的一些可视化软件。
BigSheets具有“我从未见过的整合水准,”技术出版公司奥莱利传媒公司(O'Reilly Media)研究小组的资深分析师本.洛里卡如是说。洛里卡表示,公司一般将BigSheets能实现的功能分成三个独立的任务——扒取网页、数据分析以及可视化。由于BigSheets构架基于Hadoop,后者被设计用于处理海量数据,洛里卡说,对于BigSheets来说“规模不是问题”。
不过他提醒,BigSheets尚处于初期阶段,还需要在其他数据上进行测试。由于这项技术是与IBM的一些特定合作伙伴联合开发的,一家公司上手使用这项技术是不是容易,对此还尚不明确,他如是说。他还表示,建起一个Hadoop集群是一项艰巨的任务,而且如果BigSheets封装的不好,公司可能会发现他们需要一大群顾问要为这个工具的使用来铺路。
对于BigSheets的第一次考验来自大不列颠图书馆,后者自2004年就开始致力于创建一个包括大约八百万英国网站的档案。每隔一段时间,图书馆拍取网页快照,将它们转成一种档案文件格式,然后存储。不过查询和分析这些数据是另一种挑战,轮到BigSheets显身手了。
史密斯介绍,在不到八小时内,他的团队创建了4.5TB的档案文件,并使用一个四台机器的Hadoop集群对它们进行了处理。在大不列颠图书馆研究者们的指导下,团队应用BigSheets从这些杂乱的网页中提取关键词、作者信息、以及其他元数据。他们试验了词频分析,还试跑了标签云和其他可视化过程。
大不列颠图书馆的研究者们可以在进程的第一天调整他们感兴趣的元数据类型,他们把重点更多放在网页文章作者上。可视化提供了新的视角。比如,应用标签云,研究者们发现英国政治人物和作家阿拉斯代尔.坎贝尔(Alastair Campbell)经常被错拼成“阿里斯代尔”(Alistair),这使得可能很容易被忽视的大量相关记录浮出水面。
伊藤.阿代尔(Eytan Adar),密歇根大学信息和计算机科学系助理教授,研究互联网级系统、文本挖掘以及可视化。他表示,这款工具能产生巨大的影响。“尽管大不列颠图书馆的内容看起来仅限于每个网页的一些快照,它依然转化了成吨的数据,简单抛弃一次查询响应的搜索结果是没有用的。”阿代尔如是说。
阿代尔设计了他自己的名为Zoetrope的工具,分析网页如何随时间而变化。他说,通过对来自不同网页的数据(也是随时间变化)进行比较,BigSheets带来了新的视角。阿代尔还表示,有效的可视化是“使用户快速理清大量采集到的数据的关键。”
在更多测试后,IBM希望使BigSheets融入其现有的服务和产品中。