基于云计算的数据挖掘技术

【摘 要】随着云计算时代的快速发展,基于云计算的大批量的数据挖掘已经成为解决传统集中式数据挖掘没法适应大量数据不断增长的切实、高效、可行的方法。本文通过介绍云计算的含义以及特点、发展现状,分析了利用云计算技术以便实现数据挖掘的优势,总结了目前基于云计算的有关数据挖掘技术的现状以及存在的问题,给出了合理可行的解决方法和措施。

  【关键词】云计算;数据挖掘;技术

数据挖掘(data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。大批量的数据不断增长,各式各样的数据挖掘需求非常之高,以前的集中式数据挖掘技术已经无法适应。云计算因为它可弹性变化的计算能力和海量的存储能力使得它成为解决大批量数据挖掘的突出的方法。

  1、云计算在数据挖掘方面的优势

1.1 云计算的含义

云计算(cloud computing),分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务【1】。

最简单的云计算技术在网络服务中已经随处可见,例如搜寻引擎、网络信箱等,使用者只要输入简单指令即能得到大量信息。 未来如手机、GPS等行动装置都可以透过云计算技术,发展出更多的应用服务。 进一步的云计算不仅只做资料搜寻、分析的功能,未来如分析DNA结构、基因图谱定序、解析癌症细胞等,都可以透过这项技术轻易达成[2]。 稍早之前的大规模分布式计算技术即为“云计算”的概念起源。

云计算时代,可以抛弃U盘等移动设备,只需要进入Google Docs页面,新建文档,编辑内容,然后,直接将文档的URL分享给你的朋友或者上司,他可以直接打开浏览器访问URL。我们再也不用担心因PC硬盘的损坏而发生资料丢失事件。

1.2 云计算的特点

云计算的特点如下:

1.2.1超大规模

“云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。

1.2.2虚拟化

云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务【3】。

1.2.3高可靠性

“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。

1.2.4通用性

云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。

1.2.5高可扩展性

“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

1.2.6按需服务

“云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。

1.2.7极其廉价

由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务【4】。

云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。

1.3 云计算的发展与现状

21世纪10年代云计算作为一个新的技术趋势已经得到了快速的发展。云计算已经彻底改变了一个前所未有的工作方式,也改变了传统软件工程企业。以下几个方面可以说是云计算现阶段发展最受关注的几大方面:

1.3.1云计算扩展投资价值

云计算简化了软件、业务流程和访问服务。比以往传统模式改变的更多,这是帮助企业操作和优化他们的投资规模。这不仅是通过降低成本,有效的商业模式,或更大的灵活性操作。有很多的企业通过云计算优化他们的投资。在相同的条件下,企业正扩展到更多创新与他们的IT能力,这将会帮助企业带来更多的商业机会。

1.3.2混合云计算的出现

企业使用云计算(包括私人和公共)来补充他们的内部基础设施和应用程序。专家预测,这些服务将优化业务流程的性能。采用云服务是一个新开发的业务功能。在这些情况下,按比例缩小两者的优势将会成为一个共同的特点。

1.3.3以云为中心的设计

有越来越多将组织设计作为云计算迁移的元素。这仅仅意味着需要优化云的经历是那些将优先采用云技术的企业。这是一个趋势,预计增长更随着云计算的扩展到不同的行业【5】。

1.4 基于云计算的数据挖掘的优势

利用云计算的方式来解决对大批量数据进行挖掘的优势大致可归结为以下三点:

1.4.1因为数据挖掘处理的数据是大批量的,所以必须从大批量的数据中挖掘出可以让人理解的大规模的数据,并且由于互联网上数据的增长非常迅速,所以数据挖掘的任务要比单纯的搜索任务复杂的多,这就使得在挖掘过程中有更好的应用环境和开发环境。在这样的境况下,基于云计算的方式是最为理想的。   1.4.2基于云计算可以实现低成本的有关分布式并行计算环境,因此,它可以使得企业的数据处理成本降低,同样也可以不依赖于高性能的机器。

1.4.3基于云计算的数据挖掘非常方便,不在乎底层。在并行化的情况下,云计算可以利用原有设备加大对大量数据的处理能力及其速度,保证了容错性,也扩大了结点。

  2、基于云计算平台的数据挖掘实例

至今,基于云计算的数据挖掘在某些方面已有一些成果。下面是基于云计算数据挖掘的研究成果。

2.1由中科院计算技术研究所开发的中国最早的基于云计算平台的有关并行数据挖掘系统PDMiner(Parallel Distributed Miner)。

2.2中国移动研究院研制并开发了并行数据挖掘工具也是基于云计算平台Hadoop 的,因为采用云计算技术,所以实现了大批量数据的存储、分析、处理、挖掘,并且可以提供高性能、高可靠性的数据挖掘分析支撑工具。

2.3 ASF 研发的开源项目数据挖掘平台Apache Mahout,可以使开发人员在Apache 的许可下免费使用,并研究出可伸缩的机器学习算法。

2.4开源数据挖掘系统Augustus是开放数据组利用Python 语言开发的,它支持预测模型标记语言,也能方便的运行在Amazon的云计算平台上。

2.5德国Fraunhofer 智能分析和信息系统研究所研发了一个图形化的数据挖掘工具包,把软件和平台有效的结合在一起,完成了软件在云平台上的转移。

  3、基于云计算数据挖掘面临的问题和挑战

为您推荐

返回顶部
首页
电子图书
视频教程
搜索
会员