周一至周五 | 9:00—22:00

期刊论文网 > 工业技术论文 > 信息与通讯技术论文 > 计算机信息论文 计算机信息数据挖掘技术

计算机信息论文 计算机信息数据挖掘技术

2018-11-27 16:38:12来源:组稿人论文网作者:婷婷

  摘要:随着网络、数据库技术的急速发展以及数据库管理系统的普遍应用,人们积累了越来越多的数据经验。数据挖掘(Date Mining)就是从不确定的、模糊的、大量实战经验中提取人们事先不知道的,但又非常有用的潜在知识和信息。

  关键字:数据挖掘的相关知识,数据挖掘的方法及应用,数据挖掘的发展前景

  数据挖掘与其它紧密联系的知识:

  (一)数据库与数据挖掘。 1989年,在第十一届国际联合人工智能学术会议上,“从数据库中发现知识”的说法被首次提出,“数据挖掘”的定义也在随后被确定下来。数据挖掘(Date Mining)又称为数据库中的知识发现(KDD:Knowledge Discovery in Datebase),是指从数据库中提取出隐含的、未知的、有用的信息或模式,为实验提供决策支持(包括过程控制)。 数据库是要集成多种数据源,比如个人消费记录和财务记录,比如购物的成本、销售、利润的异构数据库。数据库一般来说是比较单一结构的,没办法集成异构源去做一个统一的接口,所以在数据分析需求达到宏观规模后才弄出这么个概念来。事务是数据记录查询的单一任务,主题是数据分析目标的相关数据范畴。数据库是数据挖掘的对象,进行大规模的数据挖掘前,先是要建立数据库,数据挖掘的研究方向是有偏向数据库的。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量实验经验数据中进行提取、转换、分析,探讨和其他模型化处理,然后寻找到辅助决策的关键性数据。简而言之,数据挖掘的目的是从数据库中发现未知的、有意义的信息知识。

  (二)关联分析与数据挖掘。数据关联是数据库中存在的一类非常有用的可被发现的知识。若两个或两个以上的变量之间存在某种特别的连续,就被人们称为关联。关联分析其主要作用就是寻找到数据库中的潜在的联系。关联分析就是指搜索事务数据库(trarisactional databases)中的所有细节或事物,从中寻找重复概率很高的模式或规则。其属于灰色理论中的一种分析方法。比如知道其中一个事物,那么另一个事物就能通过它进行预测。但由于不能具体知道数据库中的数据的相关函数,即使知道也是不能确保正确率的函数,所以关联分析的规则就是带有可信度的。例如,从经发生在美国沃尔玛连锁店超市的真实案例,并且一直为人们津津乐道的“尿布与啤酒”的故事。尿布与啤酒这两种驴头不对马嘴的物品,竟然是在一起销售最多的产品。沃尔玛对其客户购买的东西进行了数据分析,想知道顾客经常在一起购买的商品有哪些。沃尔玛在数据仓库中利用数据挖掘技术进行分析和挖掘。意外的发现啤酒与尿布是一起购买概率最高的,是因为在美国一些年轻的父亲下班后,经常要到超市去购买婴儿纸尿布,而他们中有30%-40%会去购买自己喜爱的啤酒。而这个现象产生的原因是:美国的太太经常嘱咐自己的丈夫在下班后为小孩子买尿不湿,其丈夫在买尿布之后又会顺手买他们喜爱的啤酒。

  (三)数据分析与数据挖掘。数据分析只是在已经确定的假设范围下,先检验约束上处理原有运算方法,统计方法,将数据分析转化为信息,而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘。数据挖掘与数据分析两者有着密切的联系,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能进行决策。两者具体的区别在于:

  1、数据量。数据分析的数据量并不一定大,但是数据挖掘的数据量却极大。2、约束。数据分析是从假设出发,需要自己建立一定的关系函数来和所定的假设吻合。但是,数据挖掘不需要假设,是从实验中一点点积累所得,可以自动的生成相关的函数。3、对象。数据分析一般是针对数字化的数据,但是数据挖掘能够拥有不同的类型数据。4、结果。数据分析是对结果进行解释说明,呈现出有效的信息。而数据挖掘的结果不容易解释,对信息进行价值评估,主要预测未来,并且提出决定性建议。数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具。只有数据分析与数据挖掘相结合,才能将数据的效果发挥到极致。

栏目分类