问题 问答题

论数据挖掘技术的应用
随着信息技术的高速发展,各组织机构积累的数据量急剧增长。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘(Data Mining)就是为顺应这种需要应运而生发展起来的数据处理技术,是知识发现的关键步骤。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
请围绕“论数据挖掘技术的应用”论题,依次从以下3个方面进行论述:
①概要叙述你参与分析和开发的软件项目及你所担任的主要工作。
②数据挖掘的主要任务是什么具体论述你在项目中使用数据挖掘技术所解决的问题。
③数据挖掘的方法主要有哪些分析并讨论你所选择的数据挖掘方法,简述其具体实现过程和实际应用效果。

答案

参考答案:本题考查数据挖掘技术的应用。其实从应用的角度,或者从商业的角度来看,数据挖掘这一词在业内出现的频度已不如以前那么高了。因为数据挖掘通常是不独立进行的,它涉及数据源的获取问题,即先要建立一个数据仓库,再从中“挖”数据。这其实就是我们经常看到的是“BI”——商业智能。商业智能我们可以理解为是:数据仓库+数据挖掘。这也就确定了本文的项目背景。
文章最好是把这一层关系讲清楚,写商业智能的项目,如果没有项目经验,直接杜撰出数据挖掘项目来写文章,风险会很高,很容易让人看出文章的“做假”行为。除此以外,文章可按传统的写法组织内容。即按问答方式组织文章的主体脉络,并加入项目信息,同时做好承上启下的句子进行段落衔接。
具体的写作规范如下:
①结合自己所参与的软件项目,概要介绍该项目的背景及主要内容,并明确指出在其中所承担的主要任务和开展的主要工作。
②数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
· 关联分析。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性。
· 聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
· 分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
· 预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测的精度和不确定性被重点关注,通常用预测方差来度量。
· 时序模式。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
· 偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
论文中须明确指出自己在该项目应用数据挖掘技术所要解决的具体问题是什么。
③主要的数据挖掘方法:
· 神经网络方法:神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分三大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以an模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。
· 遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。
· 决策树方法:决策树是一种常用于预测模型的算法,它通过将大量数据有目的地分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher。设计了id4递增式学习算法等。
· 粗集方法:粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。
· 覆盖正例排斥反例方法:它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则。比较典型的算法有michalski的aq11方法等。
· 统计分析方法:在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。
· 模糊集方法:利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的此亦彼性的。
论文中必须明确指出使用了上述7种方法中的哪种或哪几种数据挖掘方法,并给出该方法的具体实现过程;分析所选择的数据挖掘方法的实现效果。

阅读理解与欣赏

阅读下面文章,回答下列小题。

远去了,母亲放飞的手

刘心武

从1950年到1959年,我8岁到17岁。家里平时就我和母亲两人。回忆那10年的生活,母亲在物质上和精神上对我的哺育,都是非同寻常的。

物质上,母亲自己极不重视穿着,对我亦然,有得穿就行了;用的,如家具,也十分粗陋。但在吃上,那可就非同小可了,母亲做得一手极地道的四川菜,且不说她能独自做出一桌宴席,令父亲的那些见过大世面的朋友交口称誉,就是她平日不停歇地轮番制作的四川腊肠、腊肉等,也足以叫邻居们啧啧称奇。有人就对我发出警告:“你将来离开了家,看你怎么吃得惯啊!”但是母亲几乎不给我买糖果之类的零食,偶尔看见我吃果丹皮、关东糖之类的零食,她总是要数落我一顿。母亲坚信,一个人只要吃好三顿正经饭,便可健康长寿,并且那话里话外,似乎还传递着这样的信念:人只有吃“正经饭”才行得正,吃零嘴意味着道德开始滑落——当然很多年后,我才能将所意会到的,整理为这样的文句。

母亲在饮食上如此令邻居们吃惊,被一致地指认为对我的“娇惯”和“溺爱”。但跟着还有令邻居们吃惊的是,我家是大院中有名的邮件大户。如果那几十种报刊都是我父亲订的,当然也不稀奇,但我父亲其实只订了一份《人民日报》,其余的竟都是为我订的。就有邻居大妈不解地问我母亲:“你怎么那么舍得为儿子花钱啊!你看你,自己穿得这么破旧,家里连套沙发椅也不置!”母亲回答得很坦然:“他喜欢啊!这个爱好,尽着他吧!”

1959年,我被师范专科学校录取,勉勉强强地报了到。我感到“不幸中的万幸”是,这所学校就在市内,因此我深得还可以大体上保持和上高中差不多的生活方式——晚上回家吃饭和睡觉。我满以为,母亲会纵容我“依然故我”地那样生活。但是她却给我准备了铺盖卷和箱子,显示出她丝毫没有犹豫过。母亲不仅把我“推”到了学校,而且,也不再为我负担那些报刊的订费,我只能充分地利用学校的阅览室和图书馆。

1960年春天,有一个星期六我回到家中,进门就发出情况异常,仿佛在准备搬家似的……果不其然,父亲奉命调到张家口一所军事院校去任教,母亲也随他去。我呢?父亲和母亲都丝毫没有犹豫地认为,我应当留在北京。问题在于:北京的这个家,要不要给我留下?如果说几间屋都留下太多,那么,为什么不至少为我留下一间呢?但父亲却把房子退了,母亲呢,思想感情和父亲完全一致,就是认为在这种情况下,我应当开始完全独立地生活。父亲迁离北京后的那周的星期六下午,我忽然意识到我在北京除了集体宿舍里的那张上铺铺位,再没有可以称为家的地方了!我爬上去,躺到那铺位上,呆呆地望着天花板上的一块污渍,没有流泪,却有一种透彻肺腑的痛苦,难以言说,也无人可诉。

1966年春天,我在北京一所中学任教。就在那个春天,我棉被的被套糟朽不堪了,那是母亲将我放飞时,亲手给我缝制的被子。它在为我忠实地服务了几年后,终于到了必须更换的极限。于是我给在张家口的母亲写信要一床被套。这对于我来说是自然到极点的事。母亲很快寄来了一床新被套,但同时我也就接到了母亲的信,她那信上有几句话我觉得极为刺心:“被套也还是问我要,好吧,这一回学雷锋,做好事,为你寄上一床……”睡在换上母亲所寄来的新被套里,我有一种悲凉感:母亲给儿子寄被套,怎么成了“学雷锋,做好事”,仿佛是“义务劳动”呢?现在我才醒悟,母亲那是很认真很严肃的话,就是告诉我,既已将我放飞,像换被套这类的事,就应自己设法解决。她是在提醒我,“自己的事要尽量自己独立解决”。

母亲将我放飞以后,我离她那双给过我无数次爱抚的手是越来越远了,但她所给予我的种种人生启示,竟然直到今天,仍然能从细小处,挖掘出珍贵的宝藏来……谁言寸草心,报得三春晖!

小题1:(1)文章的结尾一段“母亲将我放飞以后……”其中“放飞”一词在文中的意思是什么?(2分)

                                                                           

(2)文中共写了几次“放飞”,请作简明概括。(3分)

                                                                      

小题2:作者认为母亲“所给予我的种种人生启示,竟然直到今天,仍然能从细小处,挖掘出珍贵的宝藏来”,请结合全文,谈谈母亲给予了“我”哪些人生启示。(5分)

小题3:(1)“他喜欢啊!这个爱好,尽着他吧!”这句话在文中的意思是什么?(2)

答:                                                              

(2)母亲注重孩子的饮食,对衣着和家中摆设却毫不讲究,却给孩子订“几十种报刊”,你能从中悟出母亲的“育子”之道吗?(2分)

答:                                                             

小题4:下列理解不符合文意的两项是(4分)                           

A.这是一篇回忆性的散文,作家刘心武主要通过回忆生活中母亲对自己的种种关心和照顾,表现了母亲对儿子的浓浓的舐犊深情。

B.文中的母亲在对待孩子的问题上有独到之处,她不是把孩子紧紧护在自己的羽翼之下,而是将孩子“放飞”,只有敢于“放飞”,孩子将来才会真正有出息。

C.对于母亲给予的爱,作者并不是当时就理解的,而是在经历过种种的人生体验之后,才能领悟到这种高层次的母爱。

D.作者写自己被母亲“放飞”后的种种痛苦感受,描绘了自己心灵成长的艰辛,写作的目的是告诉我们,真正的母爱,就是能为子女作长远打算的爱。E.本文文字朴实无华,虽然没有用华丽的辞藻来歌颂母亲,却能使读者从字里行间感受到母子之间那种浓郁的深情。

不定项选择题