数据仓库在收集数据过程中，会遇到一些略微不一致但可以纠正的数

问题单项选择题

数据仓库在收集数据过程中，会遇到一些略微不一致但可以纠正的数据，纠正的过程称为 (24) 。

A．数据转换

B．数据抽取

C．数据清洗

D．数据装载

答案

参考答案：C

解析：

[分析]：数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定且随时间变化的数据集合，用于支持管理决策。
(1)面向主题。操作型数据库的数据组织面向事务处理任务(面向应用)，各个业务系统之间各自分离，而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系统相关。例如，一个保险公司所进行的事务处理(应用问题)可能包括汽车保险、人寿保险、健康保险和意外保险等，而公司的主要主题范围可能是顾客、保险单、保险费和索赔等。
(2)集成。在数据仓库的所有特性中，这是最重要的。面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据进行抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。
(3)相对稳定。操作型数据库中的数据通常实时更新，数据根据需要即时发生变化。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需定期加载、刷新。
(4)随时间变化。操作型数据库主要关心当前某一个时间段内的数据，而数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库反映历史变化的属性主要表现在：
(1)数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限，传统操作型数据系统中的数据时间期限可能为数十天或数个月，数据仓库中的数据时间期限往往为数年甚至几十年。
(2)传统操作型数据系统中的数据含有“当前值”的数据，这些数据在访问时是有效的，当然数据的当前值也能被更新，而数据仓库中的数据仅仅是一系列某一时刻(可能是传统操作型数据系统)生成的复杂的快照。
(3)传统操作型数据系统中可能包含也可能不包含时间元素，如年、月、日、时、分、秒等，而数据仓库中一定会包含时间元素。
从结构的角度看，有3种数据仓库模型，分别是企业仓库、数据集市和虚拟仓库。企业仓库收集跨越整个企业的各个主题的所有信息，它提供全企业范围的数据集成，数据通常来自多个操作型数据库和外部信息提供者，并且是跨多个功能范围的。它通常包含详细数据和汇总数据；数据集市包含对特定用户有用的、企业范围数据的一个子集，它的范围限于选定的主题；虚拟仓库是操作型数据库上视图的集合。
数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识，这些知识或信息是隐含的，事先未知而潜在有用的，提取的知识表示为概念、规则、规律、模式等形式。也可以说，数据挖掘是一类深层次的数据分析。常见和应用最广泛的数据挖掘方法有：
(1)决策树。决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段，建立决策树的一个节点，再根据该属性字段的不同取值建设树的分支；在每个分支子集中重复建立树的下层节点和分支的过程。国际上最早的、也是最有影响的决策树方法是Quiulan研究的ID3方法。
(2)神经网络。神经网络方法是模拟人脑神经元结构，完成类似统计学中的判别、回归、聚类等功能，是一种非线性的模型。主要有3种神经网络模型：前馈式网络、反馈式网络和自组织网络。人工神经网络最大的长处是可以自动地从数据中学习，形成知识，这些知识有些是我们过去未曾发现的，因此具有较强的创新性。神经网络的知识体现在网络连接的权值上，神经网络的学习主要表现在神经网络权值的逐步计算上。
(3)遗传算法。遗传算法是模拟生物进化过程的算法，它由三个基本过程组成：繁殖(选择)、交叉(重组)、变异(突变)。采用遗传算法可以产生优良的后代，经过若干代的遗传，将得到满足要求的后代，即问题得解。
(4)关联规则挖掘算法。关联规则是描述数据之间存在关系的规则，形式为“A1A2…An≥B1B2…Bn”。一般分为两个步骤：求出大数据项集。用大数据项集产生关联规则。
不论采用哪种技术完成数据挖掘，从功能上都可以将数据挖掘的分析方法划分为4种，即关联分析(Associations)、序列模式分析(Sequential Pattems)、分类分析(Classifiers)和聚类分析(Clustering)。
(1)关联分析。关联分析的目的是挖掘出隐藏在数据间的相互关系。设R={A1，A2，…，AP｝为{0，1｝域上的属性集，r为R上的一个关系，关于r的关联规则表示为X→B，其中X∈R，B∈R，且X∩B=[*]。关联规则的矩阵形式为：矩阵r中，如果在行X的每一列为1，则行B中各列趋向于为1。在进行关联分析的同时还需要计算两个参数，最小置信度(Confidence)和最小支持度(Support)。前者用以过滤掉可能性过小的规则，后者则用来表示这种规则发生的概率，即可信度。
(2)序列模式分析。序列模式分析的目的也是挖掘出数据之间的联系，但它的侧重点在于分析数据间的前后关系(因果关系)。例如，将序列模式分析运用于商业，商家可以根据分析结果发现客户潜在的购物模式，发现顾客在购买一种商品的同时经常购买另一种商品的可能性。在进行序列模式分析时也应计算置信度和支持度。
(3)分类分析。分类分析时首先为每一个记录赋予一个标记(一组具有不同特征的类别)，即按标记分类记录，然后检查这些标定的记录，描述出这些记录的特征。这些描述可能是显式的，如一组规则定义；也可能是隐式的，如一个数学模型或公式。
(4)聚类分析。聚类分析法是分类分析法的逆过程，它的输入集是一组未标定的记录，即输入的记录没有作任何处理。目的是根据一定的规则，合理地划分记录集合，并用显式或隐式的方法描述不同的类别。在实际应用的数据挖掘系统中，上述4种分析方法有着不同的适用范围，因此经常被综合运用。