企事业单位的决策越来越需要建立在对历史数据和相关数据的科学分析的理性基础上。数据仓库已经成为数据分析和联机分析处理中日趋重要的平台。然而,数据仓库的设计与实现过程面临许多技术上的挑战,例如,多个异种数据源的集成带来的困难等。
请围绕“数据仓库与数据挖掘在企业信息化中的应用”论题,依次对以下3个方面进行论述。
1.概要叙述你参与管理和开发的管理信息系统项目及你所担任的主要工作。
2.简要讨论你在从事数据仓库的设计时是如何进行规划和分析的,详细描述数据仓库设计、数据集成和测试,以及部署数据仓库的过程。
3.分析并讨论你在数据仓库设计与实现过程中遇到的主要问题及其解决办法,以及你进一步应用数据仓库技术的有关设想。
参考答案:1.介绍你在论文中准备列举的、含有数据仓库与数据挖掘技术的管理信息系统的项目背景、项目投资和项目周期等基本情况。在第一段的末尾,尽量用一两句话简要说明在该项目中你所担任的角色和所承担的主要任务。论文叙述自己参与设计和实施的信息系统项目应有一定的规模,自己在该项目中担任的主要工作应有一定的分量。
2.论文的第二部分是体现你在数据仓库与数据挖掘技术应用方面相关理论知识和实践思想的精华所在。在叙述本部分内容时,应注重理论与自身实践经历的结合。论文要点如下。
(1)数据仓库是一个用于更好地支持企业或组织管理决策的、面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据仓库系统需要高性能数据库服务器、并行数据库技术、数据库互操作技术、决策支持查询优化技术,以及支持多维分析的查询模式等核心技术的支持。
数据挖掘的核心技术包括两类,分别为预言和描述。预言技术用历史预测未来,如分类等;描述技术发现数据中潜在的规律,如关联分析、序列模式、聚集和异常检测等。
数据仓库的设计开发不同于一般意义上的原型法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现存数据库系统基础上进行开发的,它着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析的需要。但需要说明的是,数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程。数据仓库的设计与开发大体可以按照以下步骤进行:概念模型设计→技术准备工作→逻辑模型设计→物理模型设计→数据仓库生成→数据仓库运行与维护。注意,这里所讨论的数据仓库系统的开发步骤并不是绝对的顺序。在数据仓库开发的整个过程中,白始至终要求决策人员和开发团队的共同参与和密切协作,要求保持灵活的头脑,不做或尽量少做无效工作或重复工作。
(2)在详细讨论你如何规划和分析该数据仓库项目的设计时,应注意以下数据仓库系统的设计原则。
①通用化性原则。企业各地分支机构在组织构架、业务划分与侧重、其所运行的OLTP系统所依赖的RDBMS,以及数据综合分析与决策支持系统所需要的数据源的类型与格式等不尽相同,这些都在企业数据综合分析与决策支持系统通用化设计的考虑范围之内。
②可扩展性原则。随着业务内容的变化,业务系统的信息范围会发生变化,而对于作为统一信息服务平台应设计性能良好的体系结构,保证系统灵活的功能可扩展性。即在保持系统架构与原业务分析逻辑的前提下,系统能实现简洁的分析主题与功能性扩充。
③技术开放性原则。为保护用户投资,通过透明访问技术,要保证系统能够独立于具体平台工具,对用户形成统一的功能和界面。在工具和平台的选择上给用户提供自由选择的最大余地。
④兼容性原则。企业在信息化建设过程中所积累的信息资源是企业最为宝贵的财富,新建的经营决策分析系统应有效地兼容原系统,尤其兼容原系统的数据资源。
(3)详细描述你所参与的应用项目的数据仓库设计、数据集成和测试,以及部署数据仓库的过程。能给出相应的系统总体结构框架。例如,系统的实现是否基于元数据的全程管理,是否涉及数据获取层、数据整合层,以及数据展现层的全过程,是否支持分析模型的维护以及数据源的结构性变化,是否提供包括展现报表定制、元数据维护、门户定制及统一安全管理等管理服务。
(4)分析并讨论你在数据仓库设计与实现过程中遇到过的主要问题及所采取的解决办法。例如,异种数据源的企业应用集成接口实现异种数据源的透明访问,要支持各种关系数据库、平面文件和XML文件等形式。根据企业的分析应用需求,通过设计与实现操作数据存储(ODS)层来达到面向应用的企业级数据视图,系统也支持通过异种数据源的企业应用集成接口直接实施数据仓库的ETL过程。对数据源实现元数据级的管理,数据源的连接类型(ODBC、OLEDB、JDBC、Native)、连接字符串,以及该数据源的数据结构信息都以技术元数据的形式存储于元数据库中,通过控制台对其进行业务语义定义,使用户对整个企业的信息系统能够较全面的掌控。
3.论文的第三部分应结合自己在项目管理和开发过程中的实际情况,查找曾经遇到过哪些问题,以及针对这些具体问题的应对策略。对需要进一步改进的地方,应有具体的着眼点,不可脱离实际提出过高的要求。论文的结尾部分,建议采用提纲的方式介绍自己在该工程项目中获得的经验体会。论文的最后一句可延伸说明,在今后的工作过程中,如果碰到类似的IT项目,你将如何应用这些经验或教训。