第7章数据库与数据仓库
7.1 信息系统的数据管理
7.1.1 数据管理概念
只要企业的性质和目标不变,尽管企业的数据加工处理过程是多变的,但企业的数据将是稳定的,企业的任何活动都离不开对数据的存取。
数据管理就是有目的地对企业生产经营活动产生的原始数据进行收集、组织、加工处理,直至生成企业有价值的信息。
企业的数据管理技术经历了人工管理、文件管理技术和数据库管理技术三个阶段。
其中,数据库是目前企业信息系统组织、管理数据最常用的技术。
7.1.2 MIS的数据管理要求
(1)需要有效的数据库技术。
(2)需要稳定的数据基础。
(3)需要有良好的数据环境。
7.2 数据库环境下的数据组织
7.2.1 数据库定义
数据库是长期储存在计算机内的、有组织的、可共享的数据集合。
7.2.2 数据库的特点
数据结构化。
数据共享性。
数据独立性。
7.2.3 数据库管理系统
7.2.3.1 主要功能
数据库定义。
数据库操纵。
数据库保护。
数据库的建立和维护。
7.2.3.2 数据库管理系统的组成
(1)数据定义语言(Data Definition Language ,DDL)。
(2)数据操纵语言(Data Manipulation Language , DML)
7.3 数据模型
7.3.1 信息描述
数据库系统是面向计算机的,而应用是面向现实世界的。因此要引入信息世界和数据世界通向计算机世界的桥梁。
现实世界转化为计算机世界过程:
(1)现实世界—》【认知、选择、描述】—》
(2)信息世界—》【加工、转换】—》
(3)数据世界—》【加工、转换】—》
(4)计算机世界
7.3.2 定义
(1)实体(Entity),是客观存在并可相互区分的事物。如学生张三。
(2)属性(Attribute),是实体所具有的某一特性。一个实体可以由若干个属性来刻画。如,学生可以由学号、姓名、年龄、系、年级等组成。
(3)域(Domain),是属性的取值范围。例如:性别的域为(男、女)。
(4)实体型(Entity Type),实体名与其属性名集合共同构成实体型。例如:学生(学号、姓名、年龄、性别、系、年级)。
(5)实体集(Entity Set),是同型实体的集合。例如:全体学生。
(6)码(Key),是指能唯一标识实体的属性或属性组,也称做超码。超码的任意超集也是超码。其任意真子集都不能成为超码的最小超码称为候选码。候选码中选定一个用来区别同一实体集中的不同实体,称为主码。例如:学生的学号。
(7)联系(Relationship),是指实体之间的相互关联。例如:学生与老师间的授课关系。
7.3.3 实体-联系模型(E-R模型)
基本E-R模型有三个基本元素:
(1)实体——矩形框表示。
(2)实体之间的联系——菱形框表示。
(3)属性——椭圆形表示。
构造E-R模型步骤:
(1)标识实体集。
(2)标识联系集。
(3)标识属性值集。
(4)标识关键字。
7.3.4 数据模型
7.3.4.1 关系模型
用二维表来表示实体,用外码表示实体间的联系。
优点:
(1)简单。
(2)表的概念直观。
(3)用户易理解。
(4)具有非过程化的数据请求。
(5)数据请求可以不指明路径。
(6)数据独立性强,用户只需提出“做什么”,无须说明“怎么做”。
性质:
(1)关系中的每一列属性都是不能再分的。
(2)一个关系中的各列都被指定一个相异的名字。
(3)各行相异,不允许重复。
(4)行、列的次序均无关。
(5)每个关系都有一个唯一标识各元组的主关键字,它可以是一个属性或属性组合。
7.3.4.2 面向对象模型
现实世界中实体的模型化,与记录(元组)对应。
系统中所有类构成一个有向无环图。类之间有继承关系。
7.4 关系模式规范化
7.4.1 第一范式(1NF)
1NF(First Normal Form),如果一个关系模式R的每个具体关系r的每个属性值都是不可分的最小数据单位,则称R为每一范式,r为1NF关系。
7.4.2 第二范式(2NF)
如果满足第一范式关系模式R,它的所有属性都完成函数依赖于主关键字,则称R为第二范式。
7.4.3 第三范式(3NF)
如果关系模式R满足2NF,并且它的任何一个属性都不传递依赖于任一主关键字,则称R是第三范式。
7.5 数据视图
7.5.1 三级模式
(1)外模式(External Schema):对应于用户级数据库。
(2)概念模式(Conceptual Schema):对应于概念级数据库,用模式定义语言定义。
(3)内模式(Internal Schema):对应于物理级数据库,又称存储模式。
7.5.2 两级映像
7.5 数据库设计
(1)需求分析。
(2)概念结构设计。
(3)逻辑结构设计。
7.6 数据仓库与数据挖掘
在每两级模式之间存在着从一种模式结构到另一种模式结构的映像。
7.6.1 数据仓库定义
数据仓库(Data Warehouse)是为商务运作提供结构和工具,以便系统地组织、理解和使用数据进行战略决策。
数据仓库的特性:
(1)面向主题性(subject-oriented)。
(2)数据集成性(integrated)。
(3)数据时变性(time variant)。
(4)相对稳定性(nonvolatile)。
(5)数据集合性。
(6)支持管理决策。
7.6.2 OLAP和数据挖掘
在线分析处理或联机分析处理(OLAP,On-Line Analytical Processing)是一个广泛使用的数据仓库技术。
OLAP技术有两个特点:
(1)在线性。
(2)采用多维数据库进行多维分析。
7.6.3 数据挖掘概念
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。
7.6.4 数据挖掘过程
(1)确定业务对象。
(2)数据的选择。
(3)数据的预处理。
(4)数据的转换。
(5)数据挖掘。
(6)结果分析。
(7)知识的同化。