上次在书城,看中了这本书,正版价格69大洋,花了8天看完,现在回顾下,并且写一下总结。

时间离得太久,不想再翻旧书,就先写到这儿吧。

本书作者

W.H. Inmon:数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面拥有30多年的经验

Daniel Linstedt:世界知名数据仓库专家、商业智能分析家,Empowered Holdings公司创始人兼主席,有20余年的IT行业打拼经验,下一代数据仓库模型Data Vault的发明者。

在大学时没怎么上过课,但是上过的课的内容都记得。如果没记错时间的话,还记得当时刚转到计算机系,就夸先修课程的限制,《数据结构》和《数据库原理》同一个学期修,然后李新老师上课时讲到:学好数据库,数据库40年来都没什么变化,而且一直很稳定,至少可以再流行20年。

他当时讲的应该是RDBMS数据库,就是第四代关系型数据库。现在是三年后的时间,NoSQL铺天盖地而来,然而Oracle等关系型数据库依旧坚若磐石。按这个趋势,很难讲16年后RDBMS是否还流行。我觉得可能是进化成NewSQL,或者与NoSQL之间互相融合对方的优势。

第一章 企业数据

本章讲了企业数据的历史,数据基础设施的类型,和传统数据与现在被媒体泛滥宣传的大数据之间的分界线。
企业数据分为两种:

  • 结构化
  • 非结构化

“结构化”数据是一种可预见、经常出现的数据格式,可通过DBMS(database management system,数据库管理系统)进行管理的数据。

这里的“非结构化”,是指数据并未以计算机所能理解的形式进行组织,也就是“大数据”的领域
(那么是否可以这么想,就是说,计算机若能理解这种“非结构化”的数据,就拥有了智能呢?或许这里“智能”的定义很模糊,我自己也不能理清。不过想想,传感器都不同,人类可以感受到气味,温度和拥有“直觉”,而电脑只能根据概率和规则被应激,这么想,人工智能改变社会即将到来,但是在艺术/情感领域还很难有突破。)

其中,“非结构化”数据又分为两种:

  • 重复型
  • 非重复型

重复型: 就是像电流、气象一般的类型重复但又没什么价值量的数据。
非重复型:像邮件、文本等有价值量,但是没什么固定形式的数据。(我的毕业设计挖掘财经新闻就是这种数据。当时还在疑惑,用不上hadoop也算大数据?)

数据库的早期概念是“一个将面向某一主题域的所有数据存放到一起的地方”

作业数据存储:ODS, Operational Data Store. 第一类第二类是什么?
键和值 属性 特性
散点图 scatter diagram
最小二乘法 least squares method
离群点 outlier
排列图 帕累托图 Pareto chart
国民生产总值 gross national product, GNP

Data Vault 是追求极致化的数据架构。现在我只会一些mongodb的用法,还没深入了解它的特性,还有经典SQL如Oracle、MySQL等需要了解。

不过这些都是具体特殊命令的不同,原理还是数据结构的规范化、性能优化罢了。以后需要的时候看看通用语法即可,至于追求性能,就得靠经验积累了,不过需要的时候花一两个星期,是绝对可以掌握的。现在基本够用,就不去折腾,时间有限,也没兴趣。不如把时间精力放在感兴趣的事情上,经验告诉我,那绝不会让我失望。