决策支持系统的发展演化决策支持系统(DSS)处理是一个漫长而复杂的演化进程的结果,而且它仍在继续演化。DSS处理的起源可以追溯到计算机发展的初期。
BI确切地讲,BI并不是一项新技术,它将数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等技术与客户关系管理(CRM)等结合起来应用于商业活动实际过程当中,实现了技术服务于决策的目的;MarkHammond从管理的角度看待BI,认为BI是从“根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或者知识),并且在恰当的时间通过恰当的手段把恰当的信息传递给恰当的人”。
商业智能系统应具有的主要功能: 读取数据——可读取多种格式(如Excel、Access、以Tab分割的txt和固定长的txt等)的文件,同时可读取关系型数据库 (对应ODBC)中的数据。 分析功能——关联/限定 关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。
数据仓库与数据挖掘概述随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处理管理事务和日常业务。这些管理信息系统为企业积累了大量的信息。企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海洋数据中获取特殊知识的工具需要。
1、数据仓库是公司成功的关键因素。2、随着数据的数量以指数速度增长,将原始数据转化为可供决策的信息就变得十分关键。3、这个演讲将展示一个数据仓库的结构及它在成功开展商业活动中所扮演重要角色
本章将针对OLAP组件需求和BI工具需求,提出我们的选型建议。
本文所提到的数据加载策略为OLTP系统作为源系统,并进行 ETL数据加载到OLAP系统中所采用的一般数据加载策略。
SPSS Clementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高ability to execute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的completeness of vision,表明SPSS在技术创新方面遥遥领先。
数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程。 (2)数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Databases)或知识发现,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程,它与数据仓库有着密切的联系。 (3)广义的数据挖掘是指知识发现的全过程;狭义的数据挖掘是指统计分析、机器学习等发现数据模式的智能方法,即偏重于模型和算法。 (4)数据库查询系统和专家系统不是数据挖掘!在小规模数据上的统计分析和机器学习过程也不应算作数据挖掘。
要了解Kettle的执行分为两个层次:Job和Transformation。两个层次的最主要区别在于数据传递和运行方式。
什么是ETL?ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是没有任何意义的,因为“垃圾进,垃圾出”(garbage in, garbage out),系统根本就不可能为决策分析系统提供任何支持。为了清除噪声数据,必须在数据库系统中进行数据清洗。目前有不少数据清洗研究和ETL研究,但是如何在ETL过程中进行有效的数据清洗并使这个过程可视化,此方面研究不多。本文主要从两个方面阐述ETL和数据清洗的实现过程:ETL的处理方式和数据清洗的实现方法。
为什么会引入商业智能、引入商业智能的好处、商业智能(BI)的概述、商业智能(BI)技术实现的目的、商业智能(BI)的发展、商业智能(BI)的原理。
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。本文讲解如何搭建一个Hive平台。假设我们有3台机器:hadoop1,hadoop2,hadoop3。并且都安装好了Hadoop-0.19.2(hive支持的Hadoop版本很多),hosts文件配置正确。Hive部署在hadoop1机器上。
Pentaho公司发布的PentahoBI套件企业版,是一个综合性商业开源商务智能项目,涵盖了绝大部分的商业智能所需,包括ETL(数据提取、转换和加载),报表,OLAP(联机分析处理),仪表盘,数据挖掘。这一次的发布更注重允许商业用户设计丰富、互动的商业智能解决方案,以便使所有形式的信息传递能够无缝整合。
Pentaho是目前最流行的、基于java平台的开源商业智能套件,提供企业级报表制作、分析、数据挖掘、数据集成与工作流功能。我们将以Pentaho企业版30天试用版为基础,分析其提供的功能组成以及功能使用流程。
Pentaho介绍Pentaho是目前最流行的、基于java平台的开源商业智能套件,提供企业级报表制作、分析、数据挖掘、数据集成与工作流功能。还可以利用其灵活与完整的基础框架来构建自定义的BI应用套件。Pentaho开创至今一直是开源商业智能的先锋,其客户包括sun、msyql等知名企业。
定义和作用Pentaho是目前最流行的、基于java平台的开源商业智能套件,提供企业级报表制作、分析、数据挖掘、数据集成与工作流功能。还可以利用其灵活与完整的基础框架来构建自定义的BI应用套件。应用范围当进行BI商业智能产品、项目或者平台的开发时,可以考虑购买企业版的pentaho或者在社区版上进行二次开发。基础知识功能提供报表的制作、OLAP分析、数据挖掘、仪表板、数据集成、数据采集、商业智能平台等强大功能。客户Pentaho开创至今一直是开源商业智能的先锋,其客户包括sun、msyql等知名企业。