数据挖掘 - 开源文档 - 第6页

P87

一、概念和术语1.1数据挖掘/知识发现（1）数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程。（2）数据挖掘，又称为数据库中知识发现（Knowledge Discoveryin Databases）或知识发现，它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程，它与数据仓库有着密切的联系。

lchwead 2013-05-30 3910 0

数据挖掘 HTML XML

P11

PowerCenter是Informatica出品的数据中心管理工具集中的一个产品，主要用于设计和完成ETL过程，其中又包含多个子产品，如Data Profiling和Data Analyzer

athos1981 2013-05-09 3509 0

数据挖掘

P12

　　　Weka作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话，可以看一看Weka的接口文档。在Weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

xinges 2013-04-04 794 0

数据挖掘

P0

数据仓库：维度建模作者：XX数据仓库总体结构数据存储层次结构重中之重错误的建模设计：以报表为中心的设计X数据被重复抽取；相同的数据，存储在不同地点；结局：相同来源的数据在不同地报表上数据不一致；疲于奔命的查找错误；蜘蛛网般的数据网络建模：ImmonvskimballImmon观点Kimball观点典型的维度模型产品客户账户签约事实表交易事务事实表日期渠道星型模型雪花模型维度&事实日期获得指定机构下各渠道2009年的交易额和交易量？属性度量渠道机构2009年高新支行ATM交易额维度建模步骤业务分析决定粒度定义维度确定事实步骤一：需求？

hf_rabbit 2013-02-18 8781 0

数据挖掘

P38

概念与技术数据挖掘：概念与技术数据挖掘：概念与技术第1章引言英文幻灯片制作：JiaweiHan中文幻灯片编译：范明数据挖掘：概念与技术第一章引论动机：为什么要数据挖掘?什么是数据挖掘?数据挖掘：在什么数据上进行?数据挖掘功能所有的模式都是有趣的吗?数据挖掘系统分类数据挖掘的主要问题数据挖掘：概念与技术动机:需要是发明之母数据爆炸问题自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库,数据仓库,和其它信息存储中我们正被数据淹没,但却缺乏知识解决办法:数据仓库与数据挖掘数据仓库与联机分析处理(OLAP)从大型数据库的数据中提取有趣的知识。

huangjinglin 2013-01-30 7191 0

数据挖掘报告 Intel

P4

数据挖掘应当更正确的命名为：“从数据中挖掘知识”，不过后者显得过长了些。而“挖掘”一词确是生动形象的！人们把数据挖掘视为“数据中的知识发现（KDD）”的同义词，而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤！

xsh1019 2013-01-05 10919 0

数据挖掘

P5

说到ETL开源项目，Kettle当属翘首，因此，偶决定花点时间了解一下。项目名称很有意思，水壶。按项目负责人Matt的说法：把各种数据放到一个壶里，然后呢，以一种你希望的格式流出。呵呵，外国人都很有联想力。看了提供的文档，然后对发布程序的简单试用后，可以很清楚得看到Kettle的四大块： Chef——工作(job)设计工具(GUI方式) Kitchen——工作(job)执行器(命令行方式) Spoon——转换(transform)设计工具(GUI方式) Span——转换(trasform)执行器(命令行方式) 嗯，厨师已经在厨房里，勺子和盘子一应俱全，且看能做出如何的大餐？一：Chef——工作(job)设计器这是一个GUI工具，操作方式主要通过拖拖拉拉，勿庸多言，一看就会。

kalaamong 2013-01-05 8279 0

数据挖掘

P33

摘要：本文主要介绍使用kettle设计一些ETL任务时一些常见问题，这些问题大部分都不在官方FAQ上，你可以在kettle的论坛上找到一些问题的答案1. Join我得到A数据流（不管是基于文件或数据库），A包含field1,field2,field3字段，然后我还有一个B数据流，B包含field4,field5,field6,我现在想把它们‘加’起来,应该怎么样做.这是新手最容易犯错的一个地方，A数据流跟B数据流能够Join，肯定是它们包含joinkey,joinkey可以是一个字段也可以是多个字段。

kalaamong 2013-01-05 326 0

数据挖掘

P24

这里所指的默认数据库，是 Pentaho自身运行所需的数据源，默认是使用hsqldb。该数据库与用来做分析的源数据是完全不相关的。Pentaho是一个以工作流为核心的、强调面向解决方案而非工具组件的BI套件，整合了多个开源项目，目标是和商业BI相抗衡。它偏向于与业务流程相结合的BI解决方案，侧重于大中型企业应用。它允许商业分析人员或开发人员创建报表，仪表盘，分析模型，商业规则和 BI 流程。[1] 　　pentaho是世界上最流行的开源商务智能软件，以工作流为核心的、强调面向解决方案而非工具组件的BI套件，整合了多个开源项目，目标是和商业BI相抗衡。它是一个基于java平台的商业智能(Business Intelligence,BI)套件，之所以说是套件是因为它包括一个web server平台和几个工具软件：报表，分析，图表，数据集成，数据挖掘等，可以说包括了商务智能的方方面面。　　Pentaho是一个它偏向于与业务流程相结合的BI解决方案，侧重于大中型企业应用。它允许商业分析人员或开发人员创建报表，仪表盘，分析模型，商业规则和 BI 流程。

kalaamong 2013-01-05 21751 0

数据挖掘手册

P65

DataStage介绍 DataStage开发 DataStage四个客户端的使用 DataStage常用组件使用 DataStage常用命令

cstj0505 2013-01-04 6485 0

数据挖掘培训 XML

P39

类型转换函数用于更改参数的类型。以下函数位于表达式编辑器的“类型转换”类别中。方括号表示参数是可选的。缺省日期格式为 %yyyy-%mm-%dd。以下示例按照 Transformer 阶段的“派生”字段中所示来显示这些函数。

cstj0505 2013-01-04 3628 0

数据挖掘

P39

TDW数据仓库采用分布式存储和分布式计算的方法，利用多台主机协同运算以存储和处理大规模数据。TDW提供了原有的数据仓库系统所难以提供的近乎线性的扩展能力，随着业务和数据规模的增长，可以通过增加节点数扩大系统规模。在对TDW系统中的数据进行处理时，用户可以使用SQL语言和过程语言，方便用户进行海量数据的管理与分析。<br>TDW数据仓库需要提供海量数据（PB级）的存储能力和大数据量（TB级）的计算能力。这就要求TDW尽可能的进行分布式存储和并行执行计算操作，从而提高性能和可扩展性。 TDW的存储和计算引擎都采用share-nothing（SN）结构，SN意味着更少的竞争，这样就可以获得更好的线性扩展能力。随着业务量和数据量的增长，增加节点就可以提高整个系统的存储和计算能力。SN结构是支持分布式存储和并行计算的最优结构，具有共享资源少、系统开销小、加速比高等优点和近似线性的可扩充性，符合TDW分布式数据仓库的设计要求。

gtimehero 2013-01-04 1102 1

数据挖掘手册

P12

Kettle是一款国外开源的etl工具，纯java编写，绿色无需安装，数据抽取高效稳定。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

opend7y8 2012-12-24 3314 0

数据挖掘

P50

SharePoint平台的BI特色BI基础知识介绍Microsoft BI集成解决方案MicrosoftBI组件与开发工具Microsoft BI开发流程Microsoft BI报表部署与移置商业智能通常被理解为将企业中现有的数据转化为知识，帮助企业做出明智的业务经营决策的工具。从技术上讲，商业智能的建设过程并不复杂，它只是多个工具的结合使用。包括的内容有：数据仓库(DataWavehouse)、联机分析处理(OLAP，也称多维分析)、报表制作和终端用户查询、数据挖掘商业智能的概念少数人的BI一、面向全员全员BISharePoint平台的BI特色为各个角色的人员，提供相应的报表制作工具，使得任意人员都可以从自己的视角去开发制作报表。

fujita731 2012-12-13 10417 0

数据挖掘方案培训 C# Basic

P45

中国工商银行数据仓库建设情况汇报数据仓库项目组日程安排开发进度最终应用展现数据仓库架构二、开发进展2.1个人客户关系管理（PCRM）2.2业绩价值管理（PVMS）2.3信贷台帐报表（CMIS-REPT）

fujita731 2012-12-13 8805 0

数据挖掘方案报告

P34

本文将数据挖掘理论中的聚类分析方法应用到婴幼儿营养状况评估中，论述了聚类分析理论指导下的简化营养状况测量指标的方法。将常用的测量指标分组，进行层次分解，采用凝聚的方法，去除相关性较强的测量指标，从而达到简化测量指标的目的。最后通过采样实验，对挖掘结果进行了论证，并在采样实验的指导下修正了挖掘结果，从而得到实用可靠的简化测量指标。

fujita731 2012-12-13 2021 0

数据挖掘

P26

数据仓库的定义及特性数据仓库就是面向主题的、集成的、不可更新的（稳定性）、随时间不断变化（不同时间）的数据集合，用以支持经营管理中的决策制定过程，数据仓库中的数据面向主题，与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准，每一个主题对应一个宏观的分析领域。

fujita731 2012-12-13 2606 0

数据挖掘方案 Java SQL

P133

本章主要讲解ETL的概念，datastage的介绍、组成及主要功能。ETL包括数据抽取（Extract）、数据转换（Transform）以及数据加载（Load）3个阶段。一般而言，这三个过程中有二次落地（生成中间文件）。

sdxrh2005 2012-12-10 3742 0

数据挖掘报告培训 SQL Basic

P11

kettle4.2.0探索 Kettle 介绍什么是kettle Kettle也叫PDI，在2006年Kettle加入了开源的BI组织Pentaho,正式命名为PDI，英文全称为PentahoDataIntegeration。Kettle是“KettleE.T.T.L.Envirnonment”只取首字母的缩写，这意味着它被设计用来帮助你实现你的ETTL需要：抽取、转换、装入和加载数据；翻译成中文名称应该叫水壶，名字的起源正如该项目的主程序员MATT在一个论坛里说的哪样：希望把各种数据放到一个壶里然后以一种指定的格式流出。Spoon是一个图形用户界面，它允许你运行转换或者任务，其中转换是用Pan工具来运行，任务是用Kitchen来运行。Pan是一个数据转换引擎，它可以执行很多功能，例如：从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。Kettle的安装要运行kettle工具必须安装Sun公司的JAVA运行环境，kettle4.2.0需要运行java1.6或者更高版本，Kettle的下载可以到取得最新版本。kettle不需要安装，安装好java环境后，在操作系统环境变量path中配置jre路径，把kettle工具压缩包解压后可直接使用。

caiyifeng 2012-11-17 9068 0

数据挖掘

P1

Cognos 开发流程图

alex_hey 2012-11-13 4237 0

数据挖掘

数据挖掘算法文档

PowerCenter 安装配置指南文档

Weka 数据挖掘软件使用指南文档

数据仓库：维度建模文档

数据挖掘概念与技术文档

数据挖掘与分析心得体会文档

开源项目 Kettle 介绍文档

开源ETL工具kettle系列之常见问题文档

Pentaho BI Server 配置手册文档

DataStage 入门培训文档

DataStage8.5 函数大全文档

腾讯TDW分布式数据仓库用户手册文档

Kettle 工具介绍文档

SharePoint 2010 商业智能(BI)解决方案文档

工商银行数据仓库设计方案文档

数据挖掘技术在婴幼儿营养状况评估中的应用研究文档

数据仓库和分布式应用文档

DATASTAGE 培训文档

kettle 4.2.0 基础教程文档

Cognos 开发流程图文档

关键词

最新上传

热门文档

数据挖掘算法 文档

PowerCenter 安装配置指南 文档

Weka 数据挖掘软件使用指南 文档

数据仓库：维度建模 文档

数据挖掘概念与技术 文档

数据挖掘与分析心得体会 文档

开源项目 Kettle 介绍 文档

开源ETL工具kettle系列之常见问题 文档

Pentaho BI Server 配置手册 文档

DataStage 入门培训 文档

DataStage8.5 函数大全 文档

腾讯TDW分布式数据仓库用户手册 文档

Kettle 工具介绍 文档

SharePoint 2010 商业智能(BI)解决方案 文档

工商银行数据仓库设计方案 文档

数据挖掘技术在婴幼儿营养状况评估中的应用研究 文档

数据仓库和分布式应用 文档

DATASTAGE 培训 文档

kettle 4.2.0 基础教程 文档

Cognos 开发流程图 文档

关键词

最新上传

热门文档

数据挖掘算法文档

PowerCenter 安装配置指南文档

Weka 数据挖掘软件使用指南文档

数据仓库：维度建模文档

数据挖掘概念与技术文档

数据挖掘与分析心得体会文档

开源项目 Kettle 介绍文档

开源ETL工具kettle系列之常见问题文档

Pentaho BI Server 配置手册文档

DataStage 入门培训文档

DataStage8.5 函数大全文档

腾讯TDW分布式数据仓库用户手册文档

Kettle 工具介绍文档

SharePoint 2010 商业智能(BI)解决方案文档

工商银行数据仓库设计方案文档

数据挖掘技术在婴幼儿营养状况评估中的应用研究文档

数据仓库和分布式应用文档

DATASTAGE 培训文档

kettle 4.2.0 基础教程文档

Cognos 开发流程图文档