Pig基础

jopen 11年前

Pig和数据库的区别

上一节讲到了Pig的分组（group）和筛选（filter）,让人感觉这种用法和数据库的SQL差不多。实际上Pig和传统的关系型数据库以及SQL语言是有很明显区别的。我们逐个讲解。

1） Pig Latin是面向数据流的编程方式，而SQL是一种描述型编程语言。我们以前学习SQL的时候经常听到过这样一句话：用SQL，你只需要告诉它你需要什么，具体怎么做交给SQL就行了。而Pig Latin是需要你一步一步根据数据流的处理方式来编程的，也就是说你要设计数据流的每一个步骤，有点类似SQL的查询规划器。

2）传统的关系数据库（RDBMS）需要你预先定义表结构（模式），所有的数据处理都是基于这些有着严格格式的表数据。而Pig则不需要这样，你可以在运行时动态定义模式。本质上来说，Pig可以处理任何格式的元组。一般情况下，Pig的数据来源是文件系统，比如HDFS，而RDBMS的数据是存储在数据库中的。（备注：关于元组的概念，基本和Python中的touple是差不多的）

3） Pig支持比较复杂的，比如嵌套结构的数据处理。这种特殊的处理能力加上UDF（用户自定义函数）使得Pig具有更好的可定制型。

4）一些RDBMS特有的特性是Pig所没有的，比如事务处理和索引。Pig和MapReduce一样，是基于批量的流式写操作。

Hive是介于Pig和RDBMS之间的一种数据处理方案，其处理语言HiveQL类似于SQL，这就使得熟悉SQL的人可以快速熟悉和使用Hive。和Pig一样，Hive的存储方式也是基于文件系统（HDFS）。我们会在单独的章节来讲解Hive。

Pig Latin语法结构

本节我们只简要介绍Pig的常用语法结构及相关概念。

1） ls命令

显示目录结构。比如以下命令将列出HDFS的目录结构。

ls /

备注：

1）要列出HDFS的目录结构，请确保当前是以MapReduce模式运行

2）一般情况下，命令需要以分号显式结束。但一些交互式命令不需要以分号结束，比如ls。如果你不能确定是否需要分号，加上一个分号总归不会错，比如“ls /;”。

3）需要以分号结束的语句，可以将一个语句分成多行书写，这样可读性更好。（有点类似Python）

4）单行注释可用双连字符（--）；多行注释用类似于C语言的/* */。

5）和其它语言一样，Pig的保留关键字不能作为标示符。

6） Pig的大小写敏感没有一致的规定。操作和命令是不区分大小写的，比如load，group。而函数式区分大小写的，比如MAX。

2） Explain命令

考虑如下语句：

records = load ‘/home/user/input/temperature1.txt’;

valid_records= filter records by temperature!=999;

grouped_records= group valid_records by year;

dumpgroup_records;

Pig Latin解释器看到第一条load语句时，会执行数据的读取操作吗？不会，因为后续还可能会对数据进行筛序或分组。解释器会生成load语句的逻辑计划，但是并不会执行读取操作，自然也就不会执行检查工作，所以即使load的这个文件不存在，此时也不会报错。最后，当碰到dump语句时，逻辑计划即被编译成物理计划，并最终执行数据的读取和输出操作。

Pig的物理计划是有一系列MapReduce作业组成的。使用explain命令即可查看这些逻辑计划和物理计划。

有些语句不会生成逻辑计划，比如用于诊断操作的describe，expain语句等，这些语句会被解释器立即执行。

3） Set命令

Setdebug on用于开启调试日志

Setjob.name ‘job name’ 用于设置MapReduce作业的名称。Pig提交的MapReduce作业，如果没有特别指明的话，作业名称由系统生成。如果你希望给你的Pig作业指定一个有意义的名称，以便可以方便的通过Hadoop的Web UI查看的话，set job.name将会是一个非常好的命令。

4） run和exec

这两个命令都可以执行Pig脚本。区别是exec以批处理方式运行，这意味着所有该脚本文件中定义的标示符，当脚本执行完后在脚本调用窗口将不可访问。而以run运行时，相当于将脚本文件中的内容手工在调用窗口输入并执行，这就意味着脚本文件中所有的标示符，比如定义的关系在脚本执行完后仍然可访问，同时在shell的命令历史记录中可以找到脚本中的语句。

5）表达式

Pig有丰富的表达式类型，和其它编程语言基本相似，比如加减乘除。

6）类型

Pig有四种数值类型，分别是int，long，float和double。其用法和java一致。

bytearray类似java的字节数组，用于表示二进制大对象。

chararry类似java的string字符串，用于存储utf-16格式的数据。当然，也可以处理utf-8的数据。

Pig没有boolean类型，你可以使用int等其他类型轻松实现。

Pig还有一些比较复杂的数据类型，比如元组（touple），包（bag）和映射（map）。这些复杂类型的数据，一般从文件加载或由一些关系操作而得来。

包（bag）和关系（relation）的概念大致相似，但是其处理方式是有区别的。

包是元组的无序集合，比如{(1,’value’),(‘v1’,v2)}。而关系则是有名字的包，这个名称成为关系的别名。一般情况下，一个Pig语句会产生一个关系。

通过文字直接创建一个关系是非法的，比如：

A = {(1,2)} –非法

将一个关系的字段投影为一个新的关系也是非法的，比如：

B = a.$0 –非法

作为一个变通方案，你可以用以下语句实现该功能：

B = foreach A genereate $0

将来的Pig版本也许会统一包和关系的处理模式，以消除这种不一致。

7）模式

Pig中的关系可以有对应的模式。在模式中可以定义关系里面的字段的名称和类型。正如我们先前看到的语句：

records= load ‘/home/user/input/temperature1.txt’ as (year: chararray,temperature: int);

其中 as子句定义了关系records的字段名称和类型。执行describe records命令后，你将看到以下输出：

records: {year: chararray,temperature:int}

Pig擅长于处理纯文本信息，在模式定义方面提供了更大的灵活性，包括数据类型的选择。这和传统的关系型数据库是有本质区别的。（传统的RDBMS必须要事先定义严格的表结构）

在定义模式的时候，不需要为每个字段都定义类型。如果缺省，则pig指定默认类型为字节数组bytearray。

你甚至可以选择不定义模式。但是一旦你选择了定义模式，则必须为每个字段指明名称和类型，当然类型是可选的。这意味着以下语句是合法的：

records= load ‘/home/user/input/temperature1.txt’;

如果你需要引用没有定义模式的关系中的字段，则只能通过索引引用，而不能通过字段名称来引用，因为你根本就没有定义字段名称。

在查询中定义模式是非常灵活的。但是当很多查询基于相同的模式时，这种在查询中定义模式的方法就不利于重用和维护了。此时可以自己写加载函数来实现，稍后我们再讲。同时，apache开源项目Hcatalog提供了相关功能，其基于Hive的metastore实现。Pig可以充分利用这个功能，具体请参阅相关文档。（我不太熟悉这个）

一般情况下，我们不需要为每一个关系定义其模式。比如通过filter筛序而来的新的关系和待筛选的数据源具有相同的模式。但是有些操作产生的关系却有可能具有不同的模式，比如union操作。具体后续再详细介绍。

8）验证和空值

传统的关系数据库中，如果你尝试写入一个类型不符的数据到数据库，比如将字符‘a’写到一个类型定义为int的字段，则会报错。Pig的处理于此不同，比如load语句在读取数据时，碰到了一个字符‘a’，而此位置的数据在模式定义中定义为int，则pig会用空值（null）取代之，同时会输出提示信息，但是不会终止语句执行。本质原因是，对于大数据集而言，有一定比例的损坏数据是一种常见情况。此时我们可以通过如下语句进行筛选:

corrupt_records= FILTER records BY temperature is not null;

或者用split语句：

Splitrecords into good_one if temperature is not null, bad_one is temperature isnull;

9）函数

Pig的函数有4种类型：

l 计算函数（Evalfunction）比如MAX。（请注意，函数名是区分大小写的）

l 筛选函数（Filterfunction）用于过滤掉不需要的数据，比如ISEMPTY函数。

l 加载函数（loadfunction）用于从外部数据源（比如文件）加载数据到关系。

l 存储函数（stroefunction）用于将关系中的数据输出到外部存储。比如PigStorage函数。

详细函数列表，请参与官方文档。

Pig基础

Pig和数据库的区别

Pig Latin语法结构

相关经验

目录