Firouzian:数据工程师是IT行业最热门的工作

jopen 12年前

Firouzian:数据工程师是IT行业最热门的工作

PayPal 上海风险技术主管 Patrick Firouzian

        10月 26 日消息,2012全球软件开发大会(杭州站)进入第二天议程,PayPal 上海风险技术主管 Patrick Firouzian 在会上发表主题演讲,分享 Paypal 的在线与离线大数据欺诈风险管理技术。

        据 Patrick Firouzian 介绍,目前 Paypal 已出现在世界 190 个市场上,其支付平台跨 129 个国家,交易额达 1500 亿美元。他还指出,对于中国这样一个有着“世界上最大的一个生产基地”之称的国家,Paypal 是一个非常实用的平台。在中国上海,PayPal 有 800 名员工,可以提供风险管理、客户支持,还有技术服务。

        Firouzian 表示,目前互联网上在 IT 方面最热门的工作,不是安全而是数据分析。而数据工程师是互联网上最热门、工资最高的工作,数据工程师的工作主要是负责处理一个公司硬件设备中存储的数据,并且分析诠释数据。

        对于大数据的定义,Firouzian 认为大数据不是一个大的数据仓库。大数据包括价值、速度、种类、流量等。大数据并不是说有很多数据聚集带一起,而是说你怎么使用这个数据,大数据其实还包含很多技术可以使用。

        他指出,大数据是一个非常成熟的科学,Paypal 也在对开放源和工具方面做一些贡献,相信谷歌、非死book 的人员也在做这种工作。数据工程师是 IT 行业最热门的工作,他认为,这是一门艺术,数据工程师在未来是一个很好的工作,大家可以考虑这个工作。

        今年有来自于腾讯、阿里巴巴、淘宝、盛大、天翼、百度、陌陌、支付宝等公司的一线技术专家,以及国外的 非死book、Tumblr、PayPal、RightScale 的讲师等国内外技术专家出席了本次大会。

        腾讯科技作为大会战略合作伙伴、官方指定微博平台,全程图文、微博直击大会盛况。

        以下是 PayPal 上海风险技术主管 Patrick Firouzian 演讲实录:

        Patrick Firouzian:我是 ebay,我们是大数据的团队,杭州很漂亮,这么漂亮的地方,我很高兴在你这里,很高兴你们也在这里。今天介绍的内容很有意思,刚才大家提到江南 STYLE,你们谁会跳这个骑马舞?我给你们发奖品。这个不要发大微博上,我一会给你发一个奖品。

        接下来我们还是继续讲,今天给大家介绍的内容就是大数据方面的内容,以及欺诈检测。今天介绍的内容不是大数据方面的培训,也不是做一个放欺诈方 面的培训,只是给大家提一些想法。现在在我们平台上面有这么多商户,大家可以通过 Paypal 进行付款。大家看到过我们这个标志吗?用这个东西可以把你的信用卡,你用一个苹果或者安卓终端就可以了,因为直接可以用你的信用卡,很安全的,里面已经是 加密了。总之,这是一种新的方法,让大家不需要其他东西就可以支付,在中国,这些设备逐渐出现了,接下来会介绍一下 Paypal,Paypal 大家都比较熟悉,在世界 190 个市场上都有我们的出现。我们支付平台跨 129 个国家,而且我们的交易额达到了 1500 亿美元,我们第一个问题就是大家对 Paypal 这块,看到它这个收入,你觉得排十名是哪几个国家?我们看一下,Paypal 拍前面 5 名收入城市。我们知道中国是世界上最大的一个生产基地,是世界工厂,中国的商户如何卖他们的产品?他们使用的撇太是什么?他们付款的时候很多是用 Paypal,这是一个非常实用的平台,我们在很多国家都有。在中国上海,我们就有 800 名员工,我们提供风险管理、客户支持,还有技术。

        我们知道因特网的欺诈有很多不同的面具,实际上 Paypal 就是一个银行,以前你如果抢银行的话,需要拿武器,进去以后你会说不交钱就开枪。或者有的时候需要里面安装炸药,现在在家里就可以抢银行了,有软件有电脑 就可以赚钱了。但是你还是会被抓进监狱,所以我们要做的工作就是确保这笔钱,你的交易是安全的。有很多人他们想在 EBAY 上面占便宜,有很多机器人、外星人,什么人都有。你们大家有试过吗?你如果在我们上面试过欺诈的话,我可以雇佣你,很赚钱,我们知道有很多公司是通过这种 方法来赚钱的,他们用黑客方法侵入因特网,这是非常危险的。

        这是一家俄罗斯的公司,他们会卖你一些黑客软件,这样你可以侵入一些网站,你可以赚钱。这是一个业务,你看他们有办公室,而且他们也有客户支 持。如果您卖这样的软件,侵入一个公司,比如说淘宝、阿里巴巴,或者是 Paypal,你是没法成功的。比如说你跟他们客户联系,让他们可以帮助你,你觉得很有意思吗?既然有这样的事情,但是你可以看出来,每一个因特网的网站 里面都是有钱,比如说每个身份,有知识产权,这些都是可以偷的一些财产,我们是软件工程师,我们要确保因特网的盗窃不会发现。大家觉得这个会议有意思吗? 有意思是吧。在这两天听敏捷这个词听了多少次了?敏捷是一个很有意思的词,Paypal、EBAY,我们在很久以前就开始用敏捷了。我们的客户他们也相信 我们的公司,我们通过软件来进行检测因特网的欺诈。通过这种方法,你可以更好的保护你的平台。

        这是我们的客户,一会儿我会有一些案例给你们做一些分享。在这里,你可以看到这个女孩子在卖一个 IPAD,昨天新出的迷你 IPAD 非常酷。她在纽约,我们知道他的 IP 地点,知道她的电话号码。我们再看一下她的交付地址,我们来计算一下两者之间的差距,很可能他就住在它的送货地址,看一下她的 IP 地址,IP 物地址也是在纽约,这是都是自动化结算的。再看一下她的 IP 地址,她是通过代理服务器做的。有可能这里面有一些风险,因为很多人可以用代理服务器来越过防火墙,或者把你的真是身份掩盖一下,我们有一个软件可以查出 来这些问题。

        我们再看一下她这个地址是不是一个货代的地址,有可能她在隐藏自己真实的地址。我们在看一下她这个地址还是可以的,到底这个交易是好的还是不好 的?我们认为是好的,是没问题的。接下来我还会给大家讲讲哪些是比较有高风险的交易。当然,现在我们在解决写非常有意思的问题,继续向前看。

        事实上 Paypal 在全球市场上有几个市场?30个?190?非常好,你离我很远,我要想办法把这个抛给你。还要谁想要?我们经手的是多少个货币?我想让大家不要昏昏欲睡, 所以给大家发一些小礼品。大家知道莫尔斯定律,就是电脑的绩效随着年代的推移,不吨的加速提升。我们现在所面临的复杂化的程度在支付行业里面复杂性和过去 相比,要高的多。同时还有欺诈,欺诈也是复杂的多,因为欺诈的面目是千变万化的,这次欺诈完了之后,下一次欺诈你的其他又完全不一样了,他们不吨在欺诈方 面有新的创新。我们现在媒体处理的是两亿件,事件大家知道 MQ 吗?这些所有的实践都会生成实践处理系统,他们会产出一些新的事件,我们会使用很多的线上的事件在系统里进行处理,这就意味这所有的事件我们都要对它们做 一些工作,进行处理。里面包含很多的情报,这系数据里面很多情报我们都是不知道的。

        大家知道互联网上最热门的工作是什么吗?互联网上在 IT 方面最热门的工作是什么?安全?可能是不能热门的工作,数据分析是最热门的。数据工程师是互联网上最热门的工作,每个人都希望去寻找一个数据工程师,必须 有人对这个数据进行处理,数据进如到系统之后,一个公司就会去买硬件去存储数据,得到数据得到怎么做?他们把这些数据交给数据工程师,让他们去处理,并且 分析诠释数据。所以说现在在目前,我们工资最高的,最热门的工作就是数据工程师了。我们可以去观察一下,如果我从头再来开始我的事业路径的话,我可能会选 择这个工作。

        这个数据从那里来?如果你是一个制造业,或者航空业的公司,你每天会接触到很多事件,比如说航空公司一个飞机再一次飞行当中所进行的数据是照照 自己,而对于支付宝、Paypal 来说,我们所要接受的支付前的时间和支付后的事件,里面都包含千万的数据,这是我们每天多要处理的,我个人自己要去买一个东西的时候,我首先在互联网上搜 寻一些信息,有的时候我在商店去买,但是在中国比较难了,它们不会那么方便的把货品送上门,现在我们可以选择不特的方式,比如说在商品支付,线上线下支 付,现在情况和过去相比有很大改变,你可以用不同方法购物。

        大的数据是什么?谁知道什么是大数据?大数据是不是一个大的数据仓库?是吗?不是的。就是价值、速度、种类、流量。还有谁考虑过这个问题,事实 上,它不是指大数据的存储,这不是大数据的意思。宾并不是说有很多数据聚集带一起,而是说你怎么使用这个数据,里面还包含很多技术可以进行使用。为什么我 们橱柜是白颜色的?因为在数据库里面,数据中心里面有很多的这些橱柜,为什么是白色?因为用白色的话,可能会节能。如果说这些橱柜是白色的话,我们可以节 约电能,可以省下好几千的美金。大家有没有听过 HBASE?每天有一个 HBASE 的演讲,所以大家要关注明天的演讲日程。我们有各种各样的产品,你可以去下载,在你的设备当中去运作,这是非常简单的方法,可以去使用这个工具。

        如果你想开始学习大数据的话,可以自己尝试,这是一些我们的技术,对于大技术的数据对战。我们使用一些云数据的应用,我们也用 Hadoop,这也是开放源的工具。并且它可以更强劲的支持你的服务,比如说你有一些鼓掌,他可以帮助解决所有的问题。在线上的大数据,我给大家展开一 下。软件里面经常会用到这点,有很多公司都在用这样一个线上的大数据,所以你可以看到有很大的数据,而且有大数据平台。在这张图表立宪有很多箭头,上方是 Paypal 点 COM 的网站,它的数据会进入到数据储存库,客户支持人员会在网上使用这些数据,数据存储库处理这个数据之后做出决策,然后这个数据被进行使用,这些是线下的数 据。1到 24 小时的等待时间,这些数据又被存储到高速缓存,这些高速缓存是内存中的存储,里面有足够内容帮助你做决策。

        大家知道高速缓存的灵活性,我们这些数据可以被非常复杂的事件处理工具去做。你可以看到有很多不的组件,可以帮助我们做时时的决策。

        这是我们的 CEP,你可以看到,他有这些事件的总线,一直在发送事件,都是从 Paypal 这个网站上生成的。我们有一些隐形会做一系列功能,另外我们还有相互联系的引擎,这是非常重要的,我们复杂的事件处理的系统下的过程。你可以把很多的事件 新湖的练习性建设起来,在一般的数据库里面是没有能力那么你到这点。相互联系性就是在很快时间下建立起来的?大家动 CEP 有没有什么很好的定义?什么叫事件复杂性?工具的定义是什么?CEP 定义到底是什么?我们没有对它没有简单的定义,这是一个非常复杂的技术。我们看一下 CEP,CEP 是数据库的反方向,在数据库上做一次询问,你会得到一个结果。而对于复杂事件的处理里面,你会有一个询问,然后你把数据发送到询问里面,你会得到一个结 果。这正好是反过来的一个过程,但是它的影响力也是很强的,因为它的流程也是很复杂的,而且他是会跨域的进行处理。所以说它是一个工具,不知道大家有多少 人知道它,了解它?复杂的实践处理的域是一个新概念,是一个新的技术。起码我是这么认为的,在这个数据管理的整个事件当中,这是一个独特的新技术,大家记 住我现在说的话。你们在未来会看到我们 Qcon 会议,里面都会讲大事件的内容,我们一定要这么做,不然的话,我们是没有办法很快做决策的。除非我们要用到好几千的客户支持人员,很多的一些分析师,才能 够很快做决策。

        这个幻灯片很难读,如果说你有色盲的话,这张图就更看不清楚了。这个是要说在数据库里面,有不同强度的工作管理,我把这张图放在这里,这张图告 诉我们说我们必须去妥协,或者说采用不同的技术去运作,根据个人的运算来考量。看看黄色区域,这是非常快的,CPU 高效的部分,而且是高度灵活性的部分都存储在内存里。看数据库,比如说高密度,他们也是很好的工作流的管理。但是对 IEO 和存储来说,性能不好,存储非常昂贵。所有的这些都根据你的预算和你的战略来选择。你要取得一个平衡,一方面要看一下有多少钱,另外一方面要找出合适你自 己情况的策略,这一页我们可以看到,左边就是超级安全,右边是足够安全。超级安全的速度比较慢,但是在右边你可能需要做比较快的一个决策,右边可以这么 做。我想问一下,在我们这个 Paypal 里面,比如说要做一个快速的决策,它的速度是多少?10秒?具体来说,就是你在 Paypal 上面,你在点击按纽的时候,出现下一个页面,不可能是 10 秒,10秒太慢了。100毫秒?或者更少?实际上还不到 100 毫秒,速度非常快。

        超级安全这种方法时间是多长?它是非常安全,但是花的时间比较长。比如说要做一个交易的话,你想及时的付款,然后拿到你所想要的东西,里面让你 输入你的社会保障号码,所以在这个方面,我们需要做一个平衡。在这页方面,我们可以看到里面包括三个不同的层级。我们叫离线、在线、时时。有谁知道 ATO?就是帐号劫持。1、2、3、4、5,你们大家在笑,我们现场做一个查询的话,比如说在五年之前,我们做一个查询的话,10% 的人密码就用的 PASRO 这个词。差不多 10% 的 20% 的人是这样的,当时我们给他邮件,要他们改变密码。再下面一层有传统数据库,除了中间一层,在下面还有大数据的科学,在这里面,我们需要一些离线风险指示 的技术,这具体说明什么问题?响应时间就是从毫秒级,甚至决策的时候到数百毫秒,数分钟,你需要花时间做一个决策。

        我们再看 PG,它的一个时间可以从数小时,谁来做决策?财务人员?有可能是你们公司的 CEO,他会做一个决策你们能够承受多大程度的风险,看一下平台能够承受的风险是多少。

        为什么这里有猴子和狗、猫,什么意思?我在介绍大数据跟这些内容有什么关系?我们介绍的就是说你觉得有很多内容,他们并不是兼容的。我们讨论的 数据可以放在一起,我们可以把不同的数据信息整合在一起,在这种情况之下,我们大家都看过网络日志,我们还有半结构的一些数据。而且 HKMLL 里面还有,实际上是他们彼此之间的结构。在几年前,我们做的都是结构性的数据,但是你们大家都是用 CQ 做数据库,都可以做的很好。大家用 CQ 做过网络日志吗?里面有很多字提,非常不使用。在里面用起来非常不方便,一些像 JAVE 的代码是没法写的。如果你把这三者比较一下,就会得到一个客户在交易时候的图象,他们花多少时间,到什么地方去。你们知道如何测试机器人?你是怎么看的? 他们在每页上面所停的时间我们是不知道的。

        我们看一下日志,看一下他们在不同页面所花的时间,比如说这个地方花了 5 秒,有的时候可能是花了 1 秒,如果 1 秒,那可能是机器。因为正常人看的,可能花 5 秒。接下来我会给大家做一些例子,这个很复杂,也很机密。在这里,我不会讲很多详细的内容,如果说你有问题的话,可以会后找我。这个图具体就是它可以用来 计算不同页面之间的间隔时间,这是一个变量。我们可以看到这个数据是也不同,的数据源你来到这个集群,这里可以看到一些新的变量,ABC,你可以到 DEF 这些页面,如果你发现速度非常快,他们可能在用机器人。我们看过有一些来自网络日志,还有用户互动,我们把这些信息整合在一起,很多时候用 JAVE 来进行测试,这还是比较简单的。

        第二个案例。昨天我业介绍过,我们可以用一些图表,我们可以看到里面有很多焰火,实际上它们是图画,我们可以通过 IP 地址,或者通过具体地址,通过电话,它们之间一些相关的关系,这里对我们挑战就是你如何才能知道这张图,两个图之间的相似度在什么地方,相似度有多少。你 说这两张图完全一样,你有多大信心?这是一个机器学习。比如说客户有 4 个身份,利民有具体地址,有电话号码,我们知道他们的交易多少超过 1 万美元的,我们知道这是一个欺诈的情况,通过这个图可以看出来。实际上很多帐号他们之间有很多相关的关系,我们是否可以来交给我们的机器看所有的事件,告 诉它们哪些是相似的。如果是发现这些问题,我们把数据发到客户支持这里,我们会发现一些欺诈的内容,来交给我们的系统,什么是不好的情况,那些图是不好 的,这样我们有知道什么地方出了问题。如果说还想了解更多详细内容,会后可以来找我。很多公司都在这么做,他们都想了解更多内容,因为这就是下一步的发展 的工作,可以通过不同的事情之间的关系。

        你要做的足够快的话,你需要用一个蓝一模式,这样计算的时候就比较容易,否则就太复杂了。编程的话,时间会很长。实际上他们也是有很多不同的地 方,比如说在 KE 层有很多区别。这是我们发现最相关的一些内容,我们发现有些图它们可以达到 47% 的一个相似形,这样我们有这么高的一个信息,这是两个非常不一样的事件。这就是事件的相关性,在过去很多人通过这个方法可以赚很多钱。现在已经比较平常 了,所以我可以告诉你们。过去有人在网上盗窃信用卡的信息,中国现在还不算糟糕,美国,还有加拿大有很大盗窃信用卡的问题,日本也开始出现这种情况。首先 他们在 Paypal 里面做一个注册,然后把这个钱发到这个帐号里,然后把信用卡盗窃了。他们把这的钱转入到另外一个帐户,他们很有信心,他们会等。他们会把这些转移到银行帐 号里面,很多时候,Paypal 的系统并不知道发生什么,不知道信用卡偷掉了。我们会把这两件事件相互进行联系,放一个卡,方巾钱,然后把这个钱拿出来,这就是一个模式。然后我从卡里支 付,再取出钱,这都是一些模式。我们把这些情况和 CEP 引擎进行联系,让引擎知道有这个情况,就是欺诈。

        我们怎么处理?有的时候我们从所有有的数据当中挖掘出一些价值,有的时候会建立自己的 Web,我会使用这些数据,在我们系统中的数据。我们很很多很大的社交媒体网站进行合作,从而可以更好的去获取数据,来进行挖掘。现在有很多网站都很明 智,他们也建立了防火墙,有时候很难进入到他们网站上获取数据。有一个很有意思的项目,你在下一个会议当中会看到,就是一个社交的声誉的问题,大家知道是 什么意思吗?你可能已经听说过,比如说我们之前讲到过图形,在网站上,互联网上,我们每个人都是在不同的网站上进行互动,比如说微博,还有人人网。你对这 些系统都在进行互动,或者说你的大学论坛,还有脸谱网,都在这些网上互动。我们把你当时一个个人,然后去观察你所有互联网上互动行为,根据这种互动行为, 我们会找到这些互动行为的质量,我们会看到你的网上朋友是什么,看看你朋友是好是坏,看看你朋友对你的评价是什么样。如果你有一个很好的网络,而且网络里 面朋友都很好,那么你很有可能是一个好人,但也不是绝对的。

        如果你的网络是不好的话,你有很可能也是他们中的一分子,你也不是个好人。所以说这种社该的网络性质是很重要的,根据社该网络好坏的打分,我们 可以来审查你自己的好坏,这样可以加速你交易的速度,我们可以帮助你把加以做的更快一些。在座有多少人打网游的?你们知道盈利的 Paypal 资源就是你在网上可以买武器,有很多公司和人在玩这些游戏,他们在建造这些武器,然后卖出去。所以 Paypal 在这个方面赚很多钱,如果你是一个很好的玩家的话,我们也知道你一直是准时支付,在我们这个交易里面,我让你马上可以购买到我们的武器,同意你可以延缓支 付。这是一个很好的例子。

        总结一下,在你们去吃午饭之前,我还浅谈极具。大数据是一个非常成熟的科学,我们 Paypal 也在对开放源和工具方面做一些贡献,我们希望工具能变得更好。我相信谷歌、脸谱网的人员也在做这种工作。数据工程师是 IT 行业最热门的工作,我觉得这是一门艺术,大家一定要对此重视。而且要注意到数据工程师在未来是一个很好的工作,你也可以考虑这个工作。信息在互联网上越来 越多,如果考虑大数据的话,可以在互联网上找到更多数据。数据工程师这个工作在中国市场上越来越多,很可能是我们未来的完美工作。

        总结一下我们过去的做的一系列项目,也是和同济大学合作的项目。如果大家注册,看到我们网站的话,你也可以得到免费的蜻蜓,EBAY TECH,这是一些需要帮助的人士做的蜻蜓。我在美国、在美国、在中国,都有不同的工作经验,在中国有 8 年工作经验,工程这方面的经过是我在技术层面,以及在学习层面来说都是最好的工作经验,而且真正可以满足我的求知欲。在这里,我也想感谢大家,因为你们现 在都是我们的主流,是你们在改变我们互联网的面貌。

        现场提问:我想问一下风险监控体系是否需要认证类的产品,比如说证书类,或者报领类。还有你如何理解检测和决策这两个之间的关系?

        Patrick Firouzian:这个是讲到产品认证,证书的问题。

        现场提问:现在风险监控,Paypal 有没有用认证类的产品?

        Patrick Firouzian:我们现在所使用的工具在我们前面演讲当中已经看到了,我们所有的开放源的产品都没有被认证过,除非我们有一些云里面,我们所有建立起 来的系统都是我们自己建造的。CEP 的产品,我们还没有选择特别的产品,CEP 的产品都是认证过的。有很多产品是公司内部的人知道,是自己打造的。监管和决策之间的关系,我们一直是在监管,我们也是一直在做决策,但是这个监管的结果 就是我们可以帮助我们达到一个很高的自信水平,可以给到我们一些警示。我们在上还有很大的一个团队,他们都在撰写原则,来决定到底哪个事件和哪个水平之间 相联系。这是一个很大范围的工作,要么你只是做监管而不做任何决策,或者说你会停止交易,你会给客户服务量提升一些。

        现场提问:第一个问题理解上有点偏差,我想问有没有使用交校验类的产品。我们在风险监控的时候,我们识别出来的风险,识别和我们最终决策,对这个用户是接收还是拒绝?这两个关系在我们实践上有没有分离?

        Patrick Firouzian:第一个问题,如果你用这种短信方式去挑战对方的话,我们确实是做了。对于现在交付方面,我们也会这么做。如果我们想知道是不是你在做 这个加以的话,我们有时候会用到你的手机,因为我知道你手机的号码,我们会在线上问你号码,把你手机接受的 PIN 码输入到网站。未来我们可以通过生物方法,当然还有短信,也是确认的好方法,所以我们用不同的方法,而且一切都是我们自己建立起来的方法。当然,我可能还 有些产品不知道,我相信有很多产品在用。一旦这些事件出现失误的话,你有可能就是在欺诈,而且我们有很强的信息说你在欺诈的话,我们就不会让你继续交易。 这样一来,我们让你进入到另外一个界面,让你填写地址邮箱,这些都是我们流程里面做的。谢谢。

来自: 腾讯科技