IP whois介绍和部署实践
sdf123456
8年前
<h2>背景</h2> <h3><strong>whois分两种,一种是查询域名的,一种是查询IP的。这里说的时候后者。</strong></h3> <p>背景不提,你大可以认为我是闲的蛋疼,毕竟互联网上公开的whois数据库非常多,而且没有任何使用的限制。国内可能有前人摸索过,但是目前还没有在某个平台上看到有人提起,所以才斗胆来写了这篇文章。</p> <p>说起IP Whois,有不少专业名词,一个个解释不过来,这里只放几个链接,做做科普就好了。</p> <p>1、AS ( <a href="/misc/goto?guid=4959674779932127340" rel="nofollow,noindex">维基百科</a> )</p> <p>2、BGP ( <a href="/misc/goto?guid=4959674780014851861" rel="nofollow,noindex">维基百科</a> )</p> <p>3、RIRs ( <a href="/misc/goto?guid=4959674780098681889" rel="nofollow,noindex">维基百科</a> )</p> <p>如果你用过whois(Mac下自带的whois工具是用来查询域名的,使用brew安装的是whois3,其他平台上就只有ip的whois)工具,那么你可以留意一下,其实大部分的whois服务器,都是用的是同一套软件,只不过版本不一样而已。</p> <p>另外,虽然whois使用的非常少,但是依然有相应的协议和规范 ( <a href="/misc/goto?guid=4959674781698318868" rel="nofollow,noindex">RFC3912</a> ) ,所以,即使在不同的平台上进行查询,命令格式、查询结果的格式也都是类似的。</p> <h3><strong>whois常用命令行:</strong></h3> <pre> whois3: [-4|-6] [-h host | --host=host] [-p port | --port=port] -k | query</pre> <p>-h 指定查询的whois数据库,五大RIR都有自己的whois数据库,另外有部分第三方提供的数据库。如果未指定,就使用默认的whois.ripe.net</p> <p>-p whois协议有自己的端口,如果使用自建的whois镜像,可能需要指定端口</p> <p>query 查询语句有很多种,虽然使用同一套程序,但是不同的数据库,可能会支持不同的功能,如果不知道具体使用什么样的查询语句,可以直接使用下面的命令行来获取帮助信息</p> <pre> whois -h whois.apinc.net --help</pre> <h3><strong>IP whois 查询能够提供什么样的信息呢?</strong></h3> <p>1.1.220.2是此前我在测试中捕捉到的一个发送垃圾邮件的IP地址,对这个IP的whois查询结果如下</p> <pre> dbint@whois:~$ whois -h whois.apnic.net 1.1.220.2 % [whois.apnic.net] % Whois data copyright terms http://www.apnic.net/db/dbcopyright.html % Information related to '1.1.192.0 - 1.1.255.255' inetnum: 1.1.192.0 - 1.1.255.255 netname: TOTNET descr: Dynamic IP Address for residential Broadband Customers country: TH admin-c: AG100-AP tech-c: AG100-AP status: ASSIGNED NON-PORTABLE mnt-by: MAINT-TH-TOT mnt-lower: MAINT-TH-TOT mnt-routes: MAINT-TH-TOT mnt-routes: MAINT-TH-TOT-ISP mnt-irt: IRT-TOT-TH changed: apipolg@tot.co.th 20140525 source: APNIC irt: IRT-TOT-TH address: TOT Public Company Limited address: 89/2 Moo 3 Chaengwattana Rd, Laksi,Bangkok 10210 THAILAND e-mail: apipolg@tot.co.th abuse-mailbox: abuse@totisp.net admin-c: ira3-ap tech-c: ira3-ap auth: # Filtered mnt-by: MAINT-TH-TOT changed: apipolg@tot.co.th 20150703 source: APNIC person: Apipol Gunabhibal nic-hdl: AG100-AP e-mail: apipolg@tot.co.th address: TOT Public Company Limited address: 89/2 Moo 3 Chaengwattana Rd, Laksi, Bangkok 10210 THAILAND phone: +66-2574-9178 fax-no: +66-2574-8401 country: TH changed: apipolg@tot.co.th 20110215 mnt-by: MAINT-TH-TOT source: APNIC % Information related to '1.1.192.0/19AS23969' route: 1.1.192.0/19 descr: TOT Public Company Limited origin: AS23969 mnt-by: MAINT-TH-TOT changed: boy@totbb.net 20120220 source: APNIC % Information related to '1.1.192.0/19AS9737' route: 1.1.192.0/19 descr: TOT Public Company Limited origin: AS9737 country: TH mnt-routes: MAINT-TH-TOT mnt-by: MAINT-TH-TOT changed: apipolg@tot.co.th 20120223 source: APNIC % This query was served by the APNIC Whois Service version 1.69.1-APNICv1r7-SNAPSHOT (WHOIS1)</pre> <p>我们检索出了IP地址所属的网段,AS号,注册时间,注册组织以及注册组织所属的国家。某些情况下,注册组织可能会上报IP地址的规划情况,那么我们就可以大致的判断出这个地址段是用来做什么的了。</p> <p>获取看这个链接你会得到更直观的结果: <a href="/misc/goto?guid=4959674781793743695" rel="nofollow,noindex">点击查看</a></p> <p style="text-align:center"><img src="https://simg.open-open.com/show/38be50f6038523e71bc7f35b1294e48d.jpg"></p> <p>4134是中国CN2( <a href="/misc/goto?guid=4959674781868914950" rel="nofollow,noindex">百度百科</a> )网络的AS号。基本上在国内,必须要接入CN2网络,才能连接到互联网(没有具体考证,从08年前后电信泄露的文档中推断出来的)</p> <p>只从上面的图中,1.92.0.0/13这个段被直接分别分配给了一个公司,相比之下,某些身份只能拿到一些零散的C段,那么这个公司一定是一个很有分量的公司。</p> <p>实际上这些数据都是AS注册组织向RIR机构上报的信息,因为层层上报的原因,在加上RIR机构是完全没有办法来判断是到底有没有虚报,所以这些信息仅仅只能作为一个参考作用。</p> <p>从4134所有网段的描述信息里,还是找到了几个IDC的网段。有兴趣的可以自己尝试一下。</p> <p>除了这些信息,whois数据对威胁情报,也起到了不小作用。比较直观的一点就是,IP地址的分配是动态的,并不是说DHCP那个动态,而是,尽管IP地址资源有限,还是有会一些IP地址出现冗余,被回收和重新分配。</p> <p>一个主要的原因是,欧美地区在推行IPv6的同时,一些IPv4的地址就不再需要了,空出来的这部分就被释放掉,交回RIR进行重新分配,然后又有其他的机构去申请使用。所有会出现,一个IP地址,可能上个月是欧洲的,这个月就变成了中国的。</p> <p>另外,对于腾讯和阿里,拥有自己的AS号,是可以直接从whois数据中检索出他们所拥有的全部地址段的。</p> <p>这里要介绍的,是自建whois镜像,每个人有自己关注的点,如何从whois数据库中找到你需要的信息,是因人而异的。只是看不惯很多whois查询站点数据不准,还没完没了的验证码和广告,觉得有必要分享给大家。</p> <h2>系统环境准备</h2> <p>whois server正常运行需要的内存不大,但是初次导入数据的时候需要消耗巨大的内存。官方的文档里推荐至少8G内存,8GSWAP,至少120G磁盘空间。</p> <p>实践下来,CentOS下需要调整很多内核设置,而且最终运行效果也不是很理想,所以不推荐用CentOS来承载。</p> <p>在CentOS下失败了多次之后,在Ubuntu上一次部署成功。所以推荐的,还是Ubuntu(我使用的是Ubuntu Server 14.04 x64)</p> <p>需要JDK1.8</p> <p>需要Mariadb 5.5</p> <p>需要Maven</p> <p>需要make(Ubuntu Server默认是没有gcc和make工具的)</p> <p>需要gcc</p> <p>需要jmx ( <a href="/misc/goto?guid=4959674781949226097" rel="nofollow,noindex">jmx下载地址</a> Mac下jmx有BUG,无法使用,就别折腾了)</p> <h2>增强配置</h2> <p>由于在初次导入数据的时候需要对文本进行大量的解析,如果你打算把whois服务器开放的话,查询量也会很大所以需要对系统和Mariadb的配置做一些调整。</p> <pre> sysctl -w kern.maxfiles=1048600 sysctl -w kern.maxfilesperproc=1048576</pre> <p>如果使用的是Ubuntu Server这两条配置默认是满足的,可以不考虑其它的。</p> <p>MariaDB虽然接近于MySQL,我没有尝试使用MySQL来做whois数据的存储。</p> <p>一些配置如下:</p> <pre> max_allowed_packet = 20M wait_timeout = 31536000 innodb_buffer_pool_size = 2356M innodb_additional_mem_pool_size = 32M</pre> <h2>编译安装</h2> <p>源码地址: <a href="/misc/goto?guid=4959674782028392098" rel="nofollow,noindex">下载地址</a></p> <p>下载并且解压,然后在whois源码目录中运行:</p> <pre> mvn clean install -P release </pre> <p>编译过程可能要很长时间,我自己的机器上,编译了整整一天。-_-|||</p> <h2>建立数据库结构</h2> <p>初始化数据库的脚本放在whois-commons/src/main/resource/目录下</p> <pre> dbint@whois:~/whois/whois-commons/src/main/resources$ ls -alh total 100K drwxrwxr-x 3 dbint dbint 4.0K May 2 22:50 . drwxrwxr-x 4 dbint dbint 4.0K May 2 22:50 .. -rw-rw-r-- 1 dbint dbint 5.3K May 2 22:50 acl_schema.sql -rw-rw-r-- 1 dbint dbint 3.7K May 2 22:50 applicationContext-commons.xml -rw-rw-r-- 1 dbint dbint 4.6K May 2 22:50 dnscheck_schema.sql -rw-rw-r-- 1 dbint dbint 1.3K May 2 22:50 internals_data.sql -rw-rw-r-- 1 dbint dbint 2.4K May 2 22:50 internals_schema.sql -rw-rw-r-- 1 dbint dbint 2.3K May 2 22:50 mailupdates_schema.sql drwxrwxr-x 2 dbint dbint 4.0K May 2 22:50 patch -rw-rw-r-- 1 dbint dbint 35 May 2 22:50 version.properties -rw-rw-r-- 1 dbint dbint 1.2K May 2 22:50 versions_schema.sql -rw-rw-r-- 1 dbint dbint 123 May 2 22:50 whois_data.sql -rw-rw-r-- 1 dbint dbint 4.3K May 2 22:50 whois.properties -rw-rw-r-- 1 dbint dbint 34K May 2 22:50 whois_schema.sql </pre> <p>其中,xxxx_schema.sql就是用来建立数据库结构的脚本,其他的脚本不要动,实践证明,没啥卵用。</p> <p>whois.properties是whois的核心配置文件,后面会给出我的配置样例。</p> <p>数据库结构包括:</p> <p>LOCAL—————————————-使用whois_schema.sql初始化</p> <p>ACL_LOCAL——————————–使用acl_schema.sql初始化</p> <p>DNSCHECK_LOCAL———————使用dnscheck_schema.sql初始化</p> <p>MAILUPDATES_LOCAL—————–使用mailupdates_schema.sql初始化</p> <p>INTERNALS_LOCAL———————使用internals_schema.sql初始化</p> <p>这几个表是必须的,哪怕你根本不用acl和mailupdate的功能,这几个schema也必须要有。</p> <p>另外,由于我们要建立的是一个完整的whois镜像,所以每一个镜像源需要有一个与之对应的schema。</p> <p>我只镜像了五大RIR的数据,所以有五个镜像schema。</p> <p>WHOIS_MIRROR_RIPE_GRS</p> <p>WHOIS_MIRROR_APNIC_GRS</p> <p>WHOIS_MIRROR_ARIN_GRS</p> <p>WHOIS_MIRROR_AFRINIC_GRS</p> <p>WHOIS_MIRROR_LACNIC_GRS</p> <p>以上五个schema,都使用whois_schema.sql来初始化。</p> <p>如果需要,可以考虑添加RADB和JIRR的数据,实际上,这两个RIR机构的数据也是包含在APNIC的数据里面的,我没有添加。</p> <p>whois主程序使用空密码的dbint账户来连接数据库,可以用下面的方式来创建账户:</p> <pre> CREATE USER 'dbint'@'localhost' IDENTIFIED BY ''; GRANT ALL PRIVILEGES ON *.* TO 'dbint'@'localhost'; FLUSH PRIVILEGES;</pre> <p>我当然知道这有点不安全,反正数据都是别人的,你拿走也没有任何意义,就这样配置好啦。</p> <p>如果你想自己指定一个账户也行,但是你必须在后面的配置文件里详细写清楚。</p> <h2>whois配置</h2> <p>1、把之前下载的jmxterm-<my version>-uber.jar复制到whois源码目录下</p> <p>2、把whois-commons/src/main/resource/whois.properties文件复制到whois源码目录下,并改名为properties</p> <p>3、maven编译生成的主程序文件在whois-db/target/whois-db-1.87.jar,使用不同的发行版本编译,得到的文件名会有所差异,自行区分。需要把这个包复制到whois源码目录下。</p> <p>4、运行whois的一些在tools目录中,把这些文件全部拷贝到whois源码目录中。</p> <p>5、修改whois.init脚本,把其中JMXTERMPATH修改为之前下载的jmx文件的文件名。</p> <p>6、在whois源码目录下,创建空的var文件夹(dump文件,日志,export文件都会放在这里面)</p> <p>7、修改properties文件(这里是大头,官方文档中没有完全说明,我摸索了好久才理解的,经管理解了,但是依然巨坑无数,所以,各位如果有好的办法,请务必分享一下)</p> <pre> # The main / default whois source (RIPE|TEST) whois.source=LOCAL whois.additional.sources=RIPE-GRS,APNIC-GRS,LACNIC-GRS,AFRINIC-GRS,ARIN-GRS # 默认情况下,whois只对LOCAL做数据查询,但是我们的镜像数据分散在多个schema中,所以需要额外添加。注意,不需要写完整的shema名,whois会自动把source name转换成WHOIS_MIRROR_(SOURCE_NAME)的形式 # GRS是whois的自动跟新机制,每天凌晨自动同步数据,不需要深究 # Service ports #设定whois数据的监听端口 port.query=8187 #whois协议有专门的端口,我使用的是8187 port.api=8188 #ripe-ncc提供的whois server也可以使用RESTful接口 port.nrtm=0 #拒绝给其他服务器提供nrtm数据更新服务 # File system locations dir.rpsl.export=var${jvmId:}/export dir.rpsl.export.tmp=var${jvmId:}/export_tmp dir.rpsl.export.internal=internal dir.rpsl.export.external=dbase_new dir.rpsl.export.external.legacy=dbase dir.freetext.index= dir.update.audit.log=var${jvmId:}/log/audit dir.grs.import.download=var${jvmId:}/grs freetext.index.update.interval.msecs=60000 # API configuration api.rest.baseurl=http://rest.db.ripe.net #使用五大RIR机构的数据来进行同步,还有部分小的RIR机构,包含在了五大机构的数据中 # Comma separated list of GRS sources grs.sources=RIPE-GRS,APNIC-GRS,LACNIC-GRS,AFRINIC-GRS,ARIN-GRS grs.sources.dummify= # Comma separated list of IP ranges from which sensitive operations are accessible #whois server完全没有身份验证,所有的安全防护都通过限制IP地址进行。这里限制的是某些敏感操作 ipranges.trusted=127.0.0.1,::1 # Comma separated list of IP ranges from which the OSI layer2 load balancer health checks are executed from #设置whois服务监听地址 ipranges.loadbalancer=127.0.0.1,::1 # Mail properties # RIR的会员组织可以通过邮件的方式来接收更新数据,不是member就不需要这项了 mail.smtp.enabled=false mail.smtp.host= mail.from=RIPE Database Administration local <unread@ripe.net> mail.update.threads=2 mail.dequeue.interval=1000 mail.smtp.retrySending=true # NRTM server # 不启用NTRM更新,也是RIR会员组织专项 nrtm.enabled=false nrtm.update.interval=15 # NRTM client nrtm.import.enabled=false nrtm.import.sources= # RpslExport rpsl.export.enabled=true # GRS source-specific properties to acquire dumps grs.import.enabled=true grs.import.sources=RIPE-GRS,APNIC-GRS,LACNIC-GRS,AFRINIC-GRS,ARIN-GRS # GRS RIPE-NCC grs.import.ripe.resourceDataUrl=ftp://ftp.ripe.net/ripe/stats/delegated-ripencc-extended-latest grs.import.ripe.download=ftp://ftp.ripe.net/ripe/dbase/ripe.db.gz grs.import.ripe.source=RIPE-GRS # GRS APNIC grs.import.apnic.resourceDataUrl=ftp://ftp.apnic.net/pub/stats/apnic/delegated-apnic-extended-latest #grs.import.apnic.download= # APNIC没有完整的dump数据,都是分散的,所以我采用了多次导入的方式grs.import.apnic.source=APNIC-GRS # LACNIC是唯一一家不提供归档数据的,所以需要注册成为一个会员,通过其他的方式来获取数据,即使注册了会员,也啥都看不到 # GRS LACNIC grs.import.lacnic.resourceDataUrl=ftp://ftp.lacnic.net/pub/stats/lacnic/delegated-lacnic-extended-latest #grs.import.lacnic.userId= #grs.import.lacnic.password= grs.import.lacnic.source=LACNIC-GRS # GRS AFRINIC grs.import.afrinic.resourceDataUrl=ftp://ftp.afrinic.net/stats/afrinic/delegated-afrinic-extended-latest grs.import.afrinic.download=ftp://ftp.afrinic.net/dbase/afrinic.db.gz grs.import.afrinic.source=AFRINIC-GRS # GRS ARIN # ARIN的数据也存在一个比较严重的问题,他提供的dump文件格式不是whois所接受的,也没有像APNIC那种分散的归档文件,所以暂时是空的 grs.import.arin.resourceDataUrl=ftp://ftp.arin.net/pub/stats/arin/delegated-arin-extended-latest grs.import.arin.download= grs.import.arin.source=ARIN-GRS #GRS RADB #grs.import.radb.download=ftp://ftp.radb.net/radb/dbase/radb.db.gz #grs.import.radb.source=RADB-GRS # GRS JPIRR #grs.import.jpirr.docwnload=ftp://ftp.nic.ad.jp/jpirr/jpirr.db.gz #grs.import.jpirr.source=JPIRR-GRS # SSO translation properties crowd.rest.url=http://crowd.prepdev.ripe.net:8095/crowd crowd.rest.user=db crowd.rest.password=evarylli # Unref cleanup unrefcleanup.enabled=false unrefcleanup.deletes=false whois.countrycodes=AD,AE,AF,AG,AI,AL,AM,AO,AQ,AR,AS,AT,AU,AW,AX,AZ,BA,BB,BD,BE,BF,BG,BH,BI,BJ,BL,BM,BN,BO,BQ,BR,BS,BT,BV,BW,BY,BZ,CA,CC,CD,CF,CG,CH,CI,CK,CL,CM,CN,CO,CR,CU,CV,CW,CX,CY,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,EH,ER,ES,ET,EU,FI,FJ,FK,FM,FO,FR,GA,GB,GD,GE,GF,GG,GH,GI,GL,GM,GN,GP,GQ,GR,GS,GT,GU,GW,GY,HK,HM,HN,HR,HT,HU,ID,IE,IL,IM,IN,IO,IQ,IR,IS,IT,JE,JM,JO,JP,KE,KG,KH,KI,KM,KN,KP,KR,KW,KY,KZ,LA,LB,LC,LI,LK,LR,LS,LT,LU,LV,LY,MA,MC,MD,ME,MF,MG,MH,MK,ML,MM,MN,MO,MP,MQ,MR,MS,MT,MU,MV,MW,MX,MY,MZ,NA,NC,NE,NF,NG,NI,NL,NO,NP,NR,NU,NZ,OM,PA,PE,PF,PG,PH,PK,PL,PM,PN,PR,PS,PT,PW,PY,QA,RE,RO,RS,RU,RW,SA,SB,SC,SD,SE,SG,SH,SI,SJ,SK,SL,SM,SN,SO,SR,SS,ST,SV,SX,SY,SZ,TC,TD,TF,TG,TH,TJ,TK,TL,TM,TN,TO,TR,TT,TV,TW,TZ,UA,UG,UM,US,UY,UZ,VA,VC,VE,VG,VI,VN,VU,WF,WS,YE,YT,ZA,ZM,ZW whois.languagecodes=ab,aa,af,ak,sq,am,ar,an,hy,as,av,ae,ay,az,bm,ba,eu,be,bn,bh,bi,bs,br,bg,my,ca,ch,ce,ny,zh,cv,kw,co,cr,hr,cs,da,dv,nl,dz,en,eo,et,ee,fo,fj,fi,fr,ff,gl,ka,de,el,gn,gu,ht,ha,he,hz,hi,ho,hu,ia,id,ie,ga,ig,ik,io,is,it,iu,ja,jv,kl,kn,kr,ks,kk,km,ki,rw,ky,kv,kg,ko,ku,kj,la,lb,lg,li,ln,lo,lt,lu,lv,gv,mk,mg,ms,ml,mt,mi,mr,mh,mn,na,nv,nb,nd,ne,ng,nn,no,ii,nr,oc,oj,cu,om,or,os,pa,pi,fa,pl,ps,pt,qu,rm,rn,ro,ru,sa,sc,sd,se,sm,sg,sr,gd,sn,si,sk,sl,so,st,es,su,sw,ss,sv,ta,te,tg,th,ti,bo,tk,tl,tn,to,tr,ts,tt,tw,ty,ug,uk,ur,uz,ve,vi,vo,wa,cy,wo,fy,xh,yi,yo,zu whois.maintainers.power=RIPE-NCC-HM-MNT whois.maintainers.enduser=RIPE-NCC-END-MNT whois.maintainers.legacy=RIPE-NCC-LEGACY-MNT whois.maintainers.alloc=RIPE-NCC-HM-MNT,RIPE-NCC-HM-PI-MNT whois.maintainers.enum=RIPE-GII-MNT,RIPE-NCC-MNT whois.maintainers.dbm=RIPE-DBM-MNT,RIPE-NCC-LOCKED-MNT,RIPE-DBM-STARTUP-MNT,RIPE-DBM-UNREFERENCED-CLEANUP-MNT,RIPE-ERX-MNT whois.dummy_role.nichdl = DR1-TEST # Source aware data sources # 如果你为whois指定了特定的数据库账户。需要在下面指定 whois.db.driver=org.mariadb.jdbc.Driver whois.db.master.driver=net.ripe.db.whois.common.jdbc.driver.LoggingDriver whois.db.master.url=jdbc:log:mariadb://localhost/LOCAL;driver=org.mariadb.jdbc.Driver whois.db.master.username=dbint whois.db.master.password= whois.db.slave.url=jdbc:mariadb://localhost/LOCAL whois.db.slave.username=dbint whois.db.slave.password= whois.db.grs.master.baseurl=jdbc:mariadb://localhost/WHOIS_MIRROR whois.db.grs.slave.baseurl=jdbc:mariadb://localhost/WHOIS_MIRROR # 这里配置的只是数据库的前缀,每添加一个GRS数据源,就要建立一个相应的数据库,命名方式是WHOIS_MIRROR_(SOURCE_NAME) # 后面这部分的设置基本上没什么用,不用改动 # Common data sources mailupdates.database.url=jdbc:mariadb://localhost/MAILUPDATES_LOCAL mailupdates.database.username=dbint mailupdates.database.password= dnscheck.database.url=jdbc:mariadb://localhost/DNSCHECK_LOCAL dnscheck.database.username=dbint dnscheck.database.password= acl.database.url=jdbc:mariadb://localhost/ACL_LOCAL acl.database.username=dbint acl.database.password= internals.database.url=jdbc:mariadb://localhost/INTERNALS_LOCAL internals.database.username=dbint internals.database.password= #Feature Toggles feature.toggle.changed.attr.available=true</pre> <h2>数据导入和更新</h2> <p>首先,启动whois服务:</p> <pre> ./whois.init start</pre> <p>在var/console.log中可以看到whois运行的一些信息,会有很多错误,但是只要whois能够成功运行,问题就不大。</p> <p>使用jmx-term来下发数据导入的任务</p> <pre> ./whois.init jmx >bean net.ripe.db.whois:name=GrsImport >run grsImport "RIPE-GRS" "first"</pre> <p>grsImport有两个参数,第一个表示要导入的数据源,名字必须跟porperties中指定的grs.import.ripe.source对应,第二个参数只是注释,用来区分每一次操作。</p> <p>数据源可以直接指定“all”,一次性下发所有数据源的导入任务。但是由于APNIC,ARIN和LACNIC的数据都存在一些问题,不建议这么干。</p> <p>同理,导入APNIC的数据可以这样:</p> <pre> >run grsImport "APNIC-GRS" "first"</pre> <p>停止whois服务:</p> <pre> ./whois.init stop</pre> <p>如果数据正在更新,会等待更新完毕才退出,所以退出之前请确认没有数据导入的任务正在执行。</p> <p>注:数据导入会消耗非常长的时间,我在工作站上运行的,光导入初始数据就花了两天。</p> <p>whois server会每天自动同步,前提是你所指定的每一个grs source都已经完成了初始化导入并且配置了更新文件的路径。(更新文件路径在我给出的配置文件中已经帮你写好了,但是ARIN和LACNIC的初始数据导入有不少问题,暂时不建议使用。)</p> <p>另外,APNIC的数据没有提供完整的dump文件,而是把一个dump文件拆分成了多个部分。</p> <p><img src="https://simg.open-open.com/show/ae8fb2f7174efea8736b3d20205f999d.jpg"></p> <p>最终我的办法如下:</p> <p>1、在配置文件中不配置APNIC的初始化数据文件。</p> <p>2、在whois程序目录创建dump文件夹</p> <p>3、下载 <a href="/misc/goto?guid=4959674782112038767" rel="nofollow,noindex">https://ftp.apnic.net/apnic/whois/</a> 中的所有.gz压缩文件到dump目录</p> <p>4、使用jmx强制导入</p> <pre> ./whois.init jmx >bean net.ripe.db.whois:name=Bootstrap >run loadDumpRisky initialimport dump/压缩文件.gz</pre> <p>导入过程中会产生大量错误,但是最终数据还是可以用的。每有一个压缩文件,就得手工导入一次。</p> <h2>使用whois查询</h2> <p>前面提到有Linux/Mac平台下有whois工具可以使用</p> <p>本地镜像导入之后,就可以使用下面的命令行来做查询了。</p> <pre> whois -h 127.0.0.1 -p 8187 query</pre> <p>同时,whois server也提供了REST API,这个我还没有研究透,暂时不讨论。官方的文档里有比较详细的介绍。</p> <p>如果你需要在程序中使用whois的API,可以参考官方的说明文档 <a href="/misc/goto?guid=4959674782183967088" rel="nofollow,noindex">RIPE-NCC Whois RIPE API</a></p> <p>查询单个IP的基本格式是:</p> <pre> http://127.0.0.1:8188/whois/search?source={source}&query-string={query}</pre> <p>比如,查询1.1.220.2:</p> <pre> http://127.0.0.1:8188/whois/search?source=apnic-grs&query-string=1.1.220.2</pre> <p>返回结果可以是json或xml,可以用accept-content 来指定。</p> <p>另外,RIPE官方也提供了比较完整的API,如果你懒得折腾,但是又很需要这些数据,可以直接使用RIPE-NCC官方的数据: <a href="/misc/goto?guid=4959674782272631714" rel="nofollow,noindex">http://rest.db.ripe.net/</a></p> <h2>一些心得</h2> <p>你可能会觉得,源码是别人的,文档也是别人的,我这篇文章到底有啥意义。咳咳,你自己折腾一遍你就知道了,真的是很多很多的坑……</p> <p>官方的文档根本不是提供给我们看的,而是提供给各家RIR机构的。虽然官方说明了几种不同的数据导入方式,但是每一种都100%会失败。</p> <p>你也可能觉得,反正网上有别人做好的whois服务器,直接用别人的就好了,干嘛自己费这么大劲儿去折腾。</p> <p>其实,很简单,当全球的网段划分信息都摆在你面前的时候,你会懂我的。</p> <h2><strong>如何分析?</strong></h2> <p>这个我想等各位来帮我补充,诸如从whois数据中筛选出腾讯云和阿里云的全部IP地址段,这种我觉得都没啥意思了。算是抛砖引玉吧。</p> <p>对于做威胁情报的平台,whois数据中会更新IP地址的变化,一旦IP地址被重新分配,那么此前的情报用处就不大了。目前IBM就是这么做的,在情报时间线中标明了某一个时刻,某一家RIR机构宣布IP地址的归属发生了变化,这个时刻以前的数据,就只能作为一个参考,而不作为评估依据。</p> <p>每天大概会有4000个IP段发生变化,还是值得关注一下的。还有就是,AS存在一个挂载的问题,注册信息里显示国家为CN的AS,有不少,但绝大部分都挂载在AS4134下面,这个可以很直观的看出来。</p> <p>其他类似的AS也有不少,这些AS就是全球的互联网的承载,或者叫骨干网。设想一下,如果这些网络的骨干节点被攻击,可能影响到的就是半个地球的人了(稍微夸大了一下,应该不会那么容易被攻击的)。</p> <p>从这些数据里,可以简单的识别出一些IP地址的归属和具体用途,前面也提到了。对Desc字段中包含 Co., Ltd的IP地址段做筛选,可以罗列出不少IDC的地址段。某些ISP甚至会标注IP段是不是用来做宽带地址池的,或者做静态线路的。</p> <p>期待大家来发掘这份数据吧。任何关于whois服务器的问题,可以在微博上戳我@戒小贤。后续我把数据源准备完毕,可能会考虑开放我们的数据库以及我们的一些分析结果。感谢@宫一鸣cn及时点拨,我才没有走错路。^_^</p> <p>来自:http://www.tuicool.com//articles/MzAvQnb</p> <p> </p>