利用jsoup 如何从网页中下载图片

Java HTML C/C++ Go 22894 次浏览

如何从网页中下载图片

如果做为爬虫很有必要从网页中下载图片到本地，那么我们利用jsoup来进行该操作，jsoup 是一个很不错的html解析器。下面是它的简介：

jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；
使用DOM或CSS选择器来查找、取出数据；
可操作HTML元素、属性、文本；

jsoup是基于MIT协议发布的，可放心使用于商业项目。

网页中下载图片需要这么两步操作

1.获取绝对路径

很多网页中用的是相对路径，因此获取图片的绝对路径很重要

方法一：我们就利用jsoup来获取

Element image = document.select("img").first();
String url = image.absUrl("src");
// url = http://www.example.com/images/chicken.jpg

或者

String url = image.attr("abs:src");
他们的前提利用connect方式获取而不是文件方式
Document doc = Jsoup.connect("http://jsoup.org").get();
Element link = doc.select("a").first();
String relHref = link.attr("href"); // == "/"
String absHref = link.attr("abs:href"); // "http://jsoup.org/"
方法二：利用jdk中url
URL url  = new URL("http://www.example.com/index.html");
URI uri = url.toURI();
System.out.println(uri.resolve("images/chicken.jpg").toString());

2.第二步则就是下载图片

URL   url   =   new   URL( "图片地址"); 
URLConnection   uc   =   url.openConnection(); 
InputStream   is   =   uc.getInputStream(); 
File   file   =   new   File( "本地路径 "); 
FileOutputStream   out   =   new   FileOutputStream(file); 
int   i=0; 
while   ((i=is.read())!=-1)   { 
out.write(i); 
} 
is.close();

本站翻译的：jsoup的官方教程

openkk

13年前提问

利用jsoup 如何从网页中下载图片

0个答案

相似问题