Jsoup爬虫入门

粗略的了解一下Java的Jsoup爬虫入门

首先肯定是导包

这次我们拿京东的搜索商品来举例,我们搜索java,然后观察地址栏的url

https://search.jd.com/Search?keyword=java,关键url就是这一段

首先了解一下jsoup的Document类,Document是一个装载html的文档类,即通过我们传入的url获取整个页面的html内容

然后我们看一下爬虫代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;

public class jsoup {
public static void main(String[] args) throws IOException {
//导入url
String url="https://search.jd.com/Search?keyword=java";
//通过url获取整个网页的html内容
Document document = Jsoup.parse(new URL(url), 30000);
//获取J_goodsList获取这个货物元素
Element element=document.getElementById("J_goodsList");
//通过li获取每一个商品元素
Elements elements=element.getElementsByTag("li");
//遍历每一个货物
for(Element el:elements){
String price=el.getElementsByClass("p-price").eq(0).text();
String title=el.getElementsByClass("p-name").eq(0).text();

System.out.println("======================================");
System.out.println(price);
System.out.println(title);
}
}
}

通过前端代码找到自己需要的东西所对应的元素即可