Jsoup爬虫入门

粗略的了解一下Java的Jsoup爬虫入门

首先肯定是导包

这次我们拿京东的搜索商品来举例，我们搜索java，然后观察地址栏的url

https://search.jd.com/Search?keyword=java，关键url就是这一段

首先了解一下jsoup的Document类，Document是一个装载html的文档类，即通过我们传入的url获取整个页面的html内容

然后我们看一下爬虫代码

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;

public class jsoup {
    public static void main(String[] args) throws IOException {
		//导入url
        String url="https://search.jd.com/Search?keyword=java";
        //通过url获取整个网页的html内容
        Document document = Jsoup.parse(new URL(url), 30000);
        //获取J_goodsList获取这个货物元素
        Element element=document.getElementById("J_goodsList");
        //通过li获取每一个商品元素
        Elements elements=element.getElementsByTag("li");
        //遍历每一个货物
        for(Element el:elements){
            String price=el.getElementsByClass("p-price").eq(0).text();
            String title=el.getElementsByClass("p-name").eq(0).text();
			
            System.out.println("======================================");
            System.out.println(price);
            System.out.println(title);
        }
    }
}

通过前端代码找到自己需要的东西所对应的元素即可