用JAVA写爬虫轻松刷CSDN网页博客访问量排名优化

1.导入依赖

    <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.14.3</version> <!-- or latest version -->
        </dependency>

2.获取代理

大部分网站对同IP访问进行了限制 [可以去注册一个IP代理的账户,免费5000个IP ]

《JAVA爬虫刷CSDN网页浏览量热度和搜索排名获取代理IP》

public class ProxyIP {


    public static String getOne() throws IOException {
        String Proxyurl =
                "填入代理IP的提取链接 一次获取一个 ";
        String ip = Jsoup.connect(Proxyurl).get().body().text();

        return ip;
    }

}

3. 爬取页面信息

以CSDN为例点击F12 找到元素所处的位置

4.使用 Jsoup 爬取内容

package com.sgg.main;

import com.sgg.main.proxy.ProxyIP;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Attributes;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.Proxy;
import java.net.URLDecoder;
import java.net.URLEncoder;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Random;
import java.util.concurrent.Executor;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;
import java.util.function.Consumer;


public class Index {

    public static void main(String[] args) throws IOException {

        //博文地址URL集合
        ArrayList<String> urls = new ArrayList<>();
        //博文名集合
        ArrayList<String> names = new ArrayList<>();

        //            创建httpClient实例
        String indexUrl = "https://xxxxxxxxxx";

        //          访问博文首页  爬取博文地址和博文名
        Document document = Jsoup.connect(indexUrl).get();

        Elements article = document.getElementsByTag("article");

        article.forEach(new Consumer<Element>() {
            @Override
            public void accept(Element element) {
                Node node = element.childNode(0);
                Node parentNode = node.childNode(0).childNode(0).parentNode();
                //爬取博文名
                String nameUrl = parentNode.childNode(0).childNode(0).toString();
                names.add(nameUrl);
                Attributes attributes = node.attributes();
                String href = attributes.get("href");
                //爬取博文URL
                urls.add(href);
            }
        });


        //开启线程
        ExecutorService executorService = Executors.newFixedThreadPool(urls.size());


        for (int i = 0; i < urls.size(); i++) {
            //每个连接地址使用一个线程
            int finalI = i;

            executorService.execute(() -> {
                while (true) {
                    String[] split = null;
                    try {
                        split = ProxyIP.getOne().split(":");
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                    try {
                        //搜索引擎搜索帖子  优化搜索排名
                        String decode = URLEncoder.encode(names.get(finalI), "utf-8");

                        // 搜索RUL
                        String searchUrl =
                                "https:xxxxxxxxxxxx";

                        Connection.Response search = Jsoup.connect(searchUrl).proxy(split[0], Integer.parseInt(split[1])).ignoreContentType(true).execute();


                        Connection.Response response = Jsoup.connect(urls.get(finalI)).proxy(split[0], Integer.parseInt(split[1])).ignoreContentType(true).execute();

                        System.out.println(names.get(finalI).substring(0,5)+" 搜索状态: "+search.statusCode()+"  --->  "+urls.get(finalI).split("details/")[1] + "  访问状态 " + response.statusCode());

                        try {
                            TimeUnit.SECONDS.sleep(30+ new Random().nextInt(10));
                        } catch (InterruptedException e) {

                        }
                    } catch (IOException e) {
                        System.out.println(names.get(finalI).substring(0,5)+"     "+urls.get(finalI).split("details/")[1] + "   访问出错了");
                        System.out.println(e.getMessage());
                    }
                }
            });
        }
    }


}

#Java开发##秋招##Java##学习路径#

全部评论

推荐最新楼层

gwx。

北京林业大学安全工程师

失效了，楼主。。能再发一下吗

1 回复分享

发布于 2022-06-20 11:06

秋日的晚霞

楼主

清华大学 Java

语雀文档 https://www.yuque.com/docs/share/4d86234e-fecd-43d1-8edd-d882b116565d?# 《JAVA爬虫刷CSDN网页浏览量热度和搜索排名获取代理IP》链接有效期至 2022-03-17 23:08:22

点赞回复分享

发布于 2022-03-14 23:08

秋日的晚霞

楼主

清华大学 Java

把地址改成自己博客首页就行了

点赞回复分享

发布于 2022-03-11 21:38

07-02 17:55

杭州电子科技大学测试工程师

我是不是最晚找到暑期实习的

感谢字节6月下旬捞了我，让我对暑期实习又燃起了希望，成为节孝子啦！

我太想进步了呀：我才是最晚的，我这周才拿到老铁的offer

点赞评论收藏

06-30 00:12

浙江大学集成电路IC设计

牛友们，今天和女朋友分手了

今天和女朋友分手了，有很多话想说但是发到其他平台她肯定会看见，思来想去貌似只有牛客她看不到了。鼠鼠是典型的小镇做题家出生，今年研二马上找工作，家庭是普通职工家庭，父母都很开明，无权无势，我是独生子虽然没问过爸妈能支持我多少钱，但是我估摸着能有二十万就不错了，鼠鼠本身也是学电子类专业的，本科是差一点的九八五，现在硕士是挺不错九八五的电子类，目前也在ic相关公司实习，并且秋招打算找ic相关的工作，因为考虑到ic薪资也还不错，自己绝对是能养活自己的，但是要在一二线城市买房，压力就会显得非常大了，况且我也不愿意掏空爸妈供我买房，女朋友家庭条件比我好，我爸妈支持我的她爸妈应该很轻松就能给她，而且她也说不...

马月在431摸鱼：搞不懂，为什么不让ta给你一个未来……

如何一边实习一边秋招

点赞评论收藏

06-15 02:05

已编辑

南昌航空大学数据分析师

这种简历为什么被拒啊？

我是5.21号才知道牛客的，然后之前都是在其他招聘软件上投简历可是几乎没有人看，也从来没有通过初步筛选过，我想知道我的简历问题出在哪里啊，可以怎么优化啊，不想考研真的只想就业，只要能找到专业相关的实习就行，不在乎工资多少，怎么才能找到啊？问一下大佬们

Eason三木：你如果想干技术岗，那几个发公众号合唱比赛的经历就去掉，优秀团员去掉，求职没用。然后CET4这种不是奖项，是技能，放到下面的专业技能里或者单独列一个英语能力。另外好好改改你的排版，首行缩进完全没有必要，行间距好好调调，别让字和标题背景黏在一起，你下面说能做高质量PPT你得展现出来啊，你这简历排版我用PPT做的都能比你做的好。然后自我评价，你如果要干数据工程师，抗压能力强最起码得有吧。

简历中的项目经历要怎么写

点赞评论收藏