江上一小白

2022-03-28 21:01 已编辑掌控网络（外勤365）_SFA_软件工程师

关注

Java通过Jsoup解析Html

Java通过Jsoup解析Html

从HTML文件中解析需要的数据，通常使用正则匹配可以实现，也可以使用Jsoup实现

Jsoup官网：https://jsoup.org/

maven

maven项目在pom.xml中引入jsoup依赖包

        <dependency>
            <!-- jsoup HTML parser library @ https://jsoup.org/ -->
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.14.3</version>
        </dependency>

简单使用

jsoup不仅可以处理HTML页面文件或内容，同时也支持HTMl的字段，可以更加需要直接解析其中文本，也可以解析指定标签中的内容

从HTML中获取文本内容

所有的HTML标签都去除，文本内容通过空格拼接

    public static void testStr(){
   

        String html = "<ol class=\" list-paddingleft-2\" style=\"width: 758.094px; white-space: normal;\">" +
                "<li><p>第一段</p></li>" +
                "<li><p>第二段</p></li>" +
                "<li><p>第三段</p></li></ol>" +
                "<ul class=\" list-paddingleft-2\" style=\"width: 758.094px; white-space: normal;\">" +
                "<li><p>111</p></li>" +
                "<li><p>222</p></li>" +
                "<li><p>333</p></li>" +
                "<li><p>444<br/></p></li>" +
                "</ul><p><br/></p>";
        Document document = Jsoup.parse(html);
        String resultView = document.text();
        System.out.println("resultView：" + resultView);
    }

解析出文本内容

    resultView：第一段 第二段 第三段 111 222 333 444

从HTML中获取指定标签内容

    public static void testFile(){
   
        File file = new File("D:\\MyProject\\fileStorage\\response.html");
        try {
   
            Document document = Jsoup.parse(file, "utf-8");
            /* 解析内容 <td width="670"> <table class="resultView" width="95%" height="60" align="center" cellspacing="0"> <tbody class="resultTBody"> <tr align="center"> <td width="20%"> 抱歉！没有查询到相关记录。 </td> </tr> </tbody> </table> </td> */

            // 获取 class="resultView" 标签中内容
            String resultView = document.select("table[class=resultView]").html();
            System.out.println("resultView：" + resultView);

            String text = document.select("table[class=resultView]").text();
            System.out.println("text：" + text);

        } catch (IOException e) {
   
            System.out.println(e);
        }
    }

解析出文本内容

resultView：<tbody class="resultTBody"> 
 <tr align="center"> 
  <td width="20%"> 抱歉！没有查询到相关记录。 </td> 
 </tr> 
</tbody>

text：抱歉！没有查询到相关记录。

全部评论

推荐最新楼层

06-27 16:36

Java

上来直接让线下面试

这家公司是不是坑。问我拿简历直接就约我线下面试。感觉是

点赞评论收藏

分享

06-25 19:03

海康威视_技术支持部_云存储开发工程师(准入职员工)

海康威视内推

真实工作体验！【工作时间】 海康实行弹性工作制，一般九点半之前到公司就可以。对于实习生来说，一般只要打够八个半小时的卡就好了。这点还是不错的，早点上班就可以早点下班。正式工可能需要大小周，具体看部门要求。实习生应该都是双休的，不过周末去的话也会给你发工资。中午休息一个半小时，大部分员工都会自己买午休床。 【公司环境】 实习报到的时候会给你分配一台电脑，一般都是无盘机，配置很普通，不允许自己带电脑。海康对网络管控比较严格，很多网站不能访问。想要访问外网的话只能通过虚拟机，然后通过公司内部的文件传输工具传到红网，这点还是比较麻烦的。 海康食堂还行，样式挺丰富的，价格也不贵。早餐我一般在5-10r，...

海康威视公司福利 456人发布

点赞评论收藏

分享

05-06 02:27

武汉工程大学营销

迷茫，求助

双肺一本，连个大厂 初筛都进不去    

真烦好烦真烦：换个照片呢，简历的照片看着好暗

那些拿到大厂offer的...

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-01 11:00

怎样才叫幸福

楼主是一个20级的医学生。昨晚很快又很顺利地结束了一位的复杂手术，取了一个一厘米的不锈钢碎片出来，情况虽然糟糕，但却比我想的好一点，可能眼球能维持的时间比我预想的要长。 下来给家属交代，说虽然伤得重，但手术当中发现或许希望比我想的大一点。 病人老婆差点哭出来，辗转了几个大医院，都说直接摘吧，尝试都不愿意尝试，只有我愿意努力一下。 我又领悟了一点，原来努力的治疗本身就是安慰。 回到病房打开手机，妈妈发来视频，说绵布（猫）在家很熟悉了，和斑布喜布互追尾巴，相处融洽又互相爱护。 我笑着看完视频，好开心地夸了它们乖，也给妈妈分享了成功的喜悦，我让一个家庭有了盼头。突然很莫名地，想起史铁生说，他小...

刘湘_passion：respect

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你觉得现在还能进互联网吗？ #

2486次浏览 72人参与

# 如何准备秋招 #

5418次浏览 83人参与

# 现代汽车前瞻技术研发急速编程挑战赛 #

19175次浏览 172人参与

# 实习，不懂就问 #

17507次浏览 240人参与

# 如果中了500万，你会离职吗？ #

86594次浏览 678人参与

# 你觉得实习能学到东西吗 #

7919次浏览 179人参与

# 哪个瞬间让你对大厂祛魅了？ #

379714次浏览 2777人参与

# 面试时被问的最奇葩的问题 #

21620次浏览 124人参与

# 秋招什么时候开投比较合适？ #

3345次浏览 61人参与

# 软开人，秋招你打算投哪些公司呢 #

99608次浏览 934人参与

# 来聊聊你认为的薪资天花板是哪家？ #

30374次浏览 174人参与

# 每个月的工资都是怎么分配的？ #

7732次浏览 138人参与

# 预测一下26届秋招形势 #

12718次浏览 134人参与

# 腾讯工作体验 #

473792次浏览 3490人参与

# 打工人的精神状态 #

52022次浏览 943人参与

# 职场情商大赛 #

131297次浏览 655人参与

# 高考出分的那一天，我__ #

10260次浏览 146人参与

# 非技术2024笔面经 #

384718次浏览 4732人参与

# 一觉醒来，秋招难度下降一万倍…… #

83572次浏览 642人参与

# 京东美团大战，你怎么看？ #

92628次浏览 569人参与

# 安利/避雷我的专业 #

75513次浏览 522人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务