基于JSoup的网络爬虫爬取小说内容-FinClip官网

基于JSoup的网络爬虫爬取小说内容

网友投稿 3443 2022-11-15

基于JSoup的网络爬虫爬取小说内容

网上的一些小说是可以直接看的，不需要登陆与购买，现在我们需要做的就是把这些小说的内容-到本地。

首先，准备工作：

-JSoup的jar包，并且创建一个新的工程。

接下来在浏览器上找到需要-的小说：

这是有正文的界面，然后复制链接，作为爬取的初始链接

代码如下：

/** * 获取链接的document对象 * @param url * @return public static Document getDoc(String url) { boolean flag = false; Document document = null; do{ try { document = Jsoup .connect(url) .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31") .timeout(5000) .get(); flag = false; } catch (IOException e) { // TODO 自动生成的 catch 块 e.printStackTrace(); flag = true; } }while(flag); return

在主函数中进行调用：

String url = " Document document = getDoc(url);

然后进行获取此链接的document对象，并使用toString方法输出：

在上面的图片中可以看到，title就是本章的题目。

然后找到本章的正文：

在id等于content的div中是正文，所以在获取到正文后，进行提取：

.title(); String text = document.select("#content").text(); System.out.println(title); System.out.println(text); //System.out.println(document.toString());

效果如下：

发现格式有问题，这个不用管，在最后存储到文件中会进行正确的转化，而且手机或者一些文本阅读软件有自动排版功能，所以格式不用考虑。接下来，我们需要找到下一章的链接：

发现是class为bottem2的div块：

首先我们得到这个div块：

主函数添加：

.select(".bottem2"); System.out.println(nextdiv.toString());

效果如下：

接下来我们需要获取下一章的地址：

发现下一章和右箭头之间的就是链接，不能先获取所有的a标签然后去第4个，容易出错。

首先，使用String的split方法截取下一章之前的内容：

主函数：

String nextdivstr = nextdiv.toString(); String[] nexturl = nextdivstr.split("下一章");

调试发现：

整个字符串在下一章被分为两段，我们只需要之前的那一段，所以只取第一个元素：

然后右箭头的unicode编码为2192：

0]; nexturl = nextdivstr.split("\u2192");

调试后发现：

在第二个元素是我们需要的：

next = nexturl[1]; System.out.println(next);

然后发现红框中的内容不需要，所以我们需要去掉：

next = next.substring(12,next.length() - 2);

效果如下：

接下来就是使用循环进行爬取了：

我们查看目录发现这个小说共有1739章：

所以我们把数量限定在1739章上：

public static void main(String[] args) { String url = " int i = 0; while (i < 1739) { Document document = getDoc(url); String title = document.title(); String text = document.select("#content").text(); Elements nextdiv = document.select(".bottem2"); String next = nextdiv.toString(); String[] nexturl = next.split("下一章"); next = nexturl[0]; nexturl = next.split("\u2192"); next = nexturl[1]; next = next.substring(12, next.length() - 2); i++; } }

这样就获取到了所有的章节，然后就是保存在本地了：首先在某个路径下创建一个txt文件：

File file = new File("E:\\寒门状元.txt");

然后创建一个文件写入对象：

null; try { fileWriter = new FileWriter(file); } catch (IOException e) { // TODO 自动生成的 catch 块

然后每获取到一章，就写入一章：

try { fileWriter.write(title); fileWriter.write(text); } catch (IOException e) { // TODO 自动生成的 catch 块 e.printStackTrace(); }

最后，每一次写入后刷新缓冲：

try { fileWriter.flush(); } catch (IOException e) { // TODO 自动生成的 catch 块 e.printStackTrace(); }

当所有的章节全部获取完成后，关闭文件写入对象：

try { fileWriter.close(); } catch (IOException e) { // TODO 自动生成的 catch 块 e.printStackTrace(); }

这样就算完成了，但是我们不知道进度，所以，添加输出提示：

System.out.println("第"+(i+1)+"完成，共1739章");

所有的到这里就完了：

测试一下：

发现因为爬取太快，所以出现503错误（我自己猜测），但是不影响程序的运行:

还能继续爬取，如果觉得错误信息烦人，就把获取链接的错误提示注释，就没有了。

总结一下，网络爬虫的难点主要有两个： 1.获得链接的内容。在这里容易出错的地方是获取链接容易出现403，404，502，503等一些错误。这种错误出现了，网上随便一搜，解决方法还是挺多的。 2.就是如何获得下一个链接。这是让自己的爬虫动起来的关键所在，有些页面可以利用JQuery的选择器表达式直接获取，比如attr方法获取到a标签的href这个属性，等等，但是容易出错。所以这个方法看起来很笨，但是是一个通用的方法。理解上比较容易，对于没有前端知识的人比较适用。把前端知识转化为从字符串中提取字符串的问题。

轻量级前端框架助力开发者提升项目效率与性能

3443 2022-11-15

基于JSoup的网络爬虫爬取小说内容

轻量级前端框架助力开发者提升项目效率与性能

大屏前端框架如何推动企业数据可视化与用户体验的革新

探索flutter框架开发的app在移动应用市场的潜力与挑战

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计