如何利用CSS选择器抓取京东网商品信息-FinClip官网

如何利用CSS选择器抓取京东网商品信息

网友投稿 887 2022-09-16

如何利用CSS选择器抓取京东网商品信息

前几天小编分别利用Python正则表达式、BeautifulSoup、Xpath分别爬取了京东网商品信息，今天小编利用CSS选择器来为大家展示一下如何实现京东商品信息的精准匹配~~

CSS选择器

目前，除了官方文档之外，市面上及网络详细介绍BeautifulSoup使用的技术书籍和博客软文并不多，而在这仅有的资料中介绍CSS选择器的少之又少。在网络爬虫的页面解析中，CCS选择器实际上是一把效率甚高的利器。虽然资料不多，但官方文档却十分详细，然而美中不足的是需要一定的基础才能看懂，而且没有小而精的演示实例。

京东商品图

首先进入京东网，输入自己想要查询的商品，向服务器发送网页请求。在这里小编仍以关键词“-”作为搜索对象，之后得到后面这一串网址：

https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8，其中参数的意思就是我们输入的keyword，在本例中该参数代表“-”，具体详情可以参考Python大神用正则表达式教你搞定京东商品信息。所以，只要输入keyword这个参数之后，将其进行编码，就可以获取到目标URL。之后请求网页，得到响应，尔后利用CSS选择器进行下一步的数据采集。

商品信息在京东官网上的部分网页源码如下图所示：

部分网页源码

仔细观察源码，可以发现我们所需的目标信息在红色框框的下面，那么接下来我们就要一层一层的去获取想要的信息。

在Python的urllib库中提供了quote方法，可以实现对URL的字符串进行编码，从而可以进入到对应的网页中去。

CSS选择器在线复制

很多小伙伴都觉得CSS表达式很难写，其实掌握了基本的用法也就不难了。在线复制CSS表达式如上图所示，可以很方便的复制CSS表达式。但是通过该方法得到的CSS表达式放在程序中一般不能用，而且长的没法看。所以CSS表达式一般还是要自己亲自上手。

直接上代码，利用CSS去提取目标信息，如商品的名字、链接、图片和价格，具体的代码如下图所示：

代码实现

如果你想快速的实现功能更强大的网络爬虫，那么BeautifulSoupCSS选择器将是你必备的利器之一。BeautifulSoup整合了CSS选择器的语法和自身方便使用API。在网络爬虫的开发过程中，对于熟悉CSS选择器语法的人，使用CSS选择器是个非常方便的方法。

最后得到的效果图如下所示：

最终效果图

新鲜的-再一次出炉咯~~~

CSS选择器

关于CSS选择器的简单介绍：

BeautifulSoup支持大部分的CSS选择器。其语法为：向tag对象或BeautifulSoup对象的.select()方法中传入字符串参数，选择的结果以列表形式返回，即返回类型为list。

tag.select("string")

BeautifulSoup.select("string")

注意：在取得含有特定CSS属性的元素时，标签名不加任何修饰，如class类名前加点，id名前加 /#。

想学习更多Python网络爬虫与数据挖掘知识，可前往专业网站：http://pdcfighting.com/

微前端架构如何改变企业的开发模式与效率提升

887 2022-09-16

如何利用CSS选择器抓取京东网商品信息

微前端架构如何改变企业的开发模式与效率提升

轻量级前端框架助力开发者提升项目效率与性能

前端开源框架如何提升开发效率与用户体验的关键因素

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计