Python爬虫实战，argparse模块，Github用户粉丝数据爬虫（python argparse）-FinClip官网

Python爬虫实战，argparse模块，Github用户粉丝数据爬虫（python argparse）

网友投稿 1067 2022-09-08

Python爬虫实战，argparse模块，Github用户粉丝数据爬虫（python argparse）

前言

主要目标是爬取Github上指定用户的粉丝数据以及对爬取到的数据进行一波简单的可视化分析。

让我们愉快地开始吧~

开发工具

Python版本：3.6.4

相关模块：

bs4模块；

requests模块；

argparse模块；

pyecharts模块；

以及一些python自带的模块。

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

数据爬取

感觉好久没用beautifulsoup了，所以今天就用它来解析网页从而获得我们自己想要的数据呗。以我自己的账户为例：

我们先抓取所有关注者的用户名，它在类似如下图所示的标签中：

用beautifulsoup可以很方便地提取它们：

'''获得followers的用户名'''

def getfollowernames(self):

print('[INFO]: 正在获取%s的所有followers用户名...' % self.target_username)

page = 0

follower_names = []

headers = self.headers.copy()

while True:

page += 1

followers_url = f'https://github.com/{self.target_username}?page={page}&tab=followers'

try:

response = requests.get(followers_url, headers=headers, timeout=15)

html = response.text

if 've reached the end' in html:

break

soup = BeautifulSoup(html, 'lxml')

for name in soup.find_all('span', class_='link-gray pl-1'):

print(name)

follower_names.append(name.text)

for name in soup.find_all('span', class_='link-gray'):

print(name)

if name.text not in follower_names:

follower_names.append(name.text)

except:

pass

time.sleep(random.random() + random.randrange(0, 2))

headers.update({'Referer': followers_url})

print('[INFO]: 成功获取%s的%s个followers用户名...' % (self.target_username, len(follower_names)))

return follower_names

接着，我们就可以根据这些用户名进入到他们的主页来抓取对应用户的详细数据了，每个主页链接的构造方式为：

https://github.com/ + 用户名

例如: https://github.com/CharlesPikachu

我们想要抓取的数据包括：

同样地，我们利用beautifulsoup来提取这些信息：

for idx, name in enumerate(follower_names):

print('[INFO]: 正在爬取用户%s的详细信息...' % name)

user_url = f'https://github.com/{name}'

try:

response = requests.get(user_url, headers=self.headers, timeout=15)

html = response.text

soup = BeautifulSoup(html, 'lxml')

# --获取用户名

username = soup.find_all('span', class_='p-name vcard-fullname d-block overflow-hidden')

if username:

username = [name, username[0].text]

else:

username = [name, '']

# --所在地

position = soup.find_all('span', class_='p-label')

if position:

position = position[0].text

else:

position = ''

# --仓库数, stars数, followers, following

overview = soup.find_all('span', class_='Counter')

num_repos = self.str2int(overview[0].text)

num_stars = self.str2int(overview[2].text)

num_followers = self.str2int(overview[3].text)

num_followings = self.str2int(overview[4].text)

# --贡献数(最近一年)

num_contributions = soup.find_all('h2', class_='f4 text-normal mb-2')

num_contributions = self.str2int(num_contributions[0].text.replace('\n', '').replace(' ', ''). \

replace('contributioninthelastyear', '').replace('contributionsinthelastyear', ''))

# --保存数据

info = [username, position, num_repos, num_stars, num_followers, num_followings, num_contributions]

print(info)

follower_infos[str(idx)] = info

except:

pass

time.sleep(random.random() + random.randrange(0, 2))

数据可视化

这里以我们自己的粉丝数据为例，大概1200条吧。

先来看看他们在过去一年里提交的代码次数分布吧：

再来看看每个人拥有的仓库数量分布呗：

本以为会是条单调的曲线，看来低估各位了。

接着来看看star别人的数量分布呗：

再来看看这1000多个人拥有的粉丝数量分布呗：

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

1067 2022-09-08

Python爬虫实战，argparse模块，Github用户粉丝数据爬虫（python argparse）

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

洞察金融行业需要转型，如何利用鸿蒙app开发提升运营效率

洞察在数字化转型过程中，信创推动企业有效整合资源，实现低成本、高效率的跨平台小程序运营。

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计