微博 GIF 爬虫程序

网友投稿 1175 2022-10-13

微博 GIF 爬虫程序

微博 GIF 爬虫程序

微博 GIF 爬虫程序

爬虫功能

此项目主要用于从新浪微博网页中爬取目标用户带有 gif 的微博。

爬取内容:

新建一个名为 SinaWeibo 的数据库。

Part1: 通过用户关键字搜索获取的内容,数据储存在表 WeiboGIF 中。

ContentUrl: 带有 gif 的新浪微博 URL 地址PostTime: 微博的发送时间ContentId: 微博的唯一标识符RepostNum: 微博的转发数CommentNum: 微博的评论数Content: 微博的文本内容GIFUrl: gif 图片的 URL 地址LikeNum: 点赞数Comment: 微博评论内容

Part2: 通过微博关键字搜索获取的内容,数据储存在表 WeiboKeyword 中。

Keyword: 微博关键字ContentUrl: 带有 gif 的新浪微博 URL 地址PostTime: 微博的发送时间ContentId: 微博的唯一标识符RepostNum: 微博的转发数CommentNum: 微博的评论数Content: 微博的文本内容GIFUrl: gif 图片的 URL 地址LikeNum: 点赞数Comment: 微博评论内容

环境、架构

开发语言: python2.7开发环境: OS X EI Capitan数据库: MongoDB 3.2.1爬虫框架: Scrapy

部署环境

安装 mongodb安装 Scrapy 软件库python 模块: pymongo, requests, base64, urllib, re, time, datetime, json登陆微博的账号和密码置于 cookies.py 中用户搜索关键字置于 startuser.py 中微博搜索关键字置于 startkeyword.py 中

执行程序

总共有三个需求,分别对应三个Python文件:

首先启动 MongoDB,然后切换到这三个文件所在的路径中,再根据需求执行相应的文件:

爬取用户所有微博: RunTotalFiles.py爬取用户每天新更新的微博: RunDailyTask.py爬取包含关键词的微博: RunKeyword.py

@author: fansan@email: fansan@live.com

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【数学基础】一份非常适合人工智能学习的概率论基础材料中文版 (CS229概率论)...
下一篇:RabbitMQ: 消息持久化
相关文章

 发表评论

暂时没有评论,来抢沙发吧~