Colly- 简单快速的 Web 爬虫框架

网友投稿 919 2022-10-23

Colly- 简单快速的 Web 爬虫框架

Colly- 简单快速的 Web 爬虫框架

Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly,你可以轻松从网站中提取结构化的数据,然后进行数据挖掘、处理或归档。

项目特性

清晰明了的 API 快速(单个内核上的请求数大于1k)管理每个域的请求延迟和最大并发数自动 cookie 和会话处理同步/异步/并行抓取高速缓存自动处理非 Unicode 编码支持 Robots.txt支持 Google App Engine 通关环境变量进行配置 可扩展

示例

func main() { c := colly.NewCollector() // Find and visit all links c.OnHTML("a[href]", func(e *colly.HTMLElement) { e.Request.Visit(e.Attr("href")) }) c.OnRequest(func(r *colly.Request) { fmt.Println("Visiting", r.URL) }) c.Visit("http://go-colly.org/")}

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:hdu 1496 Equations (hash)
下一篇:JdbcTemplate操作数据库的具体方法
相关文章

 发表评论

暂时没有评论,来抢沙发吧~