了解一些特定于 Go 的语言功能如何帮助简化网页抓取工具的构建,以及有关网页抓取的常见陷阱和最佳实践。 网页抓取是使用执行抓取和爬网的各种工具从网络中提取信息的过程。Go 正在成为使用各种库进行抓取的首选语言。本书将快速向您解释如何使用 Go 库(如 Colly 和 Goquery)从各种网站抓取数据数据。 本书首先介绍了构建网页爬虫的用例和 Go 编程语言的主要功能,以及设置 Go 环境。然后,它转到 HTTP 请求和响应,并讨论 Go 如何处理它们。您还将了解一些基本的网页抓取礼仪。 您将学习如何浏览网站,使用广度优先,然后深度优先搜索,以及查找和跟踪链接。您将了解跟踪历史记录以避免循环并使用代理保护您的网络爬虫的方法。 最后,本书将介绍 Go 并发模型,以及如何并行运行抓取工具,以及大规模分布式 Web 抓取。 本书的主要特点
书籍简介
通过本书你将学到什么
这本书是为谁写的:具有 Golang 基本知识的数据科学家和希望收集 Web 数据并对其进行分析,以实现有效的报告和可视化的 Web 开发人员都可以从本书中收益。
0条评论