《Go 网页抓取快速入门指南:实现 Go 的强大功能,从 Web 抓取数据》

作者:

日期:2023-04-11

出版:

  • 130
  • 0
  • 0

作品总结

《Go 网页抓取快速入门指南:实现 Go 的强大功能,从 Web 抓取数据》

了解一些特定于 Go 的语言功能如何帮助简化网页抓取工具的构建,以及有关网页抓取的常见陷阱和最佳实践。

本书的主要特点

  • 使用 Goquery 和 Colly 等 Go 库来抓取网络
  • 有效抓取和爬网的常见陷阱和最佳实践
  • 了解如何使用 Go 并发模型进行抓取

书籍简介

网页抓取是使用执行抓取和爬网的各种工具从网络中提取信息的过程。Go 正在成为使用各种库进行抓取的首选语言。本书将快速向您解释如何使用 Go 库(如 Colly 和 Goquery)从各种网站抓取数据数据。

本书首先介绍了构建网页爬虫的用例和 Go 编程语言的主要功能,以及设置 Go 环境。然后,它转到 HTTP 请求和响应,并讨论 Go 如何处理它们。您还将了解一些基本的网页抓取礼仪。

您将学习如何浏览网站,使用广度优先,然后深度优先搜索,以及查找和跟踪链接。您将了解跟踪历史记录以避免循环并使用代理保护您的网络爬虫的方法。

最后,本书将介绍 Go 并发模型,以及如何并行运行抓取工具,以及大规模分布式 Web 抓取。

通过本书你将学到什么

  • 实施缓存控制以避免不必要的网络调用
  • 协调并发抓取器
  • 设计定制的大规模刮削系统
  • 使用 Colly 抓取基本 HTML 页面,使用 chromedp 抓取 JavaScript 页面
  • 了解如何使用“字符串”和“正则表达式”包进行搜索
  • 设置 Go 开发环境
  • 从 HTML 文档中检索信息
  • 保护您的网络爬虫免受使用代理阻止
  • 控制网络浏览器以抓取JavaScript网站

这本书是为谁写的:具有 Golang 基本知识的数据科学家和希望收集 Web 数据并对其进行分析,以实现有效的报告和可视化的 Web 开发人员都可以从本书中收益


0条评论