在本教程中,我们将向你展示如何使用Beautiful Soup 4在Python中进行网络刮削,以便从HTML、XML和其他标记语言中获取数据。在本教程中,我们将尝试从各种不同的网站(包括IMDB)上抓取网页。我们将介绍Beautiful Soup 4,这是Python的基本工具,用于有效和清晰地导航、搜索和解析HTML网页。我们试图在本教程中涵盖Beautiful Soup 4的几乎所有功能。你可以将本教程中介绍的多个功能结合到一个更大的程序中,从网站中抓取多个有意义的数据,作为输入到其他一些子程序中。
受众
本教程基本上是为了指导你对一个网页进行伤痕处理。所有这些的基本要求是要从巨大的无组织的数据集中获得有意义的数据。本教程的目标受众可以是以下任何人。
- 任何想知道–如何使用BeautifulSoup 4在python中抓取网页的人。
- 任何数据科学的开发者/爱好者或任何人,如何使用这些刮出的(有意义的)数据到不同的python数据科学库,以做出更好的决定。
先决条件
虽然本教程没有强制性要求。但是,如果你有任何或所有(超级酷)关于以下提到的技术的知识,这将是一个额外的优势。
- 任何网络相关技术的知识(HTML/CSS/文档对象模型等)。
- Python语言(因为是python包)。
- 拥有任何语言的刮削知识的开发者。
- 对HTML树状结构的基本理解。