使用 Python 的 requests 和 Beautiful Soup 来分析网页

3AAA · 发表于 2022-6-29 20:21:55

学习这个 Python 教程，轻松提取网页的有关信息。

浏览网页可能占了你一天中的大部分时间。然而，你总是需要手动浏览，这很讨厌，不是吗？你必须打开浏览器，然后访问一个网站，单击按钮，移动鼠标……相当费时费力。如果能够通过代码与互联网交互，岂不是更好吗？

在 Python 的 requests模块的帮助下，你可以使用 Python 从互联网中获取数据：
import requestsDATA = "https://opensource.com/article/22/5/document-source-code-doxygen-linux"PAGE = requests.get(DATA)print(PAGE.text)
在以上代码示例中，你首先导入了 requests模块。接着，你创建了两个变量：其中一个叫做DATA，它用来保存你要下载的 URL。在之后的代码中，你将能够在每次运行应用程序时提供不同的 URL。不过，就目前而言，最简单的方法是“硬编码”一个测试 URL，以达到演示目的。

另一个变量是 PAGE。代码读取了存储在DATA中的 URL，然后把它作为参数传入requests.get函数，最后用变量PAGE来接收函数的返回值。requests模块及其.get函数的功能是：“读取”一个互联网地址（一个 URL）、访问互联网，并下载位于该地址的任何内容。

当然，其中涉及到很多步骤。幸运的是，你不必自己弄清楚，这也正是 Python 模块存在的原因。最后，你告诉 Python 打印 requests.get存储在PAGE变量的.text字段中的所有内容。

Beautiful Soup

如果你运行上面的示例代码，你会得到示例 URL 的所有内容，并且，它们会不加选择地输出到你的终端里。这是因为在代码中，你对 requests收集到的数据所做的唯一事情，就是打印它。然而，解析文本才是更加有趣的。

Python 可以通过其最基本的功能来“读取”文本，但解析文本允许你搜索模式、特定单词、HTML 标签等。你可以自己解析 requests返回的文本，不过，使用专门的模块会容易得多。针对 HTML 和 XML 文本，我们有Beautiful Soup库。

下面这段代码完成了同样的事情，只不过，它使用了 Beautiful Soup 来解析下载的文本。因为 Beautiful Soup 可以识别 HTML 元素，所以你可以使用它的一些内置功能，让输出对人眼更友好。

例如，在程序的末尾，你可以使用 Beautiful Soup 的 .prettify函数来处理文本（使其更美观），而不是直接打印原始文本：
from bs4 import BeautifulSoupimport requestsPAGE = requests.get("https://opensource.com/article/22/5/document-source-code-doxygen-linux")SOUP = BeautifulSoup(PAGE.text, 'html.parser')# Press the green button in the gutter to run the script.if __name__ == '__main__': # do a thing here print(SOUP.prettify)
通过以上代码，我们确保了每个打开的 HTML 标签都输出在单独的一行，并带有适当的缩进，以帮助说明标签的继承关系。实际上，Beautiful Soup 能够通过更多方式来理解 HTML 标签，而不仅仅是将它打印出来。

你可以选择打印某个特定标签，而不是打印整个页面。例如，尝试将打印的选择器从 print(SOUP.prettify)更改为：
print(SOUP.p)
这只会打印一个标签。具体来说，它只打印遇到的第一个标签。要打印所有的标签，你需要使用一个循环。

循环

使用 Beautiful Soup 的 find_all函数，你可以创建一个for循环，从而遍历SOUP变量中包含的整个网页。除了标签之外，你可能也会对其他标签感兴趣，因此最好将其构建为自定义函数，由 Python 中的def关键字（意思是 “定义”define）指定。
def loopit: for TAG in SOUP.find_all('p'):       print(TAG)
你可以随意更改临时变量 TAG的名字，例如ITEM或i或任何你喜欢的。每次循环运行时，TAG中都会包含find_all函数的搜索结果。在此代码中，它搜索的是标签。

函数不会自动执行，除非你显式地调用它。你可以在代码的末尾调用这个函数：
# Press the green button in the gutter to run the script.if __name__ == '__main__': # do a thing here loopit
运行代码以查看所有的标签和它们的内容。

只获取内容

你可以通过指定只需要 “字符串string”（它是 “单词words” 的编程术语）来排除打印标签。
def loopit: for TAG in SOUP.find_all('p'):       print(TAG.string)
当然，一旦你有了网页的文本，你就可以用标准的 Python 字符串库进一步解析它。例如，你可以使用 len和split函数获得单词个数：
def loopit: for TAG in SOUP.find_all('p'):       if TAG.string is not None:          print(len(TAG.string.split))
这将打印每个段落元素中的字符串个数，省略那些没有任何字符串的段落。要获得字符串总数，你需要用到变量和一些基本数学知识：
def loopit: NUM = 0 for TAG in SOUP.find_all('p'):       if TAG.string is not None:          NUM = NUM + len(TAG.string.split) print("Grand total is ", NUM)

Python 作业

你可以使用 Beautiful Soup 和 Python 提取更多信息。以下是有关如何改进你的应用程序的一些想法：

接受输入，这样你就可以在启动应用程序时，指定要下载和分析的 URL。统计页面上图片（

标签）的数量。统计另一个标签中的图片（

标签）的数量（例如，仅出现在 div 中的图片，或仅出现在标签之后的图片）。

via: https://opensource.com/article/22/6/analyze-web-pages-python-requests-beautiful-soup

作者：Seth Kenlon选题：lkxed译者：lkxed校对：wxy

本文由 LCTT原创编译，Linux中国荣誉推出

浅蓝銫de愛 · 发表于 2022-6-29 20:23:19

转发了

singleman007 · 发表于 2022-6-29 20:24:45

转发了

使用 Python 的 requests 和 Beautiful Soup 来分析网页

浏览过的版块

【散文邳州】给儿子起名的回忆（作者：冯

【苏鲁新诗界】重阳（作者：冰雨）

使用 Python 的 requests 和 Beautiful Soup 来分析网页

浏览过的版块

【散文邳州】给儿子起名的回忆 （作者：冯

【苏鲁新诗界】重阳（作者：冰雨）

【散文邳州】给儿子起名的回忆（作者：冯