使用BeautifulSoup进行网页元数据的提取和分析

2023-07-30 分析 网页 提取

代码演示如下,假设我们要从pidancode.com网站获取其标题、描述和所有图片的链接:

from urllib.request import urlopen
from bs4 import BeautifulSoup
# 打开网页并获取其HTML
url = "https://pidancode.com"
html = urlopen(url)
# 创建BeautifulSoup对象进行解析
soup = BeautifulSoup(html, "html.parser")
# 获取网页标题
title = soup.title.string
print("网页标题:", title)
# 获取网页描述
desc_tag = soup.find("meta", attrs={"name": "description"})
if desc_tag:
    desc = desc_tag["content"]
    print("网页描述:", desc)
# 获取所有图片链接
img_links = [img["src"] for img in soup.find_all("img")]
print("所有图片链接:", img_links)

运行结果如下:

网页标题: 皮蛋编程 - Python技术干货分享
网页描述: 本站主要分享Python、机器学习、算法、数据分析等技术方面的干货文章,让大家在学习和工作中更加得心应手。
所有图片链接: ['https://pidancode.com/wp-content/uploads/2019/04/logo_small.png', 'https://pidancode.com/wp-content/uploads/2019/04/pidance_banner_top.jpg', 'https://pidancode.com/wp-content/uploads/2019/06/2019061909471217.jpg', 'https://pidancode.c...]

相关文章