python 获取网页内容新增网页分类+删除指定后缀数组元素功能（基于python 3.6）...-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python 获取网页内容新增网页分类+删除指定后缀数组元素功能（基于python 3.6）...

阅读量：6965 次

发布时间：2019-06-27

本文共 804 字，大约阅读时间需要 2 分钟。

from urllib.parse import urljoin import urllib.request from bs4 import BeautifulSoup import time import os import re import errno def mkdir_p(path): # 递归创建多级目录 try: os.makedirs(path) except OSError as exc: # Python >2.5 (except OSError, exc: for Python <2.5) if exc.errno == errno.EEXIST and os.path.isdir(path): pass else: raise def get_link(page): # 寻找链接的href linkData = [] for page in page.find_all('td'): links = page.select("a") for each in links: # if str(each.get('href'))[:1] == '/': 过滤if代码 data = each.get('href') linkData.append(data) return (linkData) def gain(url): # 获取网页指定内容 try: page = urllib.request.urlopen(url).read() soup = BeautifulSoup(page, 'lxml') # 利用soup获取网页内容 links = get_link(soup) # 获取

if __name__ == '__main__':     main()

转载于:https://www.cnblogs.com/setname/p/8556977.html

你可能感兴趣的文章

人生中一定要坚守的格言

在Windows Phone 7 中显示HTML代码(译)

第八周作业

WebDriver API 实例详解（一）

win7纯净环境下搭建深度学习环境：Python+TensorFlow+jupyter

领域事件相关文章

@pathVariable的作用

python中math模块常用的方法整理

单调队列及其应用

Docker系列一：Docker的介绍和安装

【2012 - 百度之星资格赛 - D:共同狂欢】

【hdu - 1014】

软件评测师笔记_软件质量管理基础20161022

（转）pdf文件结构

数据库迁移（分享十一续集）

linux下杀死进程（kill）的N种方法【转】

Java面试题之最扯淡的String

windows下php+apache+mysql环境搭建

unity组成 ToLua

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-04 16:34:12 当前IP: 3.133.149.44 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我