博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 获取网页内容新增网页分类+删除指定后缀数组元素功能(基于python 3.6)...
阅读量:6965 次
发布时间:2019-06-27

本文共 804 字,大约阅读时间需要 2 分钟。

from urllib.parse import urljoin import urllib.request from bs4 import BeautifulSoup import time import os import re import errno def mkdir_p(path): # 递归创建多级目录 try: os.makedirs(path) except OSError as exc: # Python >2.5 (except OSError, exc: for Python <2.5) if exc.errno == errno.EEXIST and os.path.isdir(path): pass else: raise def get_link(page): # 寻找链接的href linkData = [] for page in page.find_all('td'): links = page.select("a") for each in links: # if str(each.get('href'))[:1] == '/': 过滤if代码 data = each.get('href') linkData.append(data) return (linkData) def gain(url): # 获取网页指定内容 try: page = urllib.request.urlopen(url).read() soup = BeautifulSoup(page, 'lxml') # 利用soup获取网页内容 links = get_link(soup) # 获取
if __name__ == '__main__':     main()
 
 

转载于:https://www.cnblogs.com/setname/p/8556977.html

你可能感兴趣的文章
人生中一定要坚守的格言
查看>>
在Windows Phone 7 中显示HTML代码(译)
查看>>
第八周作业
查看>>
WebDriver API 实例详解(一)
查看>>
白盒测试
查看>>
win7纯净环境下搭建深度学习环境:Python+TensorFlow+jupyter
查看>>
领域事件相关文章
查看>>
@pathVariable的作用
查看>>
python中math模块常用的方法整理
查看>>
单调队列及其应用
查看>>
Docker系列一:Docker的介绍和安装
查看>>
【2012 - 百度之星资格赛 - D:共同狂欢】
查看>>
【hdu - 1014】
查看>>
软件评测师笔记_软件质量管理基础20161022
查看>>
(转)pdf文件结构
查看>>
数据库迁移(分享十一续集)
查看>>
linux下杀死进程(kill)的N种方法 【转】
查看>>
Java面试题之最扯淡的String
查看>>
windows下php+apache+mysql环境搭建
查看>>
unity组成 ToLua
查看>>