寒爵 - 博客园

2018年10月11日

摘要：介绍在爬虫过程中，难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用 OCR 来识别。 tesserocr 是 Python 的一个 OCR 识别库，但其实是对 tesseract 做的一层 Python API 封装，所以它的核心是 tesseract。因此，在阅读全文

posted @ 2018-10-11 15:55 寒爵阅读(26584) 评论(2) 推荐(2)

2018年10月8日

Python 打印进度条

摘要： import time def progress(percent, width=50): ''' 进度打印功能 :param percent: 进度 :param width: 进度条长度 ''' if percent >= 100: percent = 100 show_str = ('[%%-%ds]' % wid... 阅读全文

posted @ 2018-10-08 15:59 寒爵阅读(2436) 评论(0) 推荐(0)

Python IO关于mode参数的问题

摘要：关于open()的mode参数：阅读全文

posted @ 2018-10-08 14:28 寒爵阅读(1325) 评论(0) 推荐(0)

2018年9月30日

Python urllib模块详解

摘要：在Python 2中，有urllib和urllib2两个库来实现请求的发送。而在Python 3中，已经不存在urllib2这个库了，统一为urllib，其官方文档链接为：https://docs.python.org/3/library/urllib.html。 urllib库，是Python内置阅读全文

posted @ 2018-09-30 13:59 寒爵阅读(1944) 评论(0) 推荐(1)

2018年9月29日

Python爬虫教程

摘要： Python爬虫(1):基本原理 Python爬虫(2):Requests的基本用法 Python爬虫(3):Requests的高级用法 Python爬虫(4):Beautiful Soup的常用方法 Python爬虫(5):豆瓣读书练手爬虫 Python爬虫(6):煎蛋网全站妹子图爬虫 Pytho 阅读全文

posted @ 2018-09-29 10:45 寒爵阅读(461) 评论(0) 推荐(0)

chromedriver版本支持的Chrome版本

摘要：下载chromedriver，链接：http://chromedriver.storage.googleapis.com/index.html 阅读全文

posted @ 2018-09-29 09:00 寒爵阅读(382) 评论(0) 推荐(0)

2018年9月28日

Python 爬取网页中JavaScript动态添加的内容（二）

摘要：使用 selenium + phantomjs 实现 1、准备环境 selenium（一个用于web应用程测试的工具）安装：pip install seleniumphantomjs（是一种无界面的浏览器，用于完成网页的渲染）下载：http://phantomjs.org/download.html 阅读全文

posted @ 2018-09-28 15:22 寒爵阅读(937) 评论(0) 推荐(0)

Python 爬取网页中JavaScript动态添加的内容（一）

摘要：当我们进行网页爬虫时，我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码，我们必须经过渲染处理才能获得原始数据。此时，如果我们仍采用常规方法从中抓取数据，那么我们将一无所获。那么，通过Web kit可以简单解决这个问题。Web kit 可以阅读全文

posted @ 2018-09-28 11:32 寒爵阅读(5339) 评论(0) 推荐(0)

Windows+Python 3.6环境下安装PyQt4

摘要：第一步：下载.whl，地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyqt4，这里可以下载不同的python版本对应的包。第二步：选择一个目录，将下载好的文件放到该目录下，然后cmd下，cd进入该目录，执行命令：pip install PyQt4- 阅读全文

posted @ 2018-09-28 10:33 寒爵阅读(4250) 评论(0) 推荐(0)

2018年9月26日

Python 爬虫-豆瓣读书

摘要： import requests from bs4 import BeautifulSoup def parse_html(num): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0... 阅读全文

posted @ 2018-09-26 16:40 寒爵阅读(913) 评论(0) 推荐(0)

寒爵

获得人生中的成功需要的专注与坚持不懈多过天才与机会

公告