摘要: Flask 0.Flask简介 Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架,对于Werkzeug本质是Socket服务端,其用于接收http请求并对请求进行预处理,然后触发Flask框架,开发人员基于Flask框架提供的功能对请求进行相 阅读全文
posted @ 2022-03-14 20:44 刘清政 阅读(3189) 评论(0) 推荐(3)
摘要: SQLAlchemy 1.介绍 SQLAlchemy是一个基于Python实现的ORM框架。该框架建立在 DB API之上,使用关系对象映射进行数据库操作,简言之便是:将类和对象转换成SQL,然后使用数据API执行SQL并获取执行结果。 pip3 install sqlalchemy 组成部分: E 阅读全文
posted @ 2022-03-14 20:43 刘清政 阅读(1085) 评论(0) 推荐(2)
摘要: requests selenium Beautifulsoup4 Scrapy 分布式爬虫 红薯小说破解 破解知乎登陆 下载哔哩哔哩视频 阅读全文
posted @ 2022-03-14 20:40 刘清政 阅读(2190) 评论(0) 推荐(6)
摘要: 一 寻找任意一个视频地址 例如这个: 拿出窗口中的链接:https://www.bilibili.com/video/av76609390,修改源代码中的url即可完成下载 #由于哔哩哔哩视频音频是分开的,所以下来下来的视频是两个,一个音频,一个视频,要视频和音频合成,可看另一偏博客 二 分析页面 阅读全文
posted @ 2022-03-14 20:38 刘清政 阅读(1168) 评论(0) 推荐(1)
摘要: 一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文
posted @ 2022-03-14 20:36 刘清政 阅读(614) 评论(0) 推荐(1)
摘要: 一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis, 然后重写Scrapy的Scheduler,让新的Schedu 阅读全文
posted @ 2022-03-14 20:36 刘清政 阅读(386) 评论(0) 推荐(0)
摘要: ​ 一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beauti 阅读全文
posted @ 2022-03-14 20:35 刘清政 阅读(466) 评论(0) 推荐(1)
摘要: 一 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium 阅读全文
posted @ 2022-03-14 20:35 刘清政 阅读(1220) 评论(2) 推荐(0)
摘要: 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 #安装 阅读全文
posted @ 2022-03-14 20:34 刘清政 阅读(981) 评论(0) 推荐(5)
摘要: Elasticsearch之-Django/Flask集成 一 elasticsearch-dsl #安装: pip3 install elasticsearch-dsl #示例 from datetime import datetime from elasticsearch_dsl import 阅读全文
posted @ 2022-03-14 01:30 刘清政 阅读(241) 评论(0) 推荐(0)
摘要: Elasticsearch高级之-集群搭建,数据分片 es使用两种不同的方式来发现对方: 广播 单播 也可以同时使用两者,但默认的广播,单播需要已知节点列表来完成 一 广播方式 当es实例启动的时候,它发送了广播的ping请求到地址224.2.2.4:54328。而其他的es实例使用同样的集群名称响 阅读全文
posted @ 2022-03-14 01:30 刘清政 阅读(207) 评论(0) 推荐(0)
摘要: Elasticsearch之-Python使用 from elasticsearch import Elasticsearch obj = Elasticsearch() # 创建索引(Index) result = obj.indices.create(index='user', body={"u 阅读全文
posted @ 2022-03-14 01:29 刘清政 阅读(286) 评论(0) 推荐(0)
摘要: 7-Elasticsearch之高亮查询 一 前言 如果返回的结果集中很多符合条件的结果,那怎么能一眼就能看到我们想要的那个结果呢?比如下面网站所示的那样,我们搜索elasticsearch,在结果集中,将所有elasticsearch高亮显示? 如上图我们搜索百度一样。 我们该怎么做呢? 二 准备 阅读全文
posted @ 2022-03-14 01:28 刘清政 阅读(1407) 评论(0) 推荐(0)
摘要: 8-Elasticsearch之聚合函数 一 前言 聚合函数大家都不陌生,elasticsearch中也没玩出新花样,所以,这一章相对简单,只需要记得: avg max min sum 以及各自的用法即可。先来看求平均。 二 准备数据 PUT lqz/doc/1 { "name":"顾老二", "a 阅读全文
posted @ 2022-03-14 01:28 刘清政 阅读(274) 评论(0) 推荐(0)
摘要: 6-Elasticsearch之布尔查询 一 前言 布尔查询是最常用的组合查询,根据子查询的规则,只有当文档满足所有子查询条件时,elasticsearch引擎才将结果返回。布尔查询支持的子查询条件共4中: must(and) should(or) must_not(not) filter 下面我们 阅读全文
posted @ 2022-03-14 01:27 刘清政 阅读(227) 评论(0) 推荐(0)
摘要: 7-Elasticsearch之查询结果过滤 一 前言 在未来,一篇文档可能有很多的字段,每次查询都默认给我们返回全部,在数据量很大的时候,是的,比如我只想查姑娘的手机号,你一并给我个喜好啊、三围什么的算什么? 所以,我们对结果做一些过滤,清清白白的告诉elasticsearch 二 准备数据 PU 阅读全文
posted @ 2022-03-14 01:27 刘清政 阅读(250) 评论(0) 推荐(0)
摘要: 4 Elasticsearch之排序查询 一 准备数据 PUT lqz/doc/1 { "name":"顾老二", "age":30, "from": "gu", "desc": "皮肤黑、武器长、性格直", "tags": ["黑", "长", "直"] } PUT lqz/doc/2 { "na 阅读全文
posted @ 2022-03-14 01:26 刘清政 阅读(631) 评论(0) 推荐(1)
摘要: 5-Elasticsearch之分页查询 一 准备数据 PUT lqz/doc/1 { "name":"顾老二", "age":30, "from": "gu", "desc": "皮肤黑、武器长、性格直", "tags": ["黑", "长", "直"] } PUT lqz/doc/2 { "na 阅读全文
posted @ 2022-03-14 01:26 刘清政 阅读(620) 评论(0) 推荐(0)
摘要: Elasticsearch之查询的两种方式 一 前言 简单的没挑战,来点复杂的,elasticsearch提供两种查询方式: 查询字符串(query string),简单查询,就像是像传递URL参数一样去传递查询语句,被称为简单搜索或查询字符串(query string)搜索。 另外一种是通过DSL 阅读全文
posted @ 2022-03-14 01:25 刘清政 阅读(351) 评论(0) 推荐(0)
摘要: term与match查询 一 match查询 1.1 准备数据 PUT lqz/doc/1 { "name":"顾老二", "age":30, "from": "gu", "desc": "皮肤黑、武器长、性格直", "tags": ["黑", "长", "直"] } PUT lqz/doc/2 { 阅读全文
posted @ 2022-03-14 01:25 刘清政 阅读(164) 评论(0) 推荐(1)
摘要: Elasticsearch之-映射管理 在Elasticsearch 6.0.0或更高版本中创建的索引只包含一个mapping type。 在5.x中使用multiple mapping types创建的索引将继续像以前一样在Elasticsearch 6.x中运行。 Mapping types将在 阅读全文
posted @ 2022-03-14 01:24 刘清政 阅读(231) 评论(0) 推荐(0)
摘要: Elasticsearch的增删查改(CURD) 一 CURD之Create PUT lqz/doc/1 { "name":"顾老二", "age":30, "from": "gu", "desc": "皮肤黑、武器长、性格直", "tags": ["黑", "长", "直"] } 他明处貌似还有俩 阅读全文
posted @ 2022-03-14 01:24 刘清政 阅读(190) 评论(0) 推荐(1)
摘要: Elasticsearch之-倒排索引 一 倒排索引是什么 倒排索引源于实际应用中需要根据属性的值来查找记录,这种索引表中的每一个项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而成为倒排索引。带有倒排索引的文件我们称之为倒排索引文件,简称 阅读全文
posted @ 2022-03-14 01:23 刘清政 阅读(263) 评论(0) 推荐(0)
摘要: Elasticsearch之-索引操作 具体操作可以查看官方文档 https://www.elastic.co/guide/en/elasticsearch/reference/7.5/indices.html> 官方2版本的中文文档 https://www.elastic.co/guide/cn/ 阅读全文
posted @ 2022-03-14 01:23 刘清政 阅读(184) 评论(0) 推荐(0)
摘要: ##安装ElasticSearch插件 ##一 Head插件介绍 elasticsearch-head是elasticsearch的一款可视化工具,依赖于node.js ,所以需要先安装node.js 二 安装Node.js 详情见文章【安装nodejs】 三 安装Grunt #Grunt是基于No 阅读全文
posted @ 2022-03-14 01:22 刘清政 阅读(206) 评论(0) 推荐(1)
摘要: 一 Kibana介绍 Kibana 是一款开源的数据分析和可视化平台,它是 Elastic Stack 成员之一,设计用于和 Elasticsearch 协作。 您、可以使用 Kibana 对 Elasticsearch 索引中的数据进行搜索、查看、交互操作。 可以很方便的利用图表、表格及地图对数据 阅读全文
posted @ 2022-03-14 01:22 刘清政 阅读(150) 评论(0) 推荐(0)
摘要: 一 中文分词介绍 elasticsearch提供了几个内置的分词器:standard analyzer(标准分词器)、simple analyzer(简单分词器)、whitespace analyzer(空格分词器)、language analyzer(语言分词器) 而如果我们不指定分词器类型的话, 阅读全文
posted @ 2022-03-14 01:22 刘清政 阅读(204) 评论(0) 推荐(0)
摘要: 00-ElasticSearch之-介绍 01-ElasticSearch之-安装 02-ElasticSearch之-插件介绍 03-01-安装nodejs 03-ElasticSearch之-ElasticSearch-head 04-ElasticSearch之-安装Kibana 05-Ela 阅读全文
posted @ 2022-03-14 01:21 刘清政 阅读(1136) 评论(2) 推荐(1)
摘要: 安装nodejs 一 nodejs介绍 Node.js 就是运行在服务端的 JavaScript。 Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台。 Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎,V8引擎执行Java 阅读全文
posted @ 2022-03-14 01:20 刘清政 阅读(148) 评论(0) 推荐(0)