scrapy | 分类于 爬虫 Scrapy框架Scrapy是用Python实现的一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中 Scrapy使用Twisted基于事件的高效异步网络框架来处理网络通信,可以加快下载速度,不用自己去实现异步框架,并且包含了各种中 ... 阅读全文 »
http解析, json解析 | 分类于 爬虫 HTML解析HTML的内容返回给浏览器,浏览器就会解析它,并对它渲染 HTML 超文本表示语言设计的初衷就是为了超越普通文本,让文本表现力更强 XML 扩展标记语言,不是为了代替HTML,而是觉得HTML的设计中包含了过多的格式,承担了一部分数据之外的任务,所以才设计了XML只用来描述数据 HTML ... 阅读全文 »
动态网页处理 | 分类于 爬虫 动态网页处理 很多网站都采用A JAX技术、SPA技术,部分内容都是异步动态加载的。可以提高用户体验,减少不必要的流量,方便CDN加速等 但是,对于爬虫程序爬取到的HTML页面相当于页面模板了,动态内容不在其中 解决办法之一,如果能构造一个包含JS引擎的浏览器,让它加载网页并和网站交互,我们编 ... 阅读全文 »
WSGI | 分类于 web WSGI(Web Server Gateway Interface)主要规定了服务器端和应用程序间的接口 WSGI服务器——wsgiref wsgiref是Python提供的一个WSGI参考实现库,不适合生产环境使用 wsgiref.simple_server 模块实现一个简单的WSGI HT ... 阅读全文 »
RabbitMQ | 分类于 中间件 RabbitMQRabbitMQ 是由 LShift 提供的一个 Advanced Message Queuing Protocol (AMQP) 的开源实现,由以高性能、健壮以及可伸缩性出名的 Erlang 写成,因此也是继承了这些优点 很成熟,久经考验,应用广泛文档详细,客户端丰富,几乎常用语言 ... 阅读全文 »
vmware | 分类于 linux 1、firewalld的基本使用启动: systemctl start firewalld关闭: systemctl stop firewalld查看状态: systemctl status firewalld开机禁用 : systemctl disable firewalld开机启用 : sy ... 阅读全文 »
vmware | 分类于 linux 新手如何安装及配置虚拟机及远程管理软件 VMware Workstation Pro & Xshell 下载并安装VMware Workstation Pro及Xshell。 访问mirrors.163.com,下载镜像centos。登陆后找 ... 阅读全文 »
flask | 分类于 后端框架 , flask 下载示例代码, 安装到当前目录的flasky文件夹下. 1git clone https://github.com/miguelgrinberg/flasky.git 123456git checkout 1agit reset --hardgit fetch --allgit fetch --ta ... 阅读全文 »
ansible | 分类于 linux ansible简介安装ansibleyun install -y ansible todoansible 文档https://docs.ansible.com/ansible/latest/user_guide/intro_getting_started.html#foreword 阅读全文 »