Python爬虫入门总结

网络爬虫,又称网页蜘蛛和网络机器人,是一种按照一定规则,自动地抓取万维网上的信息的程序或脚本。所谓爬取数据,就是通过编写程序,模拟浏览器上网,然后让其去浏览器上抓取数据的过程。爬虫在使用场景中的分类:通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据。 聚焦爬虫:建立在通用爬虫基础之上。抓取的是页面中特定的局部内容。 增量式爬虫:检测网站中数据更新的情况。只会抓取网站中...
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

软件测试工作基本流程

为最近的面试做准备,也为未来的工作夯实基础,将近期所习所得进行整理,有不当的地方恳请指正。软件测试工作基本流程:需求分析阶段-->测试计划阶段-->编写测试用例-->测试实施阶段-->输出测试报告1、需求分析阶段 软件测试工作的进行一定建立在需求的基础上,应该以需求为根本,所以一开始要仔细阅读需求,理解需求,对需求进行分析,并参与需求...
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

Coursera - Dan Boneh - Cryptography 1 - Week 1 - PRG Security Definitions 学习笔记【4】

本篇文章要介绍的内容包括:伪随机数生成器(PRG,还没介绍)、Statistical tests(统计检验)、Advantage、Secure PRGs(安全伪随机生成器)、computationally indistinguishable(计算不可区分性)。明天再补。cStatistical Tests(统计检验)定义:统计检验(Statistical test)是一个算法A(x),x∈{...
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

Privacy Definitions - (alpha, beta)-privacy

如果对一个事件AAA越确定,该事件的概率P(A)P(A)P(A)就越大;对一个事件BBB越不确定,则该事件的概率P(B)P(B)P(B)就越小。通过事件AAA,可以增大事件BBB的确定性,也可能造成干扰降低对事件BBB的确定性。在隐私中,为了可能地保护隐私,应尽可能让攻击者在发布统计数据后对某个事件的确定性,和发布前对该事件的确定性相差不大。发布统计数据后对某个事件的确定性称为后验知识,发布前对该事件的确定性称为先验知识。如发布前事件A的概率为P(A)=0.3P(A)=0.3P(A)=0.3,发布统计数据
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

Python实现杨辉三角算法

在Python中,杨辉三角总是拿出来当算法题考,那什么是杨辉三角呢?查看定义先来观察下面的杨辉三角图例:通过观察会发现,杨辉三角的每行的第一个与最后一个数都是1,且从第3行开始非1数字是它左上方和右上方的数的和 !那么知道了规律就可以开始写代码了def triangles(row): count = 0 while count < row: arr = [] for i in range(count+1):
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

python 连接 mysql 数据库并读取数据

python 连接 mysql 数据库并读取数据1、安装pymysql包pip install pymysql注:MySQLdb只支持python2,pymysql支持python32、连接数据import pymysql import pandas as pdfrom pandas import DataFrame as dfconn = pymysql.Connect( host = 'IP地址', port = 端口号, user = '用户名',
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

从无到有,电脑小白学python

从无到有,电脑小白学pythonday01 语言基础和变量第一天第一课从Hello world 学起1)hello word‘print(‘hello world’)2)python的基础语法2.1 常用的关键字 ['False', 'None', 'True', 'and', 'as', 'assert', 'async', 'await', 'break', 'class', 'continue', 'def', 'del', 'elif', 'e
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

商业数据分析从入门到入职(6)Python程序结构和函数

if条件判断语句用于在满足某个条件时执行某个动作,需要通过缩进控制代码结构,条件判断还可以进行嵌套;循环语句执行重复操作,包括while循环和for循环,while循环循环一般要有停止的条件,否则可能会陷入死循环,还可与else语句结合使用,for循环经常与range结合使用,break语句可以终止循环;文本信息提取可以通过切片实现。函数可以替换代码、优化代码结构,可以根据是否传参和是否带返回值分为不同类型,参数分为位置参数和关键字参数,变量分为全局变量和局部变量。
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

一篇文章带你使用 Python搞定对 Excel 表的读写和处理(xlsx文件的处理)

前面已经写过 一篇 Python 对 excel 文件的处理,需要的可以参考学习,本篇文章主要是记录我实际操作时的一些问题。文章目录一、我的需求二、代码三、总结一、我的需求我想要excel 的最后1列由列表形式转换为数值类型可以看到最后一列有的是列表,有的直接是数值,想要整个列表中的内容都转为数值类型二、代码import openpyxldef write_excel_xlsx(): # 写入数据准备 workbook = openpyxl.Workbook() s
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

从0实现python批量爬取p站插画

一、本文编写缘由 很久没有写过爬虫,已经忘得差不多了。以爬取p站图片为着手点,进行爬虫复习与实践。二、获取网页源码 爬取网页数据的过程主要用到request库,一个简单的网页爬虫实现过程大致可以分为一下步骤:指定爬取url 发起爬取请求 存储爬取数据 下面以爬取pixiv网站为例,获取pixiv网站首页源码并存储到pixiv1.html文件中。import requestsif __name__ == "__main__": ...
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

Python给照片添加水印时间和地点 Mac OS

我们平时想打印图片的时候,希望能给照片加上时间、地点,以便以后看到照片的时候不会忘记。手工一张张添加太麻烦,而且容易出错。以下是使用代码获取原始图片的拍摄时间和地点,并添加水印的方法,在Mac OS下对jpeg、jpg文件处理已经测试通过了。效果首先我们看下效果,第一张是原图,第二张是添加水印时间和地点后的图:处理步骤以及代码讲解1、获得照片的拍摄时间这里我们需要用到exifread模块以获取照片的拍照时间。1def getPhotoTime(filename): '''得到照片的拍
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

爬虫开始路线

爬虫之路爬虫的一周学习计划:下图是爬虫的准备标题爬虫爬取快代理案例:网站的url=“https://www.kuaidaili.com/free/”这次爬取我们采用的是requests第三方库Requests 是一个 Python 的 HTTP 客户端库,我们可以用它得到HTML源码import requestsurl="https://www.kuaidaili.com/free/"headers={ "User-Agent": "Mozilla/5.0 (Windows NT
分类: 其他 发布时间: 09-24 14:05 阅读次数: 0

Idea 中如何导入项目

1,首先2,第二步,在Idea中找到pom.xml文件3.第三步 找到 Add as Maven Project 点击4,第四步,最终效果
分类: 其他 发布时间: 09-24 13:45 阅读次数: 0

VUE+PHP校友系统毕业设计

环境笔者的毕业设计是高校校友信息管理系统,使用vue全家桶+php编写接口,vue-cli版本2.9,element版本2.4,php7.x,集成环境我选择的是phpstudy_pro,代码托管在github上,地址:https://github.com/luokaixing/school.git(项目具体如何部署,数据库文件如何导入,环境搭建都在github上有说明,喜欢的记得start一下)。系统实现的功能有登陆注册,校友信息管理,校领导信息管理,校内新闻信息管理,班级信息管理,校园风光大图预览,列
分类: 其他 发布时间: 09-24 13:45 阅读次数: 0

jQuery写一个构造函数,用来调用ajax方法

构造函数封装AJAXjQuery写一个构造函数,用来调用ajax方法调用方法jQuery写一个构造函数,用来调用ajax方法/** type 请求的方式 默认为get* url 发送请求的地址* param 发送请求的参数* ifNeedSign 是否需要登录 默认为false* dataType 返回JSON数据 默认为JSON格式数据* callBack
分类: 其他 发布时间: 09-24 13:16 阅读次数: 0

接口跨域问题

接口跨域问题设置请求头参数header("Access-Control-Allow-Origin:*");header("Access-Control-Allow-Headers: Authorization, Content-Type, Depth, User-Agent, X-File-Size, X-Requested-With, X-Requested-By, If-Modified-Since, X-File-Name, X-File-Type, Cache-Control, Origin"
分类: 其他 发布时间: 09-24 13:16 阅读次数: 0

同步,异步执行的案例解析

同步,异步执行的案例解析JavaScript为单线程,先处理同步再储里任务队列的任务,任务队列又分为宏任务队列和微任务队列,优先级微任务队列高于宏任务队列console.log('1'); //第一位=》直接输出1setTimeout(() => {//定时器,异步函数,先存放宏任务队列 console.log('2');////第五位=》宏任务队列开始,输出2 process.nextTick(() => { console.log('3');///
分类: 其他 发布时间: 09-24 13:16 阅读次数: 0

node学习笔记---express

基本使用// 1. 引包var express = require('express')//获取服务器对象var app = express()//设置路由,访问127.0.0.1:3000//显示 node expressapp.get('/',function(req,res){ res.send('node express');})//设置路由,访问127.0.0.1:3000/first//显示 firstapp.get('/first', function (r
分类: 其他 发布时间: 09-24 13:16 阅读次数: 0

node学习笔记---连接mysql数据库

安装mysql依赖npm install mysql -S新建mysql.js文件封装方法处理sql语句并导出//引包let mysql = require('mysql')//数据库配置文件let sqlConfig = { host: 'localhost', port: 3306, database: 'test',//表名字 user: 'root', password: '123456'}let db = {}db.sqlFunc=functio
分类: 其他 发布时间: 09-24 13:16 阅读次数: 0

小程序封装wx.request请求方法

新建request.js文件module.exports = { //GET请求 get(url, datas, successcallback, errorcallback) { let mydatas = datas; wx.request({ url: url, data: mydatas, method: 'GET', // OPTIONS, GET, HEAD, POST, PUT, DELETE, TRACE, CONNECT
分类: 其他 发布时间: 09-24 13:16 阅读次数: 0