使用pandas读取数据并统计论文数据(2)2021-01-17

datawhale数据分析task1(2)使用pandas读取数据并统计论文数据

github

1、python datetime处理时间

CSDN博客详细介绍

1.1获取指定的时间和日期。

datetime(%Y,%m,%d,%H,%M,%S)

datetime共有6个参数,分别代表的是年月日时分秒。其中年月日是必须要传入的参数,时分秒可以不传入,默认全为零。
datatime(2017,9,24)
Out:datatime.datatime(2017,9,24,0,0)

1.2将Str和Unicode转化为datetime。

datetime(str,format)

很多情况下,原始数据中的时间和日期并不是时间类型的,如excel中可能是Unicode,csv中可能是Str。因此我们在进行时间切片之前首先要将非时间类型的时间数据转换为时间类型。

2、爬虫需要的HTML基础

html详细描述
最基本的标签说明


标签基本格式:<标签名 属性名1="属性值" 属性名2="属性值" ...>文档内容</标签名>
<! DOCTYPE html>: 用于代码开头指定html版本等信息;
<html></html>: 告知浏览器这是一个HTML文档,是HTML文档中最外层的元素;
<head></head>: 所有头部元素的容器,必须包含文档的标题(title),可以包含脚本、样式、meta信息以及其他;
<title></title>: 定义文档的标题,定义浏览器工具栏中的标题,显示在搜索引擎结果中的页面标题;
<body></body>: 定义文档的主体,包含文档的所有内容(比如文本、超链接、图像、表格和列表等);

<h1></h1>: 定义HTML标题,从<h1><h6>标题的重要程度逐渐降低;

<p></p>: 定义段落,浏览器会自动在其前后创建一些空白;
<br>: 一个简单的换行符,是一个空标签,意味着它没有结束标签;
<div></div>:定义HTML文档中的一个分隔区块或者一个区域部分,经常与CSS一起使用,用来布局网页。

**链接中一些常用的标签**
<a>标签实现基本的超链接
<a href="http://www.pkbigdata.com">访问DC官网</a>
其中<a></a>为标签,href=http://www.pkbigdata表示链接指向的地址,访问DC官网表示超链接的文本

指向同一服务器同一目录下的form.html
<a href="form.html">Fill Our Form</a>

指向同一服务器父目录下的parent.html
<a href="../parent.html">Parent</a>

指向同一服务器子目录下的stuff下的cat.html
<a href="stuff/cat.html">Catalog</a>

指向外部网站 (会在新的标签页打开)
<a href="http://pkbigdata.com" target="_blank">BASD</a>

链接中一些常用的标签

<a>标签实现基本的超链接
<a href="http://www.pkbigdata.com">访问DC官网</a>
其中<a></a>为标签,href=http://www.pkbigdata表示链接指向的地址,访问DC官网表示超链接的文本

指向同一服务器同一目录下的form.html
<a href="form.html">Fill Our Form</a>

指向同一服务器父目录下的parent.html
<a href="../parent.html">Parent</a>

指向同一服务器子目录下的stuff下的cat.html
<a href="stuff/cat.html">Catalog</a>

指向外部网站 (会在新的标签页打开)
<a href="http://pkbigdata.com" target="_blank">BASD</a>

3、正则表达式

python3正则表达式
正则表达式在线测试平台

猜你喜欢

转载自blog.csdn.net/qq_43720646/article/details/112714503