“大数据时代” 数据获取的方式

企业生产的用户数据：大型互联网公司有海量用户
互联网数据指数
百度指数：http://index.baidu.com/
阿里指数：http://index.1688.com/
腾讯指数：http://tbi.tencent.com/
微博指数：http://data.weibo.com/index
数据管理咨询公司
艾瑞咨询：http://www.mckinsey.com.cn/
麦肯锡咨询： http://www.mckinsey.com.cn/
埃森哲咨询：https://www.accenture.com/cn-zh/
政府/机构提供的公开数据：政府通过各地政府统计上报的数据进行合并；机构都是权威的第三方网站。
中华人民共和国国家统计局数据：http://data.stats.gov.cn/
世界银行公开数据： https://data.worldbank.org.cn/
纳斯达克股票市场： http://www.nasdaq.com/zh
联合国数据： http://data.un.org/
第三方数据平台购买数据
数据堂：http://www.datatang.com/
贵阳大数据交易所：http://www.gbdex.com/website/
iData：http://www.idataapi.cn/
数据智汇：http://www.shujuzhihui.cn/apis
爬虫爬取数据：从互联网上定向采集数据。

爬虫

网络协议
HTTP ：超文本标记语言
HTTP协议（Protocol）是一种发布和接收 HTML页面的方法。
HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTTP下加入SSL层。
SSL 安全套接（Socket）层
HTTP 端口号： 80
HTTPS　端口号：　443
FTP SFTP ： 21 22
Mysql 3306
Fiddler 8888

https://kuaibao.jd.com/article?id=223862561

http://api.vcaomao.com/#indexW

扫描二维码关注公众号，回复： 8597011 查看本文章

https://capital.iresearch.com.cn/index.html

http 报文结构
- 请求方法：
  - GET方法
  - POST方法
Connection：表示客户端与服务连接类型 keep-alive在很多情况下能够重用连接，减少资源消耗，缩短响应时间，比如当浏览器需要多个文件时(比如一个HTML文件和相关的图形文件)，不需要每次都去请求建立连接。
Upgrade-Insecure-Requests：升级为HTTPS请求
Upgrade-Insecure-Requests：升级不安全的请求，意思是会在加载 http 资源时自动替换成 https 请求，让浏览器不再显示https页面中的http请求警报。
用户代理（客户端浏览器的名称）： ******
- User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36
Accept ：传输文件类型
Referer ：页面跳转处表明产生请求的网页来自于哪个URL，用户是从该 Referer页面访问到当前请求的页面。这个属性可以用来跟踪Web请求来自哪个页面，是从什么网站来的等。
Accept-Encoding（文件编解码格式）
Accept-Language（语言种类）
Accept-Charset（字符编码）
Cookie：浏览器用这个属性向服务器发送Cookie。Cookie是在浏览器中寄存的小型数据体，
Content-Type ： POST请求里用来表示的内容类型。

发布了70 篇原创文章 · 获赞 14 · 访问量 2647

私信关注