面试题--基础

面试情况

热点考题

1.什么是反向代理?

# web 服务器中,部署的方式大致类似,主要就是使用Nginx 实现分流,转发,负载均衡,以及分担服务器的压力。Nginx部署简单,内存消耗少,成本低。Nginx既可以做正向代理,也可以做反向代理

#正向代理:请求经过代理服务器从局域网发出,然后到达互联网上的服务器
 特点:服务端不知道真正的客户端是谁
 作用:1.访问本来无法访问的服务器
      2.加速访问服务器
      3.cache作用(正向/反向都是用缓存技术):如果用户A访问服务器B上的某数据J之前,已经有人通过代理服务器得到数据J,那么代理服务器就会把数据保存一段时间,这是代理服务器就会把缓存的数据直接发送给用户A,专业术语(cache命中)
# 反向代理:请求从互联网出发,先进入代理服务器,在转发给局域网内的服务器
 特点:客户端并不知道真正的服务端是谁
 作用:1.保护和隐藏原始资源服务器:(如图2.1)用户A始终认为他访问的是原始服务器B而不是代理服务器Z,但实际上反向代理服务器接收用户A的应答,从原始资源服务器B中取得用户A的需求资源,然后发送给用户A,由于防火墙的作用,只允许代理服务器A访问原始资源服务器B,尽管这个虚拟环境下,防火墙和反向代理的共同作用保护了原始资源服务器B,但是用户A不知道
      2.负载均衡:(如图2.2)当反向代理服务器不知一个的时候,我们甚至可以把他们做成集群,让不同的代理服务器Z去应答不同的用户,然后发送不同用户需要的资源
当然反向代理服务器像正向代理服务器一样拥有CACHE的作用,它可以缓存原始资源服务器B的资源,而不是每次都要向原始资源服务器B请求数据,特别是一些静态的数据,比如图片和文件,如果这些反向代理服务器能够做到和用户X来自同一个网络,那么用户X访问反向代理服务器X,就会得到很高质量的速度。(CDN的核心技术就是用反向代理)
反向代理的结论:与正向代理正好相反,对于客户端而言它就是原始服务器,并且任何特别的设置。客户端向反向代理的命名空间发送普通请求,接着反向代理将判断向原始服务器转交请求,并将获取的内容返回给客户端,就像这些内容本来就是它自己的

基本上,网上做正反向代理的程序很多,能做正向代理的软件大部分也可以做反向代理。开源软件中最流行的就是squid,既可以做正向代理,也有很多人用来做反向代理的前端服务器。另外MS ISA也可以用来在WINDOWS平台下做正向代理。反向代理中最主要的实践就是WEB服务,近些年来最火的就是Nginx了。网上有人说NGINX不能做正向代理,其实是不对的。NGINX也可以做正向代理,不过用的人比较少了。
#区别:正向代理的对象是客户端,反向代理的对象是服务端

# 透明代理:客户端根本不需要知道有代理服务器的存在,它改编了你的request fields(报文),并会传送真实IP,加密的透明代理是属于匿名代理,意思是不用设置代理了实践的例子:很多公司使用行为管理软件

用户A和用户B并不知道行为管理设备充当透明代理行为,当用户A或用户B向服务器A或服务器B提交请求的时候,透明代理设备根据自身策略拦截并修改用户A或B的报文,并作为实际的请求方,向服务器A或B发送请求,当接收信息回传,透明代理再根据自身的设置把允许的报文发回至用户A或B,如图(3.1),如果透明代理设置不允许访问服务器B,那么用户A或者用户B就不会得到服务器B的数据。

1560903041403

1560903128640

1560930957167

1560931452738

1560934310076

2.谈谈你对多进程,多线程,以及协程的理解,项目是否用?

#进程:一个运行的程序(代码)就是一个进程,没有运行的代码叫做程序,进程是系统资源分配的最小单位,进程拥有自己独立的内存空间,所以进程间数据不共享,开销大
# 多进程的使用使用场景:适合在CPU密集型操作(CPU操作指令比较多,比如:浮点运算)
进程:并行(同一时刻多个任务同时运行)
实现并行的库:mulitprocessing

#线程:调度执行的最小单位,也叫执行路径,不能独立存在,依赖进程存在,一个进程至少有一个线程,多核线程共享内存(数据共享,共享全局变量),从而极大的提高了程序的运行效率
# 多线程的使用场景:适合在IO密集型操作(读写数据操作比较多的,比如爬虫)
线程:并发(在同一时间段内多个任务都在运行,但是不会在同一时刻同时运行,存在交替执行的情况)
实现并发的库:threading

#协程:是一种用户态的轻量级线程,协程的调度完全由用户控制,协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下问和栈,直接操作栈则基本没有内核切换的开销,可以不加锁的访问全局变量,所以上下文的切换非常快

3.什么是多线程竞争?

线程是非独立的,同一个进程里面线程是数据共享的,当各个线程访问数据资源时,会出现竞争状态时,数据几乎同步会被多个线程占用,造成数据混乱,造成线程不安全,就是多线程竞争

锁和GIL

# 怎么解决多线程竞争问题?--锁
# 锁的好处:确保了某段关键代码(共享数据资源)只能由一个线程从头到尾完整地执行,可以解决多线程资源竞争下的原子操作问题
#锁的坏处:组织了多线程并发执行,包含锁的偶段代码实际只能以单线程模式执行,效率就大大地下降了
锁的致命问题:死锁
解释一下什么是锁?
#锁(Lock):Python提供的对线程控制的对象。有互斥锁,死锁,可重入锁
死锁:如果若干个子线程在系统资源竞争时,都在等待对方某部分资源接触占用状态,结果是都不愿意先解锁,程序就无法执行下去,这就是死锁(程序并没有挂掉)
GIL锁:全局解释器锁(只有在Cpython中里面有)
作用:限制多线程同时执行,保证同一时间只有一个线程执行,所以Cpython里面的多线程其实是伪多线程,所以python里面常常用协程技术来代替多线程,

#进程和线程的切换由系统决定的,而协程是由哦我们自己决定的,而模块gevent下切换是遇到耗时操作才会切换到
三者的关系:进程里面有线程,线程里面有协程

4.什么是线程安全,什么是互斥锁?

每个对象对应于一个可称为“互斥锁”的标记,这个标记用来包保证在任一时刻只能由一个线程访问该对象

同一个进程中的多线程之间是共享系统资源的,多个线程同时对一个对象进行操作,一个线程操作尚未结束,另一个已经对其进行操作,导致最终结果出现错误,慈此时需要对被操作对象添加互斥u哦,保证每个线程对该对象的操作都得到正确的结果

5.cpu,内存,硬盘之间的关系,例如在硬盘中有一个文件,里面只有两个数字1,如果要在页面上显示这个文件中的两个数相加,具体的流程是如何实现的

内存:计算机内存储器,
硬盘是属于计算机外存储器,
CPU通常只和内存交换户据,断电后数据会丢失
硬盘首先读取这个文件,将数字发送到内存中,内存将数据发送到CPU中进行数据处理,处理完成后发送到内存,再发送到硬盘中展示

6.打开浏览器输入www.baidu.com,回车到页面展示百度页面的过程一共发生了什么

# 1. 在浏览器中输入URL
URL: 统一资源定位符,用于定位互联网的资源,主要包括:协议,网络地址,资源路径
# 2. 域名解析
浏览器不知道baidu.com是什么东西,需要查找百度所在服务器的IP地址,才能找到目标

#为什么我们要使用域名而不是直接访问IP地址?(很简单:不好记)

域名解析的流程:
    浏览器缓存--浏览器有百度DNS则会缓存DNS,若没有转至下面
    系统缓存--从Host文件中查找对应的百度域名和IP,若没有转至下面
    路由器缓存--一般路由器也会缓存域名信息
    ISP DNS缓存 -- 例如到电信的DNS上查找缓存,如果没有找到则会向 根域名服务器查找域名对应IP
    
# 3. 在本地dns服务器向顶级域.com发起请求,顶级域接收到请求,告诉本地dns服务器域名的解释服务器的地址,并不是告诉本地服务器域名和IP地址的对应关系
# 4. 本地dns服务器向域名的解析服务器发出请求,这时就能收到一个域名和IP地址对应关系,本地DNS服务器不仅要把IP地址返回给用户电脑,还要把这个对应关系保存在缓存中,以备下次别的用户查询时,可以直接返回结果,加快网络访问。
# 5. IP地址返回给本地服务器处理请求,服务器一般都会安装一个用于接收处理请求的应用—web server常见的web server产品有apache、nginx等并且决定采用哪种方式来处理这个请求,读取请求,然后形成html响应。
# 6. 客户端浏览器开始处理,解析渲染页面可视化

7.数据库的外连接和内连接

返回的结果集选取了两个表中所有相匹配的数据,舍弃了不匹配的数据。由于内连接是从结果表中删除与其他连接表中没有匹配的所有行,所以内连接可能会造成信息的丢失。内连接语法如下:
select fieldlist from table1 [inner] join table2 on table1.column = table2.column

外连接不仅包含符合连接条件的行,还包含左表(左连接时)、右表(右连接时)或两个边接表(全外连接)中的所有数据行。SQL外连接共有三种类型:左外连接(关键字为LEFT OUTER JOIN)、右外连接(关键字为RIGHT OUTER JOIN)和全外连接(关键字为FULL OUTER JOIN)。外连接的用法和内连接一样,只是将INNER JOIN关键字替换为相应的外连接关键字即可。
内连接只显示符合连接条件的记录,外连接除了显示符合条件的记录外,还显示表中的记录,例如,如果使用左外连接,还显示左表中的记录。
SELECT XXX FROM XXX LEFT [OUTER] JOIN XXX ON XXX

8.redis常用的数据类型

1561033558004

在具体描述这几种数据类型之前,我们先通过一张图了解下Redis内部内存管理中是如何描述这些不同数据类型的:

         首先Redis内部使用一个redisObject对象来表示所有的key和value,redisObject最主要的信息如上图所示:
         type代表一个value对象具体是何种数据类型,

         encoding是不同数据类型在redis内部的存储方式,

         比如:type=string代表value存储的是一个普通字符串,那么对应的encoding可以是raw或者是int,如果是int则代表实际redis内部是按数值型类存储和表示这个字符串的,当然前提是这个字符串本身可以用数值表示,比如:"123" "456"这样的字符串。
       这里需要特殊说明一下vm字段,只有打开了Redis的虚拟内存功能,此字段才会真正的分配内存,该功能默认是关闭状态的,该功能会在后面具体描述。通过上图我们可以发现Redis使用redisObject来表示所有的key/value数据是比较浪费内存的,当然这些内存管理成本的付出主要也是为了给Redis不同数据类型提供一个统一的管理接口
    
    
#String
#Hash
#List
#Set
#Sorted set
#pub/sub
#Transactions

9.什么是RestFul?

#REST: 是一种架构风格,一种Web Service可以满足REST的几个条件,通常就成这个系统是Resrful的
#条件:C/S架构,无状态,可以cache,分层
# REST的三要素:
1.唯一的自然标识
2.简单的方法
3.一定的表达方式
REST 是以 资源 为中心, 名词即资源的地址, 动词即施加于名词上的一些有限操作, 表达是对各种资源形态的抽象.
以HTTP为例, 名词即为URI(统一资源标识), 动词包括POST, GET, PUT, DELETE等(还有其它不常用的2个,所以 整个动词集合是有限的), 资源的形态(如text, html, image, pdf等)

RPC与REST的区别
RPC:一般采用TCP通信协议,性能高,灵活性低
    以动词为中心的(就是一些方法:get、post)
    当你要需要加入新功能时,你必须要添加更多的动词, 这时候服务器端需要实现 相应的动词(方法), 客户端需要知道这个新的动词并进行调用.
REST:一般采用HTTP通信协议,性能相对较低,灵活性高
    以名词为中心(一些资源的地址:URL)
    假使我请求的是 hostname/index/, 无论这个URI对应的服务怎么变化,客户端是无需 关注和更新的,而这种变化对客户端也是透明的.
    
至于其它的区别,如对实现语言的依赖, 耦合性等,这些都是上面提到的这个根本区别所衍生的.
    
    当你每天使用HTTP冲浪时,你都在使用 REST 与远程的服务器进行亲密接触. 当你使用Gtalk和同事朋友沟通时,你则是在享受着 RPC 的便利.
    

10.HTTP/HTTPS

HTTPS和HTTP的区别主要如下:
1.HTTPS需要ca申请证书,一般免费证书较少,因此需要一定费用
2.HTTP是超文本传输协议,信息是铭文传输,HTTPS则是具有安全性的ssl加密传输协议
3.HTTP和HTTPS使用的是完全不同的链接方式,用的端口不一样,前者是80 后者是443
4.http的链接很简单是无状态的,HTTPS协议是SSL+http协议构建的可以进行加密传输,身份认证的网络协议,比http安全

HTTP属于TCP/IP模型中的运用层协议,所以通信的过程其实是对应数据的入栈和出栈。 
一、HTTP和HTTPS的基本概念
HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。
HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。
HTTPS协议的主要作用:1.建立一个信息安全通道,来保证数据传输的安全;2.确认网站的真实性

HTTP特点:1.支持客户/服务器模式(C/S)
         2.简单快速:客户端请求服务时,只需要发送请求方法和路径,请求方法有GET/POST/HEAD,每种防范规定了客户与服务器练习的类型不同,由于HTTP协议简单,使得http服务器的程序规模小,通信速度快
         3.灵活:http允许传输任意类型的数据对象
         4.无连接:含义是显示每次链接只能处理一个请求,服务器处理完客户端的请求,并接受到客户的应答后,即断开链接,节省传输时间
         5.无状态:http协议就是无状态协议,无状态是指协议对于事物处理没有记忆功能,缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快
 
HTTP工作流程:
    第一步:建立TCP/IP连接,客户端与服务器通过Socket三次握手进行连接

    第二步:客户端向服务端发起HTTP请求(例如:POST/login.html http/1.1)

    第三步:客户端发送请求头信息,请求内容,最后会发送一空白行,标示客户端请求完毕

    第四步:服务器做出应答,表示对于客户端请求的应答,例如:HTTP/1.1 200 OK

    第五步:服务器向客户端发送应答头信息

    第六步:服务器向客户端发送请求头信息后,也会发送一空白行,标示应答头信息发送完毕,接着就以Content-type要求的数据格式发送数据给客户端

    第七步:服务端关闭TCP连接,如果服务器或者客户端增Connection:keep-alive就表示客户端与服务器端继续保存连接,在下次请求时可以继续使用这次的连接
        
HTTPS的特点:HTTPS是HTTP协议的修改,它加密数据并确保其机密性。其配置可保护用户在与网站交互时免于窃取个人信息和计费数据。
优点:提供优质的保密的信息,保证了用户户据的安全性,同时一定成度上保护了服务端,使用恶意攻击和伪装数据的成本大大提高
缺点:1.https的技术门槛高
    2. 大多数网站并不关心数据的安全性和保密性
    3. https加重了服务器的复古但
    4.http网站任然大鬼哦没的使用
    
HTTPS的工作流程
第一步:客户使用https的URL访问Web服务器,要求与Web服务器建立SSL连接。

第二步:Web服务器收到客户端请求后,会将网站的证书信息(证书中包含公钥)传送一份给客户端。

第三步:客户端的浏览器与Web服务器开始协商SSL连接的安全等级,也就是信息加密的等级。

第四步:客户端的浏览器根据双方同意的安全等级,建立会话密钥,然后利用网站的公钥将会话密钥加密,并传送给网站。

第五步:Web服务器利用自己的私钥解密出会话密钥。

第六步:Web服务器利用会话密钥加密与客户端之间的通信。

一下为http经过的几层模型

1561036953556

11.docker 创建镜像

12.队列,链表

栈##
栈是一种动态集合,它是一种LIFO(last in first out后进先出)结构
栈的实现:
(1)数组
(2)链表
栈要记录的数据:
(1)栈顶位置top
注意这个top有两种理解方式,一种是表示栈的最后一个数据的位置,另一种是表示栈的最后一个数据的下一个位置,这两种理解对栈的操作代码有一定的影响
(2)栈最大大小size
栈的操作:
(1)STACK_EMPTY():判断栈是否为空
(2)PUSH(X):向栈中添加一个值,注意栈是否为满的
(3)POP():从栈中弹出一个值,注意栈是否为空

栈的简要实现:github栈
栈的应用:
(1)括号匹配问题
队列##
与栈不同,它是一种FIFO(first in first out先进先出)结构
队列的实现:
(1)数组
(2)链表
队列要记录的数据:
(1)队首位置head:第一个元素位置
(2)队尾位置tail:下一个元素要插入的位置(最后一个元素的下一个位置)
(3)队列最大大小size
队列的操作:
(1)ENQUEUE(x):入队
(2)DEQUEUE():出队
(3)EMPTY():队列为空,head=tail
(4)FULL():队列为满,head=(tail+1)%size

队列的简要实现:github队列
队列的应用:
(1)
链表##
与数组中元素地址连续不同,链表中两个元素地址不一定连续,而是由专门的一个指针指明该元素的后一个(前一个)元素的地址。
链表种类:
(1)单向链表:只有指向后一个元素的指针
(2)双向链表:有指向后一个和前一个元素的指针
(3)循环链表:链表内存在一个环
链表节点(Node)记录的数据:
(1)要存储的数据data
(2)下一个节点地址Node* next
(3)若是双向链表还要存储前一个节点地址Node prev
链表(LinkedList)记录的数据:
(1)链表的头指针Node head
(2)可能还记录链表的尾指针 Node* tail
链表的操作:
(1)SEARCH(x):链表的搜索
(2)INSERT(i,x):链表的插入,在第i个位置插入x
(3)DELETE(x):链表的删除
哨兵(sentinel):
为了减少边界条件的判断(是否为空链表等等),引入哨兵,使得链表永远不为“空”。
指针和对象的实现:
有些语言比如Java没有指针(C中就存在指针),这时我们需要考虑指针的替代实现方式。
(1)用二维数组表示指针
我们可以设置一个n*3的数组记录n个节点,那个3就表示存储的数据、前一个元素的坐标(index)和后一个元素的坐标。
(2)用一维数组表示指针

树##
树的种类:
(1)二叉树
二叉树要存储4个数据,分别是节点携带的信息和其父节点、左右子节点的指针。
(2)分支无限制的有根树:
上面二叉树每个节点最多有两个子节点,而分支无限制的有根数则没有这个限制,可能有3个、5个甚至更多子节点。所以存储这种数据结构的问题在于我们事先并不知道应该设置多少个child指针,若设置的少了不能满足要求,设置的过多又会浪费空间。所以这里提出一种新的描述这种数据结构的方法——左孩子右兄弟表示法,这种方法每个节点设置3个指针:父指针、从左数第一个孩子的指针、其右侧相邻的兄弟指针,如下图所示

堆##
堆实际上是以数组形式存储的二叉树
堆需要存储的数据:
(1)数组的大小max-size
(2)堆元素个数size,这里size要小于max-size
堆中元素通过坐标来确定父节点、左右子节点,具体来说:
一个节点i的父节点:[i/2]
一个节点i的左子节点:[i2]
一个节点i的右子节点:[i2+1]
堆的分类:
(1)最大堆
满足所有节点都比其父节点值小(小于等于)的堆
A[i/2]>=A[i]
(2)最小堆
满足所有节点都比其父节点值大(大于等于)的堆
A[i/2]<=A[i]
堆的操作:
(1)维护堆的性质(HEAPIFY)
这里指维护最大堆或最小堆的性质。假设一个数组中下标为i的节点的子节点满足最大(小)堆性质,但自身不一定满足这个性质,这时就需要HEAPIFY,具体来说是要比较这个节点和其两个子节点的大小,将其中的大(小)的和该节点位置交换,这样这个节点及其两个子节点就满足最大(小)堆的性质了,但是可能交换后子节点不满足堆的性质,所以这里要递归调用HEAPIFY,直到达到最下层节点,这样就维护了堆的性质。HEAPIFY耗时O(lgn)
(2)建堆(BUILD-HEAPIFY)
从中间那个元素开始到第一个元素,逐一调用HEAPIFY函数,即可完成建堆。
逐一从中间那个元素开始递减而不是从第一个元素递增,这时为了保证每次调用HEAPIFY都能保证该节点的子节点都满足最大(小)堆的性质,否则无法调用HEAPIFY。中间那个元素是第一个可能不满足最大(小)堆性质的节点,所以从这里开始维护(HEAPIFY)。一个建堆的例子如下所示:[5,3,17,10,84,19,6,22,9]


建堆

建堆的期望时间为O(n)

堆的应用:
(1)堆排序(详见排序算法)
(2)优先队列

1561335196938

## python中实现双链表,栈,队列
1.双链表

class Node(object):
    def __init__(self, value=None):
        self._prev = None
        self.data = value
        self._next = None
        
    def __str__(self):
        return "Node(%s)" %s self.data
    
class DoubleLinkedlist(object):
    def __init__(self):
        self._head = None()
        
    def insert(self, value):
        element = Node(value)
        element._next = self._head
        self._head._prev = element
        self._head = element
        

    def search(self, value):
        if not self._head._next:
            raise ValueError("the linked list is empty")
        temp = self._head
        while temp.data != value:
            temp = temp._next
        return temp

    def delete(self, value):
        element = self.search(value)
        if not element:
            raise ValueError('delete error: the value not found')
        element._prev._next = element._next
        element._next._prev = element._prev
        return element.data

    def __str__(self):
        values = []
        temp = self._head
        while temp and temp.data:
            values.append(temp.data)
            temp = temp._next
        return "DoubleLinkedList(%s)"%values

    
2.栈
class Stack(object):
    def __init__(self):
        self._top = 0
        self._stack = []

    def put(self, data):
        self._stack.insert(self._top, data)
        self._top += 1

    def pop(self):
        if self.isEmpty():
            raise ValueError('stack 为空')
        self._top -= 1
        data = self._stack[self._top]

        return data

    def isEmpty(self):
        if self._top == 0:
            return True
        else:
            return False

    def __str__(self):
        return "Stack(%s)"%self._stack

3.队列

class Queue(object):
    def __init__(self, max_size=float('inf')):
        self._max_size = max_size
        self._top = 0
        self._tail = 0
        self._queue = []

    def put(self, value):
        if self.isFull():
            raise ValueError("the queue is full")
        self._queue.insert(self._tail, value)
        self._tail += 1

    def pop(self):
        if self.isEmpty():
            raise ValueError("the queue is empty")
        data = self._queue.pop(self._top)
        self._top += 1
        return data

    def isEmpty(self):
        if self._top == self._tail:
            return True
        else:
            return False

    def isFull(self):
        if self._tail == self._max_size:
            return True
        else:
            return False

    def __str__(self):
        return "Queue(%s)"%self._queue

13. 什么是Ajax?

Ajax = 异步 JavaScript 和XML。
Ajax是一种用于创建快速动态网页的技术。
通过在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
传统的网页(不使用 Ajax)如果需要更新内容,必需重载整个网页面。

发送请求的四个步骤:
(1)初始化XMLHTTPRequest对象。
(2)为XMLHTTPRequest对象指定一个回调函数,用于对返回结果进行处理。
(3)创建一个与服务器的连接。
(4)向服务器发送请求。

14.什么是虚拟机?

通过软件模拟具有湾镇反硬件系统功能的,运行在一个完全隔离环境中的完整的计算机系统

mongdo 使用内存上限

扫描二维码关注公众号,回复: 6601121 查看本文章

python基础

一.基础语法

1.2 a=1,b=2,不用中间变量交换a 和b 的值?(2018-3-29-lxy)
方法一:
1. a = a+b
2. b = a-b
3. a = a-b
方法二:
1. a = a^b
2. b =b^a
3. a = a^b
方法三:
1. a,b = b,a
print 方法默认调用sys.stdout.write 方法,即往控制台打印字符串。
1.4 下面这段代码的输出结果将是什么?请解释?(2018-3-30-lxy)
1. class Parent(object):
2.      x = 1
3. class Child1(Parent):
4.      pass
5. class Child2(Parent):
6.      pass
7. print Parent.x, Child1.x, Child2.x
8. Child1.x = 2
9. print parent.x, Child1.x, Child2.x
10. parent.x = 3
11. print Parent.x, Child1.x, Child2.x


结果为:
1 1 1 #继承自父类的类属性x,所以都一样,指向同一块内存地址。
1 2 1 #更改Child1,Child1 的x 指向了新的内存地址。
3 2 3 #更改Parent,Parent 的x 指向了新的内存地址。
1.5 简述你对input()函数的理解?
在Python3 中,input()获取用户输入,不论用户输入的是什么,获取到的都是字符串类型的。
在Python2 中有raw_input()和input(), raw_input()和Python3 中的input()作用是一样的,
input()输入的是什么数据类型的,获取到的就是什么数据类型的。
2.1 阅读下面的代码,写出A0,A1 至An 的最终值。(2018-3-30-lxy)
1. A0 = dict(zip(('a','b','c','d','e'),(1,2,3,4,5)))
2. A1 = range(10)
3. A2 = [i for i in A1 if i in A0]
4. A3 = [A0[s] for s in A0]
5. A4 = [i for i in A1 if i in A3]
6. A5 = {i:i*i for i in A1}
7. A6 = [[i,i*i] for i in A1]\

............

结果是:
1. A0 = {'a': 1, 'c': 3, 'b': 2, 'e': 5, 'd': 4}
2. A1 = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
3. A2 = []
4. A3 = [1, 3, 2, 5, 4]
1. A4 = [1, 2, 3, 4, 5]
2. A5 = {0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}
3. A6 = [[0, 0], [1, 1], [2, 4], [3, 9], [4, 16], [5, 25], [6, 36],[7, 49],[8, 64], [9,81]]
2.2 range 和xrange 的区别?(2018-3-30-lxy)

目前再python3版本种xrange已经被取消

两者用法相同,不同的是range 返回的结果是一个列表,而xrange 的结果是一个生成器,前者是直接开辟一块内存空间来保存列表,后者是边循环边使用,只有使用时才会开辟内存空间,所以当列表很长时,使用xrange 性能要比range 好。

1. l = []
2. for i in xrange(10):
3. l.append({‘num’:i})
4. print l
############

1. l = []
2. a = {‘num’:0}
3. for i in xrange(10):
4. a[‘num’] = i
5. l.append(a)
6. print l

以上两段代码的运行结果是否相同,如果不相同,原因是什么?
上方代码的结果:
1. [{‘num’:0},{‘num’:1},{‘num’:2},{‘num’:3},{‘num’:4},{‘num’:5},{‘num’:6},{‘num’:7},{‘num’:8},
{‘num’:9}]
下方代码结果:
1. [{‘num’:9},{‘num’:9},{‘num’:9},{‘num’:9},{‘num’:9},{‘num’:9},{‘num’:9},{‘num’:9},{‘num’:9},
{‘num’:9}]

原因是:字典是可变对象,在下方的l.append(a)的操作中是把字典a 的引用传到列表l 中,当后
续操作修改a[‘num’]的值的时候,l 中的值也会跟着改变,相当于浅拷贝。
3.1 4G 内存怎么读取一个5G 的数据?(2018-3-30-lxy)
方法一:
可以通过生成器,分多次读取,每次读取数量相对少的数据(比如500MB)进行处理,处理结束后
在读取后面的500MB 的数据。
方法二:
可以通过linux 命令split 切割成小文件,然后再对数据进行处理,此方法效率比较高。可以按照行
数切割,可以按照文件大小切割。
3.2 现在考虑有一个jsonline 格式的文件file.txt 大小约为10K,之前处理文件的代码如下所示:(2018-3-30-lxy)
1. def get_lines():
2.      l = []
3.      with open(‘file.txt’,‘rb’) as f:
4.          for eachline in f:
5.              l.append(eachline)
6.      return l
7. if __name__ == ‘__main__’:
8.      for e in get_lines():
9.          process(e) #处理每一行数据

现在要处理一个大小为10G 的文件,但是内存只有4G,如果在只修改get_lines 函数而其他代码保持不变的情况下,应该如何实现?需要考虑的问题都有哪些?
1. def get_lines():
2.      l = []
3.      with open(‘file.txt’,’rb’) as f:
4.          data = f.readlines(60000)
5.      l.append(data)
6.      yield l

要考虑到的问题有:
内存只有4G 无法一次性读入10G 的文件,需要分批读入。分批读入数据要记录每次读入数据的位置。分批每次读入数据的大小,太小就会在读取操作上花费过多时间。
3.3 read、readline 和readlines 的区别? (2018-4-16-lxy)

read:读取整个文件。
readline:读取下一行,使用生成器方法。
readlines:读取整个文件到一个迭代器以供我们遍历。

4.2 介绍一下except 的作用和用法?(2018-4-16-lxy)

except: #捕获所有异常
except: <异常名> : #捕获指定异常
except:<异常名1, 异常名2> : 捕获异常1 或者异常2
except: <异常名> , <数据> :捕获指定异常及其附加的数据
except:<异常名1,异常名2>: <数据> :捕获异常名1 或者异常名2,及附加的数据

5.1 常用的Python 标准库都有哪些?(2018-3-30-lxy)

os 操作系统,time 时间,random 随机,pymysql 连接数据库,threading 线程,multiprocessing进程,queue 队列。
第三方库:django 和flask 也是第三方库,requests,virtualenv, selenium,scrapy,xadmin,celery,re,hashlib,md5。
常用的科学计算库(如Numpy,Scipy,Pandas)。

5.2 赋值、浅拷贝和深拷贝的区别?(2018-3-30-lxy)

一、赋值
在Python 中,对象的赋值就是简单的对象引用,这点和C++不同,如下所示:

16.a = [1,2,"hello",['python', 'C++']]
17.b = a

在上述情况下,a 和b 是一样的,他们指向同一片内存,b 不过是a 的别名,是引用。我们可以使用b is a 去判断,返回True,表明他们地址相同,内容相同,也可以使用id()函数来查看两个列表的地址是否相同。
赋值操作(包括对象作为参数、返回值)不会开辟新的内存空间,它只是复制了对象的引用。也就是说除了b 这个名字之外,没有其他的内存开销。修改了a,也就影响了b,同理,修改了b,也就影响了a。

二、浅拷贝(shallow copy)

浅拷贝会创建新对象,其内容非原对象本身的引用,而是原对象内第一层对象的引用。
浅拷贝有三种形式:切片操作、工厂函数、copy 模块中的copy 函数。
比如上述的列表a;
    切片操作:b = a[:] 或者b = [x for x in a];
    工厂函数:b = list(a);
    copy 函数:b = copy.copy(a);
    
1、b = a.copy(): 浅拷贝, a 和 b 是一个独立的对象,但他们的子对象还是指向统一对象(是引用)。

1561364929082

三、深拷贝(deep copy)

深拷贝只有一种形式,copy 模块中的deepcopy()函数。
深拷贝和浅拷贝对应,深拷贝拷贝了对象的所有元素,包括多层嵌套的元素。因此,它的时间和空间开销要高。
2、b = copy.deepcopy(a): 深度拷贝, a 和 b 完全拷贝了父对象及其子对象,两者是完全独立的。

1561364993788

5.3__init__ 和__new__的区别?(2018-3-30-lxy)

init 在对象创建后,对对象进行初始化。
new 是在对象创建之前创建一个对象,并将该对象返回给init。

5.4 Python 里面如何生成随机数?(2018-3-30-lxy)
在Python 中用于生成随机数的模块是random,在使用前需要import. 如下例子可以酌情列
举:
random.random():生成一个0-1 之间的随机浮点数;
random.uniform(a, b):生成[a,b]之间的浮点数;
random.randint(a, b):生成[a,b]之间的整数;
random.randrange(a, b, step):在指定的集合(a,b)中,以step为基数随机取一个数;
random.choice(sequence):从特定序列中随机取一个元素,这里的序列可以是字符串,列表,元组等。
5.5 输入某年某月某日,判断这一天是这一年的第几天?(可以用Python 标准
库)(2018-3-30-lxy)
1. import datetime
2. def dayofyear():
3.      year = input("请输入年份:")
4.      month = input("请输入月份:")
5.      day = input("请输入天:")
6.      date1 = datetime.date(year=int(year),month=int(month),day=int(day))
7.      date2 = datetime.date(year=int(year),month=1,day=1)
8.      return (date1 - date2 + 1).days
5.6 打乱一个排好序的list 对象alist?(2018-3-30-lxy)
1. import random
2. random.shuffle(alist)
5.7 说明一下os.path 和sys.path 分别代表什么?(2018-3-30-lxy)

os.path 主要是用于对系统路径文件的操作。
sys.path 主要是对Python 解释器的系统环境参数的操作(动态的改变Python 解释器搜索路径)。

5.8 Python 中的os 模块常见方法?(2018-4-16-lxy)

os.remove()删除文件
os.rename()重命名文件
os.walk()生成目录树下的所有文件名
os.chdir()改变目录

os.mkdir/makedirs 创建目录/多层目录
os.rmdir/removedirs 删除目录/多层目录
os.listdir()列出指定目录的文件
os.getcwd()取得当前工作目录
os.chmod()改变目录权限
os.path.basename()去掉目录路径,返回文件名
os.path.dirname()去掉文件名,返回目录路径
os.path.join()将分离的各部分组合成一个路径名
os.path.split()返回(dirname(),basename())元组
os.path.splitext()(返回filename,extension)元组os.path.getatime\ctime\mtime 分别返回最近访问、创建、修改时间
os.path.getsize()返回文件大小
os.path.exists()是否存在
os.path.isabs()是否为绝对路径
os.path.isdir()是否为目录
os.path.isfile()是否为文件

5.9 Python 的sys 模块常用方法?(2018-4-16-lxy)
sys.argv 命令行参数List,第一个元素是程序本身路径
sys.modules.keys() 返回所有已经导入的模块列表
sys.exc_info() 获取当前正在处理的异常类,exc_type、exc_value、exc_traceback 当前处理的异常详细信息
sys.exit(n) 退出程序,正常退出时exit(0)
sys.hexversion 获取Python 解释程序的版本值,16 进制格式如:0x020403F0
sys.version 获取Python 解释程序的版本信息
sys.maxint 最大的Int 值
sys.maxunicode 最大的Unicode 值
sys.modules 返回系统导入的模块字段,key 是模块名,value 是模块
sys.path 返回模块的搜索路径,初始化时使用PYTHONPATH 环境变量的值
sys.platform 返回操作系统平台名称
sys.stdout 标准输出
sys.stdin 标准输入
sys.stderr 错误输出
sys.exc_clear() 用来清除当前线程所出现的当前的或最近的错误信息
sys.exec_prefix 返回平台独立的python 文件安装的位置
sys.byteorder 本地字节规则的指示器,big-endian 平台的值是'big',little-endian 平台的值是'little'
sys.copyright 记录python 版权相关的东西
sys.api_version 解释器的C 的API 版本
sys.version_info 元组则提供一个更简单的方法来使你的程序具备Python 版本要求功能
5.10 unittest 是什么?(2018-4-16-lxy)

在Python 中,unittest 是Python 中的单元测试框架。它拥有支持共享搭建、自动测试、在测试中暂停代码、将不同测试迭代成一组,等的功能。

5.11 模块和包是什么?(2018-4-16-lxy)

在Python 中,模块是搭建程序的一种方式。每一个Python 代码文件都是一个模块,并可以引用其他的模块,比如对象和属性。
一个包含许多Python 代码的文件夹是一个包。一个包可以包含模块和子文件夹。

6.1 Python 是强语言类型还是弱语言类型?(2018-3-30-lxy)

Python 是强类型的动态脚本语言。
强类型:不允许不同类型相加。
动态:不使用显示数据类型声明,且确定一个变量的类型是在第一次给它赋值的时候。
脚本语言:一般也是解释型语言,运行代码只需要一个解释器,不需要编译。

6.2 谈一下什么是解释性语言,什么是编译性语言? (2018-3-30-lxy)

计算机不能直接理解高级语言,只能直接理解机器语言,所以必须要把高级语言翻译成机器语言,
计算机才能执行高级语言编写的程序。
解释性语言在运行程序的时候才会进行翻译。

编译型语言写的程序在执行之前,需要一个专门的编译过程,把程序编译成机器语言(可执行文件)。

6.3 Python 中有日志吗?怎么使用? (2018-3-30-lxy)
有日志。
Python 自带logging 模块,调用logging.basicConfig()方法,配置需要的日志等级和相应的参数,
Python 解释器会按照配置的参数生成相应的日志。
6.4 Python 是如何进行类型转换的?(2018-3-30-lxy)
内建函数封装了各种转换函数,可以使用目标类型关键字强制类型转换,进制之间的转换可以用
int(‘str’,base=’n’)将特定进制的字符串转换为十进制,再用相应的进制转换函数将十进制转换
为目标进制。
可以使用内置函数直接转换的有:
list---->tuple tuple(list)
tuple---->list list(tuple)
6.5 Python2 与Python3 的区别?(2018-3-30-lxy)

1) 核心类差异

  1. Python3 对Unicode 字符的原生支持。
    Python2 中使用ASCII 码作为默认编码方式导致string 有两种类型str 和unicode,Python3 只
    支持unicode 的string。Python2 和Python3 字节和字符对应关系为:

1561376946130

6.10 什么是Python 的命名空间?(2018-4-16-lxy)

在Python 中,所有的名字都存在于一个空间中,它们在该空间中存在和被操作——这就是命名空间。它就好像一个盒子,每一个变量名字都对应装着一个对象。当查询变量的时候,会从该盒子里面寻找相应的对象。

6.11 你所遵循的代码规范是什么?请举例说明其要求?(2018-4-20-lxy)

PEP8 规范。

  1. 变量
    常量:大写加下划线USER_CONSTANT。
    私有变量: 小写和一个前导下划线_private_value。
    Python 中不存在私有变量一说,若是遇到需要保护的变量,使用小写和一个前导下划线。但这只是
    程序员之间的一个约定,用于警告说明这是一个私有变量,外部类不要去访问它。但实际上,外部类还
    是可以访问到这个变量。
    内置变量: 小写,两个前导下划线和两个后置下划线__class__

    两个前导下划线会导致变量在解释期间被更名。这是为了避免内置变量和其他变量产生冲突。用户定义的变量要严格避免这种风格。以免导致混乱。

  2. 函数和方法
    总体而言应该使用,小写和下划线。但有些比较老的库使用的是混合大小写,即首单词小写,之后
    每个单词第一个字母大写,其余小写。但现在,小写和下划线已成为规范。
    私有方法:小写和一个前导下划线
    这里和私有变量一样,并不是真正的私有访问权限。同时也应该注意一般函数不要使用两个前导下
    划线(当遇到两个前导下划线时,Python 的名称改编特性将发挥作用)。
    特殊方法:小写和两个前导下划线,两个后置下划线
    这种风格只应用于特殊函数,比如操作符重载等。
    函数参数: 小写和下划线,缺省值等号两边无空格


  3. 类总是使用驼峰格式命名,即所有单词首字母大写其余字母小写。类名应该简明,精确,并足以从
    中理解类所完成的工作。常见的一个方法是使用表示其类型或者特性的后缀,例如:
    SQLEngine,MimeTypes 对于基类而言,可以使用一个Base 或者Abstract 前缀BaseCookie,
    AbstractGroup

  4. 模块和包
    除特殊模块__init__ 之外,模块名称都使用不带下划线的小写字母。
    若是它们实现一个协议,那么通常使用lib 为后缀,例如:
    import smtplib
    import os
    import sys

  5. 关于参数
    5.1 不要用断言来实现静态类型检测。断言可以用于检查参数,但不应仅仅是进行静态类型检测。
    Python 是动态类型语言,静态类型检测违背了其设计思想。断言应该用于避免函数不被毫无意义的调用。
    5.2 不要滥用*args 和**kwargs。*args 和**kwargs 参数可能会破坏函数的健壮性。它们使签名变得模糊,而且代码常常开始在不应该的地方构建小的参数解析器。

  6. 其他
    6.1 使用has 或is 前缀命名布尔元素
    is_connect = True
    has_member = False
    6.2 用复数形式命名序列
    members = ['user_1', 'user_2']
    6.3 用显式名称命名字典
    person_address = {'user_1':'10 road WD', 'user_2' : '20 street huafu'}
    6.4 避免通用名称
    诸如list, dict, sequence 或者element 这样的名称应该避免。
    6.5 避免现有名称
    诸如os, sys 这种系统已经存在的名称应该避免。

  7. 一些数字
    一行列数: PEP 8 规定为79 列。根据自己的情况,比如不要超过满屏时编辑器的显示列数。
    一个函数: 不要超过30 行代码, 即可显示在一个屏幕类,可以不使用垂直游标即可看到整个函数。
    一个类: 不要超过200 行代码,不要有超过10 个方法。一个模块不要超过500 行。

  8. 验证脚本
    可以安装一个pep8 脚本用于验证你的代码风格是否符合PEP8。

python综述

Python语言和C++,java等其他编程语言相比,他是一种解释型脚本语言,代码在执行时,会一行一行的解释成CPU能理解的机器码,同时它又是跨平台的,可以允许windows,linux,mac等系统上,同样的程序逻辑,可能C语言需要1000行代码,java有100行,但是python实现可能只需要20行,这极大程度上提升了企业的项目开发效率,
记得之前就有一篇权威报道,到2014年为止,麻省、哈弗等顶尖高校都已经使用python作为教学语言,现在国内的高校,也开始设置python的专业课程,现在对于企业项目后台开发而言,不是说一定要用python开发,但现在语言本身的性能差距在实际开发的过程中,相对于业务功能合理设计、代码编写架构质量等,语言底层造成的性能损失越来越可以忽略不计,针对于一些特定的功能模块,python当前也出现了pypy,JIT等大幅度提高python程序运行效率的相关技术,能够满足大多数功能的需求业务场景

具体选用python后,新项目推荐使用python3,08年python3版本发布后,十几年来python3生态圈第三方库已经非常具备完备和弃权,而官方已经宣布python2在2020年将不在维护,另外python3本身性能也和相较于python2有一定的提升

Linux基础和git

7.1 Linux 的基本命令(怎么区分一个文件还是文件夹)(2018-3-30-lxy)

ls -F 在显示名称的时候会在文件夹后添加“/”,在文件后面加“*”。

面试 自我介绍

你好 很高兴能来到贵公司面试,我叫杨荣先,毕业于郑州轻工业大学,我一直对软件开发和脚本开发有这深厚的兴趣,有两年的Python开发的相关工作,然后,我的主要上一份工作主要在一家电商公司做商城的python项目开发

猜你喜欢

转载自www.cnblogs.com/yang950718/p/11079419.html
今日推荐