python两种方法判断文件是否为二进制文件

两种方法判断文件是否为二进制文件,最准确的就是把这两种方法结合起来。 (1)方法一: 它首先检查文件是否以BOM开始,如果不在初始8192字节内查找零字节: import codecs file_path = "/home/ubuntu/zgd/ztest/_gs418_510txp_v6.6.2.7.stk.extracted/test" #: BOMs to indicate that a file is a text file even if it contains zero byt
分类: 其他 发布时间: 07-10 22:33 阅读次数: 0

mongo使用新视野小记

简单小记一下吧 : 首先先上一个网站的链接:https://www.mongodb.org.cn/manual/Collection/ 平时我们使用mongo数据库查询的时候都是这样的: 但是今天师弟发现了一个新的mongo执行方式。不用首先进入数据库就ok。 mongo top-0 --eval 'db.getCollection("openssl-1.0.1f-armeb").find().forEach(function(doc){print("{" + "\"function_name
分类: 其他 发布时间: 07-10 22:33 阅读次数: 0

找出大文件中访问频率子最高的方法

今天面试一道题类似这种吧: (1)面试中若题目提到大文件等,其实就是告诉你数据量大,不能一次性加载到内存中,而实际中我们就需要估算。既然是要对访问百度次数的ip做统计,我们最好先预处理一下,遍历把访问百度的所有ip写到另一个文件a中 (2)ip用32位表示,所以最多有2^32个不同ip地址。同样的,当内存不能一次性加载数据时,我们就需要考虑分治法。 step1:采用hash映射(hash(ip)%1000)分别把结果保存到小文件a0....a999中。有人可能会问,这里一定要用1000吗?当然
分类: 其他 发布时间: 07-10 22:32 阅读次数: 0

字符串去除相邻重复的字母

简单的笔试面试手撕代码题: 将str1 = "aabb cccg h iii" 转化为str2 = “ab cg h i” str1 = "aabb cccg h iii" list2 = [] for i in range(0, len(str1)-1): if i == 0: list2.append(str1[i]) else: if str1[i] != str1[i-1]: list2.append(str1[i
分类: 其他 发布时间: 07-10 22:32 阅读次数: 0

刷点面试小题

【1】输出文本中出现的字符串的频率最多的字符串 方法一:使用collections中的Counter模块进行统计 from collections import Counter with open("word", 'r') as f: text = f.read() f.close() word_list = text.split() count = Counter(word_list) print count count_max = max(count.valu
分类: 其他 发布时间: 07-10 22:32 阅读次数: 0

头条面试小记

1.python中常用的数据结构有哪些? 2.列表和元组的区别?还有什么区别? 3.固件安全?啥是固件?固件是硬件吗?和软件有啥区别。 我刚说固件是底层软件,她接上话是不是芯片,我说芯片里面也有,还有路由器、交换机、防火墙、打印机、手机、网络摄像头、工业机器人、PLC等,还没等我说一半,就打断了我。说她不懂。 4.mongodb和mysql区别和联系? 5.手写代码判断ip的合法性 6.ip日志文件,查看出现的top10 ip?用什么命令直接查看top 10?如果不知道的话,那你用python
分类: 其他 发布时间: 07-10 22:31 阅读次数: 0

程序版本控制问题

参考链接:https://www.jianshu.com/p/8a7aae71e098 光是看版本号,可能对于程序处于什么状态并不能完全掌握,此时还需附带版本阶段相关英文单词来附加说明,格式:版本号-版本阶段英文单字。如看到 [email protected] 就知道 dva 的版本号为 1.3.0,当前处于 公测阶段,本身还存在 Bug,给部分用户体验,用户提出 Bug 并全部修复完成后才能正式发布。 程序版本阶段对应英文如下,大家遵守规范,看到英文单词就这个这个版本当前处于什么阶段。 alpha
分类: 其他 发布时间: 07-10 22:31 阅读次数: 0

牛客网的sys.stdin.readlines()和sys.stdin读取方式

平时做题都是做leetcode,现在做牛客网的题很不适应,摸不清输入输出。如下代码: import sys for line in sys.stdin.readlines(): line = line.strip() n = len(line) index = 0 while index + 8 <= n: print line[index:index+8] index += 8 if n - index > 0:
分类: 其他 发布时间: 07-10 22:31 阅读次数: 0

sys.stdin和input的区别

最近刷牛客网上的题发现很多人用sys.stdin进行处理: 1. sys.stdout与print: 在python中调用print时,事实上调用了sys.stdout.write(obj+'\n') print 将需要的内容打印到控制台,然后追加一个换行符 以下两行代码等价: sys.stdout.write('hello' + '\n') print('hello') 2. sys.stdin与input sys.stdin.readline( )会将标准输入全部获取,包括末尾的'\n',
分类: 其他 发布时间: 07-10 22:31 阅读次数: 0

最长数字字符串

题目一 最长数字字符串 给定一个字符串,输出字符串中最长的数字串,并把这个数字串的长度输出。 请一个在字符串中找出连续最长的数字串,并把这个串的长度返回;如果存在长度相同的连续数字串,返回最后一个连续数字串; 注意:数字串只需要是数字组成的就可以,并不要求顺序,比如数字串“1234”的长度就小于数字串“1359055”,如果没有数字,则返回空字符串(“”)而不是NULL! 输入描述: 一个字符串 输出描述: 输出最长的数字串,输出最长数字串个数; 中间以逗号(,)隔开; 示例1 输入 abcd
分类: 其他 发布时间: 07-10 22:30 阅读次数: 0

数据库安全之政务云

2016年10月,中安威士受邀参与了南方某市政府的电子政务云的建设项目,并具体承担了该项目中云端数据安全保护的部分工作。现将在该项目中实施的云端数据库安全加固解决方案分享给大家。电子政务云数据安全威胁借助云计算技术,电子政务云对政府的IT资源进行统一管理、按需使用,可有效节约信息化建设资源投入成本,降低IT资源消耗。但基于云计算模式的电子政务,必定也会面临网络威胁和恶意***等,尤其是对数据安全、隐
分类: 数据库 发布时间: 07-10 22:30 阅读次数: 0

COSTECH/Fandis A17M23SWBMT0

模块
分类: 企业开发 发布时间: 07-10 22:30 阅读次数: 0

N个骰子点数和及对应和值出现的概率

题目:把n个骰子扔在地上,所有骰子朝上一面的点数之和为S。输入n,打印出S的所有可能的值出现的概率。 这道算法题可采取动态规划法来求解。鉴于《剑指Offer》中对该题的解法晦涩难懂,尤其是代码,也没有指明其解题的思路本质上就是动态规划,所以提出自己的理解和答案。 动态规划法简介: 动态规划法求解的总体过程就是将问题分为多个不同的阶段的问题,根据最开始阶段已知的问题的解逐步推导出最终解。即动态规划算法通常基于一个递推公式及一个或多个初始状态。 过程细化为: 第一步,确定问题的解的表达式,称之为状
分类: 其他 发布时间: 07-10 22:30 阅读次数: 0

hive:函数:collect_list和collect_set (列转行)

业务场景: 表一对表二是一对多的关系,现在需用表1去关联表2,但是要取表2的某条对应的最新的数据 表2格式为(同id查出多条): select id,status from ods.ods_aimsen_erp_comments where recommendid =686871 1398221 加入项目 1398235 编写推荐报告 1398246 推给客户 1404211 预约初试 1404322 客户初试 使用collect_list函数进行行转列,将表2同一id的多行数据转为一
分类: 其他 发布时间: 07-10 22:30 阅读次数: 0

hive:函数:条件函数(条件表达式):case when

例1: CASE WHEN aer.followupdate='null' THEN null ELSE aer.followupdate END followupdate, 例2: CASE WHEN instr(O.branchno,'xiaomi')>0 THEN '小米' WHEN instr(O.branchno,'huawei')>0 THEN '华为' WHEN instr(O.branchno,'iphone'
分类: 其他 发布时间: 07-10 22:29 阅读次数: 0

hive:函数:条件函数:coalesce 返回从左到右返回第一个不为NULL的值

coalesce(var1, var2, var3, …),从左到右返回第一个不为NULL的值。 select coalesce(null,null,"你","好","明","天") filed; 返回: 你
分类: 其他 发布时间: 07-10 22:29 阅读次数: 0

spark:scala:进阶+特性

跳出循环语句的3种方法: 多维数组: Tuple拉链操作、Java Map与Scala Map的隐式转换 扩大内部类作用域的2种方法、内部类获取外部类引用 package与import: 重写field的提前定义、Scala继承层级、对象相等性 文件操作实战详解 遍历文件中每一行: 遍历文件中每一个字符: 读取百度首页所有字符: 结合java io 写文件: 递归遍历子目录: 序列化是将内存中对象转换为结构化 二进制并存储到磁盘,反序列化是再反序列化为对象。 序列化: 反序列化: 偏函数: 执
分类: 其他 发布时间: 07-10 22:29 阅读次数: 0

hive:函数:map / json

例1: select map(clientname,clientid) from dws.dws_awa_t_cal_recomperiods_result limit 10 返回: {"陕西天诚软件有限公司":"51025"} {"天俱时工程科技集团有限公司":"79261"} {"杭州览众数据科技有限公司":"48848"} {"上海融道文化传播有限公司":"157776"} {"奈良(上海)商务咨询有限公司":"129871"} {"深圳市自然醒智慧家居有限公司":"82233"}
分类: 其他 发布时间: 07-10 22:29 阅读次数: 0

hive:函数:get_json_object和json_tuple 操作json数据(hive加载json数据和解析json)

业务情景一: hive加载json数据到表中: linux本地创建文件people.json 数据为: {"name":"Michael"} {"name":"Andy", "age":30} {"name":"Justin", "age":19} 创建表: CREATE TABLE ods.spark_people_json ( `name` string, `age` INT ) ROW FORMAT SERDE 'org
分类: 其他 发布时间: 07-10 22:28 阅读次数: 0