清洗数据

参考文献https://blog.csdn.net/binsun1102/article/details/80227779

去除重复数据,使用excel选项卡中的数据=》删除重复选项=》

特殊数据结构的拆分(1)比如上图的companyLabelList中的数据结构

                                (2)比如上述的薪水2K-5K,是需要从文本类型转换成数值类型,最好拆分成两项数据,最低数值和最高数值。

                                              (2)种类型的数据应该怎么拆解?

首先是底薪

使用提取函数left和find

LEFT(P2,FIND("k",P2,1)-1)   结合思路提取一个单元格中的字符串中第一个“k“字母以前的数据。FIND("k",P2,1)-1find的函数是查询出k的位置,k的位置-1就是k前数字的位置,最终得到了一个第一个k之前数字所占的位数。

其次是最高薪水

使用mind,search,len函数=MID(P2,SEARCH("-",P2,1)+1,LEN(P2)-SEARCH("-",P2,1)-1)

警告:最高薪水的函数使用以后也出现#value!,是因为有些公司写薪水的时候,只写了5k以上

使用的函数参考

[1]LEFT(),

用途:1)LEFT函数用于从一个文本字符串的第一个字符开始返回指定个数的字符。2)left函数用来对单元格内容进行截取。从左边第一个字符开始截取,截取指定的长度。

语法:LEFT( string, n )

参数:string :必要参数。字符串表达式其中最左边的那些字符将被返回。如果 string 包含 Null,将返回 Null。

           n :必要参数;为 Variant (Long)。数值表达式,指出将返回多少个字符。如果为 0,返回零长度字符串 ("")。如果大于或等于 string 的字符数,则返回整个字符串。

例子:MyStr = Left(AnyString, 7) '返回 "Hello W"。

[2]

FIND(find_text,within_text,start_num)

Find_text 是要查找的字符串。

Within_text 是包含要查找关键字的单元格。就是说要在这个单元格内查找关键字

Start_num 指定开始进行查找的字符数。比如Start_num为1,则从单元格内第一个字符开始查找关键字。如果忽略 start_num,则假设其为 1。

出现问题:使用函数,有的行出现了#VALUE!结果,找出原因:筛选的工资单元格,有的是大写的K,而不是小写的k.所以出现了错误

解决措施,用小写k把大写K替换了或使用search函数来替换find函数(excel这个是功能是真的nb),因为search函数是模糊查询。

[3]mind函数

MID(text, start_num, num_chars)

text是需要查找的字符串文本,可以手动输入,也可以引用单元格。

start_num是查找字符串文本中的起始位置

num_chars是所从起始位置开始的提取字符串个数,num_chars不可为负数,如大于文本长度,则提取剩余文本。

                                            (3)单元格中的数据分列

(1)把一个列的数据分成四列,选择数据=》分列=》

(2)去除每列多余的数据符号‘ [ ] '。

=》开始=》查找和替换

                                             (4)关键字段中的逻辑清洗。

在搜索关键职位的时候,因为自主性比较大,职位名称很不统一,很多是hr自己填写的,因此要筛选。首先要确定职位次数比较多的职位,这个时候要用数据透视表。

第一步:对关键字段引入数据透视表来看某列字段的关键字重复数。

(2)计数关键字段出现的次数

筛选出现次数多的数据项目,分为0和1,然后数据筛选,只呈1的数量,也就是数据大于0的次数。

最终呈现出来主要的职位名称,根据逻辑筛选出关键字段,“”数据分析","数据运营","分析师“,只要包含这三个字,就代表数据相关。具体操作如下:

筛选1字段,0字段就删除。

发布了56 篇原创文章 · 获赞 2 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/fan13938409755/article/details/104310771