hive中转义字符的使用

Hadoop和Hive都是用UTF-8编码的,所以, 所有中文必须是UTF-8编码, 才能正常使用

备注:中文数据load到表里面, 如果字符集不同,很有可能全是乱码需要做转码的, 但是hive本身没有函数来做这个

一、转义字符的特殊情况:

自身的转义,比如java有时候需要两个转义字符"\\",或者四个转义字符“\\\\”。

1)java的俩种情况:

a.正则表达式匹配和string的split函数,这两种情况中字符串包含转义字符“\”时,需要先对转义字符自身转义,就是说需要两个转义字符“\\”。比如\n,\t等(java解析后,再有正则和split自身特定进行解析)

b.而当匹配字符正斜线“\”,则需要四个转义字符“\\\\”,因为,首先java(编译器?)自身先解析,转义成两个“\\”,再由正则或split的解析功能转义成一个“\”,才是最终要处理的字符。

这是因为解析过程需要两次,才能在字符串中出现正斜线“\”,出现后才能转义后面的字符。

2)hive中的split和正则表达式

hive用java写的,所以同Java一样,两种情况也需要两个“\\”,

split处理代码为例:

a.split(dealid,'\\\\')[0] as dealids,1: 代码中,如果以“\”作为分隔符的话,那么就需要4个转义字符“\\\\”,即

b.split(all,'~') :这里切分符号是正则表达式,按一个字符分隔没问题 

c. split(all,'[|~]+'): 在[]内部拼接成字符串

3)hive语句在shell脚本中执行 

shell语言也有转义字符,自身直接处理。 

而hive语句在shell脚本中执行时,就需要先由shell转义后,再由hive处理。这个过程又造成二次转义。 

如上面的hive语句写入shell脚本中,执行是错误的,shell先解析,转义成”|“后传给hive,hive解析这个转义字符后,split就无法正确的解析了。 

所以,注意hive语句在shell脚本执行时,转义字符需要翻倍。hive处理的是shell转义后的语句,必须转以后正确,才能执行。

注意:是否使用转义字符是看这个字符在这个语言中有没有特殊意义,有的话,就需要加上\来进行转义、

转义字符的使用:

转义字符

无转义符

转义符\

转义符\\

转义符\\\

"

"

\"

\\”

 

\

不可识别 

不可识别 

不可识别 

\\\\

/

/

\/

\\/

\\\/

'

不可识别 

\'

不可识别  

\\\'

~

~

\~

\\~

 

|

|

\|

\\|

\\\|

;

;

\;

\\;

 

:

:

\:

\\:

 

,

,

\,

\\,

 

.

.

\.

\\.

 

!

!

\!

\\!

 

(

(

\(

\\(

 

)

)

\)

\\)

 

[

不可识别 

不可识别

\\[

 

]

]

\]

\\]

 

{

{

\{'

\\{

 

}

}

\}

\\}

 

?

?

\?

\\?

 

_

_

\_

\\_

 

-

-

\-

\\-

 

#

#

\#

\\#

 

##

##

\##

\\##

\\\##

&

&

\&

\\&

 

^

^

\^

\\^

 

二、案例:原数据表

1.\符号

(1)regexp_replace(dealids,'\\[','\\\\')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','\\\\') as place

 From temp.track_join_rtq_freq_20181029

limit 10

 注意:

2.[与]符号

(1)\\[:split(dealids,'\\[')

%jdbc(hive)

Select split(dealids,'\\[') as place

 From temp.track_join_rtq_freq_20181029

limit 10

(2)]:split(dealids,']')

%jdbc(hive)

Select split(dealids,']') as place

 From temp.track_join_rtq_freq_20181029

limit 10

(3)\\[和[]:regexp_replace(dealids,'\\[','[]')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','[]') as place

  From temp.track_join_rtq_freq_20181029

limit 10

(4)\\[和\\{}:regexp_replace(dealids,'\\[','\\{}')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','\\{}') as place

 From temp.track_join_rtq_freq_20181029

limit 10

3.’符号

(1)\\\':regexp_replace(dealids,'\\[','\\\'')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','\\\'') as place

  From temp.track_join_rtq_freq_20181029

limit 10

发布了48 篇原创文章 · 获赞 5 · 访问量 1187

猜你喜欢

转载自blog.csdn.net/qq_34897849/article/details/102691285