Uber sql

给了trips，driver表格，1.要求得到每个大陆trip最多的城市，2.每天每个司机过去50天的平均trip，第二问我写了个self join，被追问了更好的方法，就说可能可以window function avg函数具体没有用过，然后面试官就说可以用preceding放在partition by里面
id/date/status(canceled, complete..) 找到每个id每个date截至的cancellation rate. 即找到这个date之前所有的cancellation #/这个date之前的total ride

Coding:

value = { 1,2,3,4,5} weight = {1, 0.5, 3, 33, 17}. check 1point3acres for more.

怎么样sample value，使 sample 4 的可能性使3的 11 倍。比如你有三个元素1,2,3，比重分别是500,800,1000，那么你TreeMap里面存的应该就是{1，500}，{2,1300}，{3,2300}，每次随机一个0-2299的数，落在0-499的返回1，落在500-1299的返回2，落在1300-2299的返回3.
就是说sample weight决定了value被sample到的probability。要写个function。

‘在weight里面，4的weight是33， 3的weight是3，不是已经11倍了吗？谁能解惑一下？’
意思是要你sample （value)，使得4 被抽到的概率是3被抽到的概率的11倍。

‘所以只要自己决定double weight 就完了?’. From 1point 3acres bbs
weight里面的值都是随便写的，要自己处理一下，这样保证不管weight的具体值是多少，相对的值是weight list里的

给一个list [2,2,3,4,5,5,5,7] 自选数据结构，输出每个元素以及repeat 次数。
给一个 log file，log file 里面每一行可能长这样

akdsjflsj 127.0.0.1 asf alskdj alksfj;elifj
kafsljlkjf; aklejf l;kaejlfkejflake 987.654.458.1
flkasdjfl;a fklasdj flkaj l;fkdjas ;lkfj 123.123.123.123

问所有 IP 出现的频率，依照多到少排序

猜你喜欢