Uber sql

  1. 给了trips,driver表格,1.要求得到每个大陆trip最多的城市,2.每天每个司机过去50天的平均trip,第二问我写了个self join, 被追问了更好的方法,就说可能可以window function avg函数具体没有用过,然后面试官就说可以用preceding放在partition by里面
  2. id/date/status(canceled, complete..) 找到每个id每个date截至的cancellation rate. 即找到这个date之前所有的cancellation #/这个date之前的total ride

Coding:

  1. value = { 1,2,3,4,5} weight = {1, 0.5, 3, 33, 17}. check 1point3acres for more.

怎么样sample value, 使 sample 4 的可能性使3的 11 倍。比如你有三个元素1,2,3,比重分别是500,800,1000,那么你TreeMap里面存的应该就是{1,500},{2,1300},{3,2300},每次随机一个0-2299的数,落在0-499的返回1,落在500-1299的返回2,落在1300-2299的返回3.
就是说sample weight决定了value被sample到的probability。要写个function。

‘在weight里面,4的weight是33, 3的weight是3, 不是已经11倍了吗?谁能解惑一下?’
意思是要你sample (value), 使得4 被抽到的概率是3被抽到的概率的11倍。

‘所以只要自己决定double weight 就完了?’. From 1point 3acres bbs
weight里面的值都是随便写的,要自己处理一下,这样保证不管weight的具体值是多少,相对的值是weight list里的

  1. 给一个list [2,2,3,4,5,5,5,7] 自选数据结构,输出每个元素以及repeat 次数。
  2. 给一个 log file,log file 里面每一行可能长这样

    akdsjflsj 127.0.0.1 asf alskdj alksfj;elifj
    kafsljlkjf; aklejf l;kaejlfkejflake 987.654.458.1
    flkasdjfl;a fklasdj flkaj l;fkdjas ;lkfj 123.123.123.123

    问所有 IP 出现的频率,依照多到少排序

猜你喜欢

转载自www.cnblogs.com/ffeng0312/p/10212209.html