算法导论 — 思考题7-6 对区间的模糊排序

（对区间的模糊排序）考虑这样的一种排序问题：我们无法准确知道待排序的数字是什么。但对于每一个数，我们知道它属于实数轴上的某个区间。也就是说，我们得到了 $n$ 个形如 $[a_i, b_i]$ 的闭区间，其中 $a_i ≤ b_i$ 。我们的目标是实现这些区间的模糊排序，即对 $j = 1, 2, …, n$ ，生成一个区间的排列 $<i_1, i_2, …, i_n>$ ，且存在 $c_j ∈ [a_{i_j}, b_{i_j}]$ ，满足 $c_1 ≤ c_2 ≤ … ≤ c_n$ 。
　　a. 为 $n$ 个区间的模糊排序设计一个随机算法。你的算法应该具有算法的一般结构，它可以对左边端点（即 $a_i$ 的值）进行快速排序，同时它也能利用区间的重叠性质来改善时间性能。（当区间重叠越来越多的时候，区间的模糊排序问题会变得越来越容易。你的算法应能充分利用这一重叠性持。）
　　b. 证明：在一般情况下，你的算法的期望运行时间为 $Θ(n{\rm lg}n)$ 。但是，当所有的区间都有重叠的时候，算法的期望运行时间为 $Θ(n)$ （也就是说，存在一个值 $x$ ，对所有的 $i$ ，都有 $x ∈ [a_i, b_i]$ 。）你的算法不必显式地检查这种情况，而是随着重叠情况的增加，算法的性能自然地提高。
　　
　　解
　　a.
　　考虑 $2$ 个区间 $[a_i, b_i]$ 和 $[a_j, b_j]$ 之间的关系，分为 $3$ 种情况：
　　1) $b_i < a_j$
　　此时， $2$ 个区间不相交，并且 $[a_i, b_i]$ 在 $[a_j, b_j]$ 的左边。对任意的 $c_i∈[a_i, b_i]$ 和 $c_j∈[a_j, b_j]$ ，必有 $c_i < c_j$ 。所以，在对区间的模糊排序中， $[a_i, b_i]$ 必须要排在 $[a_j, b_j]$ 的左边。因此，可以认为 $[a_i, b_i] < [a_j, b_j]$ 。
　　2) $b_j < a_i$
　　此时， $2$ 个区间不相交，并且 $[a_i, b_i]$ 在 $[a_j, b_j]$ 的右边。对任意的 $c_i∈[a_i, b_i]$ 和 $c_j∈[a_j, b_j]$ ，必有 $c_i > c_j$ 。所以，在对区间的模糊排序中， $[a_i, b_i]$ 必须要排在 $[a_j, b_j]$ 的右边。因此，可以认为 $[a_i, b_i] > [a_j, b_j]$ 。
　　3) $b_i ≥ a_j$ 并且 $b_j ≥ a_i$
　　此时， $2$ 个区间重叠。这意味着至少存在一个 $c$ ，使得 $c∈[a_i, b_i]$ 并且 $c∈[a_j, b_j]$ 。根据模糊排序的定义， $[a_i, b_i]$ 和 $[a_j, b_j]$ 的排列顺序可以任意。因此，可以认为 $[a_i, b_i] = [a_j, b_j]$ 。
　　根据以上分析，可以将区间当成可以比较的数字一样，对一组区间调用快速排序。为了改善区间重叠情况的排序性能，可以利用思考题7-2提供的方法，对区间相等的情况作特殊考虑。
　　
　　b.
　　根据思考题7-2的分析，如果所有区间都重叠，这意味着所有区间都相等，这种情况的排序时间复杂度为 $Θ(n)$ 。
　　也如思考题7-2的结论，该算法的期望运行时间为 $Θ(n{\rm lg}n)$ 。

算法导论 — 思考题7-6 对区间的模糊排序

猜你喜欢