本贴根据给出相应研究方向的基础知识, 供研究生选择方向用.

1. 多标签学习

1.1 什么是多标签学习?

给 $10^4$ 张猫/狗的照片, 并给每一张给出标注 (只能是猫或狗其中之一), 机器学习之后获得一个模型. 给一张新的照片, 机器判断上面是猫还是狗, 这就是二分类学习问题 (binary classification).
给 $10^4$ 张猫/狗/兔的照片, 并给每一张给出标注 (只能是猫或狗或兔其中之一), 机器学习之后获得一个模型. 给一张新的照片, 机器判断上面是猫还是狗, 这就是多分类学习问题 (multi-class learning).
给 $10^4$ 张猫/狗/兔的照片, 并给每一张给出标注 (可以是猫狗兔的任意组合, 甚至它们都不出现), 机器学习之后获得一个模型. 给一张新的照片, 机器判断上面有哪些动物, 这就是多标签学习问题 (multi-label learning).

在实际应用中, 多标签数据比单标签数据更常见, 除了一张图片里面有不同动物, 一本小说可以有不同元素, 一部电影可以有不同演员.

1.2 多标签学习有哪些难点?

标签稀疏性. 假设可能的动物有 $10^3$ 种, 每张图片里面只有少量的几种. 如果你总是猜图片里面什么动物都没有, 也可以达到非常高的准确率, 但这没有意义. 所以我们可以用 $F_1$ 或者 AUC 来进行效果评价. 参见 F-measure 与代价敏感评价指标.
标签相关性.
缺失标签. 还是参见多标签学习之白话版, 多标签学习之数学语言版.

1.3 我们取得了哪些进展?

当前主要在做多标签主动学习, 即开始的时候训练集没有标签, 学习器选择一些重要的标签进行查询, 并利用它们进行训练. 由于我们在主动学习方面有些积累, 做起来还是比较顺手. 主动学习的论文参见 http://www.fansmale.com/publications.html, 建议先看 Active learning through density clustering 这一篇, 代码在日撸 Java 三百行（61-70天，决策树与集成学习）第 66-68 天.
MASP 这篇论文正在投稿, 需要代码的同学私下找我要.

1.4 小组成员

钱坤 (博二), 闵雪阳 (研二), 彭月 (研二), 霍一帆 (研一), 张星移 (研零)

2. 地震数据增强与反射系数反演

友情提示: 本人对地震数据处理的传统方法真的不懂, 完全是抱合作者地科院潘教授的大腿. 不过这两年我多少学了点皮毛.

2.1 什么是地震数据?

地震分为两种: 天然地震和人工地震.
除了我们知道的千万灾害的天然地震外, 还有很多小的震动, 不过我们当前不搞这个.
人工地震能过人为地用炸药、地震车制造振动, 然后用一串检波器搜集从地底下传回的震动数据, 以此获得地层信息. 这一串检波器一般均匀地排成一列, 数据采集只有几秒时间, 每次获得的数据称为一炮 (one short). 地震数据统称为 seismic data. 地震数据一般具有相应的密级, 不搞这个专业, 或者没有与甲方签订协议, 就很难获得相应.
通俗地说, 人工地震就是给地球打 CT, 能过 地震数据反演, 获得矿藏、油气的重要信息.

2.2 什么是分辨率增强?

单炮的地震数据一般用一个矩阵表示, 可视化后, 就很像一幅图. 原始的地震数据, 看起来模模糊糊的, 如果能够进行分辨率增强, 就会把地层信息更清晰地表示出来.
参见散打地震波分辨率增强 (纯讨论).

2.3 什么是反射系数反演?

当地震波通过两个不同介质的地层时, 会有明显的反射和折射, 反射系数反演就是从地震数据推导出反射系数.
参见反射系数反演之非专业理解.

2.4 我们取得了哪些进展?

当前, 三位成员在实际数据上都获得了较好的结果. 但仅有一篇会议论文发表了, 有一篇期刊论文在审稿过程中, 两篇论文准备近期投稿, 细节不在这里公布.
最近有一个用深度学习做地震数据处理的几个关键点 (简单讨论), 真的是简单讨论.

2.5 小组成员

石云鹏 (博三), 王林蓉 (研一, 保研生), 唐金玉 (研一, 保研生), 曾斗 (研一).

3. 地震数据静校正

3.1 什么是静校正?

勘探的过程中, 会放很多炮, 因此对于同一地点的地层, 有不少观测值, 每次为一道. 我们不能完全信任其中任何一道, 而应将它们进行某种综合, 获得更可靠的结果. 静校正就是将不同道的波峰、波谷进行合适的叠加. 但是, 由于有很多炮点 ( $10^3$ +)、检波点 ( $10^3$ +), 导致这个问题的方程个数 (10^6+) 远远多于变量个数, 即它是一个超定方程组.

3.2 我们取得了哪些进展?

正在用遗传算法做, 已发表一篇会议论文.

3.3 小组成员

吴淼 (研二), 胥可 (研一).

4. 强化学习

4.1 什么是强化学习?

强化学习是一种基于试错、延迟奖励/惩罚的学习. Alpha Go 结合了深度学习与强化学习, 近几年大放异彩.
要获得感性的认识, 参见: 强化学习板块, 有强化学习的两个极简例子: 井字棋与迷宫问题.

4.2 我们取得了哪些进展?

用机器模拟棋手的风格. 已投出论文一篇, 第二篇正在打磨中.

4.3 小组成员

潘超凡 (研二).
说实话这个方向不是那么容易进入, 涉及不少的数学知识.

5. 油田产量数据选用策略

纯粹从实际问题提取而来.
问张曦.
换时间再写.

6. GIS 数据主动学习

也是从实际到理论.
问张庆.
换时间再写.

7. 路径规划

这方面也有实际项目的需求.
小组成员: 何坤、左海民.
换时间再写.

近期研究方向 (内部参考)