nlp事件抽取入门笔记(1)

 本博客完全根据博主自己的理解写出来的有意见的欢迎提出。
 首先提出问题：
     1、nlp是什么？
     2、nlp的事件抽取是什么？
     3、事件抽取所处的位置？
     4、事件抽取的方法有哪些？
     5、模式匹配方法如何进行事件抽取？
     6、机器学习方法如何进行事件抽取？
     7、基于机器学习方法抽取方式的特点？
  1、nlp是什么？
    nlp是自然语言处理，是电脑理解并表达出人们平常的所说的语言。
  2、nlp的事件抽取是什么？
    事件抽取是从非结构信息中抽取出用户感兴趣的信息，并以结构化数据传递给用户。
  3、事件抽取所处的位置？
    事件抽取是信息抽取的一部分。事件抽取的又分为元事件抽取和主题事件抽取。
    元事件抽取是动作状态级的，动作产生或状态发生变化，一般由动词驱动。
    主题事件抽取是事件级的，一类核心事件或活动以及与他们相关的事件和活动。
    博主现在所研究的是元事件抽取下机器学习方法。
  4、事件抽取的研究方法有哪些？
    事件抽取的研究方法有模式匹配和机器学习两种。模式匹配只针对特定领域，移植性差。机器学习应用广泛，移植性好。
  5、模式匹配方法如何进行事件抽取？
    模式匹配方法是在一定模式的指导下进行事件的识别和抽取。
    模式：指的是抽取模式。通过领域知识和语言知识对目标信息的上下文环境进行约束。而这约束条件就是抽取模式。
    另外模式是手工建立的，耗时又费力，所以现在用的都是机器学习方法的事件抽取。
  6、机器学习方法如何进行事件抽取？
    对元事件抽取两大主要任务：对事件识别与分类和对事件元素进行识别和分类。事件元素识别和分类是事件识别和分类
    的基础。
    有关论文显示：机器学习算法混合使用将优于单一算法。
    事件的探测分两种实现方式：基于触发词的探测方式和基于事件的事例的探测方式。
      基于触发词的探测方式：
    基于触发词的探测方式的有正反例不平衡和数据稀疏的缺点。因为只有少量触发词作为输入数据进行训练，大量未参与
    进来的。
    作为反例数据参与到模型中，造成正反例不平衡，触发词数据稀疏。
    解决触发词探测缺点的方法：通过同义词扩展和二分类结合的方法进行解决，即将触发词放入词典中进行同义词扩展。
      基于事件实例的探测方式：
    基于事件实例的探测方式是将句子而不是词语作为识别实例。进而通过聚类方法转化为句子聚类问题，通过聚类得到事
    件句。
    避开了基于触发词探测的缺点。
  7、基于机器学习方法抽取方式的特点？
    （1）机器学习方法的优点是自动获取模式。
    （2）机器学习方法不基于语料的格式和内容，但需要大量标准预料（解决方法:无监督和半监督的方法）
nlp事件抽取入门笔记(1)

猜你喜欢