算法刷题（4）

题目一：基于统计的分词方法为（）

正向最大匹配法

逆向最大匹配法

最少切分

条件随机场

解析：答案（D）

分词主要分为三类：
第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。

第二类是机械式分词法（即基于词典），A和B都是属于这种。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分。基于词典的机械分词法,实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计,用一个含有70000个词的词典去切分含有15000个词的语料库,仍然有30%以上的词条没有被分出来,也就是说有4500个词没有在词典中登录。

第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。

题目二：下面哪些对「类型 1（Type-1）」和「类型 2（Type-2）」错误的描述是错误的？

类型 1 通常称之为假正类，类型 2 通常称之为假负类

类型 2 通常称之为假正类，类型 1 通常称之为假负类

类型 1 错误通常在其是正确的情况下拒绝假设而出现

解析：正确答案是：A，在统计学假设测试中，I 类错误即错误地拒绝了正确的假设即假正类错误，II 类错误通常指错误地接受了错误的假设即假负类错误。参考

题目三：给线性回归模型添加一个不重要的特征可能会造成？

增加 R-square

减少 R-square

解析：答案为（A）：在给特征空间添加了一个特征后，不论特征是重要还是不重要，R-square 通常会增加。 R-square定义如下: 在给特征空间添加了一个特征后，分子会增加一个残差平方项, 分母会增加一个均值差平方项, 前者一般小于后者, 所以不论特征是重要还是不重要，R-square 通常会增加。

To be continue......

张楚岚

发布了67 篇原创文章 · 获赞 16 · 访问量 4万+

私信关注

猜你喜欢