Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Transliteration

Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Transliteration

Transliteration

在这里插入图片描述

在这里插入图片描述

参考链接:https://forum.rasa.com/t/phonetics-featurizer/42132/4

嘿@koaning,首先让我快速说我正在使用希腊语。关于 CountVerctorsFeaturizer,我们在使用 ngram 时遇到了一些问题。主要是我们得到错误分类,因为一个词是另一个词的子串,或者它们具有相同的起源。让我们说“εισερχομενες”和“εξερχομενες”,这意味着传入和传出。这在希腊语中经常发生。我想英语中的一个例子可能是“分类”和“出版”。希腊语中有一种“新”语言,称为希腊语。这意味着人们写希腊语但使用英文字符,因为他们厌倦了切换键盘(主要是年轻人)。所以一个人会写成“εισερχομενες”,另一个人会写成“eiserxomenes”。这就像人们在写作时实际上正在做某种语音处理。这不适用于简单的 ngram。我想了两种方法来解决这个问题:

一种是创建一个自定义预处理器(已经有)并将消息更改为基于语音的消息,然后运行 ​​message.set(text) 以更改管道中下一个组件的消息。这也将在训练期间处理处

猜你喜欢

转载自blog.csdn.net/duan_zhihua/article/details/123932239