人間の得点よりもはるかに高い中国の候補を、スコアにAI

研究の多くは、GREを含む電子評価者の得点機を含む、記事を判断するために多くのAIの仕組み、明白な欠陥があることが示されているがあります。
しかし、長年、AIだけでなく、エッセイ試験の多様性を放棄されていないが、より多くの人気。

GRE:人よりもマシンは中国の候補者を好みます

早ければ 1999年 、電子評価者とのスコアを書き始めるために、GREアメリカの教育テストサービス(ETS)が主催。
、自然言語処理(NLP)モデルとの公式情報によると、 採点基準は 以下の8つです。
*  コンテンツ解析語彙の考察に基づき(コンテンツ分析語彙対策に基づきます)
 語彙の複雑性/言語(字句Comlexity /発声)
 構文エラー率(文法エラーの割合)
 使用上の誤り率(使用エラーの割合)
 機械的な誤差率(力学エラーの割合)
これは、スペルの間違った、間違った総額、句読点など、間違った技術的な問題を指します。
 スタイルのコメントの割合(スタイルコメントの割合)
例えば、フレーズが過度に登場し、過度の文はように、あまりにも長い文章短すぎると。
 記事の組織と開発部門(組織開発スコア)
 本格的な言語(働きがいの慣用的な言い回し機能)
もちろん、これはAIサービスGRE以上のものです。少なくとも、TOEFLやGREなど、ETSにも試験を生産しました。
このアルゴリズムについては欠陥がうそされ、ETSの公式は、多くの研究を行って、そして恥ずかしがり屋決して調査結果だろう。
1999,2004,2007,2008,2012および2018エッセイでは、AIがに見つけることができる 、中国本土の 候補のスコア、一般的に人間より高いスコア。
これとは対照的に、 アフリカ系アメリカ人の AIは、多くの場合、人間より低い点数を与え、。母国語での候補者たちは似たような状況があったが、そこに、アラビア語、スペイン語、ヒンディー語です。チームはアルゴリズムを改善したとしても、それは問題を解決しませんでした。
ETS、主任研究員は、言いました:
我々はいくつかの国のグループにアルゴリズムが優しいしたい場合、他のグループに有害​​である可能性が高いです。
さらに、個々のサブスコアは、AIの状況を観察しました。
すべての候補者は、中国本土に、内部の電子評価者候補を見つける 文法  (文法)と ライティングスキル  、一般的(力学)のポイント、低いです。
単語の長さと複雑記事の選択は、中国本土の候補者は、AIは平均を上回って得点します。最終的には、人間より高い候補者の全体的なスコアを獲得するためにAIの大陸。 1.3点以上の人間の採点平均よりも6点、AIのうちGREエッセイ
これとは対照的に、アフリカ系アメリカ人は誰、AI人間は平均得点よりも 低い0.81ポイント まあ、これは違いが来るよりも、より深刻である、そこに多くの候補者には、ちょうど平均データです。
6点満点の試験で1.3または0.81が、小さな数字ではありませんどちらか、それは真剣に候補者の業績に影響を及ぼす可能性があります。
MIT少し友人が呼ばれるに取り組んでそれ以上に、 BABEL 一緒アルゴリズム、言葉の複雑なコラージュ、得られた物品は、任意の本当の意味を持っていませんが、GREのスコアはオンラインツールだった ScoreItNow! 4点をプレイ良い成績。
しかし、ETSは言った、AIは、同じ時間得点でヒトがあり、一人年生、各エッセイのAIスコアではありません。 次いで、個々の判断に第二のクラスの人間と機械との間のスコアの差は、最終的なスコアを得ます。
だから、ETSは、候補者が悪AI欠陥の影響を受けることはないと思います。
しかし、従来の方法と比較得点で記事に同時に2人であり、AIが得点そのうちの一つ、見直しにその人の責任と同等のものを交換するとき。
おそらく多くのコストダウン、関与するメカニズムの前とAI少なくとも得点差はどのくらいの影響力と言うのは難しいの成果があります。
幸いなことに、GREのスコアは、人間とAIを持っています。
AIのエッセイに直接宣告することができ、多くの試験があります。

GREアルゴリズムは問題以上のものです

例えば、VICEの調査は、メイン(プライマリ)エッセイ採点ツールとしてユタAIを発見し、いくつかの年のために持っています。
状態の関係者は理由を説明します:
時間のかかる手動のスコアリングに加えて、それはまた、主要な州の支出です。
だから、AIとコストを削減しながら、私たちは、公正かつ公平にすることはできません、書き込みのために得点するには?
アメリカ研究会(研究,,のアメリカの研究所 AIR )非営利団体で、最も重要な試験ユタプロバイダです。
AIRは、毎年新しいトピックの数の公正性を評価する報告書を作ります。
:焦点が評価され 、特定の試験で、女の子と少数派の学生に悪い男性/白の性能よりも良いではありません この指標は、「機能の違いの質問(DIF)」と呼ばれています。
報告書は、2017年から2018年学年、成績が書面で8つの質問を通して3、があることを示している 348 ダオの 問題は、女の子と少数派の学生のためのわずかなDIFであると判断された。対照的に、男の子と白の学生のためのわずかなDIFトピックがあり 40 ダオを
女の子と少数派の学生ました:また、判定対象の3つの質問があり 、深刻なDIFは これらのトピックは、特別監査委員会と呼ぶことにします。
そこDIFのためのいくつかの理由があり、アルゴリズムのバイアスは、我々が最も懸念している要因です。
ユタ(@dahart)から一つの親は、ハッカーニュースのディスカッションボードの最上階を占めています。
彼はについて話す職員を聴くのが好きではありませんでした「コスト」。彼は、教育は常に速く、安くすることはできません、時間のかかるされていることを感じました。
彼は子供のエッセイの得点機は、家族全員がスコアに満足AIないが、妻と子供が泣くだろうと述べました。

おすすめ

転載: www.cnblogs.com/shangke0975/p/11770774.html