Re41:读论文 NumLJP Razonamiento consciente de la magnitud mejorada del conocimiento judicial para el juicio legal numérico p

Los dioses son silenciosos-directorio personal de publicaciones del blog CSDN

Nombre completo del artículo: Razonamiento consciente de la magnitud mejorado por el conocimiento judicial para la predicción numérica del juicio legal Abreviatura
del modelo: Tarea NumLJP
: LJP numérico (predicción numérica del juicio legal), se refiere a la tarea relacionada con el valor numérico en LJP, en este artículo es predecir la pena (en meses como unidad) y la multa (como tarea de clasificación ordinal).

(Este artículo llama a las multas términos de penalización. Estoy realmente devastado. No estoy seguro de si este documento es el único que hace esto).

inserte la descripción de la imagen aquí

Enlace en papel de SpringerLink: https://link.springer.com/article/10.1007/s10506-022-09337-4

Este artículo es un paper en Inteligencia Artificial y Derecho 2022. La composición tipográfica es bastante difícil de explicar en una palabra, solo puedo decir que no es imposible de leer.
Centrarse principalmente en tareas LJP numéricas.
Este documento cree que el trabajo anterior de LJP no prestó atención a la información numérica en los casos, y fue imposible conocer la comparabilidad de los valores numéricos de diferentes juicios (como 400 < 500 < 800) (comparación numérica) .
Por lo tanto, este documento propone el marco NumLJP para aprender la información numérica en el texto: primero seleccione el conocimiento del juicio (consulte la Sección 1 para obtener más detalles) y luego prediga la sentencia y la multa en función del conocimiento del juicio y la información del caso.

①un módulo de selección de conocimiento judicial: primero use el selector de conocimiento de juicio basado en el aprendizaje comparativo para distinguir el caso confuso 1. El trabajo anterior solo usó artículos legales como conocimiento externo, pero este documento usa estándares cuantitativos en escenarios reales para anclar Determinar la cantidad de referencia ( anclajes numéricos : números de referencia en el conocimiento del juicio).
②una adquisición de sentido común numérico legal: diseño de predicción numérica enmascarada (MNP) para permitir que el modelo recuerde el ancla, a fin de obtener el sentido común numérico de la ley de acuerdo con el conocimiento del juicio seleccionado.
③un módulo de razonamiento: construya un gráfico numérico basado en escalas (que consiste en anclas y valores numéricos en descripciones de hechos) para lograr un razonamiento numérico consciente de la magnitud.
Esto significa aprender las representaciones de estos números.
④Módulo de predicción de juicio: finalmente, use la descripción de hechos, el conocimiento del juicio y los números para realizar la toma de decisiones judiciales.

1. Definición del problema

La predicción numérica de sentencia judicial en este artículo predice la sentencia y la multa, las cuales se dividen en varios intervalos, lo que en realidad equivale a realizar tareas de clasificación ordinal. El indicador final también utiliza la macro-F1 de la tarea de clasificación.

Este trabajo asume que existe una relación funcional entre el intervalo del valor en los hechos del caso y el resultado final del juicio:
inserte la descripción de la imagen aquí

En el trabajo anterior del conjunto de datos CAIL2018, la precisión de la predicción de la sentencia es significativamente menor que la del delito y la ley. El autor cree que esto se debe a que el trabajo anterior ignoró la información numérica en la descripción del crimen y el hecho, y solo la consideró como palabras simples o [UNK]. (Por ejemplo, robar 1939 yuanes o 7300 yuanes dará lugar a una gran diferencia en la sentencia. La sentencia de 7000 yuanes y la multa entre los dos casos también deberían estar en el medio. Si el modelo no entiende los números, no lo hará). ser capaz de predecir correctamente Oración y comparación numérica de cantidad fina ) El trabajo de razonamiento numérico como
NumNet 2 puede realizar bien la relación de comparación.
Pero estas obras 1. ignoran el tipo de delito correspondiente al valor. Por ejemplo, AB en la figura anterior es robo y C es robo, por lo que la cantidad específica no se puede comparar directamente. 2. La magnitud se ignora (por ejemplo, 7000 está más cerca de 7300, por lo que la oración debe estar más cerca de la oración de 7300 (12 meses) conciencia de magnitud ) 3. Falta de datos de entrenamiento, muy pocos números en el caso (la solución es introducir anclas numéricas, limita el espacio de búsqueda numérica total)

Este artículo cree que el conocimiento del juicio es más práctico, detallado y cuantitativo que los artículos legales:
(La fuente verde es el punto de anclaje numérico)
inserte la descripción de la imagen aquí

Proceso de juicio:
inserte la descripción de la imagen aquí
(fuente de la imagen, otro artículo)

2. modelo

inserte la descripción de la imagen aquí

Roberta construye:
u ⃗ X , X ˉ = Roberta ( [ CLS ] ; X ) , \begin{aligned} \vec{u}^X,\bar{\mathbf {X}}={\text {RoBERTa}} ( \mathrm{[CLS]};\,X),\end{alineado}tu x ,Xˉ=Roberto ( [ CLS ] ;X ) ,
tu ⃗ X \vec{u}^Xtu X es una representación [CLS],X \mathbf {X}X es la matriz de representación de todos los tokens

1. JKS (módulo de selección de conocimiento judicial)

Clasificador de aprendizaje contrastivo: conocimiento de juicio selectivo basado en hechos delictivos (un tipo de conocimiento corresponde a un tipo de comportamiento delictivo)

Los números de un mismo hecho delictivo (referidos a la misma categoría) se utilizan para el aprendizaje comparativo (referencia 3 ):
L1: Entropía cruzada
L2: Aprendizaje contrastivo supervisado SCL (para acercar la similitud de representación de muestras similares. Se siente como un convencional función de pérdida de aprendizaje contrastivo Ah, puede consultar este artículo: aprendizaje contrastivo (actualización continua ing...) )
LJKS = ( 1 - λ ) L 1 + λ L 2 , L 1 = - 1 norte ∑ yo = 1 norte ∑ metro = 1 norte UN yi , metro UN ⋅ Iniciar sesión ⁡ y ^ yo , metro UN , L 2 = ∑ yo = 1 norte - 1 norte yi UN - 1 ∑ j = 1 norte 1 yo ≠ j 1 yi UN = yj UN Iniciar sesión ⁡ Exp ⁡ ( tu ⃗ yo X ⋅ tu ⃗ j X / τ ) ∑ k = 1 norte 1 yo ≠ k exp ⁡ ( tu ⃗ yo X ⋅ tu ⃗ k X / τ ) , \begin{alineado} \begin{alineado} \mathcal {L}_{\mathrm {JKS}}&=(1-\lambda ) \mathcal {L}_{1}+\lambda \mathcal {L}_{2}, \\ \mathcal {L}_{1}&=-\frac{1}{N} \sum _{i=1} ^{N} \sum _{m=1}^{n^{\mathcal {A}}} y_{i,m}^{\mathcal {A}} \cdot \log \hat{y}_{i ,m}^{\mathcal {A}},\\ \mathcal {L}_{2}&=\sum _{i=1}^{N}-\frac{1}{N_{y_{i}^{\mathcal {A}}}-1} \sum _{j=1}^{N} \mathbf {1}_{i \ne j} \mathbf {1}_{y_{i}^{\mathcal {A}}=y_{j}^{ \mathcal {A}}}\\&\quad \log \frac{\exp \left( \vec{u}_i^X \cdot \vec{u}_j^X / \tau \right) }{\sum _{k=1}^{N} \mathbf {1}_{i \ne k} \exp \left( \vec{u}_i^X \cdot \vec{u}_k^X / \tau \right ) }, \end{alineado} \end{alineado}LJKSL1L2=( 1l ) L1+λL _2,=norte1yo = 1nortemetro = 1norteunyyo _ _uniniciar sesióny^yo _ _un,=yo = 1nortenorteyiun11j = 1norte1i= j1yiun= yjuniniciar sesiónk = 1norte1i= kExp(tu iXtu kX/ t )Exp(tu iXtu jX/ t ).,

Identificar tipos numéricos detallados

2. MNP (adquisición de sentido común numérico legal)

Hacer predicción numérica enmascarada (MNP) sobre el conocimiento del juicio: adquirir sentido común numérico legal en el conocimiento del juicio

inserte la descripción de la imagen aquí

Usar paradigmas categóricos para predecir (los vocabularios son todos anclas numéricas)

LMNP = − 1 norte ∑ yo = 1 norte ∑ j = 1 norte UN ∑ k = 1 norte V yi , jk ⋅ Iniciar sesión ⁡ y ^ yo , jk , \begin{alineado} \mathcal {L}_{\mathrm {MNP }}&=-\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{n^A} \sum_{k=1}^{n ^{V}} y_{i,j}^k \cdot \log \hat{y}_{i,j}^k, \end{alineado}LMNP=norte1yo = 1nortej = 1norteunk = 1norteVyyo , jkiniciar sesióny^yo , jk,

3. MagNet (módulo de razonamiento)

Gráfico numérico basado en escalas Los nodos
de gráficos dirigidos heterogéneos son descripciones fácticas y valores numéricos
en los bordes del conocimiento del juicio son relaciones de comparación y magnitud: mayor que/menor que (REL)+MAG

Bordes entre 72 y 100:
inserte la descripción de la imagen aquí

El cálculo de este MAG es bastante complicado, no lo entendí muy bien, así que simplemente lo copié. Si alguien conoce el principio, por favor dígame cuál es:

  1. Dividir por una escala específica. Multiplicador de diseño, multiplicador de características
    inserte la descripción de la imagen aquí
  2. MinDiff
  3. scalet = MinDiff ( vi A , vj A ) N t scale^t=\frac{ { \text {MinDiff}}(v_i^A, v_j^A)}{N^t}escala _ _ _t=nortetDifmin ( viun, vjun)
    Nt N^tnortet要满足:⌈ ∗ ⌉ mtscalet ≤ fmax , \begin{aligned} \lceil *\rceil {\frac{m^t}{scale^t}}\le f_{max}, \end{aligned}escala _ _ _tmetrotFmáximo _,(El tamaño está relacionado con el compromiso entre precisión/recuperación)
  4. factor multiplicativo: f = ⌈ ∗ ⌉ ∣ n ( vi ) − n ( vj ) ∣ scaletf=\lceil *\rceil {\frac{\mid n(v_i)-n(v_j)\mid }{scale^t} }F=escala _ _ _tnorte ( vyo) - norte ( vj)
    F ∈ { 1 , . . . , Nf } f\in \{1,...,N^f\}F{ 1 ,... ,nortef }N f N ^ fnorteF se puede ajustar a 100)
  5. inserte la descripción de la imagen aquí

MagNet (red de razonamiento numérico consciente de la magnitud): valor de representación (no entendí la introducción específica, no la escribiré, ¿probablemente significa usar un GAT?)

MX = WMX ˉ , MA = WMA ˉ , U = MagNet ( G ; MX , MA , u ⃗ X , u ⃗ A ) , \begin{alineado} \begin{alineado} \mathbf {M}^X&= \mathbf { .W}^M\bar{\mathbf {X}},\\ \mathbf {M}^A&= \mathbf {W}^M\bar{\mathbf {A}},\\\mathbf {U}& = {\text {MagNet}}(\mathcal {G};\mathbf {M}^X,\mathbf {M}^A,\vec{u}^X,\vec{u}^A), \end { alineado} \end{alineado}METROXMETROAtu=WMETROX, _=WMETROA, _=imán (G;METROx ,METROun ,tu x ,tu A ),

Combinando las representaciones numéricas en la descripción del hecho y el conocimiento del juicio, y realizando una transformación lineal para obtener una representación semántica consciente de la magnitud:
M num = U [ IX , IA ] , MO = WO [ M num ; [ MX ; MA ] ] , \ comenzar{ alineado} \begin{alineado} \mathbf {M}^{num}&= \mathbf {U}[\mathbf {I}^X,\mathbf {I}^A],\\ \mathbf {M} ^{ O}&= \mathbf {W}^{O}[\mathbf {M}^{num};[\mathbf {M}^X;\mathbf {M}^A]], \end{alineado} \end {alineado}METROnúmero _ _METROO=tu [ yox ,Iun ],=WO [Mnúmero ; _ _[ Mx ;METROA ]],

4. módulo de predicción de juicio

Toma de decisiones judiciales con descripciones fácticas, conocimiento de sentencias y cifras (las sentencias son más finas que la clasificación de LADAN 4 ).

Entropía cruzada utilizada en trabajos anteriores:
LP = − 1 N ∑ i = 1 N ∑ j = 1 n P yi , j P ⋅ log ⁡ y ^ i , j P , \begin{aligned} \mathcal {L}^P& = -\frac{1}{N} \sum _{i=1}^{N} \sum _{j=1}^{n^{P}} y_{i,j}^{P} \cdot \ log \hat{y}_{i,j}^{P}, \end{alineado}Lpag=norte1yo = 1nortej = 1nortepagyyo , jpaginiciar sesióny^yo , jpag,

再 提出 一 个 损失函数 :
Li = - 1 n ∑ i = 1 n {yi ℓ ⋅ log ⁡ y ^ i ℓ ⏞ ⏞ ⏞ ⏞ ⋅ yid ⋅ log ⁡ y ^ id ⏞ muerte + ∑ k = 0 300 yi, k i ⋅ iniciar sesión ⁡ y ^ yo , k yo [ iniciar sesión ⁡ ( vi , k yo ) − iniciar sesión ⁡ ( v ^ yo , k yo ) ] 2 ⏟ menos de 25 años (300 meses) } , \begin{alineado} \mathcal {L }^I =&-\frac{1}{N}\sum _{i=1}^{N}\{\overbrace{y_{i}^{\ell }\cdot \log \hat{y}_ {i}^{\ell }}^{\text {cadena perpetua}}+\overbrace{y_{i}^{d}\cdot \log \hat{y}_{i}^{d}}^{ \text {muerte}}\nonumber \\&+\underbrace{\sum _{k=0}^{300}y_{i,k}^I\cdot \log \hat{y}_{i,k} ^{I}[\log (v_{i,k}^I)-\log (\hat{v}_{i,k}^{I})]^2}_{\text {menos de 25 años (300 meses)}}\text { }\}, \end{alineado}LI=norte1yo = 1norte{ yiiniciar sesióny^i cadena perpetua+yireiniciar sesióny^ire muerte+menos de 25 años (300 meses) k = 0300yyo k _yoiniciar sesióny^yo k _yo[ lo g ( vyo k _yo)lo g (v^yo k _yo) ]2 } ,
(v es magnitud, extraño. También es comprensible)

总的 función de pérdida:
L total = γ LJKS + ( 1 − γ ) LMNP + LI + LP . \begin{alineado} \mathcal {L}_{total}&= \gamma \mathcal {L}_{\mathrm {JKS}}+(1-\gamma )\mathcal {L}_{\mathrm {MNP} }+\mathcal {L}^{I}+\mathcal {L}^{P}. \end{alineado}Len total _ _ _=γL _JKS+( 1c ) LMNP+LI+LP .

3. Experimenta

3.1 Conjunto de datos

CAIL2018 5 : Sentencias y Multas

  • CAIL-pequeño
  • CAIL-grande

AIJuez 6 : Penalizaciones

Ejemplos de anclas numéricas:
inserte la descripción de la imagen aquí

Gráfico estadístico de nodos y bordes de gráficos numéricos:
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

La parte de preprocesamiento de datos debe complementarse.

3.2 Indicadores

Métricas para tareas de clasificación: precisión (Acc.), macro-precisión (MP), macro-recall (MR) y macro-F1 (F1)

ImpScore(interpretación)
h = ∣ log ⁡ ( I ​​​​p + 1 ) − log ⁡ ( I ​​​​g ) + 1 ∣ , ImpScore = { 1 , h ≤ 0.2 , 0.8 , 0.2 < h ≤ 0.4 , 0.6 , 0.4 < h ≤ 0,6 , 0,4 , 0,6 < h ≤ 0,8 , 0,2 , 0,8 < h ≤ 1 , 0 , otro \begin{alineado} h= & {} \mid \log(I_p+1)-\log(I_g)+1\mid ,\nonumber \\ \text { {\textbf {ImpScore}}}= & {} \ izquierda\{\begin{matriz}{rcl}1, &{}&{}{h\le 0.2,}\\ 0.8, &{}&{}{0.2<h\le 0.4,}\\ 0.6, & {}&{} {0.4<h\le 0.6,}\\ 0.4, &{}&{} {0.6<h\le 0.8,}\\ 0.2, &{}&{} {0.8<h\le , }\\ 0, &{}&{}{otro.}\end{matriz}\right. \end{alineado}h=ImpScore=log ( yo _pag+1 )log ( yo _g)+1, 1 ,0.8 ,0.6 ,0.4 ,0.2 ,0 ,h0.2 ,0.2<h0.4 ,0.4<h0.6 ,0.6<h0.8 ,0.8<h1 ,otro . _ _ _

3.3 línea de base

  1. JUEZ SUPERIOR
  2. MPBFN
  3. CPTP
  4. NeurJudge 7
  5. NumNet 2 → reemplace el codificador con RoBERTa y continúe con la capacitación previa sobre el texto legal

3.4 Configuración experimental

Para ser llenado

Aquí se utiliza un truco de recorte de gradiente, al que se puede hacer referencia en la tarea de combinar GNN+NLP. Pero no lo uso en este momento, así que solo lo recuerdo.

3.5 Resultados del experimento principal

Pronóstico de penales:
inserte la descripción de la imagen aquí

Pronóstico de oraciones:
inserte la descripción de la imagen aquí

3.6 Análisis experimental

Para ser llenado


  1. Cuando se trata de casos confusos, todos deberían tener la primera reacción de pensar en la sensibilidad de LADAN 4 y NeurJudge 7 . ↩︎

  2. (2019 EMNLP) NumNet: Comprensión de lectura automática con razonamiento numérico ↩︎ ↩︎

  3. Aprendizaje contrastivo supervisado para el ajuste fino del modelo de lenguaje preentrenado ↩︎

  4. Re27: Leer el artículo LADAN Distinguir artículos legales confusos para la predicción de juicios legales ↩︎ ↩︎

  5. https://github.com/thunlp/CAIL ↩︎

  6. https://www.datafountain.cn/competitions/277 ↩︎

  7. (2021 SIGIR) Re38:读论文 NeurJudge: un marco neuronal consciente de las circunstancias para la predicción de juicios legales ↩︎ ↩︎

Supongo que te gusta

Origin blog.csdn.net/PolarisRisingWar/article/details/131420142
Recomendado
Clasificación