Los dioses son silenciosos-directorio personal de publicaciones del blog CSDN
Nombre completo del artículo: Razonamiento consciente de la magnitud mejorado por el conocimiento judicial para la predicción numérica del juicio legal Abreviatura
del modelo: Tarea NumLJP
: LJP numérico (predicción numérica del juicio legal), se refiere a la tarea relacionada con el valor numérico en LJP, en este artículo es predecir la pena (en meses como unidad) y la multa (como tarea de clasificación ordinal).
(Este artículo llama a las multas términos de penalización. Estoy realmente devastado. No estoy seguro de si este documento es el único que hace esto).
Enlace en papel de SpringerLink: https://link.springer.com/article/10.1007/s10506-022-09337-4
Este artículo es un paper en Inteligencia Artificial y Derecho 2022. La composición tipográfica es bastante difícil de explicar en una palabra, solo puedo decir que no es imposible de leer.
Centrarse principalmente en tareas LJP numéricas.
Este documento cree que el trabajo anterior de LJP no prestó atención a la información numérica en los casos, y fue imposible conocer la comparabilidad de los valores numéricos de diferentes juicios (como 400 < 500 < 800) (comparación numérica) .
Por lo tanto, este documento propone el marco NumLJP para aprender la información numérica en el texto: primero seleccione el conocimiento del juicio (consulte la Sección 1 para obtener más detalles) y luego prediga la sentencia y la multa en función del conocimiento del juicio y la información del caso.
①un módulo de selección de conocimiento judicial: primero use el selector de conocimiento de juicio basado en el aprendizaje comparativo para distinguir el caso confuso 1. El trabajo anterior solo usó artículos legales como conocimiento externo, pero este documento usa estándares cuantitativos en escenarios reales para anclar Determinar la cantidad de referencia ( anclajes numéricos : números de referencia en el conocimiento del juicio).
②una adquisición de sentido común numérico legal: diseño de predicción numérica enmascarada (MNP) para permitir que el modelo recuerde el ancla, a fin de obtener el sentido común numérico de la ley de acuerdo con el conocimiento del juicio seleccionado.
③un módulo de razonamiento: construya un gráfico numérico basado en escalas (que consiste en anclas y valores numéricos en descripciones de hechos) para lograr un razonamiento numérico consciente de la magnitud.
Esto significa aprender las representaciones de estos números.
④Módulo de predicción de juicio: finalmente, use la descripción de hechos, el conocimiento del juicio y los números para realizar la toma de decisiones judiciales.
Directorio de artículos
1. Definición del problema
La predicción numérica de sentencia judicial en este artículo predice la sentencia y la multa, las cuales se dividen en varios intervalos, lo que en realidad equivale a realizar tareas de clasificación ordinal. El indicador final también utiliza la macro-F1 de la tarea de clasificación.
Este trabajo asume que existe una relación funcional entre el intervalo del valor en los hechos del caso y el resultado final del juicio:
En el trabajo anterior del conjunto de datos CAIL2018, la precisión de la predicción de la sentencia es significativamente menor que la del delito y la ley. El autor cree que esto se debe a que el trabajo anterior ignoró la información numérica en la descripción del crimen y el hecho, y solo la consideró como palabras simples o [UNK]. (Por ejemplo, robar 1939 yuanes o 7300 yuanes dará lugar a una gran diferencia en la sentencia. La sentencia de 7000 yuanes y la multa entre los dos casos también deberían estar en el medio. Si el modelo no entiende los números, no lo hará). ser capaz de predecir correctamente Oración y comparación numérica de cantidad fina ) El trabajo de razonamiento numérico como
NumNet 2 puede realizar bien la relación de comparación.
Pero estas obras 1. ignoran el tipo de delito correspondiente al valor. Por ejemplo, AB en la figura anterior es robo y C es robo, por lo que la cantidad específica no se puede comparar directamente. 2. La magnitud se ignora (por ejemplo, 7000 está más cerca de 7300, por lo que la oración debe estar más cerca de la oración de 7300 (12 meses) conciencia de magnitud ) 3. Falta de datos de entrenamiento, muy pocos números en el caso (la solución es introducir anclas numéricas, limita el espacio de búsqueda numérica total)
Este artículo cree que el conocimiento del juicio es más práctico, detallado y cuantitativo que los artículos legales:
(La fuente verde es el punto de anclaje numérico)
Proceso de juicio:
(fuente de la imagen, otro artículo)
2. modelo
Roberta construye:
u ⃗ X , X ˉ = Roberta ( [ CLS ] ; X ) , \begin{aligned} \vec{u}^X,\bar{\mathbf {X}}={\text {RoBERTa}} ( \mathrm{[CLS]};\,X),\end{alineado}tux ,Xˉ=Roberto ( [ CLS ] ;X ) ,
tu ⃗ X \vec{u}^XtuX es una representación [CLS],X \mathbf {X}X es la matriz de representación de todos los tokens
1. JKS (módulo de selección de conocimiento judicial)
Clasificador de aprendizaje contrastivo: conocimiento de juicio selectivo basado en hechos delictivos (un tipo de conocimiento corresponde a un tipo de comportamiento delictivo)
Los números de un mismo hecho delictivo (referidos a la misma categoría) se utilizan para el aprendizaje comparativo (referencia 3 ):
L1: Entropía cruzada
L2: Aprendizaje contrastivo supervisado SCL (para acercar la similitud de representación de muestras similares. Se siente como un convencional función de pérdida de aprendizaje contrastivo Ah, puede consultar este artículo: aprendizaje contrastivo (actualización continua ing...) )
LJKS = ( 1 - λ ) L 1 + λ L 2 , L 1 = - 1 norte ∑ yo = 1 norte ∑ metro = 1 norte UN yi , metro UN ⋅ Iniciar sesión y ^ yo , metro UN , L 2 = ∑ yo = 1 norte - 1 norte yi UN - 1 ∑ j = 1 norte 1 yo ≠ j 1 yi UN = yj UN Iniciar sesión Exp ( tu ⃗ yo X ⋅ tu ⃗ j X / τ ) ∑ k = 1 norte 1 yo ≠ k exp ( tu ⃗ yo X ⋅ tu ⃗ k X / τ ) , \begin{alineado} \begin{alineado} \mathcal {L}_{\mathrm {JKS}}&=(1-\lambda ) \mathcal {L}_{1}+\lambda \mathcal {L}_{2}, \\ \mathcal {L}_{1}&=-\frac{1}{N} \sum _{i=1} ^{N} \sum _{m=1}^{n^{\mathcal {A}}} y_{i,m}^{\mathcal {A}} \cdot \log \hat{y}_{i ,m}^{\mathcal {A}},\\ \mathcal {L}_{2}&=\sum _{i=1}^{N}-\frac{1}{N_{y_{i}^{\mathcal {A}}}-1} \sum _{j=1}^{N} \mathbf {1}_{i \ne j} \mathbf {1}_{y_{i}^{\mathcal {A}}=y_{j}^{ \mathcal {A}}}\\&\quad \log \frac{\exp \left( \vec{u}_i^X \cdot \vec{u}_j^X / \tau \right) }{\sum _{k=1}^{N} \mathbf {1}_{i \ne k} \exp \left( \vec{u}_i^X \cdot \vec{u}_k^X / \tau \right ) }, \end{alineado} \end{alineado}LJKSL1L2=( 1−l ) L1+λL _2,=−norte1yo = 1∑nortemetro = 1∑norteunyyo _ _un⋅iniciar sesióny^yo _ _un,=yo = 1∑norte−norteyiun−11j = 1∑norte1i= j1yiun= yjuniniciar sesión∑k = 1norte1i= kExp(tuiX⋅tukX/ t )Exp(tuiX⋅tujX/ t ).,
Identificar tipos numéricos detallados
2. MNP (adquisición de sentido común numérico legal)
Hacer predicción numérica enmascarada (MNP) sobre el conocimiento del juicio: adquirir sentido común numérico legal en el conocimiento del juicio
Usar paradigmas categóricos para predecir (los vocabularios son todos anclas numéricas)
LMNP = − 1 norte ∑ yo = 1 norte ∑ j = 1 norte UN ∑ k = 1 norte V yi , jk ⋅ Iniciar sesión y ^ yo , jk , \begin{alineado} \mathcal {L}_{\mathrm {MNP }}&=-\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{n^A} \sum_{k=1}^{n ^{V}} y_{i,j}^k \cdot \log \hat{y}_{i,j}^k, \end{alineado}LMNP=−norte1yo = 1∑nortej = 1∑norteunk = 1∑norteVyyo , jk⋅iniciar sesióny^yo , jk,
3. MagNet (módulo de razonamiento)
Gráfico numérico basado en escalas Los nodos
de gráficos dirigidos heterogéneos son descripciones fácticas y valores numéricos
en los bordes del conocimiento del juicio son relaciones de comparación y magnitud: mayor que/menor que (REL)+MAG
Bordes entre 72 y 100:
El cálculo de este MAG es bastante complicado, no lo entendí muy bien, así que simplemente lo copié. Si alguien conoce el principio, por favor dígame cuál es:
- Dividir por una escala específica. Multiplicador de diseño, multiplicador de características
- MinDiff
- scalet = MinDiff ( vi A , vj A ) N t scale^t=\frac{ {
\text {MinDiff}}(v_i^A, v_j^A)}{N^t}escala _ _ _t=nortetDifmin ( viun, vjun)
Nt N^tnortet要满足:⌈ ∗ ⌉ mtscalet ≤ fmax , \begin{aligned} \lceil *\rceil {\frac{m^t}{scale^t}}\le f_{max}, \end{aligned}⌈ ∗ ⌉escala _ _ _tmetrot≤Fmáximo _,(El tamaño está relacionado con el compromiso entre precisión/recuperación) - factor multiplicativo: f = ⌈ ∗ ⌉ ∣ n ( vi ) − n ( vj ) ∣ scaletf=\lceil *\rceil {\frac{\mid n(v_i)-n(v_j)\mid }{scale^t} }F=⌈ ∗ ⌉escala _ _ _t∣ norte ( vyo) - norte ( vj) ∣
F ∈ { 1 , . . . , Nf } f\in \{1,...,N^f\}F∈{ 1 ,... ,nortef }(N f N ^ fnorteF se puede ajustar a 100)
MagNet (red de razonamiento numérico consciente de la magnitud): valor de representación (no entendí la introducción específica, no la escribiré, ¿probablemente significa usar un GAT?)
MX = WMX ˉ , MA = WMA ˉ , U = MagNet ( G ; MX , MA , u ⃗ X , u ⃗ A ) , \begin{alineado} \begin{alineado} \mathbf {M}^X&= \mathbf { .W}^M\bar{\mathbf {X}},\\ \mathbf {M}^A&= \mathbf {W}^M\bar{\mathbf {A}},\\\mathbf {U}& = {\text {MagNet}}(\mathcal {G};\mathbf {M}^X,\mathbf {M}^A,\vec{u}^X,\vec{u}^A), \end { alineado} \end{alineado}METROXMETROAtu=WMETROX, _=WMETROA, _=imán (G;METROx ,METROun ,tux ,tuA ),
Combinando las representaciones numéricas en la descripción del hecho y el conocimiento del juicio, y realizando una transformación lineal para obtener una representación semántica consciente de la magnitud:
M num = U [ IX , IA ] , MO = WO [ M num ; [ MX ; MA ] ] , \ comenzar{ alineado} \begin{alineado} \mathbf {M}^{num}&= \mathbf {U}[\mathbf {I}^X,\mathbf {I}^A],\\ \mathbf {M} ^{ O}&= \mathbf {W}^{O}[\mathbf {M}^{num};[\mathbf {M}^X;\mathbf {M}^A]], \end{alineado} \end {alineado}METROnúmero _ _METROO=tu [ yox ,Iun ],=WO [Mnúmero ; _ _[ Mx ;METROA ]],
4. módulo de predicción de juicio
Toma de decisiones judiciales con descripciones fácticas, conocimiento de sentencias y cifras (las sentencias son más finas que la clasificación de LADAN 4 ).
Entropía cruzada utilizada en trabajos anteriores:
LP = − 1 N ∑ i = 1 N ∑ j = 1 n P yi , j P ⋅ log y ^ i , j P , \begin{aligned} \mathcal {L}^P& = -\frac{1}{N} \sum _{i=1}^{N} \sum _{j=1}^{n^{P}} y_{i,j}^{P} \cdot \ log \hat{y}_{i,j}^{P}, \end{alineado}Lpag=−norte1yo = 1∑nortej = 1∑nortepagyyo , jpag⋅iniciar sesióny^yo , jpag,
再 提出 一 个 损失函数 :
Li = - 1 n ∑ i = 1 n {yi ℓ ⋅ log y ^ i ℓ ⏞ ⏞ ⏞ ⏞ ⋅ yid ⋅ log y ^ id ⏞ muerte + ∑ k = 0 300 yi, k i ⋅ iniciar sesión y ^ yo , k yo [ iniciar sesión ( vi , k yo ) − iniciar sesión ( v ^ yo , k yo ) ] 2 ⏟ menos de 25 años (300 meses) } , \begin{alineado} \mathcal {L }^I =&-\frac{1}{N}\sum _{i=1}^{N}\{\overbrace{y_{i}^{\ell }\cdot \log \hat{y}_ {i}^{\ell }}^{\text {cadena perpetua}}+\overbrace{y_{i}^{d}\cdot \log \hat{y}_{i}^{d}}^{ \text {muerte}}\nonumber \\&+\underbrace{\sum _{k=0}^{300}y_{i,k}^I\cdot \log \hat{y}_{i,k} ^{I}[\log (v_{i,k}^I)-\log (\hat{v}_{i,k}^{I})]^2}_{\text {menos de 25 años (300 meses)}}\text { }\}, \end{alineado}LI=−norte1yo = 1∑norte{
yiℓ⋅iniciar sesióny^iℓ
cadena perpetua+yire⋅iniciar sesióny^ire
muerte+menos de 25 años (300 meses)
k = 0∑300yyo k _yo⋅iniciar sesióny^yo k _yo[ lo g ( vyo k _yo)−lo g (v^yo k _yo) ]2 } ,
(v es magnitud, extraño. También es comprensible)
总的 función de pérdida:
L total = γ LJKS + ( 1 − γ ) LMNP + LI + LP . \begin{alineado} \mathcal {L}_{total}&= \gamma \mathcal {L}_{\mathrm {JKS}}+(1-\gamma )\mathcal {L}_{\mathrm {MNP} }+\mathcal {L}^{I}+\mathcal {L}^{P}. \end{alineado}Len total _ _ _=γL _JKS+( 1−c ) LMNP+LI+LP .
3. Experimenta
3.1 Conjunto de datos
CAIL2018 5 : Sentencias y Multas
- CAIL-pequeño
- CAIL-grande
AIJuez 6 : Penalizaciones
Ejemplos de anclas numéricas:
Gráfico estadístico de nodos y bordes de gráficos numéricos:
La parte de preprocesamiento de datos debe complementarse.
3.2 Indicadores
Métricas para tareas de clasificación: precisión (Acc.), macro-precisión (MP), macro-recall (MR) y macro-F1 (F1)
ImpScore(interpretación)
h = ∣ log ( I p + 1 ) − log ( I g ) + 1 ∣ , ImpScore = { 1 , h ≤ 0.2 , 0.8 , 0.2 < h ≤ 0.4 , 0.6 , 0.4 < h ≤ 0,6 , 0,4 , 0,6 < h ≤ 0,8 , 0,2 , 0,8 < h ≤ 1 , 0 , otro \begin{alineado} h= & {} \mid \log(I_p+1)-\log(I_g)+1\mid ,\nonumber \\ \text { {\textbf {ImpScore}}}= & {}
\ izquierda\{\begin{matriz}{rcl}1, &{}&{}{h\le 0.2,}\\ 0.8, &{}&{}{0.2<h\le 0.4,}\\ 0.6, & {}&{} {0.4<h\le 0.6,}\\ 0.4, &{}&{} {0.6<h\le 0.8,}\\ 0.2, &{}&{} {0.8<h\le , }\\ 0, &{}&{}{otro.}\end{matriz}\right. \end{alineado}h=ImpScore=∣log ( yo _pag+1 )−log ( yo _g)+1∣ ,⎩
⎨
⎧1 ,0.8 ,0.6 ,0.4 ,0.2 ,0 ,h≤0.2 ,0.2<h≤0.4 ,0.4<h≤0.6 ,0.6<h≤0.8 ,0.8<h≤1 ,otro . _ _ _
3.3 línea de base
- JUEZ SUPERIOR
- MPBFN
- CPTP
- NeurJudge 7
- NumNet 2 → reemplace el codificador con RoBERTa y continúe con la capacitación previa sobre el texto legal
3.4 Configuración experimental
Para ser llenado
Aquí se utiliza un truco de recorte de gradiente, al que se puede hacer referencia en la tarea de combinar GNN+NLP. Pero no lo uso en este momento, así que solo lo recuerdo.
3.5 Resultados del experimento principal
Pronóstico de penales:
Pronóstico de oraciones:
3.6 Análisis experimental
Para ser llenado
Cuando se trata de casos confusos, todos deberían tener la primera reacción de pensar en la sensibilidad de LADAN 4 y NeurJudge 7 . ↩︎
(2019 EMNLP) NumNet: Comprensión de lectura automática con razonamiento numérico ↩︎ ↩︎
Aprendizaje contrastivo supervisado para el ajuste fino del modelo de lenguaje preentrenado ↩︎
Re27: Leer el artículo LADAN Distinguir artículos legales confusos para la predicción de juicios legales ↩︎ ↩︎
(2021 SIGIR) Re38:读论文 NeurJudge: un marco neuronal consciente de las circunstancias para la predicción de juicios legales ↩︎ ↩︎