[Análisis oficial de NeurIPS] Las contribuciones se han disparado. ¿Qué podemos aprender de los datos de NeurIPS 2019?

(Este artículo está traducido del análisis de datos oficiales de NeurIPS2019: "Lo que aprendimos de los datos de NeurIPS 2019", Alina Beygelzimer, Emily Fox, Florence d'Alché-Buc, Hugo Larochelle, Presidentes del programa NeurIPS 2019)

Haga clic aquí para ingresar la "dirección de descarga original"

 

En los últimos cinco años, el número de envíos de artículos de NeurIPS se ha cuadruplicado. Este año, recibimos un total de 6.743 presentaciones. Después de la selección, las presentaciones efectivas finalmente se redujeron a 6.614 y más de 4.500 revisores escribieron más de 20.000 comentarios de revisión. La tasa de aceptación de NeurIPS de este año fue del 21,6% y se aceptaron un total de 1.428 artículos. En vista del rápido aumento en el número de artículos, decidimos ver qué conclusiones se pueden extraer de estos datos. El propósito de este artículo no es sugerir un nuevo sistema de revisión, sino informar y promover la discusión sobre este tema.

 

Análisis del grupo No. 1 NeurIPS

NeurIPS2019 recibió un total de 15920 artículos presentados por los autores. (Hicimos un análisis cuidadoso e intentamos fusionar los datos personales para mantener a todos como una entidad en este análisis). Tres cuartas partes de los autores no están en la lista de invitados del comité de la conferencia, ya sean revisores, AC o SAC. Para la cuarta parte restante de los autores, algo más del 70% aceptó nuestra invitación para unirse al comité de revisión, lo cual es una buena señal. Además, la mayoría de los revisores también enviaron artículos, lo que también es una buena señal.

12121.png

Entonces, ¿NeurIPS tiene un problema de free-rider? Esto no es muy importante. Como se muestra en la tabla anterior, solo alrededor de una cuarta parte de las personas no aceptaron la invitación para revisar el artículo de NeurIPS 2019. Sin embargo, alrededor del 10% de ellos han presentado 5 o más trabajos. Hay un total de 769 artículos (de un total de 6743 artículos). Al menos un autor ha sido invitado a ser miembro del comité, pero ninguno de los autores invitados participó en el proceso de revisión.

Ahora, echemos un vistazo más de cerca a los autores que no están en la lista de invitados del comité (tres cuartas partes). Aproximadamente el 40% de estos autores no han sido coautores de un artículo con nadie en la lista de invitados, y la tasa de aceptación para esta categoría de artículos (que representa casi el 30% de todas las presentaciones) es la más baja, solo uno de cada diez. Curiosamente, el interés inicial en estos artículos en la etapa de presentación es tan fuerte como otros tipos de artículos. Mencionaremos esto más adelante en este artículo.

Como se esperaba, los académicos invitados a puestos superiores presentaron más trabajos y tuvieron una tasa de aceptación promedio más alta. La siguiente tabla muestra las estadísticas de los AC. El número de SAC es ligeramente mayor: cada SAC presentó 5,24 trabajos y la tasa de aceptación fue del 34,78%.

12122.jpg

La proporción de revisores de la academia a los AC es de aproximadamente el 70%.

Un total de 85 autores han presentado al menos 10 artículos, y solo 6 de ellos son mujeres (7%). Nuestra estimación preliminar es que la proporción total de autoras que envían artículos es del 13%, casi el doble que la de varios autores. La tasa de aceptación promedio de los autores que enviaron varios artículos fue del 24,7%, ligeramente más alta que la tasa de aceptación promedio del 21,6% de todos los participantes.

Finalmente, la tasa de admisión de cada área temática en comparación con 2018 se muestra en el cuadro a continuación. El gráfico está ordenado por el número de envíos en cada campo (vea a continuación los gráficos enviados por región). Con respecto a la diferencia (estadísticamente significativa) en las tasas de aceptación entre las primeras cuatro áreas temáticas y las últimas cuatro áreas temáticas que hemos visto, se puede explicar que los trabajos presentados en la mayoría de las áreas temáticas también tendrán una mayor proporción de Tesis de baja calidad, esto no es sorprendente.

12123.jpg

Finalmente, en comparación con 2018, la tasa de aceptación de artículos por área temática se muestra en la siguiente figura.

12124.jpg

 

No. 2 Experimentos especulativos para reducir o limitar el número de trabajos presentados

Hay muchas discusiones sobre cómo cambiar el mecanismo de revisión de NeurIPS para hacer frente mejor al número cada vez mayor de presentaciones de artículos. Veamos el uso de los datos de NeurIPS 2019 para estimar las consecuencias de estas propuestas.

1. Editar filtro

Como experimento, queremos medir la capacidad del AC para poder predecir que el artículo designado será rechazado antes de ver los comentarios de la revisión (por ejemplo, la novedad del artículo o el nivel académico es insuficiente). La pregunta es si NeurIPS debería considerar permitir que AC rechace envíos no revisados ​​para reducir la carga de los revisores; este mecanismo de selección editorial es una práctica común en las principales revistas.

Le pedimos a cada AC que proporcione los artículos que crea que están clasificados en el 25% inferior de los trabajos de revisión asignados (la mayoría de los AC enviaron 5 contenidos) y su confianza en cada revisión. Recibimos 808 sugerencias de rechazo del 50% de los AC.

La siguiente tabla muestra el número de artículos recomendados para ser rechazados bajo diferentes niveles de confianza y la precisión correspondiente: el porcentaje de rechazos reales después de la revisión. El umbral de 5 (la última fila) parece ser confiable, pero el número de presentaciones no ha disminuido significativamente. Incluso si alguien piensa que solo el 50% de los AC participaron en esta prueba, establecer el umbral en 5 eliminaría la necesidad de revisar solo <4% de todas las presentaciones.

12125.jpg

2. Limita el número de presentaciones.

Otra propuesta habitual es limitar el número de artículos que pueden presentar los autores. La conferencia AAAI incluso propuso que cada autor puede enviar un máximo de 15 artículos en 2020 (como se ve en los requisitos de solicitud de artículos).

La siguiente figura muestra cómo permitir que todos co-creen k artículos enviados (eje X) afectará el número total de envíos en NeurIPS 2019. El eje Y traza el resultado de la reducción de presentaciones. Para el propósito de este experimento, porque no sabemos qué envíos elegirá cada autor para mantener bajo esta solicitud. Dejamos que cada autor tenga la voluntad de mantener sus presentaciones aceptables después, y permitimos hasta k al azar. Si el remitente tiene más intenciones de enviar, complete el envío rechazado que seleccionó al azar.

12126.png

Si el número de presentaciones se limita a 15 (adoptado por AAAI-2020), solo se reducirá a <100, lo que representa el 1,5% del total. Si el número de envíos se limita a 10, se reducirá en un 4,3% del total (se guardarán alrededor de 850 comentarios de revisión) y no tendrá un impacto significativo en los resultados.

En general, quizás alguna combinación de selección editorial y presentaciones limitadas pueda reducir el impacto de la reducción de presentaciones de artículos. Pero antes de la implementación, se debe considerar más el método para hacerlo.

3. Evaluación de la oferta y la demanda

Otra sugerencia es utilizar un sistema de mercado para controlar las revisiones y aceptar solo aquellas presentaciones que despierten suficiente interés por parte de los revisores.

El siguiente análisis muestra que la puntuación, la forma actual de revisión, no predice muy bien el grado de aceptación. Los artículos aceptados fueron calificados por un promedio de 5.4 revisores (0.72 calificaciones de los AC), en comparación con solo 5.1 revisores (0.64 calificaciones de los AC) para los artículos rechazados.

12127.jpg

La siguiente tabla está clasificada por categoría de autor, lo que muestra que la proporción de críticas entusiastas en cada categoría es básicamente la misma.

12128.jpg

Por otro lado, esto muestra que todos los buenos artículos tienen buenas posibilidades de ser descubiertos (de acuerdo con la sugerencia de Yann LeCun en este artículo).

4. Revisión pública de los trabajos presentados

La mayoría de los artículos enviados (54%) se publicarán en arXiv; el 21% de los artículos enviados ha sido visto por al menos un revisor. La tasa de admisión de esta última categoría es del 34%, que es significativamente más alta que la tasa de admisión promedio del 21,6%. Por el contrario, la tasa de aceptación de artículos no publicados es del 17%.

Desafortunadamente, es difícil aclarar la causalidad. Una posibilidad obvia es que los artículos publicados en arXiv sean de mayor calidad porque el autor cree que se pueden compartir públicamente. Otra razón refleja el sesgo de la revisión simple ciego, es decir, es más probable que los autores conocidos lean sus artículos en arXiv, y pueden estar sesgados hacia revisiones positivas de su trabajo.

 

No. 3 Calidad de la reseña

1. Asignación de revisores

¿Cuáles son los criterios para medir objetivamente la calidad de la revisión? Alguien sugirió si los artículos de los revisores designados se citaron en los artículos. Entonces, ¿qué proporción de los artículos enviados por NeurIPS en 2019 que tienen al menos un revisor citado? 

Extrajimos las referencias de los artículos enviados para averiguarlo. Los hechos han demostrado que menos de un tercio de los artículos han sido revisados ​​por los árbitros citados en los artículos. Como era de esperar, ser citado en la presentación está relacionado con la credibilidad de la revisión. La credibilidad promedio de la revisión de NeurIPS es de 3,75, y aproximadamente la mitad de todas las revisiones tienen una calificación de 4 puntos (confianza en la revisión, pero no absolutamente seguro). La credibilidad promedio de los revisores citados es ligeramente superior a 4 puntos, de los cuales casi el 30% de las evaluaciones son 5 puntos (revisión absolutamente reconocida, muy familiarizado con trabajos relacionados), casi el doble que la de los revisores promedio.

Por supuesto, nos gustaría ver un número más alto, pero el 40,6% de los contribuyentes tienen una puntuación de 5 al menos una vez, y el 94,7% de los contribuyentes tiene al menos un comentario con una calificación de credibilidad de 4.

Con el fin de mejorar las asignaciones de trabajo, hemos colaborado con CMT para permitir que los AC recluten revisores externos para manejar los artículos específicos que están revisando. Si AC no puede encontrar un candidato adecuado en la biblioteca de recursos regular, puede enviar una invitación para un artículo específico a un revisor externo. Más del 40% de los AC utilizaron esta función y enviaron casi 400 invitaciones (de las cuales se aceptaron casi el 80%). Los AC también pueden ajustar manualmente la distribución de documentos generados automáticamente. Aunque la mayoría de los AC básicamente retuvieron los puntajes que recibieron, el 10% de los AC reasignó al menos un tercio de sus trabajos; en promedio, se requiere al menos un revisor por cada trabajo procesado.

Si los AC seleccionan revisores manualmente, ¿están más satisfechos con los revisores? La respuesta es sí, aunque la mayoría de estos comentaristas externos son jóvenes. La proporción de revisores calificados como "superando las expectativas" aumentó en un tercio, mientras que la proporción de revisores calificados como "no cumpliendo las expectativas" disminuyó en más de la mitad en las encuestas seleccionadas manualmente.

2. Distribución de la duración del examen

En vista de las frecuentes quejas sobre los comentarios de revisión demasiado cortos de NeurIPS, estudiamos la distribución de la duración de las revisiones de NeurIPS 2019, ICLR 2019 y COLT 2019.

Se puede esperar que la longitud del texto generado artificialmente tenga una distribución logarítmica normal. Pero lo interesante es que este parámetro coincide tanto entre reuniones tan diferentes y diferentes formatos de revisión.

12129.jpg

3. Estadísticas de refutación, debate y aceptación

Como autor que escribió el contraargumento, es posible que desee conocer la puntuación inicial del artículo y la probabilidad de que sea aceptado. ¿Qué posibilidades hay de que su refutación cambie el resultado?

Aproximadamente el 20% de las calificaciones iniciales cambiaron durante la fase de discusión, y alrededor del 50% de las presentaciones tuvieron al menos una calificación cambiada. En el momento en que se tomó la decisión, la diferencia promedio se redujo de 1,27 (antes de la refutación) a 0,89 (momento de la notificación).

121210.png

También comparamos los siguientes indicadores de participación entre 2018 y 2019: el número promedio de comentarios por artículo durante el período de discusión, el número promedio de participantes y el número promedio de roles en las publicaciones de discusión. Todos los resultados han aumentado, lo que indica que hay una participación más plena en esta parte del proceso de revisión. En particular, la duración media de los temas de debate por artículo se ha incrementado en un 10%.

 

No. 4 resumen

Aunque los datos todavía no dan respuesta a muchas preguntas, hemos notado los siguientes problemas:

1. NeurIPS no tiene el problema de los viajes gratuitos: no hay autores invitados a participar en la revisión y se envían relativamente pocos artículos.

2. El cuadro de datos del artículo no indica cómo filtrar rápidamente algunos artículos de baja calidad antes de que los revisores los revisen por completo. La función de los AC es examinar algunos artículos en la etapa inicial. Según sus métodos de eliminación, hay no significativo En el caso de un error de decisión, no tiene un gran impacto en la carga de trabajo del revisor. Al mismo tiempo, no hay una fuerte señal de que los revisores hayan expresado un fuerte deseo de revisar artículos específicos.

3. No hay evidencia clara de que la duración de los comentarios de la revisión se utilice para determinar la calidad de la revisión de NeurIPS: En términos de duración de la revisión, NeurIPS no es muy diferente de otras conferencias más pequeñas.

4. El impacto de la participación en el período de refutación y discusión: La tasa de participación general parece ser más alta que en 2018.

Aunque esto no afectará nuestro entusiasmo por discutir el nuevo modo de revisión, espero que este artículo ayude a todos a concentrarse más en este tema.

 

Revisión anterior:

[NeurIPS100] ¡Se anuncian siete artículos premiados de NeurIPS2019 y un análisis en profundidad de los artículos seleccionados!

¡Se publica la lista TOP100 de académicos altamente citados de diez años de NeurIPS! ¡Estas grandes vacas son dignas de adoración!

[NeurIPS100] Estrategia de participación de Aminer: ¿Cómo participar en la Conferencia NeurIPS con 13.000 personas de manera más eficiente?

Supongo que te gusta

Origin blog.csdn.net/AMiner2006/article/details/103509869
Recomendado
Clasificación