Guide de l'utilisateur d'Arxiv

https://www.jianshu.com/p/0c634da4634e?utm_source=oschina-app

Si vous êtes très sûr de ce que vous recherchez, par exemple connaître le nom de l'article (le nom de l'algorithme) ou le nom de l'auteur, il est plus rapide de rechercher directement sur Google Scholar. Cependant, si vous n'êtes pas sûr de ce que vous voulez, mais que vous souhaitez simplement voir les derniers développements dans un certain domaine et savoir ce que tout le monde fait, mais que vous trouvez que la plupart des résultats que Google Scholar vous donne ne sont pas fiables, veuillez continuer à lire.

Introduction

​ ​Au cours des six derniers mois, les conversations suivantes m'ont souvent arrivé : ​

"Hé, tu sais comment résoudre le problème de XXXXXXXXXXXXX ?"

"Oh, il se trouve que j'ai lu deux articles sur le même sujet et je vous les enverrai plus tard."

......

Silence gênant. D'une manière générale, après avoir reçu l'article, l'autre partie ne reviendra plus jamais vers moi. Même si je souhaite sincèrement communiquer, certains enfants studieux continueront à demander :

 

"Où as-tu trouvé ton papier ?"

Compte tenu des différents contextes des articles, je laisserai ici un lien - ce lien (site Web) dans la plupart des domaines mathématiques/physique/informatique/statistiques est https://arxiv.org/ .

Qu'est-ce qu'Arxiv

L'intention initiale de la conception d'arxiv était qu'un groupe de physiciens voulaient échanger des articles qu'ils étaient sur le point de publier. Vous pouvez imaginer que dans les années 1990, les gens utilisaient encore des disquettes (y compris des disquettes de 5,25 pouces et des disquettes de 3,5 pouces, etc.) L'espace de stockage peut être considéré comme étant calculé en Ko), les boîtes aux lettres ne font pas exception. Pendant la période de pointe de soumission, des boîtes aux lettres de plusieurs centaines de Ko seront remplies d'articles chaque minute. Paul Ginsparg a compris que cela n'était pas possible. Si l'article voulait être partagé et correctement révisé, il devait probablement être stocké de manière centralisée. En 1991, le LANL ( http://www.lanl.gov/Los Alamos National Laboratory ) a créé le prototype d'arxiv, comme le montre la figure ci-dessous.

 

À cette époque, il existait un joli nom de domaine : http://xxx.lanl.gov/ , auquel on peut encore accéder aujourd'hui. Cependant, parce que le LANL, en tant que laboratoire scientifique rigoureux, était trop paresseux pour exploiter ce site Web, il a ensuite été repris par l'Université Cornell pour obtenir son soutien.

Cependant, quand on parle d’arxiv aujourd’hui, il faut parler d’Open Access. Nous savons tous qu’autrefois, lire des articles coûtait de l’argent, et même aujourd’hui, lire la plupart des articles coûte également de l’argent. Comme le montre l'image ci-dessous, la lecture d'un article sur Nature coûte généralement 20 $ US, ce qui équivaut à plus de 100 RMB.

 

Ce prix, qu'il soit cher ou non, est bon marché ou non. Ce n'est pas un problème d'acheter une licence de site ou de rembourser auprès de la plupart des entreprises riches et des écoles géniales, mais pour les personnes intéressées par la recherche scientifique ou les écoles de les zones arriérées sont très problématiques. Dans des pays comme le Malawi, l'Afrique centrale, etc., en 2016, le PIB par habitant dans les données officielles n'était que de 400 dollars américains (environ 20 articles), vous pouvez laisser les gens faire ce qu'ils veulent. Voulons-nous que le savoir soit concentré entre les mains de quelques personnes, comme la richesse ?

C'est comme si nous avions toujours voulu qu'Internet soit neutre (les fournisseurs de services Internet tels que les opérateurs de télécommunications et les sociétés de télévision par câble devraient traiter tout le trafic passant par leurs réseaux de la même manière. Les fournisseurs de services réseau traitant différemment différents trafics peuvent rendre le monde plus difficile. Les entreprises peuvent restreindre les consommateurs. liberté), nous ne voulons pas que l’argent bloque la diffusion du savoir. Nous avons donc la Déclaration de Budapest :

Il existe de nombreux degrés et types d’accès plus large et plus facile à cette littérature. Par « accès libre » à cette littérature, nous entendons sa disponibilité gratuite sur l'Internet public, permettant à tout utilisateur de lire, télécharger, copier, distribuer, imprimer, rechercher ou créer un lien vers les textes intégraux de ces articles, les explorer pour les indexer, les transmettre sous forme de données à un logiciel ou les utiliser à toute autre fin licite, sans barrières financières, juridiques ou techniques autres que celles indissociables de l'accès à Internet lui-même. La seule contrainte en matière de reproduction et de distribution, et le seul rôle du droit d'auteur dans ce domaine, devrait être de donner aux auteurs le contrôle de l'intégrité de leur œuvre et le droit d'être correctement reconnus et cités.

En tant que pionnier du libre accès, nous souhaitons féliciter arxiv, un pionnier du libre accès ! L’avantage pour nous c’est que c’est gratuit ! gratuit! gratuit!

D'après mon expérience personnelle en matière d'accès, si vous souhaitez savoir quels magazines ou revues proposent des ressources gratuites, vous pouvez vous référer à cette liste : https://en.wikipedia.org/wiki/List_of_open_access_journals . L'image est fournie dans la catégorie "Mathématiques". Revue en libre accès.

 

Que dois-je faire si je ne trouve vraiment pas d’articles gratuits ?

J'envoie généralement un e-mail directement à l'auteur pour le demander, et d'ailleurs, je peux parler de mon domaine de recherche et de plusieurs dernières problématiques liées à cet article. Le taux de réussite est assez élevé et je peux me faire de bons amis.

En parlant d'Arxiv, il y a une autre chose qui ne peut être ignorée : LaTex - Je pense personnellement que c'est le plus bel éditeur de texte (ou langage ?), mais après avoir quitté le cercle académique, j'ai trouvé que personne ne semble trop paresseux pour l'utiliser. En raison du manque de place, je ne l'utiliserai pas ici. Encore une fois.

Ce qu'Arxiv a

Pour diverses raisons historiques, le principal domaine de recherche de la littérature d'Arxiv est la philosophie mathématique, y compris les mathématiques/physique/informatique/statistiques/astronomie/biologie quantitative/finance quantitative et d'autres domaines. Pour les statistiques de publication en 2016, veuillez vous référer au tableau ci-dessous.

 

L'image de gauche représente le nombre d'articles nouvellement soumis chaque année et l'image de droite représente le pourcentage de publications chaque année (la somme est de 1). "hep-" représente la physique des hautes énergies (hep-th+hep -ph+hep-lat+hep -ex), "cond-mat" représente la physique de la matière condensée, "astro-ph" = astrophysique, "math" représente les mathématiques, "autre physique" représente d'autres domaines de la physique (physique+nucléaire+ gr-qc+ quant-ph+nlin) « biologie » fait référence à la biologie quantitative, « finance » fait référence à la finance quantitative et « cs » fait référence à l'informatique.

Nous pouvons constater qu'avant 2002, la part du domaine de l'informatique était presque négligeable, mais en 2016, elle représentait près d'un cinquième et continue de croître à un rythme extrêmement rapide. La physique des hautes énergies, qui a occupé la majeure partie du pays de 1992 à 1996, a été presque entièrement rongée aujourd'hui, il ne reste plus qu'environ 10 % du domaine à survivre. Les vicissitudes de la vie sont évidentes.

Le nombre total d'articles publiés est le suivant : ​

 

(Informations provenant de : https://arxiv.org/help/stats/2016_by_area/index )

Sur la photo, nous pouvons clairement constater trois choses :

  1. Le nombre de publications de tous les journaux a augmenté de manière explosive au fil du temps, ce qui est particulièrement évident dans le graphique ci-dessus du nombre total de publications historiques ;
  2. Les mathématiques sont la discipline dominante, tant en termes de publications annuelles que de publications historiques totales ;
  3. L'informatique (cs) ne représente que 8,3 % du total des publications historiques, mais le nombre de soumissions représentait 18,3 % en 2016. Combinée à l'analyse du tableau des nombres de soumissions, la croissance est vraiment gratifiante et mérite d'être attendue.
  4. Près de 10 000 articles sont soumis chaque mois (le nombre officiellement accepté sera moindre, et s'il correspond aux domaines d'intérêt verticaux, il le sera encore moins).

Alors, que faire si vous ne voulez pas vous soucier uniquement des mathématiques et de la physique ?

C'est très simple, comme n'importe quel marché, après qu'arxiv soit devenu populaire, un grand nombre de personnes ont emboîté le pas, nous avons donc maintenant la version biologie arxiv https://www.biorxiv.org/ , la version psychologie arxiv https://psyarxiv .com/ , Etc., etc. Bien sûr, l'accumulation de connaissances prend souvent du temps. Les "arxiv" dans ces domaines verticaux ne sont pas encore très matures, je vous recommande donc quand même de combiner les institutions de la liste Open Access mentionnée ci-dessus pour trouver les ressources gratuites que vous souhaitez. .

Comment utiliser Arxiv

Comme je l'ai mentionné au début de cet article, le plus gros effet de ce moteur est que lorsque vous n'êtes pas sûr de ce que vous voulez, vous pouvez consulter les derniers développements dans le domaine et savoir ce que chacun fait. Son plus grand avantage est qu’il est digne de confiance. Bien sûr, il y en a beaucoup d'autres qui sont tout aussi fiables - même si la plupart d'entre elles coûtent de l'argent, pour la plupart des revues, vous pouvez les trier en fonction du facteur d'impact de grand à petit (comme nous le savons tous, le facteur d'impact. Les critères d'évaluation sont très unilatéral comme les résultats des examens d'entrée à l'université, mais c'est aussi la solution la plus courante à l'heure actuelle.) Les séries Nature et Science mentionnées ci-dessus sont toutes deux très fiables. Sans plus tarder.

Ce dont je suis très content, c'est que les frais (dont certains sont relativement chers) sont essentiellement des revues. Cependant, contrairement à d'autres domaines, notamment la biologie, les meilleurs programmes en informatique sont souvent des conférences plutôt que des revues, et les conférences ont souvent lieu. gratuit! Par exemple, voici la Conférence internationale sur l'apprentissage automatique [ICML], l'une des principales conférences sur l'apprentissage automatique. Tous les articles peuvent être consultés sur le lien ci-dessous. https://icml.cc/Conferences/2017/Schedule?type=Poster

Tellement heureux! ​——C'est aussi le moyen que je recommande le plus à tout le monde pour trouver des articles qui valent la peine d'être lus : consulter la liste des conférences célèbres dans le domaine (même s'il y a un inconvénient, c'est-à-dire que ce que vous obtenez n'a pas d'importance).

Cependant, les nouveaux arrivants n'ont souvent aucun moyen de distinguer quelle revue et quelle conférence sont vraiment intéressantes grâce à des recherches par mots clés [regardez les visages]. Il y a tellement de conférences chaque année. J'ai recherché au hasard l'intelligence artificielle sur wikiCFP, et l'année suivante, il y a eu 3 130 conférences dans ce seul domaine vertical. Pour être honnête, dans quelle mesure cet argent a-t-il vraiment de la valeur ? Chaque conférence est calculée sur la base de 50 articles. Il y a 150 000 articles. Un être humain peut lire des articles à plein temps pendant un an sans manger, dormir ou travailler. Combien d'articles peut-il lire ?

Bien entendu, selon votre expérience personnelle, concernant le classement des conférences dans le domaine informatique, vous pouvez vous référer au lien suivant https://www.aminer.cn/ranks/conf . J'ai intercepté les meilleurs classements dans le domaine de l'IA/ PR (Intelligence Artificielle/Reconnaissance de Formes) Une section, comme indiqué ci-dessous. Ceux qui veulent en savoir plus sur la vision par ordinateur peuvent se référer à celles qui contiennent le mot « vision ». L'analyse et la comparaison de conférences spécifiques seront analysées dans un autre article, je n'entrerai donc pas dans les détails ici.

 

Mais que se passe-t-il si vous ne voulez pas regarder la liste une par une ? Que se passe-t-il si vous souhaitez simplement trouver un certain sujet ou mot-clé ? Ou vous voulez simplement savoir quels nouveaux algorithmes sont apparus ce mois-ci ? ——La réunion n'a lieu qu'une fois par an. ​​ En ce moment, il est temps pour arxiv de briller. Cela nous donne une plate-forme de recherche plus centralisée et est relativement plus fiable (de toute façon, comparé à Google Scholar, qui peut tout rechercher, les utilisateurs ont beaucoup moins de bruit à filtrer).

Il n'y a aucune preuve, ne sont-ils que des voyous ? ​ Veuillez cliquer sur le lien suivant https://arxiv.org/list/cs.LG/recent Il s'agit d'une recherche dans le domaine du Machine Learning. Rien qu’en regardant les noms d’auteurs familiers sur cette page, vous saurez que la plupart d’entre eux ne vous décevront pas.

 

Bien qu'arxiv soit positionné comme une prépublication, il comprend également divers articles qui ont été acceptés par les principales conférences de l'industrie telles que NIPS, AAAI, etc. De plus, tous ont des textes originaux directement au format PDF qui peuvent être téléchargés gratuitement. Les coûts de recherche et de filtrage sont extrêmement faibles. En même temps, il vous suffit de cliquer sur le nom de l'auteur qui vous intéresse, et tous les articles qu'il a publiés seront répertoriés (Lei Shu dans l'image ci-dessous), sans avoir à vous soucier des ennuis des auteurs avec le même nom et prénom qui apparaissent souvent dans d'autres moteurs de recherche - sur ce point, je crois que quiconque a recherché le pinyin des noms chinois aura une compréhension profonde - Zhang Wang, Li Zhao et Zhao sont partout dans le monde, ce n'est certainement pas seulement une conversation .

 

Si la base de données est comme ça, que puis-je demander d'autre ?

À titre de comparaison, voici les résultats que j'ai obtenus en recherchant le mot-clé Machine Learning sur Google Scholar. Chacun peut expérimenter par lui-même la rapidité, la pertinence et la qualité.

 

Bien sûr, la question de l'actualité peut être résolue en cliquant sur "Trier par date" sur le côté gauche. Cependant, après avoir cliqué, cela ressemble à ceci :

 

——De toute façon, les produits Springer coûtent de l'argent, sans parler de la qualité, et le pdf téléchargeable n'est vraiment pas courant.

​Plus important encore, Google, en tant que moteur de recherche multiplateforme établi de longue date, ne recherche pas dans des champs spéciaux lorsqu'il voit un certain mot-clé, il existe donc un grand nombre d'articles avec des sujets sans rapport (si vous n'y croyez pas, vous pouvez rechercher Lenet, VGG et autres, regarder les résultats de recherche), interférera avec les résultats de recherche.

Alors, lorsque la référence que vous recherchez appartient au domaine des mathématiques et de la physique, notamment liés à l'IA/ML/Stat, et que Google Scholar ne parvient pas à vous donner des résultats satisfaisants (ou coûte très cher), essayez arxiv !



Auteur : ThoughtWorks
Lien : https://www.jianshu.com/p/0c634da4634e
Source : Jianshu
Le droit d'auteur appartient à l'auteur. Pour une réimpression commerciale, veuillez contacter l'auteur pour obtenir une autorisation. Pour une réimpression non commerciale, veuillez indiquer la source.


 

Je suppose que tu aimes

Origine blog.csdn.net/u012057432/article/details/103246142
conseillé
Classement