LegalAI领域大规模预训练语言模型的整理、总结及介绍（持续更新ing…）

企业开发 2023-06-18 22:40:33 阅读次数: 0

诸神缄默不语-个人CSDN博文目录

最近更新日期：2023.6.15
最早更新日期：2023.6.7

文章目录

1. 通用大规模预训练语言模型
2. 对话模型
3. 分句
4. 文本分类
5. 信息抽取

1. 通用大规模预训练语言模型

英语：

LegalBERT
1. 原始论文：(2020 EMNLP) LEGAL-BERT: The Muppets straight out of Law School - ACL Anthology
2. 下载地址：huggingface
CaseLaw-BERT
1. 原始论文：(2021 ICAIL) When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings
BERTLaw
1. 原始论文：(2021) Sublanguage: A Serious Issue Affects Pretrained Models in Legal Domain
2. 下载地址：https://huggingface.co/nguyenthanhasia/BERTLaw
PolBERT
1. 原始论文：(2022 NeurIPS) Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset
legal-longformer
1. 下载地址：https://huggingface.co/saibo/legal-longformer-base-4096
LegalLAMA
1. 原始论文：(2023 ACL) LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development
（印度） InLegalBERT
1. 原始论文：(2023 ICAIL) Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law
2. 下载地址：https://huggingface.co/law-ai/InLegalBERT

中文：

Lawformer
1. 原始论文：(2021) Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents
2. 下载方式：thunlp/LegalPLMs: Source code and checkpoints for legal pre-trained language models.

意大利语：

ITALIAN-LEGAL-BERT
1. 原始论文：(2022) ITALIAN-LEGAL-BERT: A Pre-trained Transformer Language Model for Italian Law
2. 下载地址：https://huggingface.co/dlicari/Italian-Legal-BERT

罗马尼亚语：

jurBERT
1. 原始论文：(2021 NLLP) jurBERT: A Romanian BERT Model for Legal Judgement Prediction

西班牙语：

RoBERTalex
1. 原始论文：(2021) Spanish Legalese Language Model and Corpora
2. 下载地址：PlanTL-GOB-ES/RoBERTalex · Hugging Face

多语言：

ParaLaw Nets（看论文应该是日语和英语）
1. 原始论文：(2021 COLIEE) ParaLaw Nets – Cross-lingual Sentence-level Pretraining for Legal Text Processing
2. 下载地址：我猜是这个：nguyenthanhasia/XLM-Paralaw · Hugging Face
LegalXLMs
1. 原始论文：(2023) MultiLegalPile: A 689GB Multilingual Legal Corpus
2. 下载地址：太多了，待补

越南语：

nguyenthanhasia/VNBertLaw · Hugging Face
PhoBERT
1. 原始论文：(2020 EMNLP) PhoBERT: Pre-trained language models for Vietnamese
2. 官方GitHub项目（介绍了各个预训练模型checkpoint的地址和下载方式）：VinAIResearch/PhoBERT: PhoBERT: Pre-trained language models for Vietnamese (EMNLP-2020 Findings)

法语

JuriBERT
1. 原始论文：(2022) JuriBERT: A Masked-Language Model Adaptation for French Legal Text
2. 下载地址：http://master2-bigdata.polytechnique.fr/resources#juribert（用transformers包的）

2. 对话模型

中文：

Lawyer LLaMA
AndrewZhe/lawyer-llama: 中文法律LLaMA
1. 原始论文：(2023) Lawyer LLaMA Technical Report
2. 官方GitHub项目：AndrewZhe/lawyer-llama: 中文法律LLaMA
  网页版在线体验可以直接申请访问权限（只给了100次使用权限，据说后面会动态调整，大概意思是有钱就多给点吧）
  本地部署版：lawyer-llama-13b-beta1.0已公开（lawyer-llama/run_inference.md at main · AndrewZhe/lawyer-llama · GitHub），但是必须要LLaMA的权重，而我还在排LLaMA的队，所以等着吧

英文：

LawGPT 1.0
虽然名字非常正统，霸气，但是事实上啥也没给，有一种无图言屌的感觉。
1. 原始论文：A Brief Report on LawGPT 1.0: A Virtual Legal Assistant Based on GPT-3

3. 分句

多语言：

https://huggingface.co/models?search=rcds/distilbert-sbd（英语、西班牙语、德语、意大利语、葡萄牙语、法语）
1. 原始论文：(2023 ICAIL) MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset

4. 文本分类

多语言：

PyEuroVoc（欧盟成员国和候选成员国的语言）按照EuroVoc的indicator来进行分类。基于BERT
1. 原始论文：(2021 RANLP) PyEuroVoc: A Tool for Multilingual Legal Document Classification with EuroVoc Descriptors
2. 下载地址：https://pypi.org/project/pyeurovoc/

5. 信息抽取

FPDM
这个原模型是从open-domain迁移到specific domain的工作，法律领域主要做的是contract review（抽取重要信息）
1. 原始论文：(2023) FPDM: Domain-Specific Fast Pre-training Technique using Document-Level Metadata
2. 给了代码和数据集：https://drive.google.com/drive/folders/1RT7g_cTR_twz75xmFjDgQmCPWC8sZSFK

猜你喜欢

转载自blog.csdn.net/PolarisRisingWar/article/details/130746106

LegalAI领域大规模预训练语言模型的整理、总结及介绍（持续更新ing…）

LegalAI公开数据集的整理、总结及介绍（持续更新ing…）

按照功能划分的实用ChatGPT及其他大规模预训练语言模型衍生工具集锦（持续更新ing...）

大语言模型和大规模预训练模型的区别

自己再造一个大规模预训练语言模型？可以的

持续更新不同预训练模型的总结对比

预训练模型知识收集-持续更新

从0到1：如何建立一个大规模多语言代码生成预训练模型

大语言模型的持续预训练

文本摘要数据集的整理、总结及介绍（持续更新ing...）

Huge and Efficient! 一文了解大规模预训练模型高效训练技术

大规模预训练模型在阿里机器翻译中的应用

人工智能超大规模预训练模型浅谈

为什么说预训练模型解决了机器学习对大规模标注数据的需求

大规模预训练模型的落地面临着哪些挑战

如何在深度学习过程中使用预训练的词表征（持续更新ing...）

大规模模型训练tricks集锦

超大规模的产业实用语义分割数据集PSSL与预训练模型开源啦！

AI；预训练模型技术总结与进展(更新中)

LLM 大规模语言模型综述

大规模语言训练模型应用，如何让文档问答系统快速拥有“高智商”？

UE性能优化总结（持续更新ing）

【合集】Transformer 在目标检测领域的应用（持续更新 ing）

NLP预训练语言模型

预训练语言模型（一）

预训练语言模型综述

nlp 预训练模型总结

视频预训练模型总结

【大规模训练】transformer 中的张量模型并行

DeepSpeed超大规模模型训练工具

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)