基于大模型来构建自己非结构化数据集的问答数据对

在instruct gpt 出来以前文本生成的输入只有原文。出现了instruct gpt以后。我们需要做一个特征丰富工程。通过特征丰富工程来提升文本生成任务的效果。如果仅仅是问答那就不要做这么大的模型。问答一般长度在1024以内可以解决掉。你见过什么样子的对话是长到没边际的吗。我想，用文本生成系列任务来表述现在的生成式语言大模型比较好。我在做的任务包括，基于文本滑动窗口构建专利文本解读的任务。还有基于药品说明书的专业性医疗交互的任务。今天和生成式语言模型交互的时候，发现了5-10B参数的文本生成式语言模型最大的能力是相对更小参数量的生成式语言模型具有更准确、清晰和结构化的生成结果。但是生成任务的泛化能力与幻想能力是一个博弈问题。重点的博弈是幻想如果少了，那泛化必然受到影响。幻想如果多了，那精准性必然受到影响。

我们可以看一下，这个结构的数据。这个结构的数据是面向于民航方面的专利进行生成式语言大模型的解读交互的生成结果。其中第一列为专利原文，第二列为基于专利原文和指令生成出来的问题，第三列为基于论文和生成出来的问题给出的相关解释。这里面我们只是用民航专利来举一个例子。我甚至在思考。是不是构建一个三段式的多步生成体系。完全没训练的训练是发生在数据发生调整以后的才算训练。而如何调整这个数据，如何找到一群人来共建一个有效的多段式的token在2048以内的有效的指令数据集。这非常的重要。

output = []

def main():
    history = []
    maxlen = 386
    global stop_stream
    import pandas as pd
    # dataset = pd.read_excel("../dataset/summary.xlsx", engine='openpyxl')
    out_list = []
    #     autodl-tmp/人工整理文本
    for l in dataset.values.tolist():
        for l in l:
            if not isinstance(l,str):
                continue
            out = ""
            for l_one in l.split("。"):
                if len(l_one) > maxlen:
                    out_list.append(out)
                    out = ""
                    continue
                if len(out + l_one + "。") > maxlen:
                    out_list.append(out)
                    out = ""
                else:
                    out += l_one + "。"
    for query in list(set(out_list)):
        print(query)
        response, _ = model.chat(tokenizer, "面对以下内容提出几个问题，不需要给出答案," + query, history=[])
        # os.system(clear_command)
        # print(build_prompt(history), flush=True)
        for response_one in response.split("\n"):
            if response_one.endswith("？"):
                response, _ = model.chat(tokenizer, "面对以下内容" + query + "。给出问题" + response_one + "的答案。",
                                         history=[])

                output.append({"knowledge": query, "question": response_one, "document_answer": response})
                pd.DataFrame(output).to_excel("knowledge_question_answer.1111.xlsx")
                torch_gc()
        torch_gc()


if __name__ == "__main__":
    main()

所以困住大模型的，是一种指令构建的上层产品架构。在大模型流行以前，我也训练了很多10亿参数级别的模型。也有超出sota的。那面向市场的意义究竟是什么。是一套有价值的文本生成的场景与差异化。训练了以后也测出来了一些指标性的内容。这算是科研。不过我们活下去需要的是有效的自然语言处理应用的市场。对于短的输入，我们要通过一些方式来有效的加长，面对与长的输入，我们需要通过一些方式来进行有效的去除无贡献意义的摘出短序列。你这讲的就是数据集的构造，可以用chatgpt构造数据集，构建数据集以后。要修改数据集才能算是增加了一些我们垂直领域生成式语言模型与通用领域生成式语言模型之间的差异。我一直认为，这些通用的大模型做到的是同一套指令产品设计的上层体现。那如果打通了一套全新的指令产品设计的话，那我们才有可能挖出来更具有市场价值的生成式语言大模型。

GitHub - ymcui/Chinese-LLaMA-Alpaca: 中文LLaMA&Alpaca大语言模型+本地CPU/GPU部署 (Chinese LLaMA & Alpaca LLMs)github.com/ymcui/Chinese-LLaMA-Alpaca正在上传…重新上传取消

例如这个工作中就提到了如何进行词表新增与模型的继续预训练。bloom中也有裁剪词表后继续预训练的。

专业文本生成任务的价值取决于其上下文和目标受众。以下是一些可能有价值的专业文本生成任务：

1. 学术论文：学术论文是专业文本生成任务中最常见的目标之一。这些文本通常需要准确、清晰和结构化的撰写，因此生成高质量的学术论文可以有助于确保其准确性和可读性。

2. 商业报告：商业报告需要描述公司的财务业绩、市场分析、竞争策略等内容。这些文本需要高度的准确性和逻辑性，因此专业文本生成任务可以确保生成的商业报告符合其要求。

3. 技术文档：技术文档需要描述软件、工具和技术的使用方法和功能。这些文本通常需要详细和详细的撰写，以吸引读者。

4. 法律文件：法律文件需要描述合同、专利、商标等法律文本。这些文本需要清晰、简洁和结构化的撰写，以吸引读者并确保其符合法律要求。

5. 产品说明：产品说明需要描述产品的特性、功能和使用方法。这些文本需要详细、清晰和易于理解的撰写，以吸引读者并确保其符合产品说明的要求。

需要注意的是，不同的专业文本生成任务可能需要不同类型的文本结构和语言风格，因此需要根据具体的任务和目标受众选择最适合的任务和文本生成工具。

文本大模型生成模型在学术论文领域的赋能主要体现在以下方面：

1. 自动化写作：文本大模型生成模型可以自动生成学术论文，不需要人工干预。这对于研究人员来说，可以节省大量的时间和精力，同时提高生产效率。

2. 准确性和可读性：文本大模型生成模型可以生成准确、清晰和易于理解的学术论文，可以确保其符合学术论文的要求。这对于研究人员来说，可以提高研究成果的可靠性和被接受程度。

3. 定制化写作：文本大模型生成模型可以根据具体的任务和目标受众，生成定制化的学术论文。例如，可以生成针对某个特定研究主题的学术论文，或者针对某个读者群体的学术论文。

4. 知识图谱：文本大模型生成模型可以结合大量的知识库，生成更加智能化的学术论文。例如，可以结合研究领域的知识库，生成针对该领域的学术论文，也可以结合历史文献、新闻文章等，生成更加全面的学术论文。

文本大模型生成模型在学术论文领域可以带来很多优势，包括自动化写作、准确性和可读性、定制化写作和知识图谱等。这些优势可以大大提高生产效率，同时提高研究成果的可靠性和被接受程度。

文本大模型生成模型在商业报告领域的赋能主要体现在以下方面：

1. 自动化写作：文本大模型生成模型可以自动生成商业报告，不需要人工干预。这对于商业报告撰写人员来说，可以节省大量的时间和精力，同时提高生产效率。

2. 准确性和可读性：文本大模型生成模型可以生成准确、清晰和易于理解的商业报告，可以确保其符合商业报告的要求。这对于商业报告撰写人员来说，可以提高研究成果的可靠性和被接受程度。

3. 定制化写作：文本大模型生成模型可以根据具体的任务和目标受众，生成定制化的商业报告。例如，可以生成针对某个特定市场的商业报告，或者针对某个客户群体的商业报告。

4. 知识图谱：文本大模型生成模型可以结合大量的知识库，生成更加智能化的商业报告。例如，可以结合研究领域的知识库，生成针对该领域的商业报告，也可以结合历史文献、新闻文章等，生成更加全面的商业报告。

文本大模型生成模型在商业报告领域可以带来很多优势，包括自动化写作、准确性和可读性、定制化写作和知识图谱等。这些优势可以大大提高生产效率，同时提高研究成果的可靠性和被接受程度。

文本生成大模型在技术文档领域的赋能如下：

1. 自动化技术文档：文本生成大模型可以帮助自动化技术文档。这些模型可以自动生成大量的技术文档，包括介绍如何使用软件的文档、文档的摘要和内容概述等。这可以大大提高文档的效率和准确性，使得文档更容易理解和使用。

2. 个性化文档：文本生成大模型可以根据用户的输入生成个性化的文档。例如，一个模型可以基于用户的问题或需求生成特定的文档，而不是简单地生成大量的文档。这种个性化的方式可以帮助用户更好地理解和使用文档。

3. 提高文档质量：文本生成大模型可以生成高质量的文档。这些模型可以学习语言和文档的结构和规则，从而生成更加准确和自然的文本。这可以提高文档的质量和可读性，帮助用户更好地理解和使用文档。

4. 与其他工具的结合：文本生成大模型可以与其他工具结合使用，如自然语言处理和机器学习模型的结合，以生成更加智能化和个性化的文档。这些模型可以用于自动化文档生成、智能问答、智能推荐等应用。

文本生成大模型在技术文档领域的赋能非常广泛，可以用于自动化文档生成、个性化文档生成、智能问答和智能推荐等应用。这些模型可以大大提高文档的效率和准确性，帮助用户更好地理解和使用文档。

法律文件是指法律机构或个人为确保文件内容准确、完整和有效而制定的规范文件，包括合同、协议、法律文件、授权委托书、律师函等。

在法律文件中，文本生成大模型可以用于自动化生成以下内容：

1. 合同文本：法律文件中最重要的内容之一是合同，文本生成大模型可以自动生成合同文本，包括合同条款、合同主体、合同时间等细节，使得用户可以快速生成合同并进行法律审核。

2. 协议文本：文本生成大模型还可以用于生成各种类型的协议文本，如保密协议、雇佣协议、合作协议等，帮助用户快速生成各种类型的协议，并确保协议内容准确、完整和有效。

3. 授权委托书：文本生成大模型可以生成各种类型的授权委托书，包括个人授权、公司授权、律师授权等，确保授权委托书内容准确、完整和有效。

4. 律师函：文本生成大模型可以生成各种类型的律师函，帮助用户快速生成律师函并进行法律审核，确保律师函内容准确、完整和有效。

文本生成大模型在法律文件领域的应用可以帮助用户提高法律文件的效率和准确性，从而保护用户和公司的权益。

产品说明是向潜在用户或现有用户介绍产品、服务或解决方案的重要文档，通常包括产品的基本信息、特点和功能，以及使用说明和用户手册等。产品说明可以帮助企业或机构更好地理解和吸引潜在用户或现有用户，提高产品的销售和用户满意度。

在产品说明中，文本生成大模型可以用于自动化生成以下内容：

1. 产品基本信息：产品说明需要包括产品的基本信息，如产品名称、产品类型、产品型号等。文本生成大模型可以自动生成产品基本信息，帮助用户快速了解产品。

2. 产品特点和功能：文本生成大模型可以用于自动化生成产品特点和功能。例如，一个模型可以生成产品的特点，如产品的特点、功能、性能等，以便用户更好地了解产品。

3. 使用说明：文本生成大模型可以用于自动化生成使用说明。例如，一个模型可以生成产品的使用说明，包括如何安装、如何使用和注意事项等，以便用户更好地了解产品。

4. 用户手册：文本生成大模型可以用于自动化生成用户手册。例如，一个模型可以生成用户手册，包括产品的使用说明、操作指南和常见问题解答等，以便用户更好地了解产品。

文本生成大模型在产品说明中的应用场景非常广泛，可以帮助用户快速生成产品基本信息、产品特点和功能、使用说明和用户手册等文档，从而更好地向潜在用户或现有用户介绍产品

基于大模型来构建自己非结构化数据集的问答数据对

猜你喜欢