Usando Chat GPT/GPT4 em Biomessage

论文链接Dez dicas rápidas para aproveitar o poder do ChatGPT/GPT-4 em biologia computacional | Papéis com Código

Era um artigo popular no papel com código. Recentemente, quis compartilhá-lo com os alunos do último ano do departamento de biologia, então folheei. Achei que o artigo original era um monte de bobagens, então escolhi algumas partes úteis e coloquei está aqui para todos.estudar.

Embora nosso foco principal esteja nos modelos ChatGPT/GPT-4 atuais, acreditamos que esses truques permanecerão relevantes para futuras iterações da técnica, bem como para outros LLMs, como o LLaMa da Meta e o Bard do Google.

Dica 1: Abrace a tecnologia e esteja pronto para coisas novas

nada a dizer a seguir

Dica 2: Melhore a legibilidade do código e as funções do documento

Dicas simples como " Adicione comentários explicativos a este código :" ou " Renomeie as variáveis ​​para maior clareza :" já estão disponíveis para futuros leitores do código. Muita conveniência. O ChatGPT também pode documentar funções gerando a sintaxe completa do roxygen2 em R e docstrings completas em python, inferindo seu significado a partir de nomes de variáveis ​​e lógica de código. Um exemplo de prompt para começar a escrever documentação poderia ser " Renderizar documentação roxygen2 para a função: ".

Dica 3: Escreva código com mais eficiência

Além disso, o ChatGPT também pode realizar várias reconstruções funcionais. Dicas como " Extrair funções para maior clareza :" ou " Reescrever e otimizar este loop for :" podem melhorar a modularidade do código e até mesmo economizar recursos de computação. Ao refatorar, é importante ter bons testes para evitar a introdução de bugs [12]. Embora o ChatGPT também possa ajudá-lo a configurar sua infraestrutura de teste (avisos como " Escreva um teste de unidade para a seguinte função e ajude-me a implementá-lo" ), é importante verificar cuidadosamente o que ele gera para garantir que está cobrindo o que deveria.

Um compromisso entre o uso do ChatGPT e a implementação de um aplicativo LLM completo é adicionar o ChatGPT ao ambiente de desenvolvimento integrado (IDE) por meio de um plug-in.

Por exemplo, GPT-3.5 e GPT-4 estão atualmente disponíveis no Visual Studio Code (VSCode) e há um plug-in de código aberto  https://github.com/gencay/vscode-chatgpt

Para bioinformáticos que usam R e RStudio, gptstudio GitHub - MichelNivard/gptstudio: suplementos GPT RStudio que permitem codificação, escrita e análise assistidas por GPT

No entanto, alguns meses após a publicação do artigo, o co-piloto foi lançado. Essa ligação de um clique não requer uma chave de API e requer apenas a verificação do aluno, por isso é mais conveniente. GitHub Copilot · Seu programador de par AI · GitHub

Dica 4: Melhore a Limpeza de Dados

Dados e metadados vêm em vários formatos e, embora o ChatGPT não identifique outliers ou corrija dados ausentes, ele pode sugerir ferramentas e fornecer trechos de código para as tarefas mais comuns. Ele também pode trabalhar com o Excel, fornecendo orientação e escrevendo macros.

ChatGPT é mais útil ao trabalhar com conjuntos de dados contendo entradas de linguagem natural. Se você gerencia um banco de dados ou reanalisa conjuntos de dados públicos, pode ter que lidar com dados inconsistentes inseridos pelos remetentes. Embora as ferramentas atuais não possam corresponder consistentemente os dados a identificadores exclusivos (como aqueles fornecidos por bancos de dados ou ontologias), elas podem adicionar mais consistência e facilitar as etapas de bioprovisionamento manual ou automatizado. Um aplicativo claro está escrevendo expressões regulares, com dicas como " escreva-me regex para R/python/Excel com um padrão que extrairá {} de{} ".

O ChatGPT pode ajudar muito a normalizar os rótulos diretamente e executar uma limpeza de linguagem natural complexa semelhante à humana, conforme encontrado em formulações de campo aberto. Para pequenos conjuntos de dados, você pode limpar os dados diretamente na interface do ChatGPT e usar algo como " Agir como uma tabela. Adicionar uma nova coluna com rótulos consistentes a este conjunto de dados ): " e outros prompts. Para aplicativos maiores, use complementos como GPT para Google Sheets ( ChatGPT for Google Sheets and Docs ) ou até mesmo escreva um código que use a API diretamente (consulte a Dica 9).

Dica 5: Use o ChatGPT para aprimorar a visualização de dados

A visualização de dados é uma parte importante da pesquisa em biologia computacional.
O ChatGPT pode ser uma ferramenta valiosa para ajudar a criar gráficos eficazes e informativos. Um recurso notável dessa ferramenta é sua proficiência em bibliotecas de visualização populares, como ggplot2 e matplotlib, por exemplo, " Criar um gráfico de violino ggplot2 com um eixo log10 Y ". Essa experiência permite que ele ajude os usuários a superar desafios gramaticais, sugerir novas técnicas de visualização e aprimorar gráficos existentes.

Embora possamos ter feedback direto sobre as imagens em breve, ainda podemos aproveitar a capacidade do GPT-4 de analisar códigos de desenho e obter orientações valiosas onde melhorias são necessárias. Por exemplo, o ChatGPT pode ajudá-lo a escolher cores apropriadas para gráficos, tornar os gráficos mais acessíveis para pessoas com daltonismo e sugerir maneiras de melhorar o layout das visualizações. Um exemplo prático de uma dica que pode levar a melhorias significativas em seus recursos visuais, como " Alterar meu código para tornar o gráfico compatível com daltônicos: "

Dica 6: Melhore sua escrita com habilidades de bate-papo

A comunicação clara e eficaz é especialmente importante em biologia computacional, e os especialistas devem ser capazes de comunicar ideias complexas a colegas com diversas formações científicas em uma linguagem que matemáticos, biólogos e cientistas da computação possam entender. O ChatGPT melhora a clareza do texto, fornecendo novas formas de ordenar ideias, como o prompt " Forneça-me algumas versões diferentes da seguinte frase: ".

O ChatGPT também pode ajudar a reformatar o texto e resumir ideias, como o prompt " Resuma este texto em um resumo de conferência de 200 palavras :". documentos, de redações a planos de aula, criando listas com marcadores a partir da linguagem natural e convertendo listas com marcadores para um formato final.

Onde quer que você use o ChatGPT (ou outros modelos de linguagem) como uma ferramenta de escrita para melhorar sua redação, certifique-se de divulgar seu uso para evitar mal-entendidos.
Diretrizes de uso responsável estão surgindo em relação ao uso ético de chatbots como auxiliares de escrita, particularmente no contexto de manuscritos publicados. Recomendamos que os pesquisadores se familiarizem com a discussão ao usar o ChatGPT para pesquisas publicáveis ​​e revisem as diretrizes do editor ao usá-lo.

Dica 7: certifique-se de entender ou saber como testar o que ele gera

Para iniciantes em programação computacional, sugestões de funções ou bibliotecas inexistentes podem ser um obstáculo significativo e reforçar a necessidade de intervenção humana. Portanto, é importante estudar os tutoriais fornecidos pelos desenvolvedores e as publicações relacionadas a eles. Ao usar o ChatGPT para obter ajuda gramatical, é importante pedir ajuda apenas com a gramática que você já estudou e pode entender - ou pelo menos testar os resultados.

Dica 8: Aprenda os fundamentos da engenharia/projeto imediato

A engenharia/projeto de prompt inclui a criação de prompts, exemplos, personas e metas para uma comunicação eficaz para gerar modelos de resposta adaptados aos seus objetivos. Também é importante definir métricas de avaliação para fornecer resultados mais definitivos para o modelo dentro das restrições de tokens disponíveis.

Um bom exemplo de prompt seria: " ChatGPT, gostaria de aprender sobre o uso das ferramentas GATK em bioinformática. Você poderia fazer uma breve introdução ao GATK, seus principais aplicativos e alguns populares no conjunto GATK comumente no campo das ferramentas de bioinformática? Inclua quaisquer vantagens e limitações associadas a essas ferramentas. (ChatGPT, gostaria de aprender sobre o uso de ferramentas GATK em bioinformática. Você poderia fornecer uma breve visão geral do GATK,
suas principais aplicações e algumas
ferramentas populares dentro do pacote GATK que são comumente usadas no campo da bioinformática?
Inclua quaisquer vantagens e limitações associadas a essas ferramentas.)
"Esta dica é eficaz porque indica claramente o contexto (bioinformática), especifica o assunto (Ferramentas GATK) , descreve as informações necessárias (visão geral, aplicativos, ferramentas populares, pontos fortes e limitações) e apresenta uma pergunta concisa e focada para IA.

Ao fornecer mais contexto, detalhes e objetivos específicos, bons exemplos têm maior probabilidade de gerar respostas relevantes e informativas do ChatGPT, enquanto maus exemplos podem levar a resultados menos satisfatórios. Adicionar novos parâmetros após a primeira saída de refinamento é uma possibilidade em aberto, mas deve-se tomar cuidado, pois o risco de perder o contexto aumenta à medida que as conversas se tornam mais longas, com mais nuances e mais complexas. Portanto, especificidade, objetividade e integridade devem ser priorizadas nas interações iniciais para mitigar a possibilidade de má interpretação

Dica 9: Considere estender seu aplicativo com a API GPT

Você pode usar APIs para melhorar a interface de aplicativos amigáveis, permitindo que os usuários interajam com seu software em linguagem humana e que o GPT o converta em código executável. A API também pode fazer parte de um pipeline em seu próprio fluxo de trabalho. Por exemplo, em pipelines de mineração de texto e tokenização, ele pode ser usado para extrair entidades de bancos de dados de texto ou para resumir o texto com base nas palavras de parada desejadas.

O ajuste fino inclui a manipulação de quatro parâmetros que regulam a criatividade do sistema: temperatura, top_p, frequency_penalty e presença_penalty. Os parâmetros temperature e top_p controlam o quão ousada e não determinística é a saída, com valores altos reduzindo a repetitividade das respostas em conteúdo e significado. Os parâmetros frequência_penalty e presença_penalty ajustam a probabilidade de tokens (palavras) serem repetidos na saída, quanto maior o valor desses parâmetros, menos tokens são repetidos.
Observe que a reprodutibilidade não é garantida. No entanto, o ajuste fino pode produzir uma saída mais concisa, menos repetitiva e mais concisa.

A API também pode ajudar ao inserir um texto maior do que a dica de ferramenta da Web permite (cerca de 4.000 caracteres). Documentos grandes podem ser analisados ​​usando GPT, os métodos incluem LangChain GitHub - hwchase17/langchain: ⚡ Construindo aplicativos com LLMs por meio de composição ⚡ , que é capaz de modificar um grande número de documentos de diferentes fontes para acesso ao modelo e facilitar as respostas de maneira mais organizada .

Dica 10: não confie muito no GPT

Parece que está apenas inventando os números, não importa.

Para rastrear usos novos e criativos dessas ferramentas em bioinformática, estabelecemos um repositório GitHub para crowdfund conteúdo relacionado GitHub - csbl-br/awesome-compbio-chatgpt: Um repositório incrível de aplicativos curados pela comunidade de ChatGPT e outros LLMs em biologia computacional

Acho que você gosta

Origin blog.csdn.net/Scabbards_/article/details/131245794
Recomendado
Clasificación