생체 메시지에서 채팅 GPT/GPT4 사용

论文链接계산 생물학에서 ChatGPT/GPT-4의 기능을 활용하기 위한 10가지 빠른 팁 | 코드가 있는 논문

종이에 코드가 있는 인기글이었는데 최근에 생물학과 선배님들과 공유하고 싶어서 휙휙 훑어봤습니다. 모두를 위해 여기에 있습니다.

우리의 주요 초점은 현재 ChatGPT/GPT-4 모델에 있지만 이러한 트릭은 Meta의 LLaMa 및 Google의 Bard와 같은 다른 LLM뿐만 아니라 기술의 향후 반복과 관련이 있을 것이라고 믿습니다.

팁 1: 기술을 수용하고 새로운 것에 대비하십시오.

다음 할 말 없음

팁 2: 코드 가독성 및 문서 기능 개선

" 이 코드에 설명 주석 추가 :" 또는 " 명확성을 위해 변수 이름 바꾸기 :"와 같은 간단한 힌트는 향후 코드를 읽는 사람들이 이미 사용할 수 있습니다. ChatGPT는 또한 R에서 전체 roxygen2 구문을 생성하고 Python에서 전체 독스트링을 생성하여 함수를 문서화할 수 있으며, 변수 이름과 코드 논리에서 그 의미를 유추합니다. 문서 작성을 시작하라는 프롬프트의 예는 " Render roxygen2 documentation for the function: "일 수 있습니다.

팁 3: 코드를 보다 효율적으로 작성

또한 ChatGPT는 다양한 기능 재구성도 수행할 수 있습니다. " 명확성을 높이기 위해 함수 추출 :" 또는 " 루프에 대해 다시 작성하고 최적화 :"와 같은 힌트는 코드 모듈성을 개선하고 컴퓨팅 리소스를 절약할 수도 있습니다. 리팩토링할 때 버그 도입을 방지하기 위해 적절한 테스트를 수행하는 것이 중요합니다[12]. ChatGPT는 테스트 인프라를 설정하는 데도 도움이 될 수 있지만(" 다음 함수에 대한 단위 테스트를 작성하고 구현하는 데 도움이 됩니다." 와 같은 프롬프트) 예상되는 내용을 포함하고 있는지 확인하기 위해 생성되는 내용을 주의 깊게 확인하는 것이 중요합니다.

ChatGPT 사용과 완전한 LLM 애플리케이션 구현 간의 절충안은 플러그인을 통해 통합 개발 환경(IDE)에 ChatGPT를 추가하는 것입니다.

예를 들어 GPT-3.5 및 GPT-4는 현재 Visual Studio Code(VSCode)에서 사용할 수 있으며 오픈 소스 플러그인  https://github.com/gencay/vscode-chatgpt 가 있습니다.

R 및 RStudio를 사용하는 생물정보학자의 경우 gptstudio GitHub - MichelNivard/gptstudio: GPT 지원 코딩, 작성 및 분석을 지원하는 GPT RStudio 추가 기능

하지만 논문발표 몇달후 copilot이 런칭되었는데, 이 원클릭 바인딩은 api key가 필요없고 학생인증만 하면 되어서 더욱 편리합니다. GitHub Copilot · AI 페어 프로그래머 · GitHub

팁 4: 데이터 정리 강화

데이터 및 메타데이터는 다양한 형식으로 제공되며 ChatGPT는 이상값을 식별하거나 누락된 데이터를 수정하지 않지만 도구를 제안하고 가장 일반적인 작업에 대한 코드 스니펫을 제공할 수 있습니다. 또한 Excel과 함께 작동하여 지침을 제공하고 매크로를 작성할 수 있습니다.

ChatGPT는 자연어 항목이 포함된 데이터 세트로 작업할 때 가장 유용합니다. 데이터베이스를 관리하거나 공개 데이터 세트를 재분석하는 경우 제출자가 입력한 일관성 없는 데이터를 처리해야 할 수 있습니다. 현재 도구는 데이터를 고유 식별자(예: 데이터베이스 또는 온톨로지에서 제공하는 식별자)와 일관되게 일치시킬 수 없지만 일관성을 더 추가하고 수동 또는 자동 생체 프로비저닝 단계를 용이하게 할 수 있습니다. 명확한 애플리케이션은 " write me regex for R/python/Excel with A pattern that will extract {} from {} " 와 같은 힌트와 함께 정규식을 작성하고 있습니다 .

ChatGPT는 레이블을 직접 정규화하고 오픈 필드 공식에서 볼 수 있는 것처럼 인간과 같은 복잡한 자연어 정리를 수행하는 데 크게 도움이 될 수 있습니다. 작은 데이터 세트의 경우 ChatGPT 인터페이스에서 직접 데이터를 정리하고 " 테이블로 작동합니다. 이 데이터 세트에 일관된 레이블이 있는 새 열 추가 ): " 및 기타 프롬프트를 사용할 수 있습니다 . 더 큰 애플리케이션의 경우 Google 스프레드시트용 GPT( Google 스프레드시트 및 문서용 ChatGPT ) 와 같은 애드온을 사용하거나 API를 직접 사용하는 코드를 작성할 수도 있습니다(팁 9 참조).

팁 5: ChatGPT를 사용하여 데이터 시각화 향상

데이터 시각화는 전산 생물학 연구의 중요한 부분입니다.
ChatGPT는 효율적이고 유익한 그래픽을 만드는 데 유용한 도구입니다. 이 도구의 주목할만한 기능은 ggplot2 및 matplotlib와 같은 인기 있는 시각화 라이브러리(예: "Create a ggplot2 violin plot with a log10 Y axis ")에 능숙하다는 것입니다. 이 전문 지식을 통해 사용자가 문법 문제를 극복하고 새로운 시각화 기술을 제안하며 기존 그래픽을 향상시킬 수 있습니다.

곧 이미지에 대한 직접적인 피드백을 받을 수 있지만 GPT-4의 드로잉 코드 구문 분석 기능을 활용하고 개선이 필요한 부분에서 귀중한 지침을 얻을 수 있습니다. 예를 들어 ChatGPT는 그래픽에 적합한 색상을 선택하고, 색맹인 사람들이 그래픽에 더 쉽게 접근할 수 있도록 하며, 시각화 레이아웃을 개선하는 방법을 제안할 수 있습니다. 시각적 요소를 의미 있게 개선할 수 있는 힌트의 실제 예(예: " 내 코드를 변경하여 플롯을 색맹 사용자에게 친숙하게 만들기: ")

팁 6: 채팅 기술로 작문 실력 향상

계산 생물학에서는 명확하고 효과적인 의사 소통이 특히 중요하며 전문가는 수학자, 생물학자 및 컴퓨터 과학자가 이해할 수 있는 언어로 다양한 과학적 배경을 가진 동료에게 복잡한 아이디어를 전달할 수 있어야 합니다. ChatGPT는 " 다음 문장의 다른 버전을 제공하세요. " 라는 프롬프트와 같이 아이디어를 주문하는 새로운 방법을 제공하여 텍스트 명확성을 향상시킵니다 .

ChatGPT는 또한 " 이 텍스트를 200단어 회의 초록으로 요약합니다 :"와 같은 프롬프트와 같은 텍스트 형식을 다시 지정하고 아이디어를 요약하는 데 도움을 줄 수 있습니다. 출력과 비슷하지만 초기 장벽을 허물고 쓰기 장벽을 극복하는 데 도움이 될 수 있습니다. 자연어에서 글머리 기호 목록을 만들고 글머리 기호 목록을 최종 형식으로 변환하여 에세이에서 수업 계획에 이르기까지 다양한 문서를 만들 수 있습니다.

ChatGPT(또는 다른 언어 모델)를 작문 도구로 사용하여 작문을 개선할 때마다 그 사용법을 공개하여 오해를 방지하십시오.
책임 있는 사용 지침은 특히 출판된 원고의 맥락에서 쓰기 보조 도구로 챗봇을 윤리적으로 사용하는 것과 관련하여 등장하고 있습니다. 연구자는 출판 가능한 연구를 위해 ChatGPT를 사용할 때 토론 내용을 숙지하고 이를 사용할 때 게시자의 가이드라인을 검토할 것을 권장합니다.

팁 7: 생성되는 항목을 테스트하는 방법을 이해하거나 알고 있는지 확인하십시오.

컴퓨팅 프로그래밍 초보자에게 존재하지 않는 함수나 라이브러리에 대한 제안은 중요한 장애물이 될 수 있으며 사람의 개입이 필요합니다. 따라서 개발자가 제공하는 자습서 및 관련 출판물을 연구하는 것이 중요합니다. 문법 도움을 위해 ChatGPT를 사용할 때 이미 공부하고 이해할 수 있는 문법에 대해서만 도움을 요청하거나 최소한 결과를 테스트하는 것이 중요합니다.

팁 8: 신속한 엔지니어링/설계의 기본 사항 배우기

신속한 엔지니어링/설계에는 목표에 맞는 응답 템플릿을 생성하기 위한 효과적인 커뮤니케이션을 위한 프롬프트, 예제, 페르소나 및 목표를 만드는 것이 포함됩니다. 사용 가능한 토큰의 제약 내에서 모델에 대한 보다 명확한 결과를 제공하기 위해 평가 지표를 설정하는 것도 중요합니다.

프롬프트의 좋은 예는 다음과 같습니다. " ChatGPT, 생물정보학에서 GATK 도구의 사용에 대해 배우고 싶습니다. 해당 도구와 관련된 장점과 제한 사항을 포함해 주십시오.(ChatGPT, 생물 정보학에서 GATK 도구의 사용에 대해 배우고 싶습니다.
GATK, 주요 응용 프로그램 및 일부에 대한 간략한 개요를 제공할 수 있습니까?
생물 정보학 분야에서 일반적으로 사용되는 GATK 제품군 내에서 인기 있는 도구?
이러한 도구와 관련된 장점과 제한 사항을 포함하십시오. , 필요한 정보(개요, 응용 프로그램, 널리 사용되는 도구, 강점 및 제한 사항)를 설명하고 AI에 대한 간결하고 집중된 질문을 제시합니다.

더 많은 컨텍스트, 세부 정보 및 구체적인 목표를 제공함으로써 좋은 예는 ChatGPT에서 관련성 있고 유용한 응답을 생성할 가능성이 높지만 나쁜 예는 덜 만족스러운 결과로 이어질 수 있습니다. 개선의 첫 번째 출력 후에 새 매개변수를 추가하는 것은 열려 있는 가능성이지만 대화가 길어지고 미묘하고 복잡해짐에 따라 컨텍스트 손실 위험이 증가하므로 주의해야 합니다. 따라서 특이성, 객관성, 완성도는 오역의 가능성을 줄이기 위해 초기 상호 작용에서 우선 순위를 두어야 합니다.

팁 9: GPT API로 애플리케이션 확장 고려

API를 사용하여 사용자 친화적인 애플리케이션의 인터페이스를 개선하여 사용자가 인간 언어로 소프트웨어와 상호 작용하고 GPT가 소프트웨어를 실행 가능한 코드로 변환하도록 할 수 있습니다. API는 자체 워크플로에서 파이프라인의 일부가 될 수도 있습니다. 예를 들어 텍스트 마이닝 및 토큰화 파이프라인에서는 텍스트 데이터베이스에서 엔터티를 추출하거나 원하는 중지 단어를 기반으로 텍스트를 요약하는 데 사용할 수 있습니다.

미세 조정에는 온도, top_p, frequency_penalty 및 present_penalty와 같이 시스템의 독창성을 규제하는 네 가지 매개변수의 조작이 포함됩니다. 온도 및 top_p 매개변수는 내용과 의미에서 응답의 반복성을 줄이는 높은 값으로 출력이 얼마나 대담하고 비결정적인지 제어합니다. frequency_penalty 및 present_penalty 매개변수는 출력에서 ​​반복되는 토큰(단어)의 가능성을 조정합니다. 이러한 매개변수의 값이 높을수록 더 적은 토큰이 반복됩니다.
재현성은 보장되지 않습니다. 그러나 미세 조정하면 더 간결하고 덜 반복적이며 더 간결한 출력이 생성될 수 있습니다.

API는 웹 툴팁이 허용하는 것(약 4000자)보다 큰 텍스트를 입력할 때도 도움이 될 수 있습니다. 대용량 문서는 GPT를 사용하여 구문 분석할 수 있으며 방법에는 LangChain GitHub - hwchase17/langchain이 포함됩니다. ⚡ 구성 가능성을 통해 LLM으로 애플리케이션 빌드 .

팁 10: GPT에 너무 의존하지 마세요.

그냥 숫자를 만들어내는 것 같으니 신경쓰지 마세요.

생물정보학에서 이러한 도구의 새롭고 창의적인 사용을 추적하기 위해 관련 콘텐츠 를 크라우드 펀딩할 수 있는 GitHub 리포지토리를 구축했습니다.

추천

출처blog.csdn.net/Scabbards_/article/details/131245794