ModaHub Magic Building 커뮤니티: 지식 그래프 시나리오에서 AI 에이전트의 AgentBench 벤치마크 테스트

최근 Tsinghua University, Ohio State University 및 University of California, Berkeley의 연구원들은 다차원 개방형 세대 환경에서 LLM의 추론 및 의사 결정 능력을 평가하기 위해 테스트 도구인 AgentBench를 설계했습니다 . 연구원들은 API 기반 비즈니스 모델과 오픈 소스 모델을 포함하여 25개의 LLM에 대한 종합적인 평가를 수행했습니다.

그들은 최고의 상업용 LLM이 복잡한 환경에서 강력한 기능을 발휘하고 GPT-4와 같은 최고의 모델이 광범위한 실제 작업을 처리할 수 있어 오픈 소스 모델보다 훨씬 뛰어난 성능을 발휘한다는 사실을 발견했습니다. 또한 연구원들은 AgentBench가 현재 8가지 테스트 시나리오로 구성된 다차원 동적 벤치마크 테스트이며 앞으로 더 넓은 범위를 포괄하여 LLM에 대한 보다 심층적이고 체계적인 평가를 수행할 것이라고 밝혔습니다.

출처 : arXiv 공식 홈페이지

Supongo que te gusta

Origin blog.csdn.net/qinglingye/article/details/132362019
Recomendado
Clasificación