Wenxinyiyan과 Xunfei Xinghuo 간의 종합 비교 테스트: (5) 프로그래밍 능력

관련 기사:

실제 전투 | ChatGPT를 사용하여 단어 형식 데이터 처리: ChatGPt를 직접 사용하고 ChatGPT를 사용하여 Python 스크립트 작성

"Wen Xin Yi Yan" vs ChatGPT, 생각보다 나쁘지 않은 결과

Wenxin Yiyan과 Xunfei Xinghuo 간의 종합 비교 테스트: (1) 언어 이해 능력

Wenxinyiyan과 Xunfei Xinghuo 간의 종합 비교 테스트: (2) 미션 완료

Wenxinyiyan 및 Xunfei Xinghuo 종합 비교 테스트: (3) 상식 질문

Wenxinyiyan과 Xunfei Xinghuo 간의 종합 비교 테스트: (4) 논리 수학

이전 검토:

(1) 언어이해능력 검사 에서는 크게 두 개의 언어모형에 의한 복합의미 이해, 글의 감정인식, 글의 요약, 글의 요소추출을 주로 테스트하였다. 테스트 결과는 다음과 같습니다. 언어 이해 능력 측면에서: 그가 대답하기를 거부한 몇 가지 질문을 제외하고 Xunfei Xinghuo의 성능은 Wen Xinyiyan보다 분명히 낫습니다. 이는 ChatGPT3.5 수준에 매우 가깝다고 말할 수 있습니다.

(2) 과업수행능력에서는 모델의 표 처리능력, 삼행시 완성, 실행계획 작성 등을 평가하여 전반적으로 이 영역에서 두 모델의 수행능력이 평균 수준임을 알 수 있었다.

(3) 일반 지식 질문에서 답변이 만족스럽지 않고 구체적인 이유를 알 수 없으며 논리적 추론 측면에서 Wenxinyiyan과 Xunfei Xinghuo는 ChatGPT보다 훨씬 나쁩니다. 마지막으로 잘못된 문제에 직면하여 Guan Gong을 Qin Qiong과 Lin 자매를 거꾸로 테스트하면 AI는 말도 안되는 말을하면 더 말도 안되는 말을 할 것이라는 생각을 기반으로 기본적으로 실수에 실수를 추가합니다.

(4) 논리수학에서는 단순논리추론과 언어논리문제를 풀어보았는데 성적이 만족스럽지 못하였다. AI는 여전히 수학을 열심히 해야 합니다.

오늘 우리는 프로그래밍 능력 측면에서 두 모델의 성능을 테스트할 것입니다. AI를 비교하는 것은 프로그래밍 능력에서 여전히 유리합니다.

 1. 테스트 콘텐츠 디자인

딥 러닝이 AI 기술을 비약적인 발전 단계로 끌어들인 이후 업계에서는 AI를 사용하여 코드를 작성하려고 노력해 왔습니다.

그들은 여러 언어에 능숙함을 보여주었습니다.

한마디로:

순페이 스파크:

채팅GPT:

테스트는 두 영역으로 나뉩니다.

1. 간단한 코드 완성: 일반적인 엔트리 레벨 프로그래밍 문제(Luogu 엔트리 레벨), 주요 언어는 Python 및 C++입니다.

2. 코드 읽기 및 디버깅: 코드를 제공하고 코드에 대한 설명을 제공하고 AI 자체에서 컴파일한 오류 프로그램에 따라 디버그를 완료할 수 있는지 확인합니다.

2. 단순한 논리적 추론

사용 사례 1: 나머지가 포함된 B2010 나누기

Python 및 C++를 사용하여 다음 기능을 수행하는 프로그램을 작성하는 데 도움을 주십시오.

피제수와 제수가 주어지면 정수 몫과 나머지를 구합니다. 이 질문에서는 결과에 대한 특별한 처리 없이 기본 정수 나누기 및 나머지 연산을 사용하십시오.

입력하다:

공백으로 구분된 피제수와 제수(제수는 0이 아님)가 뒤따르는 두 개의 정수를 포함하는 라인.

산출:

공백으로 구분된 정수 몫과 나머지가 뒤따르는 두 개의 정수를 포함하는 라인.

한마디로:

프로그램을 보면 Wen Xin의 한 단어 완성에는 문제가 없지만 입력 및 출력에 문제가 있으며 상기시킨 후에도 여전히 수정하지 않았습니다.

Xunfei Xinghuo;

이 프로그램은 Luogu에 입력되어 100점을 통과할 수 있습니다.

채팅GPT

절차가 정확하고 제출이 통과할 수 있습니다. 100점입니다.

사용 사례 2: B2048 우송료 계산

Python 및 C++로 프로그래밍된 우표 계산. 계산 규칙은 다음과 같습니다.

우송료는 우편물의 무게와 사용자의 신속 처리 선택 여부에 따라 계산됩니다.

무게가 1000 (포함) 이내이면 기본 요금은 8 위안입니다.

1000그램을 초과하는 부분에 대해서는 500그램당 4위안의 중량 초과 요금이 부과되며 500그램 미만의 부품은 500그램으로 계산됩니다.

사용자가 서두를 경우 추가로 5위안이 청구됩니다.

입력 형식:

양의 정수 x(1보다 크고 10e6보다 작은)와 문자 c(값 y 또는 n)를 포함하는 한 줄은 무게와 긴급 여부를 나타내는 공백으로 구분됩니다.

문자가 y이면 긴급을 선택하는 것을 의미하고 문자가 n이면 서두르지 않는 것을 의미합니다.

출력 형식:

우편 요금을 나타내는 양의 정수로 라인을 출력합니다.

한마디로:

프로그램을 보면 Wenxin Yiyan은 질문의 의미를 전혀 이해하지 못했습니다.이전 테스트에서 볼 때 Wenxin Yiyan의 이해력은 상대적으로 좋지 않습니다.이러한 프로그램은 통과해서는 안됩니다.

Xunfei Xinghuo;

Xunfei Xinghuo의 Python 프로그램 20%의 점수를 얻었습니다.주된 문제는 계산 무게가 1000g을 빼지 않고 C++ 코드 변수 정의에 문제가 있다는 것입니다.컴파일을 통과할 방법이 없으며 그 논리는 다음과 같습니다. 또한 파이썬과 동일합니다.

채팅GPT

Python, C++ 프로그램 제출, 10개 테스트 포인트 중 9개 통과, 하나는 과체중이어야 하며 그림의 빨간색 부분에 표시된 것처럼 500의 배수, +1하지 마십시오.

주제가 조금 더 어려워지고 간격이 넓어집니다. 차후 테스트는 굳이 할 필요가 없을 것 같고, 완성도가 너무 낮은 질문들이 많아서 올리지 않겠습니다.

2. 프로그램 라벨링 및 디버깅

사용 사례 1: 간단한 프로그램에 주석 달기

한마디로:

라벨링은 양호하지만 출력이 그다지 안정적이지 않고 가끔 오류가 발생합니다.

순페이 스파크:

답변도 좋습니다.

채팅GPT:

라벨링에 관한 한 전체적인 완성도는 좋습니다.

사용 사례 2: 프로그램 디버그

무게가 2000일 때 계산이 잘못된 점을 지적하며 ChatGPT에서 작성한 우편요금 계산 프로그램을 선택했습니다.

우편 요금을 계산하기 위해 Python으로 프로그래밍하고 있습니다. 계산 규칙은 다음과 같습니다. 우편물의 무게와 사용자가 신속 처리를 선택했는지 여부에 따라 우편 요금을 계산합니다. 무게가 1000(포함) 이내인 경우 기본 요금은 8위안이며, 1000g을 초과하는 부분은 500g당 4위안의 추가 요금이 부과되며 500g 미만은 500으로 계산됩니다. 그램; 사용자가 서두를 경우 추가로 5위안이 청구됩니다. 입력 형식: 양의 정수 x(1보다 크고 10e6보다 작은)와 문자 c(값 y 또는 n)를 포함하는 한 줄은 무게와 긴급 여부를 나타내는 공백으로 구분됩니다. 문자가 y이면 급행이 선택되었음을 의미하고 문자가 n이면 긴급하지 않음을 의미합니다. 출력 형식: 우편 요금을 나타내는 양의 정수가 있는 행을 출력합니다.

제가 작성한 프로그램은 다음과 같습니다.

가중치, is_urgent = input().split()

무게 = int(무게)

기본_수수료 = 8

가중치 > 1000인 경우:

과체중 = 체중 - 1000

extra_fee = (과체중 // 500 + 1) * 4

또 다른:

과체중 = 0

extra_fee = 0

is_urgent == 'y'인 경우:

총수수료 = 기본수수료 + 추가수수료 + 5

또 다른:

총_수수료 = 기본수수료 + 추가수수료

인쇄(total_fee)

다만 초과 중량이 500으로 나누어지면 계산이 잘못된 것이므로 프로그램을 수정하여 출력하도록 도와주세요.

한마디로:

처음에 수정을 했지만 이 수정이 더 심해져서 나는 그에게 다음과 같이 상기시켰습니다.

나는 그에게 상기시켜 주었지만 그는 나에게 이렇게 대답 했습니까? , 내 설명이 잘못 되었습니까? 잊어 버려

순페이 스파크:

수정하지 않고 미리 알림 후:

지적하되 바꾸지 말아요 저처럼

채팅GPT:

정수 나눗셈에 오류가 있었다고 언급했을 때 무슨 말인지 바로 알아차렸고, +499를 반올림하는 이 방법도 상당히 영리해서 판단을 덧붙입니다.

틈, 틈! !

제출, 모두 합격!

4. 요약

오늘 세 모델의 프로그래밍 능력을 테스트했는데 ChatGPT의 능력은 여전히 ​​좋고 다른 테스트에서도 길을 경험했지만 Wenxinyiyan과 Xunfei Xinghuo는 여전히 열심히 노력해야합니다.

Wenxin Yiyan과 Xunfei Xinghuo에 대한 테스트가 모두 끝났습니다.

테스트를 해본 곳이나 테스트 방법이 잘못된 곳은 없는지 지적해 주시고, 추후에 좀 더 자세한 테스트를 해볼 수 있는 시간이 있으면 좋겠습니다.

국내 AI모델이 점점 좋아지길 바랍니다.

Guess you like

Origin blog.csdn.net/m0_37771865/article/details/130779228