국내 ChatGPT 대형 모델 인벤토리

Q: 알리의 대형 모델 출시 주기와 전반적인 수준은?

답변: Alibaba Dharma Institute는 주로 대규모 모델의 연구 개발을 주도하고 있습니다.약 22년 전에 우리는 실제로 자연어 이해를 위한 자체 대규모 모델인 m6, 하나는 플러그라고 합니다. M6는 기본적으로 텍스트로 생성된 사진, 텍스트로 생성된 음성, 텍스트로 생성된 비디오 모델과 같은 다중 모달 AI 모델을 지원할 수 있습니다. 그리고 전체 크기는 실제로 더 작습니다. 따라서 대형 모델에서는 현재 모델을 중형 모델이라고도 할 수 있습니다.

Dharma Institute의 최고 리더가 명령을 내리고 전체 팀의 약 100 명이 관련 대규모 모델을 반복 및 업그레이드하기 시작하여 GPT와 비교할 수있는 수준으로 반복합니다. 현재 우리가 받은 일부 피드백에 따르면 우리 m6의 일부 자연어 이해 기능은 GPT3.5 및 GPT3.5와 비교할 수 없으며 여전히 약 1년 반의 차이가 있습니다.

따라서 올해 하반기에 Yunqi Conference가 열릴 것으로 예상할 때 m6의 최신 모델이 일부 출시되거나 진행되어 GPT2.5 수준 정도가 될 수 있습니다.

불충분한 말뭉치 축적. 기존의 대규모 언어 모델은 텍스트 정리 및 선별에 약간의 제한이 있으므로 기존 모델을 업그레이드하고 다양한 분야의 데이터 요구에 맞게 반복해야 합니다. 예를 들어 군사, 관광 문화, 정치 및 기타 분야에 모델을 적용하려면 더 높은 정확도와 효율성을 달성하기 위해 더 많은 데이터 수집과 수동 라벨링이 필요합니다. 동시에 대규모 언어 모델의 성숙은 Tmall Taobao 및 Gaode Map과 같은 애플리케이션에서 검색 및 고객 서비스 로봇과 같은 더 많은 비즈니스 기회를 가져올 것입니다. 또한 대규모 언어 모델이 충분히 성숙되면 파트너가 API를 공개하고 액세스하여 생태적 수준에서 독점을 달성할 수 있습니다.

Q: Ali의 대형 모델과 Wenxin의 예상 비교는 무엇입니까? 동시에 우리의 큰 모델의 개발을 가장 제한하는 것은 말뭉치라고 생각합니까, 아니면 모델 초기의 경로에서 벗어난 것입니까?우리의 개발을 제한하는 가장 중요한 이유는 무엇이라고 생각하십니까?

A: 우리는 Baidu가 그렇게 똑똑하지는 않지만 꽤 잘하고 있다고 생각합니다. 국내에서는 1위일지도 모릅니다. 아직 개선의 여지가 많다고 생각합니다. Wenxin Yiyan은 어느 정도 실행 가능성이 있지만 GPT-3 수준에 도달하려면 아직 멀었습니다. 하지만 최소한 GPT-2.5 수준까지는 도달할 수 있다고 생각하고, 앞으로도 반복과 최적화가 계속된다면 GPT-3.5 수준까지 도달할 수 있을 것 같습니다. 데이터 축적은 특히 검색 분야에서 Baidu에게 유리합니다. Baidu는 Baidu Zhizhi를 포함하여 다년간의 지식 기반을 축적했습니다. Wenxin Yiyan과 달리 모델 아키텍처는 Transformer를 기반으로 하고 Wenxin Yiyan은 Bert를 기반으로 합니다. Wen Xin Yi Yan을 기반으로 더 스마트한 반복을 달성하는 방법은 Bodhidharma Academy 학생들이 해결해야 할 과제일 수 있습니다.

Q: 알리는 나중에 어떻게 따라잡았나요? 어떤 플레이를 할 것인가?

A: 우리가 제공할 수 있는 솔루션은 크게 두 가지인데, 하나는 우리가 출시한 모델이 상대적으로 효과적이며 Tmall, Taobao 및 AutoNavi의 검색 사업과 같은 그룹의 내부 제품과 결합될 수 있다는 것입니다. 이것은 새로운 비즈니스 모델을 검색 엔진에 도입하고 이전 비즈니스 모델을 대체할 것입니다. 또한 자체 API를 내보내고 파트너 또는 채널 공급자를 청구할 수도 있습니다. 이러한 파트너는 API를 사용하고 ToC 측에서 생성된 고객을 대표합니다. 대부분의 고객은 자신의 APP와 웹사이트를 가지고 있으며 이러한 고객은 자신의 APP와 웹사이트를 통해 트래픽을 얻을 수 있습니다. 서로 다른 고객은 서로 다른 API를 사용할 수 있으며, 이는 공급업체가 생태계에서 독점을 형성할 수 있음을 의미합니다. 현재 일부 제조업체에서 당사 API를 제품에 통합하려고 시도했지만 예상만큼 진행이 빠르지 않습니다. API의 경우 전자 상거래, 검색 및 추천과 같은 특정 영역에서 도움이 될 수 있으며 더 나은 비즈니스 모델로 이어질 수 있습니다.

Q: Tencent 대형 모델의 진행 상황은 어떻습니까?

답변: Hunyuan 모델이 계속 반복되고 있으며 약 100명이 GPT 반복 및 자체 모델 반복을 수행하고 있다고 들었습니다. 그것은 우리보다 더 빨라야 합니다. 8월에 나올 것 같아요. 그러나 Wen Shengwen의 장면만 지원해야 합니다.

Q. 알리는 현재 비용과 상관없이 AI 빅모델에 막대한 투자를 하고 있는 건지, 꾸준하고 안정적으로 상용화를 검토 중인 건지.

답변: 확률이 높고 꾸준하게 플레이하는 것이 좋습니다.이제 분할 후에는 자신의 이익과 손실을 책임져야 하므로 상당히 스트레스를 받습니다.

ChatGPT 의 추론 작업 의 경우 소비 능력은 2초 이내에 추론을 수행하는 A100 5개 정도일 것입니다.대규모 응용 프로그램의 비용이 매우 높고 영향도 큽니다.

Q: Huawei Pangu 및 Ascend에 대해 어떻게 생각하십니까?

답변: 판구 대형 모델의 효과는 검증이 필요하고, GPT에 대한 명확한 벤치마킹은 없지만 B 측에서 할 것입니다.

동시에 제한으로 인해 자신의 Ascend 만 사용할 수 있습니다 Ascend 910은 A100의 약 70 % 수준 (Cambrian보다 우수함)이지만 컴퓨팅 성능의 제한으로 인해 대형 모델 개발이 제한 될 수 있습니다 .

Q: 대형 모델 적용에 대한 AI 질문 답변 진행 상황을 알고 있습니까?

답변: "지식 AI 문답" 모델이 최근 출시되었습니다. 차세대 인공 지능 AI 지식 강화 대형 언어 모델 기술을 기반으로 한 제품입니다. 이 제품은 여러 시나리오를 지원하고 사용자에게 더 가깝습니다. 팀 약 100명이 GPT 모델을 만들 수 있습니다. 교육 최적화 및 자체 모델 반복. Wenshengwen, 카피라이팅 생성 및 확장과 같은 다양한 시나리오를 지원합니다.

Q: 360도 대형 모델은 어떻게 보나요?

A: 최근 360이 NV에서 수천 대의 A800을 주문한 것을 알게 되었습니다. 360 코퍼스는 우리보다 강할 수 있지만 결국 어떤 효과를 낼 수 있는지 확인하는 데 시간이 걸릴 것입니다.

Q: BAT 및 Byte와 같이 낙관적인 빅 모델은 무엇입니까?

답변: 첫 번째는 선점 이점이 있는 Baidu Wenxin이고 두 번째는 데이터, 컴퓨팅 성능 및 시나리오가 있기 때문에 바이트일 수 있습니다.

Supongo que te gusta

Origin blog.csdn.net/beautycountry88/article/details/131489054
Recomendado
Clasificación