청두역 소스 창립 컨퍼런스가 끝났으며, 10월에도 쑤저우에서 열기는 계속될 것입니다!

9월 23일, Open Source China와 Tencent Cloud TVP가 주최한 제95회 OSC 소스 혁신 컨퍼런스 및 Techo TVP 기술 살롱이 청두에서 성공적으로 개최되었습니다. 이번 행사에서는 '데이터와 최첨단 기술'이라는 주제로 데이터 분야 기술 리더 5명이 모여 데이터 저장, 분석, 데이터 마이닝 등 업계 기술 혁신을 발표하고, 향후 데이터 기술 발전에 대해 논의했다. .
먼저 단체 사진을 찍고, 아기부터 프로그래밍을 시작하자
이 행사는 Yuanchuang Association의 훌륭한 전통인 피자 세션을 이어갔습니다.
재미있게 보내세요!
진지하게 공부하고 녹음하는 친구들의 모습을 많이 담아봤습니다!
아니, 여기 당첨되지 않은 사람은 없겠죠? !
 
멋진 현장 사진을 감상하신 후, 기조연설 리뷰로 넘어가겠습니다.
 
Tencent Cloud 벡터 데이터베이스 제품 관리자인 Zou Peng은 "대형 모델 시나리오에서 벡터 데이터베이스의 응용 실습"에 대한 기조 연설을 했습니다. Zou Peng은 대형 모델이 일반 인공 지능의 개발을 시작했으며 다음 큰 변화는 응용 패러다임의 변화가 될 것이라고 말했습니다. 현재의 사람과 컴퓨터 간의 의사소통 방식은 ​​여전히 ​​코드이지만, 향후 10년의 상호작용 방식은 자연어, 오디오 및 비디오, 심지어 신체 움직임일 수도 있으며 "대형 모델 + 벡터 데이터베이스 + 프롬프트 단어"가 오늘날의 AI 애플리케이션 개발 패러다임의 표준입니다.
 
대규모 모델이 지식을 학습하는 방법에는 사전 학습, 미세 조정, 지식 기반의 세 가지가 있습니다. 이에 비해 지식 기반은 대규모 모델 애플리케이션을 위한 비용 최적의 솔루션입니다. 대형 모델 응용 프로그램은 주로 두 가지 방향으로 진행됩니다. 하나는 단순히 지식 질문 및 답변 시나리오로 이해될 수 있는 검색 향상의 생성인 RAG이고, 다른 방향은 일부 지속적인 작업을 처리하고 엔터프라이즈를 호출할 수 있는 자동 에이전트입니다. 인터페이스. 그 중 현재 개발 중인 RAG 시나리오는 전형적인 개발 패러다임으로, 예를 들어 기업이 내부 지식 베이스, 지능형 고객 서비스 Q&A 등을 구축하려면 기업의 기존 지식 자료를 첫 번째 단계는 자료를 텍스트로 분할하고, 텍스트를 직접 계산할 수 없기 때문에 두 번째 단계는 벡터로 변환하는 것이며, 세 번째 단계는 벡터 데이터베이스를 통해 벡터 인덱스를 구축하여 지식을 검색 가능하게 만드는 것입니다. 지식베이스 구축을 완료합니다. 애플리케이션 측면에는 지식 기반을 쿼리하고 프롬프트를 사용하여 대형 모델 호출을 실현할 수 있는 대형 모델 앱이 있습니다.
 
RAG 튜닝 경로를 예로 들어 Zou Peng은 벡터 데이터 검색의 정확성을 향상시키기 위해 몇 가지 핵심 기술 노드를 도입했습니다. 우선, 텍스트 파싱 과정에서는 Markdown 형식의 텍스트가 첫 번째 선택이고 Embedding 레이어가 검색 효과를 결정합니다. 차원이 높을수록 효과가 더 좋습니다. 1536, 1024 차원과 같은 높은 차원을 많이 선택할 수 있습니다. Index 레이어는 초기 AI 적용 시 손실을 방지하는 간단하고 조잡한 방법입니다. Query Enhancement를 Query 레이어에 추가하여 대부분의 질문에 대해 고품질 답변을 얻을 수 있도록 할 수 있습니다. Prompt 레이어는 다음에 중점을 둡니다. 역할, 배경, 목적이라는 세 가지 핵심 정보, LLM 계층, 산업 모델은 미래 트렌드가 될 것이며 개방형 모델을 사용하여 사전 학습할 수 있습니다.
 
마지막으로 Zou Peng은 Tencent Cloud VectorDB를 소개했습니다. Tencent Cloud VectorDB는 올해 8월 1일 출시되어 현재 초대 테스트 단계에 있습니다. 필요한 기업은 공식 웹사이트에 가서 무료 활성화를 신청할 수 있습니다. 이 벡터 데이터베이스는 Tencent 그룹이 보유하고 있는 분산 벡터 검색 엔진 OLAMA에서 파생됩니다. 다년간 축적된 고품질 서비스를 제공하며 처리량, 짧은 대기 시간, 저렴한 비용, 고가용성 및 탄력적인 확장성을 갖춘 완전 관리형 벡터 검색 데이터베이스 서비스입니다.
Feitu Technology Chengdu Branch의 R&D 이사인 Zhao Haifeng이 "데이터 기반 퀀트 트레이딩"에 대한 기조 연설을 했습니다. Zhao Haifeng은 정량 거래가 거래 결정을 내리기 위해 주로 시장 데이터를 사용한다고 소개했습니다. 그러면 증권사를 통해 시장 데이터를 얻고 시장 데이터의 지연 시간이 짧은 수신을 위한 소프트웨어 및 하드웨어 솔루션을 구현하는 방법은 무엇입니까?
 
거래소에서 발표한 호가는 중개인이 처리한 후 거래 기관에 전달되며 전달 채널에는 주로 TCP, UDP, FPGA 가속 UDP 및 ASIC 가속 UDP 호가가 포함됩니다. 그러나 브로커가 처리된 시장 데이터를 TCP 연결을 통해 거래 기관에 전달할 경우에는 큰 지연, 애플리케이션 계층 패킷 손실(비TCP 프로토콜 패킷 손실), 송신자에 대한 높은 부하 등의 문제가 발생합니다. 이러한 문제를 해결하기 위해 브로커는 처리된 호가나 거래소에서 보낸 원본 호가를 UDP 멀티캐스트나 브로드캐스트를 통해 거래기관에 전달합니다. 궁극적인 낮은 지연 시간을 달성하기 위해 중개 측에서는 이를 다양한 방법으로 해결할 것이며, 특히 효과적인 방법 중 하나는 L1 스위치를 사용하여 첫 번째 계층의 고객에게 광 또는 전기 신호를 전달하는 것입니다. 전달 지연은 다음과 같이 낮을 수 있습니다. 4ns로. UDP는 신뢰할 수 있는 전송 프로토콜은 아니지만 동일한 스위치에 연결된 서버 간에 UDP를 사용하여 통신하는 경우 정상적인 상황에서 네트워크의 패킷 손실이 거의 없다는 점에 유의해야 합니다. 그러나 클라이언트 프로그램과 서버의 네트워크 카드 모두에서 패킷 손실이 발생할 수 있습니다. 따라서 고객이 시장 시세를 받으면 잠금 없는 링 버퍼를 사용하여 데이터를 처리 스레드로 전달하여 다양한 주식 시세를 병렬로 처리한 다음 거래 시스템에서 읽을 수 있도록 처리 결과를 공유 메모리에 쓸 수 있습니다. .
 
시장 데이터를 받은 후 시장 데이터를 다른 내부 소비자에게 어떻게 전달합니까? 지연 요구 사항이 너무 높지 않은 경우 TCP를 사용하여 상황을 전달하고 패킷 손실률을 직접 제어할 수 있으며 지연을 줄이고 처리량을 늘리려면 UDP를 사용하여 상황을 전달할 수도 있습니다. 틱별 견적에는 패킷 손실이 허용되지 않으므로 UDP를 사용하여 견적을 전달할 때 TCP 견적 재전송 서비스를 사용하여 다중 채널 견적 집계 및 Rocksdb 지속성을 통해 UDP로 전달된 견적을 보완할 수 있습니다. 데이터를 전달하기 전에 압축하면 대기 시간과 처리량이 더 좋아질 수 있습니다. 시장 압축에는 두 가지 주요 방법이 있습니다. 시장 정보 압축과 메시지 내부 필드(주식 코드, 가격) 압축입니다.
 
시장이 전달된 후 시장 데이터를 사용하여 거래 실행을 분석하는 방법과 모델을 교육하는 방법은 무엇입니까? 시장 데이터를 수집한 후 적용 시나리오 중 하나는 정량적 거래 모델을 훈련하는 것인데, 수집된 시장 데이터는 특징 처리를 통해 특성화되고 요인을 추출한 후 AI를 모델 훈련에 사용한 다음 훈련된 모델을 구문 분석하여 준비합니다. 효율적인 실시간 계산을 위해 실시간 신호 값을 수신한 후 신호가 신속하게 거래 시스템에 푸시되고 다양한 전략 구성에 따라 거래가 트리거될 수 있습니다. 또 다른 시나리오 응용 프로그램은 수집된 시장 데이터를 ClickHouse와 통합하는 것입니다. 효율적인 집계 및 분석 쿼리 기능을 제공할 뿐만 아니라 스트리밍 집계 테이블을 사용하여 실시간 거래 손익, 위험 지표 등 거래 데이터를 자동으로 계산할 수도 있습니다.
PostgreSQL ACE/MVP Xiong Cancan은 "여행이 시작되었으며 미래에 대한 희망이 있습니다 - PostgreSQL 및 벡터 데이터베이스"에 대한 기조 연설을 했습니다. Xiong Cancan은 LLM이 기억 상실증에 걸리기 쉬운 뇌라면 벡터 데이터베이스는 해마라고 믿습니다. 기억력 부족으로 인해 LLM과의 모든 상호 작용은 계속해서 반복되는 비공개 책 시험과 같습니다.
 
벡터 데이터베이스의 존재로 인해 이 프로세스는 공개 시험이 될 수 있습니다. 한편으로는 LLM이 특별한 데이터와 지식을 검색하고 환각 문제를 해결하여 답변을 더 정확하게 만들 수 있고, 다른 한편으로는 LLM이 과거를 회상할 수 있습니다. 경험과 역사 등 사용자의 요구를 이해하고 반영을 통해 더 나은 개인화를 달성합니다. 따라서 벡터 데이터베이스는 벡터 데이터를 저장하고 조회하는 데 특별히 사용되는 데이터베이스 시스템으로, 기존 데이터베이스와 비교하여 벡터화된 계산을 사용하여 대규모의 복잡한 데이터를 고속으로 처리할 수 있으며, 다음과 같은 고차원 데이터를 처리할 수 있습니다. 이미지, 오디오, 비디오 등은 기존 관계형 데이터베이스의 문제점을 해결하는 동시에 벡터 데이터베이스는 복잡한 쿼리 작업을 지원하고 더 큰 규모의 데이터를 처리하기 위해 여러 노드로 쉽게 확장할 수 있습니다.
현재 시중에는 수백 개의 벡터 데이터베이스가 있는데, 전문적인 벡터 데이터베이스를 선택하는 것 외에 확장을 위해 전통적인 데이터베이스를 사용하는 것도 하나의 방법이다. Ins는 PostgreSQL의 어깨 위에 서 있습니다.
 
예를 들어 pgVector를 사용하면 플러그인 형태로 PostgreSQL에 기여하고 PostgreSQL 생태계의 초강력 세트를 상속합니다. 또한 pgVector는 대략적인 검색을 위한 ivfflat 알고리즘과 같은 다양한 인덱싱 알고리즘을 제공합니다. 유사한 벡터를 영역으로 클러스터링하고 반전된 인덱스를 설정하여 각 영역을 해당 벡터에 매핑하는 방식으로 작동하므로 쿼리가 하위 집합에 집중될 수 있습니다. 데이터를 빠르게 검색할 수 있습니다. pgVector는 또한 검색 속도와 메모리 효율성을 향상시키기 위해 Product Quantization과 함께 사용할 수 있는 HNSW 인덱스를 사용합니다.
G7 Yiliu Technology 부사장이자 Tencent Cloud TVP인 Zhao Yuntao는 'G7 Yiliu AIoT 데이터 실습'이라는 주제를 공유했습니다. Zhao Yuntao는 먼저 AIoT 데이터 시나리오의 특성을 소개했습니다: 장비는 중단 없는 데이터 유입을 트리거하고 실시간 모니터링, 실시간 계산 및 다차원 쿼리에 대한 수요가 높으며 시공간 데이터 특성이 뚜렷하고 시공간 빅이 필요합니다. 데이터 분석. .
 
세계 최고의 IoT 소프트웨어 서비스 회사로서 G7 Yiliu는 다양하고 복잡한 데이터 시나리오에 직면해 있습니다. 선택 경향은 두 가지입니다. 하나는 시간과 공간을 교환하는 것이고, 다양한 데이터 스토리지는 고객에게 최고의 경험을 제공합니다. 다른 하나는 이를 기반으로 합니다. , 비용을 통제하기 위해 혁신적인 솔루션을 최대한 채택해야 합니다. Zhao Yuntao는 저주파 스토리지 비용을 제어하기 위한 핫 및 콜드 분리, 컴퓨팅 리소스 낭비를 줄이기 위한 스토리지와 계산 분리, 전체 스토리지 비용 제어를 위한 압축 알고리즘 + 복사 알고리즘 업그레이드라는 세 가지 비용 제어 솔루션을 공유했습니다.
 
마지막으로 Zhao Yuntao는 기업 데이터의 기반인 데이터베이스가 더 다양한 복합 기능, 더 나은 보안 제어, 비용 측면에서 더 나은 성능을 가질 수 있기를 바라며 미래 데이터베이스에 대한 기대도 표명했습니다. 새로운 AI 시대에는 AI와 더욱 유기적으로 결합해 차세대 데이터 저장 기술 시스템을 구축할 수 있다.
Apache SeaTunnel PMC 회원인 Fan Jia가 "Apache SeaTunnel과 ClickHouse의 데이터 통합"에 대한 기조 연설을 했습니다. Fan Jia는 Apache SeaTunnel이 다중 엔진, 다중 데이터 소스, 다중 기능, 다중 동기화 모드 등을 지원하는 데이터 통합 ​​애플리케이션을 개발하기 위한 프레임워크라고 소개했습니다. Fan Jia는 ClickHouse 데이터베이스를 Apache SeaTunnel에 통합하는 데 중점을 두었습니다. Apache SeaTunnel은 컴퓨팅 도구가 아닌 통합 도구이므로 Apache SeaTunnel의 목표는 ClickHouse에 데이터를 더 빠르게 쓰는 것입니다.
 
Apache SeaTunnel은 ClickHouse에 데이터를 쓰기 전에 테이블 특성을 얻습니다. 분산 테이블의 경우 계산을 통해 해당 로컬 테이블에 데이터를 분산시켜 쓰기 성능을 향상시킨다. CDC 적응 측면에서 지원되는 모든 CDC 데이터 소스, ClickHouse 경량 삭제 기능을 통해 삭제 비용 절감, MySQL을 예로 들면 해당 데이터 변경 사항은 ClickHouse 해당 SQL 문으로 변환되어 비기본 키 모델에 대한 데이터 작업을 수행합니다. 증분 데이터 쓰기. 앞으로 Apache SeaTunnel 및 ClickHouse의 데이터 통합을 통해 쓰기 속도를 최적화하고, 더 많은 엔진에 대한 최적화를 달성하고, 읽기 최적화를 달성하고, 로컬 테이블 읽기를 지원할 것입니다.
이번 행사를 적극적으로 지원해주신 모든 파트너분들께 감사드립니다!
이번 행사도 이제 끝이 납니다. 원추앙협회 동지 여러분, 10월 쑤저우에서 만나요!
 
협력할 의향이 있거나 원추앙 회의에 대한 자세한 정보를 사전에 알고 싶으시면 WeChat: 18655807197을 추가하세요.
 
마지막으로 멋진 현장 사진을 잔뜩 보내드릴게요!
Microsoft는 새로운 "Windows App" .NET 8 공식 GA를 출시하고 최신 LTS 버전 Xiaomi는 Xiaomi Vela가 완전 오픈 소스이며 기본 커널은 NuttX Alibaba Cloud 11.12라고 공식 발표했습니다. 실패 원인이 노출되었습니다: 액세스 키 서비스(Access Key Service) 핵심) 예외 Vite 5 공식적으로 GitHub 보고서 발표: TypeScript가 Java를 대체하고 세 번째로 가장 인기 있는 언어가 됨 Rust에서 Prettier를 다시 작성하는 데 수십만 달러의 보상 제공 오픈 소스 작성자에게 "프로젝트가 아직 살아 있나요?"라고 묻는 매우 무례하고 무례한 바이트댄스: AI를 사용하여 Linux 커널 매개 변수 연산자를 자동으로 조정하는 마법 작업: 백그라운드에서 네트워크 연결을 끊고 광대역 계정을 비활성화하고 사용자가 광 모뎀을 강제로 변경하도록 합니다.
{{o.이름}}
{{이름}}

Ich denke du magst

Origin my.oschina.net/u/4489239/blog/10114975
Empfohlen
Rangfolge