2023 중국 지능형 산업 정상 포럼丨 문서 이미지 대형 모델에 대한 사고 및 탐구

# 서문

인공 지능 기술의 지속적인 발전, 특히 딥 러닝 기술의 광범위한 적용으로 인해 다중 모드 데이터 처리 및 대규모 모델 훈련이 현재 연구 핫스팟 중 하나가 되었습니다. 이러한 기술은 또한 지능형 처리 및 응용 분야에 큰 이점을 가져왔습니다. 문서 이미지 분석 새로운 개발 기회.

최근 장시(江西)성 난창(南昌)에서 제12회 중국 지능산업 정상포럼(CIIS2023)이 개막해 정부, 기업, 연구계 각계의 학자와 전문가들이 한 자리에 모여 지능형 기술을 공동으로 추진해 산업 혁신과 변화를 주도할 예정이다. 결과 공유, 의견 충돌, 경험 상호 학습 등이 디지털 경제의 급속한 발전을 이끌고 있습니다.

다중 모드 대형 모델 및 문서 이미지 처리

다중 모드 대형 모델은 여러 입력 모달 데이터(예: 텍스트, 이미지, 음성 등)를 처리할 수 있는 딥 러닝 모델을 나타냅니다.

기존 딥 러닝 모델은 일반적으로 텍스트 데이터나 이미지 데이터와 같은 단일 양식의 데이터만 처리할 수 있습니다. 그러나 현실 세계에서는 텍스트와 이미지가 포함된 뉴스 보도, 이미지와 음성이 포함된 비디오 등 다양한 형식의 데이터를 접하는 경우가 많습니다. 이러한 다중 모드 데이터를 더 잘 처리하기 위해 다중 모드 대형 모델이 등장했습니다.

고대부터 현대에 이르기까지 문서는 가장 흔하고 중요한 정보 전달체 중 하나이며, 문서 이미지에서 유용한 정보를 추출하고 이를 정확하게 이해하고 효과적으로 적용하는 방법은 많은 에너지를 필요로 하는 매우 어려운 과제입니다. .

다중 모드 데이터를 포괄적으로 사용하여 대형 모델을 훈련하면 문서 이미지 처리 및 분석의 효율성과 정확성을 크게 향상시켜 관련 산업의 디지털 전환과 지능적 업그레이드를 촉진할 수 있습니다.

컨퍼런스에서 Hehe 정보 지능형 기술 플랫폼 사업부 차장 Ding Kai는 다중 모드 대형 모델 및 문서 이미지 지능형 이해 포럼에서 소개 및 공유를 진행했습니다.

문서이미지 기술의 어려움

문서 이미지 분석, 인식 및 이해의 기술적 어려움은 주로 다음과 같은 측면을 포함합니다.

  1. 다양한 장면 및 형식: 문서 이미지는 신문, 책, 손으로 쓴 메모 등과 같은 다양한 장면 및 형식에서 나올 수 있습니다. 각 장면과 형식에는 서로 다른 특성과 과제가 있으므로 알고리즘이 다양한 장면과 형식에 적응해야 합니다.
  2. 수집 장치의 불확실성: 문서 이미지는 스캐너, 휴대폰 카메라 등 다양한 수집 장치를 통해 획득될 수 있습니다. 장치마다 이미징 품질과 매개변수가 다르기 때문에 이미지 품질과 기능에 차이가 발생합니다. 알고리즘은 견고해야 합니다. 다양한 장치에서 수집된 이미지를 처리할 수 있습니다.
  3. 사용자 요구의 다양성: 사용자는 문서 이미지에 대해 서로 다른 요구를 가지고 있습니다. 어떤 사용자는 텍스트 정보만 추출하면 되고, 어떤 사용자는 구조적인 이해와 분석을 수행해야 할 수도 있습니다. 알고리즘은 다양한 사용자의 요구를 충족할 수 있어야 합니다.
  4. 문서 이미지 품질의 심각한 저하: 문서의 노후화, 손상 또는 보관 상태로 인해 문서 이미지의 품질이 흐릿함, 노이즈, 고르지 못한 조명 등으로 심각하게 저하될 수 있으며, 이는 다음과 같은 작업에 문제를 일으킬 수 있습니다. 텍스트 감지 및 문자 인식 등 어려움.
  5. 텍스트 감지 및 레이아웃 분석의 어려움: 문서 이미지의 텍스트는 글꼴, 크기, 색상 등이 다를 수 있으며 텍스트가 배경색과 유사할 수 있어 텍스트 감지 및 레이아웃 분석이 어려울 수 있으며, 이러한 알고리즘에는 다음이 필요합니다. 효율적이고 정확한 텍스트 감지 및 레이아웃 분석 기능.
  6. 부적격 텍스트의 인식률이 낮습니다. 부적격 조건에서 문서 이미지의 텍스트가 왜곡, 변형, 차단될 수 있어 기존 텍스트 인식 알고리즘의 정확도가 떨어지므로 알고리즘을 개선해야 합니다. 부적합한 조건을 감지할 수 있으며 텍스트를 정확하게 인식할 수 있는 능력입니다.
  7. 구조화된 지능을 이해하는 능력이 부족함: 문서 이미지에 포함된 정보는 텍스트뿐만 아니라 표, 차트, 이미지 등의 구조화된 정보이기도 함. 문서의 정보를 분석하고 이해합니다.

이러한 문제를 바탕으로 히허정보는 지능형 문서 처리 연구 주제를 다음과 같은 6개 모듈로 나누었습니다.


히허정보는 이미지분석, 문서분석, 레이아웃분석, 정보추출, 보안보증, 지식관리 등을 통해 지능형 문서처리의 전 과정을 구현하고, 효율적이고 정확하며 안전한 문서처리 서비스를 제공합니다.

  1. 문서 이미지 분석 및 전처리: 이미지 처리 기술을 사용하여 문서 이미지를 분석 및 전처리하고, 노이즈를 제거하고, 이미지 밝기 및 대비를 조정하여 후속 처리의 정확성과 효과를 향상시킵니다.
  2. 문서 구문 분석 및 인식: 이미지 전처리 후 광학 문자 인식(OCR) 기술을 사용하여 문서를 구문 분석하고 식별하며, 이미지의 텍스트는 후속 처리 및 분석을 위해 편집 및 검색 가능한 텍스트 형식으로 변환됩니다.
  3. 레이아웃 분석 및 복원: 레이아웃 분석을 수행하고 문서의 제목, 단락, 표, 이미지 및 기타 요소를 식별하고 문서의 원래 레이아웃 구조를 복원하여 후속 정보 추출 및 이해를 용이하게 합니다.
  4. 문서 정보 추출 및 이해: 자연어 처리(NLP) 및 기계 학습 기술을 사용하여 문서의 주요 정보를 추출하고 이해하여 실제 비즈니스 시나리오에 필요한 핵심 정보를 얻습니다.
  5. AI 보안: 문서 이미지의 변조, 합성, 생성 흔적을 확인하여 문서 이미지 보안을 보장합니다.
  6. 지식화 및 저장, 검색 및 관리: 처리된 문서 정보를 지식으로 변환하여 후속 저장, 검색 및 관리가 용이하도록 함으로써 사용자가 필요한 문서나 정보를 신속하게 찾을 수 있도록 합니다.

ㅎㅎ 정보 문서 이미지 독점 대형 모델

히히정보의 문서 이미지별 대형 모델은 딥러닝 기술을 기반으로 개발된 대형 언어 모델로, 문서 이미지 관련 업무를 처리하는데 특별히 사용됩니다.

이 모델은 심층 신경망 구조를 기반으로 하며, 대용량 데이터로 학습 및 최적화되었으며, 강력한 문서 이미지 처리 기능을 갖추고 있습니다. 문서의 텍스트, 표, 그래픽 및 기타 정보를 식별하고 추출하여 자동화된 문서 구문 분석 및 이해를 달성할 수 있습니다. 금융, 법률, 의료 등 다양한 분야에서 폭넓게 활용되고 있습니다. 기업과 개인이 문서 처리를 자동화하고 업무 효율성을 높이며 인건비를 절감하는 데 도움이 될 수 있습니다.

현재 시각적 인코더 및 훈련 데이터의 해상도로 인해 제한되는 기존의 대규모 다중 모드 모델은 두드러진 텍스트를 잘 처리하지만 세밀한 텍스트를 제대로 처리하지 못합니다.

이를 위해 Hehe Information은 화남이공대학교와 심도 있는 논의를 진행했습니다.

첫째, 다양한 양상의 데이터는 서로 다른 특성과 표현방식을 갖고 있는데, 이를 어떻게 효과적으로 통합하고 상호작용할 것인가가 중요한 문제이다. 둘째, 대규모 다중 모드 모델은 더 복잡하고 방대한 데이터를 처리해야 하므로 컴퓨팅 리소스와 모델 설계에 대한 수요가 높아집니다. 또한 다양한 양식 간의 상관 관계 및 정렬에는 보다 정교한 처리가 필요하기 때문에 다중 모드 데이터에 레이블을 지정하고 교육하는 것도 어려운 일입니다.

연구자들은 문서 이미지 인식 및 분석의 다양한 작업이 순서 예측(텍스트, 단락, 레이아웃 분석, 표, 수식 등)의 형태로 정의될 수 있다고 믿고 있으며, 그런 다음 다양한 프롬프트를 사용하여 모델이 다양한 OCR을 완료하도록 안내합니다. 문서 이미지 인식 및 분석 레벨링, Markdown/HTML/Text 등 표준 포맷 출력, 최종적으로 문서 이해 관련 업무는 LLM에 맡기세요.

일반적으로 문서 이미지 대형 모델에는 주로 다음 기능이 포함됩니다.

텍스트 인식 및 추출: 문서 이미지의 텍스트를 정확하게 식별하고 텍스트 내용을 추출할 수 있습니다. 인쇄된 것이든 손으로 쓴 것이든 여러 언어를 인식할 수 있습니다.

문서 구조 분석: 문서의 구조를 지능적으로 분석하고 제목, 단락, 목록, 표 등과 같은 다양한 구조 요소를 식별하여 사용자가 문서의 조직 구조를 더 잘 이해할 수 있도록 도와줍니다.

테이블 구문 분석 및 추출: 문서의 테이블 구조를 자동으로 식별 및 구문 분석하고 테이블의 데이터를 추출한 후 구조화된 데이터 형식으로 변환하여 후속 데이터 처리 및 분석을 용이하게 할 수 있습니다.

핵심정보 추출 : 문서에서 날짜, 금액, 회사명 등 핵심정보를 추출할 수 있어 사용자가 문서의 중요한 내용을 빠르게 얻을 수 있습니다.

문서 분류 및 검색: 문서의 내용과 특성에 따라 문서를 분류하고 색인화할 수 있어 사용자가 보다 쉽게 ​​문서를 관리하고 검색할 수 있어 업무 효율성이 향상됩니다.

연구개발 과정

2022년 에 제안된 SPTS 문서 이미지 대형 모델을 예로 들면 ,

장면 텍스트의 경우 엔드투엔드 감지 및 인식은 그림 대 시퀀스 예측 작업으로 정의됩니다. 단일 지점 주석을 사용하여 텍스트 위치를 나타내므로 주석 비용이 크게 절감되고 Rol 샘플링 및 샘플링이 필요하지 않습니다. 복잡한 후처리 작업으로 감지와 인식을 통합합니다.

이후 SPTS v2 연구에서 기업과 대학은 속도 최적화 문제 에 중점을 두었습니다 .

여전히 대상 장면 텍스트, 감지 및 인식은 자동 회귀 단일 지점 감지 및 병렬 텍스트 인식으로 분리됩니다. IAD는 시각적 인코더 기능을 기반으로 각 텍스트의 단일 지점 좌표를 자동 회귀적으로 얻습니다. PRD는 IAD의 단일점 특징을 기반으로 각 텍스트의 인식 결과를 병렬로 얻습니다.

여러 차례 의 반복 끝에 SPTS 기반 OCR 통합 모델(SPTS v3)은 입력을 장면 텍스트에서 테이블, 수식, 챕터 문서 등으로 성공적으로 확장했습니다 .

여러 OCR 작업은 시퀀스 예측으로 정의되며 다양한 프롬프트는 모델이 다양한 OCR 작업을 완료하도록 안내하는 데 사용됩니다. 모델은 SPTS의 CNN+TransformerEncoder+Transformer Decoder의 사진-시퀀스 구조를 따릅니다.


SPTS v3은 현재 엔드 투 엔드 감지 및 인식, 테이블 구조 인식, 필기 수식 인식 등의 작업에 중점을 두고 있습니다.

연구결과

미래를 바라보며

업계 최고의 인공 지능 및 빅 데이터 기술 회사인 Hehe Information은 지능형 텍스트 인식, 이미지 처리, 자연어 처리 및 빅 데이터 마이닝 분야에 깊이 관여하고 있습니다. 그가 개발하는 지능형 이미지 처리 엔진은 다양한 이미지 지능형 기능을 제공합니다. 이미지 가장자리 향상, PS 변조 감지 및 이미지 수정과 같은 처리 블랙 기술은 모두 구현되어 다양한 산업에서 제공됩니다.

앞으로도 히헤정보는 문서 이미지 처리 방향으로 계속 노력하여 다양한 시나리오에 새로운 기술을 적용할 수 있도록 할 것입니다.

Hehe Information의 연구 결과는 지능형 산업에서 매우 중요한 의미를 가지며, 동시에 이러한 결과와 문제에 대한 탐구는 지능형 산업 발전을 위한 새로운 아이디어와 방향을 제시할 것입니다.

Supongo que te gusta

Origin blog.csdn.net/Javascript_tsj/article/details/133148209
Recomendado
Clasificación