Entdecken Sie die Zukunft der Grafikverarbeitung: "CSIG Image and Graphics Enterprise Tour" teilt praktische Erfahrungen in NLP, künstliche Intelligenz führt technologische Innovation an!

Ich glaube, dass die öffentlichen Konten und kurzen Videokonten, denen viele Freunde folgen, kürzlich Artikel oder Videos über ChatGPT haben. Ich werde nicht zu viel über "generative künstliche Intelligenz" als eine wichtige Technologie beschreiben, die die Implementierung von ChatGPT erleichtert. "Vater von ChatGPT" Al Terman hat einmal gesagt: „Ich denke, wir haben noch eine gewisse Distanz zur generativen künstlichen Intelligenz. Was den Beurteilungsstandard betrifft, so ist die Geburt der generativen künstlichen Intelligenz nach meinen Beobachtungen und Überlegungen der letzten fünf Jahre oder sogar noch länger ein allmählicher Prozess (auch sogenannter "langsamer Start"), kein Moment der Klarheit - zumindest kein anerkannter Moment der Klarheit."

Da die Geburt der generativen künstlichen Intelligenz ein allmählicher Prozess ist, welche Feldszenarien werden nach und nach die starke Anwendbarkeit der künstlichen Intelligenz zeigen? Bei der Aktivität „CSIG Image and Graphics Enterprise Tour“, die von der Chinese Society of Image and Graphics (CSIG) gesponsert und von Hehe Information und dem CSIG Document Image Analysis and Recognition Professional Committee mitorganisiert wurde, konnten wir darüber nachdenken.

Das Thema dieser Veranstaltung lautet „Intelligent Image Processing and Multi-Scenario Application Technology Prospects". Wissenschaftler der Shanghai Jiaotong University, der Xiamen University, der Fudan University und der University of Science and Technology of China sind eingeladen, Bild- und Dokumentenverarbeitung für Forscher auszutauschen die Industrie zusammen mit dem Hehe Information Technology Team Forschungs- und Praxiserfolge in struktureller Modellierung, zugrunde liegender visueller Technologie, kollaborativer Anwendung von Cross-Media-Daten, generativer künstlicher Intelligenz und groß angelegten Konversationssprachmodellen.

1. Wird generative künstliche Intelligenz der nächste Trend sein?

Yang Xiaokang, Dekan des Instituts für künstliche Intelligenz der Shanghai Jiaotong University, teilte auf der Konferenz die technische Forschung zum Thema generative künstliche Intelligenz und das Metaversum.

1. Was ist generative künstliche Intelligenz?

Diskriminierende künstliche Intelligenz basiert auf „Analyse-Erkennung“ und hat eine Reihe von Forschungsanwendungen wie Zielerkennung und Klassifikationsregression entwickelt, während generative künstliche Intelligenz verwendet wird, um verschiedene Formen von Inhalten in einer „Rekonstruktions- und Synthese“-Methode zu generieren. Generative KI ist eine Technik der künstlichen Intelligenz, die aus großen Datenmengen lernt und neue Daten generiert, die den Originaldaten ähneln. Generative KI verwendet typischerweise neuronale Netze oder andere Algorithmen für maschinelles Lernen, um Muster und Regelmäßigkeiten in Daten zu lernen und diese Muster und Regelmäßigkeiten zu verwenden, um neue Daten zu generieren. Im Gegensatz zu herkömmlichen Klassifizierungs- oder Regressionsaufgaben besteht das Ziel der generativen KI darin, neue Daten zu generieren, anstatt vorhandene Daten zu klassifizieren oder zu regressieren.

Es gibt im Allgemeinen zwei Hauptansätze für generative künstliche Intelligenz: generative Modelle basierend auf probabilistischen Modellen und generative Modelle basierend auf Deep Learning. Generative Modelle, die auf probabilistischen Modellen basieren, verwenden Wahrscheinlichkeitsverteilungen, um den generativen Prozess von Daten zu beschreiben und daraus neue Daten zu entnehmen. Deep-Learning-basierte generative Modelle verwenden typischerweise Deep-Learning-Modelle wie Variational Autoencoder (VAEs) oder Generative Adversarial Networks (GANs), um neue Daten zu generieren. Diese Modelle können komplexe Verteilungen und Muster aus Daten lernen und diese Verteilungen und Muster verwenden, um neue Daten zu generieren.

2. Herausforderungen der generativen künstlichen Intelligenz

Das Anwendungsspektrum der generativen künstlichen Intelligenz ist sehr breit, steht aber auch vor einigen Herausforderungen:

Unzureichende Daten: Generative künstliche Intelligenz benötigt eine große Datenmenge, um die Muster und Gesetzmäßigkeiten der Daten zu lernen, aber in einigen Bereichen, wie z stehen vor dem Problem unzureichender Daten.
Modellinstabilität: Generative KI-Modelle sind in der Regel komplexer als herkömmliche Klassifizierungs- oder Regressionsmodelle, sodass sie mit dem Problem der Modellinstabilität konfrontiert sein können, d. h. dieselben Eingabedaten können unterschiedliche Ausgabedaten erzeugen.
Schwierige Kontrolle der generierten Ergebnisse: Die von der generativen KI generierten Daten werden normalerweise automatisch generiert, daher ist es schwierig, sie zu kontrollieren, und die Genauigkeit und Zuverlässigkeit der generierten Ergebnisse kann nicht garantiert werden.
Die generierten Ergebnisse entsprechen möglicherweise nicht ethischen und moralischen Standards: Generative KI kann sensible und kontroverse Inhalte generieren, wie z. B. gefälschte Nachrichten, diskriminierende Kommentare usw., die sich negativ auf die Gesellschaft und die Öffentlichkeit auswirken können.
Schwierig zu bewerten und zu verifizieren: Daten, die von generativer KI generiert werden, haben oft keine klaren Standards und Metriken, um ihre Qualität und Genauigkeit zu bewerten, was es schwierig macht, sie zu überprüfen und zu bewerten.

Als Reaktion auf diese Herausforderungen entwickeln Forscher neue Methoden und Techniken, um diese Probleme zu lösen, wie z. B. die Verwendung stabilerer Modellstrukturen, die Einführung von mehr Einschränkungen und Vorkenntnissen zur Kontrolle der generierten Ergebnisse usw. Gleichzeitig ist es auch notwendig, die Überwachung und Regulierung ethischer und moralischer Standards zu stärken.

3. Szenarioanwendung generativer künstlicher Intelligenz

Dean Yang Xiaokang teilte auch das generative Weltmodell und den generativen virtuellen digitalen Menschen.Durch solche Technologien kann das Weltmodell näher an die physische Realität gebracht werden: von der Erscheinungssimulation bis zum internen Mechanismus physikalischer Phänomene ist der digitale Mensch realistischer und vielseitig. :;Das Training des Agenten am Weltmodell kann den Entscheidungsfindungsprozess in der realen Welt rückkoppeln und die Interaktion zwischen dem digitalen Menschen und dem Weltmodell durch Stereovisions-Rendering, multimodales Laufwerk und dynamische Simulationstechnologie realisieren .

此外，他还介绍了物理现象的视觉仿真与推理: 神经流体研究上的一些突破进展，以及世界模型的持续预测学习的挑战和难点，世界模型表征解耦等学术研究。总结为生成式人工智能为构建基于视觉直觉的物理世界模型和虚拟数字人提供了可行的途径。

此外生成式人工智能在各个领域都有广泛的应用：

文本生成：生成式人工智能可以用来生成各种类型的文本，如新闻文章、小说、诗歌等。这项技术可以被应用于自动化写作、智能客服、智能推荐等场景中。
图像生成：生成式人工智能可以生成新的图像，例如艺术风格转换、图像修复、视频超分辨率等。这项技术可以被应用于电影制作、视频游戏开发、产品设计等场景中。
音频生成：生成式人工智能可以生成各种类型的音频，如音乐、人声、环境声音等。这项技术可以被应用于音乐创作、语音合成、声音修复等场景中。
对话生成：生成式人工智能可以通过学习人类对话的模式和语言规律来生成对话。这项技术可以被应用于智能客服、智能语音助手等场景中。
视频生成：生成式人工智能可以生成新的视频内容，例如视频剪辑、视频合成、视频特效等。这项技术可以被应用于电影制作、广告制作、视频游戏开发等场景中。
3D模型生成：生成式人工智能可以生成各种类型的3D模型，如人物、建筑、汽车等。这项技术可以被应用于产品设计、游戏开发、虚拟现实等场景中。

总之，生成式人工智能在各种场景中都有广泛的应用，可以帮助人类创造更多、更优秀的内容，并提高人类的生产力和创造力。

二、复杂图文处理的未来发展将如何？

中国科学技术大学语音及语言信息处理国家工程研究中心副教授杜俊就团队在文档结构层次化重建领域的最新进展进行分享：如何让机器像人一样可以结合不同模态信号认识理解世界。

1.更深层次的汉字解构研究

基于部首建模的汉字识别、生成与评测，是一种利用汉字的组成部分（部首）来进行汉字处理的方法。该方法可以应用于汉字的识别、生成和评测等多个领域。可以有效提高识别的准确率和速度，用于自动生成汉字书法字体，或者用于生成汉字组合成语言文字，如汉藏语、汉文蒙文等。

基于部首建模的汉字识别、生成与评测的实现过程是一个基于数据、特征和模型的训练和应用过程，需要涉及到数据处理、特征提取、模型训练、预测和优化等多个方面的技术和方法。

部首分解：将汉字按照部首进行分解，得到每个汉字的部首组成部分。

特征提取：对每个部首进行特征提取，例如提取每个部首的笔画数、形状、结构等特征。

模型训练：基于提取的特征，建立机器学习模型，例如支持向量机（SVM）、神经网络等模型，并利用已知的汉字数据集进行训练。

2.自动分析表格结构

杜俊教授提出基于SEM的表格结构识别，SEM（Structural Element Matching）是一种基于结构元素匹配的表格结构识别方法。该方法的原理是在表格识别过程中，将表格的结构看作一种由多个结构元素组成的结构，并将每个结构元素表示为一组特征，然后通过比对待识别表格和预定义的结构元素库中的结构元素，来确定待识别表格的结构和单元格内容。

具体而言，SEM的步骤如下：

预处理：对待识别表格进行预处理，包括图像二值化、去除表格线等。
结构元素库构建：构建包含常见表格结构元素的结构元素库，如表头、行、列、合并单元格等。
特征提取：对待识别表格中的每个像素点提取一组特征，如像素点的颜色、位置、大小、形状等。
结构元素匹配：将待识别表格中的每个像素点的特征与结构元素库中的结构元素进行比对，找出与之最匹配的结构元素。
结构元素组合：根据匹配结果，将结构元素组合成表格的结构和单元格内容。

通过这样的方式，SEM能够对表格进行准确的结构和内容识别，具有较高的准确率和鲁棒性。但是，该方法需要预定义结构元素库，因此对于不同类型和形式的表格，需要进行相应的结构元素库设计和优化，这可能会带来一定的挑战。

3.更精细化的文档解构模型

杜俊教授提还出现阶段文档分析任务中，大多数研究是针对单页内的文章要素的解析，但从内容角度看，许多文档页与页之间内容有关联。该方法的原理是利用预训练的语言模型（如BERT、GPT等）对篇章级的文档进行编码和表示，然后使用相应的解码器将文档中的每个句子或段落与相应的结构类型（如标题、正文、列表等）进行匹配和分类。在这个过程中，模型通常会利用上下文信息、语法规则和语义知识等多个方面的信息，以提高分类的准确性和鲁棒性。

具体而言，该方法的步骤如下：

预处理：对篇章级的文档进行预处理，如分句、分段、去除停用词等。
文档编码：使用预训练的语言模型对文档中的每个句子或段落进行编码，得到其语义表示。
结构类型分类：将文档中的每个句子或段落与相应的结构类型（如标题、正文、列表等）进行匹配和分类，通常使用基于机器学习或深度学习的分类器来实现。
结构化输出：将分类结果转化为结构化的数据，如HTML、XML或JSON等格式，以便进行自动化处理和分析。

这种方法的优点在于可以将篇章级的文档转化为结构化的数据，使得文本数据的自动化处理和分析变得更加容易和高效。但是，该方法需要大量的标注数据和计算资源来训练和优化模型，因此对于某些场景可能不太适用。

三、人工智能结合机器视觉又会在图文处理有何种突破？

1.底层视觉与图像扫描的结合

底层视觉（Low-level vision）主要研究如何提高或恢复各类场景下的图像/视频内容，如清晰度提升，低质量及破损图像恢复等，是计算机视觉领域的重要研究方向之一。其理论和方法在手机图像采集与处理，医疗图像分析等领域发挥着至关重要的作用。底层视觉技术的缺陷将会导致很多high-level视觉系统（检测，识别理解）难以作为成熟产品真正落地。合合信息郭丰俊博士在本次报告中，分享了合合信息技术团队在文档图像处理系统中所做的底层视觉研究工作，从底层视觉技术的直接应用及对下游任务的影响等方面，阐述底层视觉技术在文档图像处理/识别场景下的价值与思考。

2.文档处理与人工智能的结合

文档处理与人工智能的结合，是指将人工智能技术应用于文档处理领域，通过自然语言处理、图像识别、机器学习等技术，对文档进行自动化处理和分析。

具体而言，文档处理与人工智能的结合可以实现以下功能：

文本识别：通过图像识别技术，将纸质文档或扫描件转化为可编辑的文本格式，以便进行后续处理和分析。
文本分类：通过机器学习技术，将文本按照特定的分类方式进行自动分类，如按主题、按语言、按情感等。
信息抽取：通过自然语言处理技术，从文本中自动抽取出特定的信息，如人名、地名、时间等，以便进行自动化处理和分析。
文本摘要：通过自然语言处理技术，将长篇文本自动化地进行摘要，提取出其中的关键信息，以便浏览和阅读。
文档翻译：通过自然语言处理技术，将文档进行自动翻译，实现多语言文档的处理和分析。
知识图谱：通过自然语言处理和图谱技术，将文档中的知识点提取出来，并将其构建为知识图谱，以便进行知识管理和分析。

文档处理与人工智能的结合，可以实现对大量文档的自动化处理和分析，提高工作效率和准确性，降低人力成本和时间成本，对于企业的知识管理和业务分析具有重要的意义。

合合信息智能文档处理技术采用精准的图像裁剪、形变矫正以及去除阴影和摩尔纹等技术，利用人工智能技术对文档图像进行增强和清晰度提升，从而提高文档图像的质量和阅读体验。通过这种方法，可以有效提升文档处理下游任务的质量和效率，例如识别转换和图像分析等。目前，该技术已经被应用于智能文字识别产品，为来自全球上百个国家和地区的数亿用户提供了服务。

四.活动展望总结

Nach Ansicht vieler akademischer und technischer Experten wird die Entwicklung intelligenter Grafikverarbeitung in Zukunft intelligenter, automatisierter und anpassbarer sein. Insbesondere wird die zukünftige intelligente Verarbeitungstechnologie für Grafik und Text der Anwendung von generativer künstlicher Intelligenz wie Deep Learning, Verarbeitung natürlicher Sprache, Computer Vision usw. mehr Aufmerksamkeit schenken. Dadurch wird der Verarbeitungseffekt genauer und effizienter. Gleichzeitig wird die zukünftige intelligente Bild-Text-Verarbeitungstechnologie stärker automatisiert sein, wie z. B. automatische Identifizierung von Dokumententypen, automatische Klassifizierung von Dokumenten, automatische Extraktion von Dokumenteninformationen usw., was die Effizienz und Genauigkeit von Dokumenten weiter verbessern wird wird bearbeitet. Darüber hinaus wird die zukünftige intelligente Grafik- und Textverarbeitungstechnologie auch anpassbarer sein und Kunden maßgeschneiderte Lösungen für verschiedene Branchen und Anwendungsszenarien bieten. Dies wird dazu beitragen, die unterschiedlichen Bedürfnisse der Kunden zu erfüllen und die Kundenerfahrung und -zufriedenheit zu verbessern.