Алгоритм собственной разработки повышает точность обнаружения фальсификации текста и изображений, а техническая команда Douyin стала чемпионом по классификации ICDAR2023...

Практическое внимание

bf9b894641e71a460d2b39873e619c0e.gif

Сухие товары не теряются

Недавно в конкурсе ICDAR 2023 «Обнаружение поддельного текста в изображениях» техническая команда Douyin CV использовала разработанный самостоятельно алгоритм «CAS», чтобы выделиться среди 1267 участвующих команд и занять первое место в классификации.

ICDAR (Международная конференция по анализу и распознаванию документов) — признанная авторитетная научная конференция в области международного анализа и распознавания изображений документов, охватывающая такие области, как распознавание текста, обнаружение текста, анализ документов и обработка естественного языка. Конференция проводится раз в два года с 1991 года и привлекает ученых, инженеров и ученых со всего мира, чтобы поделиться результатами своих исследований и последними технологическими достижениями. 17-е издание пройдет в Калифорнии, США, в августе 2023 года.

Конкурс DTT фокусируется на обнаружении фальсификации текстовых изображений в реальных сценариях. С быстрым развитием анализа и распознавания документов новые технологии также появляются и широко используются в цифровых финансах, электронной коммерции, аудите безопасности и интеллектуальном образовании. Однако большая часть предыдущих исследований была сосредоточена на понимании содержания текста, и меньше внимания уделялось подлинности самого изображения. В отличие от обычного обнаружения фальсификации людей или объектов на естественных изображениях, обнаружение фальсификации текста является более сложной задачей с точки зрения точности и обобщения. Во-первых, подделанная область обычно невелика, и модификация нескольких символов может привести к искажению общей семантики, а так как на фоне отсутствуют сложные текстуры, то нет явного различия между подделанной областью и соседней областью.

Введение в конкурс

Набор данных конкурса содержит в общей сложности 19 000 текстовых изображений, собранных в реальных сценах путем съемки, сканирования и скриншотов, а некоторые изображения копируются, вставляются, заменяются и стираются путем ручной ретуши или машинного синтеза, различных видов подделки. Задача конкурса — научить классификатор определять, не были ли фальсифицированы изображения в тестовом наборе.

a28215eb9e39110747040475e08d63b0.png

Рисунок 1. Образцы для обучения

7279fdd8a24ba271841c159252a6bd49.png

Рис. 2. Гистограмма распределения площади поврежденной зоны

Гонка разделена на две фазы:

  • Предварительный этап содержит обучающую выборку и предварительную тестовую выборку. Обучающий набор содержит изображения и метки для сегментации и классификации, а тестовый набор содержит только изображения. На этом этапе участники напрямую отправляют результаты прогноза для подсчета очков, который длится 35 дней, и каждая команда может отправлять до 5 раз в день.

  • 30 лучших команд предварительного раунда выйдут в полуфинал, который продлится 6 дней. Набор тестов на этапе полуфинала не является публичным, и финалисты могут каждый раз отправлять один образ Docker, а организатор отвечает за выполнение рассуждений и подсчет баллов. Наибольший результат на полуфинальном этапе будет считаться окончательным.

План соревнований

Ввиду особенностей многих типов фальсификации, небольшой области переднего плана и небольшого количества обучающих данных в наборе данных, в традиционную схему классификации внесены следующие улучшения:

  • Путем внедрения сторонних наборов данных и онлайн-генерации для расширения обучающих выборок, замены моделей на основе данных и улучшения возможностей обобщения.

  • Разработан двухэтапный классификатор «Классификация после сегментации», который учитывает различные характеристики CNN и Transformer и объединяет их для максимального изучения информации об изображении на разных уровнях.

  • Используя метод выборки скользящего окна на исходном изображении высокого разрешения, в случае ограниченных вычислительных мощностей и ресурсов максимально сохраняется общая семантика и локальные детали изображения.

увеличение данных

В дополнение к представлению нескольких наборов данных с открытым исходным кодом для обнаружения несанкционированного доступа для увеличения количества образцов, онлайн-синтез также используется для создания измененных изображений на этапе обучения, что обеспечивает множество обучающих данных. Обычно используемые методы фальсификации включают в себя частичное стирание, копирование и вставку различных областей одного и того же изображения, а также замену различных областей изображения. Поскольку соревнование в основном направлено на подделку текстовой области, перед синтезом данных необходимо выполнить обнаружение текста, чтобы различить символы и фон. При этом для приближения к реальной сцене, кроме простой подделки картинки, необходимо также использовать различные постобработки для устранения следов подделки. Например, случайное масштабирование, вторичное сжатие JPEG, размытие изображения и случайный шум и т. д.

структура модели

Опираясь на схему слияния различных типов признаков, обычно используемых при обнаружении фальсификации изображений, команда разработала новаторскую структуру классификации после сегментации, чтобы отделить восприятие неглубоких следов фальсификации и понимание семантики абстрактного текста, а также интегрировать различные уровни визуальных понятий. на последующем этапе, чтобы максимально полно изучить информацию об изображении. На этапе сегментации CNN используется в качестве кодировщика для сбора локальной информации, а структура пирамиды признаков, аналогичная UpperNet, отбирается одновременно для создания тепловой карты на уровне пикселей, которая объединяется с исходным изображением и используется в качестве исходного изображения. ввод последующей модели классификации. По сравнению с CNN механизм внутреннего внимания Transformer больше подходит для извлечения признаков высокого уровня и понимания абстрактной семантики, поэтому Transformer используется в качестве кодировщика на этапе классификации для прогнозирования полной метки изображения.

7b4086be2d0142f5fa0001872bacc916.png

Рисунок 3. Структурная схема CAS

Учитывая, что целевая область мала, масштабирование исходного изображения приведет к повреждению следов вмешательства, что не способствует сходимости модели. В то же время из-за ограничений на вычислительную мощность и использование памяти модели в конкурсе невозможно напрямую использовать исходный размер для вывода. Чтобы максимально сохранить информацию об изображении, для обучения и логического вывода используется метод выборки скользящего окна. В области сегментации изображений рассуждение со скользящим окном изначально было широко используемой техникой, поэтому на первом этапе также используется та же стратегия выборки. На втором этапе в процессе кодирования скользящее окно используется для извлечения признаков и глобального объединения различных областей исходного изображения. Затем векторы признаков всех регионов объединяются для создания признаков полного изображения, а затем декодируются классификатором для получения результата прогнозирования бинарной классификации.

Для сегментации изображения использование потерь в кости часто может эффективно улучшить производительность модели, но также существует риск резких изменений градиента, что приводит к нестабильному обучению. Таким образом, на этапе сегментации используется комбинация потерь BCE и потерь кубиков, чтобы улучшить производительность модели и обеспечить стабильность обучения. В то же время из-за большой разницы в площади положительной и отрицательной областей для ускорения сходимости модели также используется стратегия балансировки выборки на уровне пикселей OHEM (Online Difficult Example Mining). На этапе классификации в качестве функции потерь используется обычная кросс-энтропия. В то же время он также попытался ввести сглаживание меток, обычно используемое в моделях с несколькими классификациями. Эксперименты доказывают, что даже в сценариях бинарной классификации правильное сглаживание меток может эффективно улучшить производительность модели.

В ходе эксперимента было обнаружено, что использование одних и тех же данных для сквозного обучения может легко привести к переподгонке нижестоящей модели классификации к тепловой карте, созданной восходящей сегментацией, тем самым снижая обобщающую способность модели. Поэтому принята двухэтапная стратегия обучения: на первом этапе используются различные методы аугментации данных для создания богатых обучающих выборок, а «универсальная» модель сегментации обучается для улучшения обобщающей способности восходящего потока; на первом этапе На втором этапе фиксируется вес фиксированной части сегментации. Используйте набор данных соревнований только для точной настройки модели классификации нисходящего потока и повышения общей производительности.

b6b61036ec0c66c2d77ab341a62bf7da.png

Рисунок 4. Эксперимент по абляции CAS

слияние результатов

На этапе обучения были опробованы различные магистральные сети, и было обнаружено, что более глубокие сети и большее количество параметров не могут обеспечить оптимальную производительность. Учитывая ограничение времени вывода на этапе повторного сопоставления, для слияния на этапе вывода были окончательно выбраны три модели с высокой производительностью и низкими временными затратами. В то же время, чтобы получить более надежную производительность, в процессе логического вывода тестовое изображение переворачивается по горизонтали, а результаты до и после переворачивания объединяются для расчета окончательной оценки прогноза. Во всех двух упомянутых выше слияниях используется метод средневзвешенного значения. Эксперименты показывают, что слияние до активации обычно превосходит слияние после активации. То есть после того, как функции сопоставлены линейным классификатором, производительность выше, когда сначала выполняется слияние, а затем для вычисления оценки используется softmax.

4be434fac809f0d4d1d9f5339843a602.png

Рисунок 5. Пример обнаружения частичного вмешательства

Кроме того, воспользовавшись тем фактом, что данные в обучающей выборке и тестовой выборке имеют один и тот же источник (подделка разными способами на основе одной и той же картинки), можно также получить достоверную информацию о локальной подделке путем сравнения различий изображения из одного и того же источника. Во-первых, после извлечения признаков и вычисления косинусного сходства все изображение сопоставляется для получения эталонных изображений-кандидатов. Затем используйте ECC (расширенный коэффициент корреляции) для совмещения изображений, рассчитайте локальную разницу на выровненном изображении и получите информацию о несанкционированном доступе после фильтрации шума. Объедините метку и информацию о фальсификации эталонного изображения для оценки и, наконец, обновите результат прогнозирования в соответствии с достоверностью.

b386660f1aa9a337ae6dd565121a754f.png

Рисунок 6. Наградной сертификат

О команде Douyin CV

Техническая группа Douyin CV — это команда алгоритмов компьютерного зрения в составе Douyin Group. Постоянно создавая передовые модели глубокого обучения в отрасли, команда обеспечила безопасную разработку мультисервисных рекомендательных систем и экологии контента, таких как Douyin, Xigua и Toutiao. С момента своего создания команда придерживается инноваций нижнего уровня, создавая передовые визуальные представления, понимание контента, идентификацию подлинности и другие решения в отрасли, а также выиграла множество международных чемпионатов по техническим соревнованиям.

Supongo que te gusta

Origin blog.csdn.net/ByteDanceTech/article/details/131218802
Recomendado
Clasificación