파충류와 반파충류의 공격과 방어 대결

1. 크롤러 소개

1개의 컨셉

크롤러(Crawler)는 검색엔진에서 유래한 것으로 인터넷상의 정보를 일정한 규칙에 따라 자동으로 크롤링하는 프로그램으로 크롤러, 네트워크 로봇 등으로도 불린다. 크롤러 기능에 따라 웹 크롤러와 인터페이스 크롤러로 구분할 수 있으며, 인증 상태에 따라 합법적인 크롤러와 악성 크롤러로 구분할 수 있습니다. 악성 크롤러의 주요 목적은 상대방이 원하지 않는 웹페이지 데이터를 대량으로 획득하는 것이며, 이로 인해 관련 서버의 성능에 큰 손실을 초래할 수 있습니다. 오늘날 데이터 자원은 점점 더 소중해지고 있으며, 크롤러 기술을 사용하여 귀중한 데이터를 크롤링하는 것은 많은 기업이 고유한 데이터 단점을 보완하고 가치 평가를 향상시킬 수 있는 유일한 선택이 되었습니다.

웹 크롤러: 웹 페이지의 하이퍼링크에 따라 탐색 및 크롤링

인터페이스 크롤러: 데이터를 요청하기 위한 특정 API 인터페이스를 구성하여 대량의 웹페이지 데이터 정보를 획득합니다.

2 개발현황

크롤러 트래픽 대상 산업 분포:
이미지.png

그 중 여행 카테고리의 12306개 티켓 정보는 다양한 티켓 예매 소프트웨어에 의해 미친 듯이 크롤링되었으며, 피크 시간대에는 하루 방문 횟수가 1000억 회에 달했습니다.

소셜 카테고리에서는 웹 크롤러 기술을 사용하여 웹 로봇 그룹에 누군가의 Weibo, 공개 계정 등을 팔로우하고 메시지를 팔로우하거나 남기도록 명령하여 수많은 좀비 팬을 만들 수 있습니다.

예를 들어 전자상거래 카테고리에서는 '가격비교 플랫폼', '통합 전자상거래', '리베이트 플랫폼' 등의 플랫폼에서 사용자가 상품을 검색하면 이러한 집계 플랫폼이 자동으로 다양한 상품을 올려준다. 당신 앞에 있는 전자상거래 회사.당신이 선택할 수 있도록 크롤러 기술도 사용됩니다.

아래 데이터에서 알 수 있듯이 크롤러의 '가장 큰 피해를 입은 지역'은 앞서 언급한 12306, 웨이보, 타오바오 등 대형 플랫폼이며, 최고인민법원 산하 '중국 판결 문서 네트워크'도 크롤러 침입을 피할 수 없다. 사용자의 불만이 있습니다.

이미지.png

3 공격 및 방어 기술 분석

실제로 최초의 크롤러는 검색 엔진에서 시작되었습니다. 검색 엔진은 귀하의 모든 정보를 검색하고 다른 사용자가 해당 정보에 액세스할 수 있도록 하는 선의의 크롤러입니다. 이를 위해 robots.txt 파일도 특별히 정의했는데, 이는 모두가 윈윈(win-win)할 수 있는 상황입니다.

그러나 일부 사람들에 의해 상황이 빠르게 망가졌습니다. 파충류는 빨리 "신사"가 되는 것을 멈춥니다.

크롤러와 크롤러 중 한 쪽은 데이터를 얻고 싶어하고, 다른 쪽은 크롤러가 데이터를 가져오는 것을 막고 싶어 하며, 이로 인해 공격 및 방어 기술이 지속적으로 발전하게 되었습니다.
현재 업계의 크롤러 기술은 일반적으로 세 가지 범주로 나뉘는데, 가장 먼저는 멀티스레딩, 프록시 IP, 쿠키 위조, 다중 계정 구매 등 일반적인 방법을 포함하여 헤더를 수정하여 정적 웹 페이지를 공격하는 것입니다. 크롤러 기술은 IP와 UA를 제한하고, 로그인을 제한하고, 빈도를 제한하는 등의 기능을 가지고 있습니다.

이후 방어적인 측면에서 인증코드가 등장하여 오랫동안 크롤러가 불리한 위치에 놓이게 되었는데, 머신비전의 발달과 코딩 플랫폼의 등장으로 이런 예방과 통제를 쉽게 우회할 수 있게 되면서 블랙 제품이 등장하게 되었다. 사용자 행동을 시뮬레이션하는 단계입니다.

나중에 방어자는 동적 로딩 기술을 고안했는데, 보호된 정보는 단순한 크롤러로는 볼 수 없었습니다. 크롤러는 Selenium과 phantomjs 도구를 사용했습니다. 이 두 가지는 원래 웹 자동화 테스트 도구였으며 크롤러에 사용되었습니다. 일반적으로 크롤러는 이 수준에서 , 크롤러 방지 프로그램이 크롤러를 식별하기 위한 효과적인 조치를 취하는 것은 어렵습니다.

기술적인 수준에서는 원시적인 것일수록 비용이 저렴하고 성능이 매우 좋아 현재는 범용 웹 크롤러인 반면, 고급 수준의 것은 일반적으로 비용이 높고 성능이 좋지 않아 집중형 웹 크롤러라고 불립니다.

이미지.png

위 사진에서 볼 수 있듯이 크롤러와 안티 크롤러는 끝없는 싸움을 벌이고 있습니다. 따라서 크롤러를 방지하려면 근본 원인부터 시작해야 합니다.

2. 파충류 대응의 어려움

이 단계에서 크롤링 방지의 어려움은 기술적 측면과 비즈니스 측면 모두에 있습니다.

기술적으로 말하면, 하나는 기존의 일반적인 크롤링 방지 방법이 성숙한 기술 도구에 의해 패배했다는 것이고, 다른 하나는 블랙 산업이 명확한 노동 분업과 많은 수의 직원을 갖춘 완전한 산업 체인을 형성했다는 것입니다.

이미지.png

비즈니스 측면에서 비즈니스 보안은 본질적으로 흑백 문제가 아니라 경계를 찾아야 하며, 과실치사율이 너무 높으면 운영 지표에 영향을 미칠 수 있습니다.

이미지.png

3. 솔루션

일반적으로 인증코드를 통한 크롤링 방지의 핵심 원칙은 크롤러가 웹 페이지를 통해 데이터를 크롤링하는 것인데, 사용자가 너무 많이 방문하면 시스템에서 실제 사용자인지 의심하게 되어 요청이 취소됩니다. 인증코드 페이지로 이동 시 올바른 인증코드를 입력해야만 해당 웹사이트에 계속 접속할 수 있습니다. 인증코드의 원래 목적은 사람과 기계를 구별하는 것이므로 자연스럽게 크롤러를 차단할 수 있습니다.

그러나 AI 기술이 심화됨에 따라 이러한 크롤링 방지 기술도 쉽게 해독될 수 있으며, 이때 우리는 상대방보다 더 똑똑하고 똑똑해야 합니다.

따라서 크롤러를 방지하려면 근본 원인부터 시작해야 합니다.

1 솔루션 구조

첫째, 이를 기반으로 안전하고 신뢰할 수 있는 통신 링크를 구축하기 위해서는 크롤러 플랫폼 간에 데이터가 어떻게 전송되는지 알아야 하며, 둘째, 안전하고 신뢰할 수 있는 통신 링크 보장을 기반으로 크롤러 플랫폼 간 데이터가 어떻게 전송되는지를 고려해야 합니다. 다양한 위험에 대한 신속한 판단, 역추적 및 서비스 모니터링이 가능한지, 마지막으로 크롤러와의 대결 수준에서는 신속한 대결 조정이 가능한지 여부와 이에 상응하는 인간-기계 검증 도구를 지원하는 지를 고려해야 한다.

그러므로 지속적인 공격과 방어대결 상황에서 등반방지 시스템 구축방안을 생각해 볼 수 있다 .

클라이언트 측에서는 취약점 악용, 역크래킹, 인터페이스 노출 등을 방지하기 위해 앱 및 웹 소스코드를 보호합니다. 동시에 장치 지문이 클라이언트에 통합되어 각 장치에 대해 전역적으로 고유한 장치 코드를 형성하여 불법 및 부정 행위 기계를 식별합니다. 그리고 이를 바탕으로 슬라이딩 인증코드가 통합되어 기계의 접근 행위를 직접적이고 효과적으로 차단할 수 있습니다.

통신 링크에는 보안 SDK가 통합되어 전송되는 데이터의 보안을 보호하고 위조 데이터 및 불법 요청을 식별합니다.

실시간 위험 의사결정 플랫폼은 실제로 다양한 산업 분야의 비즈니스 및 이벤트 요구 사항을 기반으로 다양한 보안 규칙과 전략을 컴파일하는 보호 규칙 구성 플랫폼으로 간주할 수 있습니다.

그림은 전체적인 작업 흐름을 보여주며, 비즈니스 요청은 비즈니스 시스템을 통해 실시간 의사결정 엔진으로 전달되고, 의사결정 엔진은 판단 결과를 비즈니스 시스템으로 반환하고 비즈니스 시스템은 자체 폐기 조치를 결정합니다.

이미지.png

다중링크 예방통제는 살인율을 낮추는 동시에 예방통제 효과를 보장할 수 있습니다.

2 솔루션 장점

이미지.png

  1. 즉, 코드 수준에 국한된 전통적인 대결에서 벗어나 장비 수단에 집중하고 장비 수준에서 시작하여 불법 생산과 차원 축소를 단속하겠다는 것이다.
  2. 단일 노드 침해를 방지하기 위해 전체 링크 보호 구현
  3. 전방위적인 데이터 공유로 실시간 상황인식과 역동적인 방어가 가능합니다.
  4. 프런트엔드 검증 코드는 명백한 기계 동작을 차단하고, 그레이 스케일 크롤러 동작을 차단하기 위해 실시간 결정을 내리고, 궁극적으로 검은색 및 회색 제품의 고정밀 식별을 달성하는 동시에 위험 제어 효과를 향상시키는 동시에 낮은 우발적 사망율을 보장합니다.

4. 등반 반대에는 모두의 공동 노력이 필요합니다

크롤러는 인터넷 트래픽의 50%를 차지하며 인터넷 번영에 중요한 역할을 합니다. 하지만 이 기술 역시 그 '사용' 때문에 논란이 많다. 파충류는 결코 빛을 보지 못하는 기술이며 널리 사용되지만 그것을 사용하고 있다는 사실을 기꺼이 인정하는 사람은 거의 없습니다. 정보를 불법적으로 수집하는 도구로 자주 사용되기 때문에 데이터 프라이버시와 데이터 보안의 반대편에 서 있습니다.

파충류 기술이 전혀 무죄는 아니지만, 파충류를 이용해 악을 행하는 사람들은 유죄라고 보는 것은 어렵지 않습니다. "악의적인 크롤러"에 맞서기 위해 함께 노력하세요!

크롤러 방지 솔루션이 필요한 경우 여기를 클릭하세요. >>> 크롤러 방지 솔루션

Guess you like

Origin blog.csdn.net/dingxiang234/article/details/131789847