¿Cuáles son los métodos de recopilación de datos?

En los últimos años, los países y las grandes empresas están implementando estrategias de big data. El término "big data" también aparece cada vez con más frecuencia en nuestras vidas. Cuando navegamos por la web, la página siempre aparecerá entre los productos relacionados o cosas relacionadas que queremos buscar. Big data siempre parece poder "calcular" lo que "pensamos". Entonces, ¿cómo recopila esta información la tecnología de big data?  

Métodos comunes de recopilación de datos:

  • sensor

Los sensores se suelen utilizar para medir variables físicas, generalmente incluyendo sonido, temperatura y humedad, distancia, corriente, etc., y convertir los valores medidos en señales digitales, que se transmiten al punto de recolección de datos, de modo que la máquina gradualmente sentidos como el tacto, el gusto y el olfato, y así poco a poco se vuelven "vivos".

  • Método de recopilación de registros del sistema

Los datos del archivo de registro generalmente son generados por el sistema de origen de datos y se utilizan para registrar diversas actividades operativas realizadas por la fuente de datos, como la gestión del tráfico para el monitoreo de la red, la contabilidad de existencias para aplicaciones financieras y el comportamiento de acceso de los usuarios registrado por los servidores web. Muchas empresas de Internet tienen sus propias herramientas de recopilación masiva de datos, que se utilizan principalmente para la recopilación de registros del sistema, como Chukwa de Hadoop, Flume de Cloudera, Scribe de Facebook, etc. Estas herramientas utilizan una arquitectura distribuida y pueden cumplir con datos de registro de cientos de MB por segundo: Requisitos de adquisición y transmisión.

  • rastreador web

Un rastreador web es un programa que descarga y almacena páginas web para motores de búsqueda, y es el principal método de recopilación de datos para motores de búsqueda y cachés web. Obtenga información de datos del sitio web a través de rastreadores web o API públicas del sitio web. El método puede extraer los datos no estructurados de la página web, almacenarlos como un archivo de datos local unificado y almacenarlos de forma estructurada. Admite la recopilación de imágenes, audio, vídeo y otros archivos o archivos adjuntos, y los archivos adjuntos y textos se pueden asociar automáticamente. Además, para los datos con altos requisitos de confidencialidad, como los datos de los clientes y los datos financieros sobre la producción y el funcionamiento de las empresas, se pueden recopilar datos cooperando con proveedores de servicios de tecnología de datos y utilizando interfaces de sistema específicas. En la era del big data, existe una mayor necesidad de proveedores de servicios de soluciones de datos que puedan proporcionar una recopilación de estándares integrados. 

Supongo que te gusta

Origin blog.csdn.net/Appen_China/article/details/132064172
Recomendado
Clasificación