Octoparse Español

Posted on Jun 11, 2020 • Edited on Jul 9, 2020

Tóme 1min para comprender la historia del web scraping

#database #webdev #productivity #python

¿Qué es el web scraping?

El web scraping, también conocido como web harvesting y extracción de datos web, se refiere básicamente a la recopilación de datos de sitios web a través del Hypertext Transfer Protocol (HTTP) o mediante navegadores web.

Tabla de contenidos

¿Qué es el web scraping?
¿Cómo funciona el web scraping?
¿Cómo comenzó todo?
Cómo se hace el web scraping?
¿Cómo será el web scraping?

¿Cómo funciona el web scraping?

En general, el web scraping implica tres pasos:

primero, enviamos una solicitud GET al servidor y recibiremos una respuesta en forma de contenido web.
A continuación, analizamos el código HTML de un sitio web siguiendo una ruta de estructura de árbol.
Finalmente, usamos la python library para buscar el parse tree.
web scraping introdcution

¿Cómo comenzó todo?

Aunque para muchas personas, suena como una técnica tan fresca como conceptos como "Big Data" o "machine learning", la historia del web scraping es en realidad mucho más larga. Se remonta a la época en que nació la World Wide Web, o coloquialmente "Internet"

Al principio, Internet era incluso inescrutable. Antes de que se desarrollaran los motores de búsqueda, Internet era solo una colección de sitios de File Transfer Protocol (FTP) en los que los usuarios navegaban para encontrar archivos compartidos específicos. Para encontrar y organizar los datos distribuidos disponibles en Internet, las personas crearon un programa automatizado específico, conocido hoy como el web crawler/bot, para buscar todas las páginas en Internet y luego copiar todo el contenido en las bases de datos para su indexación.

Luego, Internet crece y se convierte en el hogar de millones de páginas web que contienen una gran cantidad de datos en múltiples formas, incluidos textos, imágenes, videos y audios. Se convierte en una fuente de datos abierta.
A medida que la fuente de datos se hizo increíblemente rica y fácil de buscar, la gente comienzan a descubrir que la información requerida se puede encontrar fácilmente. Esta información generalmente se encuentra dispersa en muchos sitios web, pero el problema es que cuando desean obtener datos de Internet, no todos los sitios web ofrecen la opción de descargar datos. Copiar y pegar es muy engorroso e ineficiente.

Y ahí es donde entró el web scraping. El web scraping en realidad está impulsado por web bots/crawlers, y sus funciones son las mismas que las utilizadas en los motores de búsqueda. Es decir, buscar y copiar. La única diferencia podría ser la escala. El web scraping se centra en extraer solo datos específicos de ciertos sitios web, mientras que los motores de búsqueda a menudo obtienen la mayoría de los sitios web en Internet.

¿Cómo se hace el web scraping?

1989 El nacimiento de la World Wide Web
Técnicamente, la World Wide Web es diferente de Internet. El primero se refiere al espacio de información, mientras que el segundo es la network compuesta por computadoras.

Gracias a Tim Berners-Lee, el inventor de WWW, trajo las siguientes 3 cosas que han sido parte de nuestra vida diaria:

Localizadores Uniformes de Recursos (URL) que utilizamos para ir al sitio web que queremos;
embedded hyperlinks que nos permiten navegar entre las páginas web, como las páginas de detalles del producto en las que podemos encontrar especificaciones del producto y muchas otras cosas como "los clientes que compraron esto también compraron";
páginas web que contienen no solo textos, sino también imágenes, audios, videos y componentes de software.

1990 El primer navegador web
También inventado por Tim Berners-Lee, se llamaba WorldWideWeb (sin espacios), llamado así por el proyecto WWW. Un año después de la aparición de la web, las personas tenían una forma de verla e interactuar con ella.

1991 El primer servidor web http:// web page
La web siguió creciendo a una velocidad bastante moderada. Para 1994, el número de servidores HTTP era superior a 200.

1993-Junio Primer robot web - World Wide Web Wanderer
Aunque funcionó de la misma manera que lo hacen los robots web hoy en día, solo tenía la intención de medir el tamaño de la web.

1993-Diciemble Primer motor de búsqueda crawler-based web JumpStation
Como no había tantos sitios web disponibles en la web, los motores de búsqueda en ese momento solían depender de los administradores de sus sitios web humanos para recopilar y editar los enlaces en un formato particular.

JumpStation trajo un nuevo salto. Es el primer motor de búsqueda WWW que se basa en un robot web.

Desde entonces, la gente comenzó a usar estos web crawlers programáticos para recolectar y organizar Internet. Desde Infoseek, Altavista y Excite, hasta Bing y Google hoy, el núcleo de un robot de motor de búsqueda sigue siendo el mismo:

Como las páginas web están diseñadas para usuarios humanos, y no para la facilidad de uso automatizado, incluso con el desarrollo del bot web, todavía fue difícil para los ingenieros informáticos y los científicos hacer scraping web, y mucho menos personas normales. Por lo tanto, la gente se ha dedicado a hacer que el web scraping esté más disponible.

2000 Web API y API crawler
API significa Interfaz de Programación de Aplicaciones. Es una interfaz que facilita mucho el desarrollo de un programa al proporcionar los bloques de construcción.

En 2000, Salesforce y eBay lanzaron su propia API, con la cual los programadores pudieron acceder y descargar algunos de los datos disponibles al público.

Desde entonces, muchos sitios web ofrecen API web para que las personas accedan a su base de datos pública.

Enviar una solicitud HTTP pegada juntos, recibir JSON o XML a cambio

Web APIs recopila solo los datos proporcionados por el sitio web ,ofrecen a los desarrolladores una forma más amigable de hacer scraping web.

2004 Python Beautiful soup
No todos los sitios web ofrecen API. Incluso si lo hacen, no proporcionan todos los datos que desea. Por lo tanto, los programadores todavía estaban trabajando en el desarrollo de un enfoque que pudiera facilitar el web scraping.

En 2004, Beautiful Soup fue lanzado. Es una biblioteca diseñada para Python.

En la programación de computadoras, una biblioteca es una colección de módulos de script, como los algoritmos de uso común, que permiten su uso sin reescritura, lo que simplifica el proceso de programación.

Con comandos simples, Beautiful Soup tiene sentido de la estructura del sitio y ayuda a analizar el contenido desde el contenedor HTML. Se considera la biblioteca más sofisticada y avanzada para el raspado web, y también uno de los enfoques más comunes y populares en la actualidad.

2005-2006 Visual web scraping software
En 2006, Stefan Andresen y su Kapow Software (adquirido por Kofax en 2013) lanzaron la Web Integration Platform version 6.0, algo que ahora se entiende como software visual de web scraping, que permite a los usuarios simplemente resaltar el contenido de una página web y estructurar esos datos en un excel file utilizable o database

Finalmente, hay una manera para que los masivos no programadores hagan web scraping por su cuenta.

Desde entonces, el web scraping está comenzando a llegar a la corriente principal. Ahora, para los no programadores, pueden encontrar fácilmente más de 80 programas de extracción de datos listos para usar que proporcionan procesos visuales.

¿Cómo será el web scraping?

Las crecientes demandas de datos web por parte de las empresas en toda la industria prosperan en el mercado de web scraping, y eso trae nuevos empleos y oportunidades comerciales.

Es una época que es más fácil que cualquier otra que hayamos tenido en la historia. Cualquier persona, empresa u organización puede obtener los datos que desee, siempre que estén disponibles en la web. Gracias al web crawler/bot, API, bibliotecas estándar y varios softwares listos para usar, una vez que alguien tiene la voluntad de obtener datos, hay una manera para ellos. O también pueden recurrir a profesionales accesibles y asequibles.

Gracias a las herramientas de web scraping, cualquier individuo, empresa y organización ahora puede acceder a los datos web para su análisis. Al buscar "web scraping" en guru.com, puede obtener 10.088 resultados de búsqueda, lo que significa que más de 10.000 autónomos están ofreciendo servicios de raspado web en el sitio web.

El panorama legal que rodea la legitimidad del web scraping continúa evolucionando. Su estado en la ley depende en gran medida de la situación específica. Por ahora, muchas de las preguntas legales más interesantes que surgen de esta tendencia siguen sin respuesta o dependen de un contexto fáctico muy específico.

Aunque el web scraping se ha practicado durante bastante tiempo, los tribunales apenas comienzan a descubrir cómo las teorías legales relevantes podrían aplicarse en el contexto de los grandes datos.

Todavía es impredecible y volátil en este momento, ya que el patrón relacionado con el crawling y el scraping todavía estaba tomando forma. Sin embargo, una cosa es segura, es decir, siempre que haya Internet, habrá web scraping.

Una forma de evitar las posibles consecuencias legales del web scraping es consultar a los proveedores profesionales de servicios de web scraping. Octoparse se erige como la mejor compañía de web scraping que ofrece scraping servicios y una herramienta de extracción de datos web. Tanto los empresarios individuales como las grandes empresas cosecharán los beneficios de su avanzada tecnología de scraping.

DEV Community

Tóme 1min para comprender la historia del web scraping

Top comments (0)