¿Qué es el Web scraping? Lo que debes saber

Puede que el término Web scraping te suene conocido o tal vez es nuevo para ti. Hoy he traído este tema para enseñarte en el blog.

Miles de datos se difunden todos los días en la red. Hacer uso de ellos implica que el usuario dedique tiempo para realizar la selección y descarga.

Una herramienta automatizada que recoja y consulte los datos, los seleccione y descargue parece lo ideal.

Web scraping ¿Qué es?

El Web scraping es una herramienta utilizada para extraer y almacenar datos que se encuentran en páginas web. Es conocido también como “raspado web”.

A través de este proceso se pueden obtener números de teléfono, direcciones de correos, direcciones de páginas web (URL) o términos de búsqueda.

En los últimos años, esta técnica se ha estado utilizando para el posicionamiento web; con la cantidad de datos extraídos se generan contenidos de calidad.

¿Cómo funciona el Web scraping?

Entre las formas de funcionamiento están: el scraping manual y el automático.

El scraping manual es parecido al proceso de “cortar y pegar”. Solo se ejecuta si se quieren guardar datos pequeños e información específica.

En el Web scraping automático se utiliza un software que realiza este proceso de extracción, analizando una cantidad de páginas web. Dentro de este modo existen:

Los parsers o analizadores sintácticos: convierten un texto HTML
Bots: softwares que realizan tareas específicas de forma automática
Texto: permite buscar términos en Perl o Python

¿Es legal el Web scraping?

Esta herramienta es legal si la información de las páginas está libre para terceros en la red. Es decir, si se toman en cuenta los derechos de autor.

Para que el scraping sea legal, tiene que:

Respetar el copyright de los sitios web.
Conocer que el scraping puede ser evitado por medio de procesos técnicos.
Esta herramienta no permite ocultar términos y condiciones ni publicidades.

El Web scraping se convierte en ilegal en los casos donde se almacenan direcciones de correo para luego realizar spam.

¿Cómo se bloquea el Web scraping?

Los operadores de las páginas web pueden recurrir a diferentes técnicas para bloquear el Web scraping. Algunos de estas son:

Utilizar el archivo robots.txt para bloquear bots.
Ocultar algunos datos personales o mostrarlos en imágenes.
Adquirir servicios antibot que instalen un firewall en la computadora.
Usar los servicios de Google Search Console para recibir notificaciones cuando los datos se usen para scraping.

¿Cómo scrapear? Algunos ejemplos

Para realizar Web scraping utilizamos diferentes herramientas que constan de dos fases:

Saber las URL a las que queremos extraerle los datos
Sacar de cada URL el dato que queremos

Para llevar a cabo estas fases se pueden emplear algunos de los siguientes recursos:

1. Herramientas para obtener las URL: SEOquake

Es un complemento (plugin) gratuito que se utiliza para obtener métricas SEO.

En este ejemplo obtendremos las URL de las SERP de Google:

Los resultados se descargarán en formato CSV con las URL de esta página.

Data Miner

Es una extensión de los navegadores Microsoft Edge y Google Chrome. Una cuenta gratuita te permite analizar 500 URL al mes.

En el siguiente ejemplo obtendremos las URL internas de una web. Para ello, Iniciamos el scrapeo “Scrape this page” o por “New Recipe”:

Como vamos a sacar datos de diferentes páginas, marcaremos la primera opción:

Seleccionamos todas las cajas de las que queremos recoger los datos pulsando la tecla “1” en la primera caja y la “2” en la segunda. Con esto nos seleccionará el resto. En nuestro ejemplo son 10 en total.

Ahora seleccionamos el tipo de dato que queremos extraer y pulsamos la letra “C”, dando clic encima del dato que queremos scrapear:

En nuestro caso vamos a recoger las URL de cada bloque:

El siguiente apartado es el de navegación; con este le diremos al bot dónde tiene que accionar para cambiar de página y continuar el scrapeo:

Ahora le damos a ejecutar:

Tendremos que decirle de cuántas páginas tiene que extraer datos. En nuestro caso son 3:

Finalmente, podremos descargar todas las URL para trabajar con ellas posteriormente.

Phantombuster

Es un software que automatiza los procesos de extracción de datos de páginas web. Es utilizado para estrategias de posicionamiento.

Tiene una opción que es para extraer todas las URL de los sitios web que están en Google Maps.

2. Herramientas para extraer los datos de las URL:

Email Extractor

Esta herramienta se utiliza para extraer direcciones de correo electrónico. Es utilizada para crear listas de contactos de posibles clientes. Te mostramos un ejemplo:

Seleccionamos los datos que queremos scrapear:

Añadimos las URL que queremos analizar. A la derecha del panel tendremos las opciones de scrapeo. El más importante es el “Scan Depth”, que es la profundidad de las páginas en la que entra la “araña”. Finalmente, le daremos al botón “start” y empezará a generar datos.

Data Miner

Como mencionamos, esta extensión funciona tanto para obtener las URL como para extraer los datos de esas URL. Una vez tenemos las URL, daremos clic en “crawl scrape”.

Le pondremos las URL que queremos analizar. Para enseñarte, pondremos una de ejemplo:

El siguiente paso será seleccionar la receta (en el apartado anterior hay un ejemplo de cómo crearlas).

En caso de tener el dato de la página oculto por JavaScript o CSS se puede usar el apartado de “actions, pre Scrape”. Esto permitirá que el bot pulse en el texto para que se vea el dato oculto y luego pueda scrapearlo.

Finalmente, lo procesaremos como en el ejemplo del apartado anterior y lo descargaremos.

Otras herramientas para scrapear

Existen otras muchas herramientas para scrapear como:

Import.io
Mozenda
Parsehub
Crawlmonster
Connotate
Beautiful Soup
Octoparse
Common Crawl
Crawly
Content Grabber

El Web scraping te ayudará a multiplicar la posibilidad de obtener datos; estos datos, aunque se encuentren en la web, son inaccesibles por los altos volúmenes de información que representan. Además de tener la información, podrás darle un sentido para utilizarla a tu favor.