Puede que el término Web scraping te suene conocido o tal vez es nuevo para ti. Hoy he traído este tema para enseñarte en el blog.
Miles de datos se difunden todos los días en la red. Hacer uso de ellos implica que el usuario dedique tiempo para realizar la selección y descarga.
Una herramienta automatizada que recoja y consulte los datos, los seleccione y descargue parece lo ideal.
El Web scraping es una herramienta utilizada para extraer y almacenar datos que se encuentran en páginas web. Es conocido también como “raspado web”.
A través de este proceso se pueden obtener números de teléfono, direcciones de correos, direcciones de páginas web (URL) o términos de búsqueda.
En los últimos años, esta técnica se ha estado utilizando para el posicionamiento web; con la cantidad de datos extraídos se generan contenidos de calidad.
Entre las formas de funcionamiento están: el scraping manual y el automático.
El scraping manual es parecido al proceso de “cortar y pegar”. Solo se ejecuta si se quieren guardar datos pequeños e información específica.
En el Web scraping automático se utiliza un software que realiza este proceso de extracción, analizando una cantidad de páginas web. Dentro de este modo existen:
Esta herramienta es legal si la información de las páginas está libre para terceros en la red. Es decir, si se toman en cuenta los derechos de autor.
Para que el scraping sea legal, tiene que:
El Web scraping se convierte en ilegal en los casos donde se almacenan direcciones de correo para luego realizar spam.
Los operadores de las páginas web pueden recurrir a diferentes técnicas para bloquear el Web scraping. Algunos de estas son:
Para realizar Web scraping utilizamos diferentes herramientas que constan de dos fases:
Para llevar a cabo estas fases se pueden emplear algunos de los siguientes recursos:
Es un complemento (plugin) gratuito que se utiliza para obtener métricas SEO.
En este ejemplo obtendremos las URL de las SERP de Google:
Los resultados se descargarán en formato CSV con las URL de esta página.
Es una extensión de los navegadores Microsoft Edge y Google Chrome. Una cuenta gratuita te permite analizar 500 URL al mes.
En el siguiente ejemplo obtendremos las URL internas de una web. Para ello, Iniciamos el scrapeo “Scrape this page” o por “New Recipe”:
Como vamos a sacar datos de diferentes páginas, marcaremos la primera opción:
Seleccionamos todas las cajas de las que queremos recoger los datos pulsando la tecla “1” en la primera caja y la “2” en la segunda. Con esto nos seleccionará el resto. En nuestro ejemplo son 10 en total.
Ahora seleccionamos el tipo de dato que queremos extraer y pulsamos la letra “C”, dando clic encima del dato que queremos scrapear:
En nuestro caso vamos a recoger las URL de cada bloque:
El siguiente apartado es el de navegación; con este le diremos al bot dónde tiene que accionar para cambiar de página y continuar el scrapeo:
Ahora le damos a ejecutar:
Tendremos que decirle de cuántas páginas tiene que extraer datos. En nuestro caso son 3:
Finalmente, podremos descargar todas las URL para trabajar con ellas posteriormente.
Es un software que automatiza los procesos de extracción de datos de páginas web. Es utilizado para estrategias de posicionamiento.
Tiene una opción que es para extraer todas las URL de los sitios web que están en Google Maps.
Esta herramienta se utiliza para extraer direcciones de correo electrónico. Es utilizada para crear listas de contactos de posibles clientes. Te mostramos un ejemplo:
Seleccionamos los datos que queremos scrapear:
Añadimos las URL que queremos analizar. A la derecha del panel tendremos las opciones de scrapeo. El más importante es el “Scan Depth”, que es la profundidad de las páginas en la que entra la “araña”. Finalmente, le daremos al botón “start” y empezará a generar datos.
Como mencionamos, esta extensión funciona tanto para obtener las URL como para extraer los datos de esas URL. Una vez tenemos las URL, daremos clic en “crawl scrape”.
Le pondremos las URL que queremos analizar. Para enseñarte, pondremos una de ejemplo:
El siguiente paso será seleccionar la receta (en el apartado anterior hay un ejemplo de cómo crearlas).
En caso de tener el dato de la página oculto por JavaScript o CSS se puede usar el apartado de “actions, pre Scrape”. Esto permitirá que el bot pulse en el texto para que se vea el dato oculto y luego pueda scrapearlo.
Finalmente, lo procesaremos como en el ejemplo del apartado anterior y lo descargaremos.
Existen otras muchas herramientas para scrapear como:
El Web scraping te ayudará a multiplicar la posibilidad de obtener datos; estos datos, aunque se encuentren en la web, son inaccesibles por los altos volúmenes de información que representan. Además de tener la información, podrás darle un sentido para utilizarla a tu favor.