
Si alguna vez te has preguntado cómo descargar un sitio web completo, probablemente estés familiarizado con el término web scraping.
¿Qué es web scraping?
Web scraping significa descargar sitios web como copias a una computadora. Esta tecnología se utiliza no solo para descargar sitios web completos, sino también para extraer datos específicos de interés de un portal determinado. Todo el proceso se lleva a cabo mediante bots, un robot indexador o un script escrito en Python. Durante el scraping, se recopilan datos específicos y se copian de la red a la base de datos local.
Web scraping - ¿qué utiliza?
Ya sabes que es web scraping y probablemente adivinas como puedes utilizarla. Permítenos enseñarte como algunos utilizan los webs scraping:
Scraping property listings
Los agentes inmobiliarios más avanzados utilizan web scraping para completar su base de datos de propiedades disponibles para la venta o el alquiler.
Estadisticas de la industría
Muchas empresas utilizan el web scraping para crear enormes bases de datos y extraer de ellas información específica de la industria. Estas empresas pueden luego vender la información a empresas de industrias relacionadas. Por ejemplo, una empresa puede descartar y analizar el precio del petróleo, exportar e importar datos para vender sus conocimientos a las empresas petroleras de todo el mundo.
Generación de leads
Web scraping es también es una de las herramientas más populares para atraer leads. Por ejemplo, por scraping directorios online, ofertas de trabajo, emails, perfiles de Twitter, etc.
En resumen, web scraping es utilizado por empresas para coleccionar información sobre clientes potenciales. Esto es muy común en B2B (business-to-business) un espacio en donde los clientes potenciales publican información sobre sus compañias en la web.
Web scraping en el marketing de afiliados
¿Cómo el scraping está familiarizado con el marketing de afiliados? Comencemos con el argumento más importante que lo impulsa a interesarse en el web scraping, es decir, el tiempo ahorrado, que gana al descargar sitios web de la competencia. Todo el mundo sabe, o al menos supone, que el proceso de creación de una buena landing page puede llevar mucho tiempo y que el éxito depende, entre otras cosas, del tiempo. Otros factores son la apertura al cambio de enfoque, la búsqueda de nuevas campañas, la realización de pruebas y, por supuesto, el análisis publicitario. El éxito lo logran aquellos que no se detienen en nimiedades, sino que buscan formas de escalar. Para ejecutar una campaña, debe investigar mucho sobre el grupo objetivo, la selección de GEO, las ofertas, etc., así como preparar los consumibles, incluida una landing page.
Algunas personas prefieren usar las páginas de destino proporcionadas por la red de afiliados, otras usan plantillas listas para usar de los creadores de páginas y otras prefieren crear una página de destino desde cero. Las dos primeras opciones son las más comunes. En algunos casos, pueden volverse rentables, pero esta no es una solución a largo plazo, ya que la competencia es feroz y los paquetes con plantillas disponibles se agotan rápidamente.
Una página de destino de alta calidad es la clave del éxito futuro y un buen retorno de la inversión. Vale la pena agregar que no todas las páginas de destino de un competidor pueden brindar el resultado esperado. Es mejor afinar la landing page deseada, teniendo en cuenta los criterios de la futura campaña publicitaria.
Por supuesto, debe recordar hacer todo legalmente, es decir. De acuerdo con ciertas reglas, que aprenderás en un momento.
¿Es el web scraping legal?
Sí. El web scraping no es una tecnología prohibida y las empresas que lo utilizan lo hacen de acuerdo con la ley. Desafortunadamente, siempre habrá alguien que comience a usar una herramienta determinada para actividades de piratería. El web scraping se puede utilizar para perseguir precios injustos y robar contenido protegido por derechos de autor. Está claro que el propietario de un sitio web que está bajo el web scraping puede sufrir enormes pérdidas financieras. Curiosamente, varias empresas extranjeras utilizaron el web scraping para guardar historias de Instagram y Facebook que deberían tener un límite de tiempo.
Scraping está bien siempre y cuando respetes los derechos de autor y cumplas con los estándares establecidos. Si decides cambiar al lado más oscuro que no se acepta en MyLead, puedes enfrentar varias consecuencias.
Algunas buenas prácticas al realizar scraping de sitios web
Recuerda sobre el GDPR
Cuando se trata de países de la UE, debes cumplir con el reglamento de protección de datos de la UE, comúnmente conocido como GDPR. Si no estás borrando datos personales, no necesitas preocuparte demasiado por eso. Te recordamos que dato personal es cualquier dato que pueda identificar a una persona, por ejemplo:
- nombre y apellido,
- email,
- número de teléfono,
- dirección,
- nombre de usuario (e.g. login / nickname),
- IP address,
- información del número de una tarjeta de crédito o débito,
- datos médicos o biométricos.
Para poder realizar scraping necesitas razones para almacenar la información personal. Ejemplos de tales razones son:
1. Interés legítimo
Debe probarse que el procesamiento de datos es necesario para los fines del negocio legítimo. Sin embargo, esto no se aplica a situaciones en las que estos intereses sean anulados por los intereses o los derechos y libertades fundamentales de la persona cuyos datos desea procesar.
2. Consentimiento del cliente
Cada persona cuyos datos desee recopilar debe dar su consentimiento para la recopilación, el almacenamiento y el uso de sus datos en la forma en que pretende hacerlo, p. con fines de mercadeo.
Si no tienes el consentimiento ni la aceptación del cliente, si no tienes un interés legítimo o el consentimiento del cliente, estás violando el RGPD, lo que puede resultar en una multa, restricción de libertad o prisión de hasta dos años.
¡Atención!
GDPR aplica a los residentes de los países de la Unión Europea, aplica a los países como Estados Unidos, Japón o Afghanistan.
Cumplir con los derechos de autor
Los derechos de autor son el derecho exclusivo de cualquier trabajo realizado, por ejemplo, un artículo, una foto, un video, una pieza musical, etc. Puede adivinar que los derechos de autor son muy importantes en el web scraping, porque muchos datos en Internet están protegidos por derechos de autor. Por supuesto, existen excepciones en las que puedes utilizar web scraping y usar datos legalmente sin infringir las leyes de derechos de autor, y estas son:
- utilización para uso público personal,
- utilización con fines didácticos o para actividades científicas,
- utilización bajo el derecho de cotización.
Web scraping - ¿dónde comenzar?
1. URL
El primer paso es encontrar la URL de la página que le interesa. Especifica el tema que deseas elegir. Solo está limitado por tu imaginación y fuentes de datos.
2. HTML code
Aprende la estructura del código HTML. Sin conocer HTML, tendrás dificultades para encontrar un elemento que descargue del sitio web de tus competidores. La mejor manera es ir al elemento en el navegador y usar la opción Inspeccionar. Luego verás las etiquetas HTML y podrás identificar el elemento de interés. Aquí está el ejemplo de esto en Wikipedia:
Como puedes observar, cuando mueves el mouse sobre una línea de códigos, el elemento correspondiente a la línea de código será resaltado en la página.
3. Entorno de trabajo
Tu entorno de trabajo debe estar listo. Más tarde descubrirás que necesitarás editores de texto como Visual Studio Code, Notepad ++ (Windows), TextEdit (MacOS) o Sublime Text, así que consiga uno ahora.
¿Cómo guardar una página web?
Guardando una página en el navegador
Al ingresar a cualquier navegador, cualquier persona, incluido tú, puedes guardar la página seleccionada en tu ordenador, solo dedicale unos minutos de su tiempo. Una página duplicada se guarda en la computadora del usuario como un archivo y una carpeta HTML. La copia completa de la página se abre en el navegador y se ve bastante fluida. Sin embargo, para guardar una página realmente grande, este proceso deberá repetirse muchas veces.
Si deseas ahorrar tiempo y reducir la molestia de hacer una copia de seguridad de tu sitio, puedes obtener ayuda de terceros pagados. Hay muchas empresas y autónomos en Internet que harán todo por ti a cambio de una tarifa. Uno de los servicios de copia de sitios web es ProWebScraper. Tienen disponible una versión de prueba con la que puedes descargar 100 páginas. Después, claro, llegará el momento de pagar, que es desde 40 dólares al mes, dependiendo de cuántas páginas quieras scrapear . Siempre puedes encontrar otro sitio con un período de prueba gratuito. Vale la pena mencionar que algunos portales te permiten verificar si una página determinada es copiable, porque muchos sitios web están protegidos contra eso.
Descargadores de páginas webs gratuitos
Si deseas ahorrar algo de dinero, eche un vistazo a la lista de descargadores de sitios web gratuitos a continuación.
WebScrapBook
El complemento WebScrapBook está disponible para Google Chrome y Mozilla Firefox. Descarga la página completa en tu ordenador y ofrece varias opciones de descarga: descargue cada archivo de la página de destino por separado, descargue un archivo o un archivo HTML separado.
De forma predeterminada, cada archivo se descarga individualmente, pero si desea descargar un archivo, vaya a las opciones y en la pestaña "Capturar", cambie la opción de guardado deseada.
Para descargar un archivo con documentos, seleccione el formato HTZ. Después de descargarlo, seleccione el archivador para descomprimir el archivo manualmente.
Sitesucker (MacOS)
Cuando hablamos para el funcionamiento de macOS, mi consejo es echarle un vistazo de cerca en Sitesucker. Es una gran ventaja que está funcionando en su propia interfaz.
Es posible comprar una licencia en la versión de AppStore.
Cyotek WebCopy
Cyotek WebCopy te permite guardar una página web en tu ordenador y escanear los sitios webs de tu competencia.
Para descargar una landing page, ingresa la dirección URL, especifique la carpeta donde desea guardar los archivos y haz clic en "Copy Website".
Teleport Pro
En la versión gratuita puedes descargar hasta 40 proyectos con más de 500 archivos en un proyecto. Luego de instalarlo y activar el programa, necesitarás crear un nuevo proyecto.
Como puedes ver, hay algunas opciones para crear un nuevo proyecto:
- crear una copia visible del sitio en su disco duro.
- crear una copia del sitio web junto con la estructura del directorio.
- buscar archivos de un tipo específico en el sitio.
- verificar todos los sitios vinculados desde el sitio central.
- descargar uno o más archivos de direcciones conocidas.
- buscar en el sitio palabras clave.
Para descargar la página, selecciona la primera opción y luego ingresa el enlace de aterrizaje “landing link”. En el siguiente paso, selecciona "All" y luego haz clic en "Finish". Además, recuerda guardar el proyecto y comprobar que se ha guardado en la carpeta de archivos. Para que el programa descargue todos los archivos, haz clic en "Start".
HTTrack
El último programa gratuito para crear una copia local de un sitio o conjunto de sitios es HTTrack. Su principal ventaja son muchos ajustes convenientes. Aquí puede, por ejemplo, configurar filtros para los tipos de archivos requeridos. También es posible descargar los datos necesarios, y todos los sitios descargados están "dispersos" por proyectos y divididos temáticamente.
Desafortunadamente, este programa tiene una desventaja bastante notable. Es sensible al archivo robots.txt: las fotos y las páginas que indica pueden no cargarse. Para solucionar esto, establece la configuración de la araña en "no obedecer las reglas de robots.txt". Solo de esta manera podemos garantizar que la página se cargue por completo. Las arañas son clases que determinan cómo se scrapará un sitio específico (o grupo de sitios), incluido cómo realizar el scraping en sí mismo y cómo extraer datos estructurados de sus páginas.
Servicios web scraping en línea
El web scraping en línea funciona como analizadores (analizadores de componentes), pero su principal ventaja es la capacidad de trabajar en línea sin descargar e instalar el programa en su computadora. El principio de funcionamiento de los sitios web que ofrecen web scraping en línea es bastante simple. Ingresamos la URL de la página que nos interesa, establecemos las configuraciones necesarias (puede copiar la versión móvil de la página y cambiar el nombre de todos los archivos, el programa guarda HTML, CSS, JavaScript, fuentes) y descargamos el archivo. Con este servicio, el webmaster puede guardar cualquier página de destino y luego ingresar su propio formato y las correcciones necesarias.
Guarda una Web 2 ZIP
Save a Web 2 ZIP es el sitio web más popular cuando se trata de web scraping a través de un servicio de navegador. Un diseño muy simple y bien pensado atrae e inspira confianza, y todo es completamente gratis. Todo lo que necesita hacer es proporcionar el enlace de la página que desea copiar, elegir las opciones que deseas y está listo.
LPcopier
LPcopier es un servicio ruso que está dirigido al mundo del marketing de afiliados. El portal permite realizar web scraping desde unos 5 dólares por página. Los servicios adicionales, como la instalación de medidores analíticos, se consideran por separado en términos de costo. También es posible solicitar una página de destino que no sea de la red CPA o de una página de destino ya lista. Si el idioma ruso te asusta, solo usa la opción de traducción que ofrece Google.
Xdan
El sitio web de Xdan también es un sitio web ruso (disponible en inglés) que ofrece CopySite, es decir, servicios de web scraping. Con la ayuda de este sitio web, puedes crear una copia local de una página de destino de forma gratuita con la opción de limpiar contadores HTML, reemplazar enlaces o dominios.
Copysta
El servicio ruso llamado Copyst es uno de los servicios más rápidos de este tipo. Declaran que se pondrán en contacto contigo en 15 minutos. El web scraping en sí se realiza a través de un enlace y, por una tarifa adicional, puedes actualizar el sitio web.
He descargado la página web. ¿Qué sigue?
¿Ya has descargado una página web? Genial, ahora tienes que pensar que harás con esta. Seguramente deberás modificarla un poco. ¿Verdad?
¿Cómo rediseñar una página copiada?
Para rediseñar la página copiada según tus propias necesidades, debes duplicar el activo como desees. Para realizar cambios en la estructura, puedes usar cualquier editor que te permita trabajar con el código, como Visual Studio Code, Notepad ++ (Windows), TextEdit (MacOS) o Sublime Text. Abre un editor que sea conveniente para ti, personaliza el código, luego guárdalo y prueba cómo se muestran los cambios en el navegador. Edita la apariencia visual de las etiquetas HTML mediante el uso de CSS, agrega los formularios web, botones de acción, enlaces, etc. Después de guardar, el archivo modificado permanecerá en la computadora con funciones actualizadas, diseño y acciones dirigidas.
También hay sitios web que recopilan y analizan todos los datos de diseño de archivos web específicos que tienen un sistema de gestión y creación de sitios web (CMS). El sistema crea un duplicado del proyecto con el administrador y el espacio en disco. Archivarix es un ejemplo de un sitio web de este tipo (el programa puede restaurar y archivar el proyecto).
Sube el sitio web al hosting
El último y más importante paso en el web scraping de páginas de destino es subirlas a su alojamiento. Recuerda que copiando y haciendo pequeños cambios visuales no es suficiente. Los enlaces de afiliados, scripts, píxeles de reemplazo, códigos JS Metrica y otros contadores de otras personas casi siempre permanecen en el código de la página. Deben eliminarse manualmente (o con programas pagos) antes de cargarlos en tu hosting. Si quieres saber exactamente cómo subir tu sitio web a hosting, consulta nuestro artículo: “¿Cómo crear una landing page? Creando un sitio web paso a paso”.
¡Qué bueno es verte aquí!
Esperamos que ahora sepas qué es el web scraping, cómo descargar un sitio web y, sobre todo, cómo respetar los derechos de autor. Ahora es tu turno de dar el primer paso y comenzar a ganar dinero. De todas maneras, si tienes alguna preguntas sobre el marketing de afiliados o no sabes que programa seleccionar, por favor contáctanos.