Hoy traemos un top del mejor software gratuito de web scraper para windows . Estos programas demuestran ser muy útiles cuando tienes que trabajar con grandes cantidades de datos. Algunos de estos programas son bastante básicos y no requieren ningún conocimiento adicional por tu parte, mientras que otros requieren que tengas conocimientos de Expresiones Regulares , y conocimientos en algunos otros campos también como JavaScript . Los datos que te son útiles están muy bien ordenados. Algunos de estos también te permiten automatizar la tarea de modo que los datos se recuperan automáticamente con el clic de un botón. También se puede especificar un período de tiempo para que los datos se actualicen después de un límite de tiempo asignado.
Contenidos
El mejor software gratuito de raspado de la web:
El software de web scraper que más me gusta es Web Scraper . Se debe al hecho de que es bastante simple, ligero y fácil de usar. Puedes usarlo para raspar diferentes tipos de datos de la web como enlaces, texto, tablas y muchos más elementos de este tipo. Aquí también puede agregar múltiples URLs. También genera un gráfico de selección. Los datos raspados pueden ser exportados en el formato CSV. También puedes elegir la opción de almacenar los datos en el almacenamiento local o CouchDB .
También puedes ver la lista de Software Lector de RSS, Software Descargador de Sitios Web y Software Comprobador de Enlaces Rotos.
Rascador de Web
Web Scraper es un plugin de cromo que se utiliza para raspar datos de un sitio web. Es un buen software de raspado web en el que puedes obtener diferentes tipos de información de datos, como: texto, enlace, enlace emergente, imagen, tabla, atributo del elemento, HTML, elemento , y muchos más. Para poder utilizar la función de Web Scraper, tienes que seguir los siguientes pasos:
- Instala la Extensión de cromo.
- Ve a las herramientas de desarrollo pulsando F12 o Ctrl+Mayús+I.
- Navega a la pestaña de Web Scraper.
- Haz clic en el botón crear un nuevo mapa de sitio y añade el nombre del mapa de sitio y la URL de inicio.
- Se pueden añadir varias URL aquí haciendo clic en el botón +.
- En caso de que quiera trabajar con el mapa del sitio existente, introduzca el mapa del sitio JSON, y el nombre del mapa del sitio.
- Después de eso, el mapa del sitio puede ser importado fácilmente.
- Al crear el mapa del sitio, elija la opción de añadir un nuevo selector.
- Aquí tienes que añadir el selector ID, el tipo, el selector, regex, delay, y el selector de padres.
- El tipo de selector puede ser texto, enlace, enlace emergente, imagen, tabla, atributo del elemento, HTML, elemento, elemento desplazarse hacia abajo, elemento clic, o agrupado.
- Basándose en los atributos del mapa del sitio, se puede generar un gráfico de selección.
- Haga clic en el botón Rascar para raspar los datos.
- Luego haga clic en el botón de exportación de datos como CSV que descarga los datos raspados en formato CSV.
- El mapa del sitio también puede ser exportado, los metadatos también pueden ser editados y los selectores pueden ser editados y eliminados.
En los ajustes de almacenamiento se pueden elegir las opciones de almacenamiento que pueden ser almacenamiento local o CouchDB. En caso de elegir la opción de CouchDB hay que introducir el Sitemap db, y Data db.
Página de inicio Página de descarga
Rascador de datos
Raspador de datos es otra extensión de raspado de datos de cromo que puede utilizarse como un software de minería de datos. Sólo hay que seguir los siguientes pasos para hacerlo con éxito.
- Instala la extensión de Chrome. Esto agrega un menú contextual a Chrome.
- Ve a la página web de la que quieres obtener los datos.
- Selecciona una muestra del contenido, haz clic con el botón derecho y selecciona el menú contextual DataMiner-Get Similar.
- A continuación, se muestra la ventana del rascador, donde se muestran los datos completos similares de la tabla con las recetas, las recetas de la comunidad, los contenedores, las columnas, la navegación de la página siguiente y los filtros.
- Se pueden añadir o eliminar algunos detalles de la columna.
- Los datos así raspados pueden ser copiados al portapapeles y descargados como CSV.
En la pestaña de navegación de la siguiente página, puedes elegir la opción de navegar automáticamente por las páginas paginadas. Aquí se establece la opción del elemento Xpath de la siguiente página, se establece la URL o el clic y se establece el tiempo de espera de avance automático. También puedes elegir la opción para iniciar el avance automático. En caso de que desees utilizar el minador de datos en una serie de sitios web como Google, ebay, LinkedIn , y muchos más sitios web de este tipo, tendrás que iniciar sesión primero.
Página de inicio Página de descarga
OutWit Hub Light
OutWit Hub Light es un software muy simple que puede ser usado para extraer los datos de los sitios web.
- Simplemente introduzca la URL de la que quiere que se recuperen los datos.
- Entonces se muestra la página web.
- Elija el tipo de datos que quiere extraer, como: enlaces, documentos, imágenes, contactos, datos, tablas, listas, texto, palabras, noticias, fuente, autómatas , y muchos más tipos de datos de este tipo.
- Basándose en el tipo de datos que elija, se extraen los datos.
- Se muestran los datos extraídos.
- En este caso, se puede elegir la opción de exportar los datos, donde se puede elegir la opción de qué columnas importar y exportar.
- Las opciones se pueden configurar para seleccionar las filas con algunos atributos específicos, y también limitar las opciones.
- Las opciones se pueden configurar como captura a petición, auto captura, vacío a petición y auto vacío .
- Aquí también puedes ver el archivo fuente y exportar la captura como Excel, JSON, CSV, SQL, XML, HTML , y muchos más.
- También puede seleccionar la característica de raspado rápido.
Página principal Página de descarga
Raspador visual
VISUALSCRAPER es un simple software de extracción de datos de la web que puede ser usado para extraer diferentes tipos de datos. Es bastante sencillo de usar, y para ello hay que seguir los siguientes pasos:
- Regístrese en el sitio web y descargue el software.
- Luego, después de la instalación, tienes que ingresar al software nuevamente.
- Introduce el enlace del que tienes que extraer los datos.
- Luego elige la opción de hacer clic en el elemento, haz clic en las áreas, selecciona el tipo de datos que quieres extraer, clasifícalo en diferentes tipos de datos y listo.
- También puede utilizarlo para capturar texto o imagen, configurar la entrada del usuario, capturar la lista de elementos y muchas más tareas de este tipo.
- También puedes elegir la opción de capturar el valor predeterminado, capturar la captura de pantalla, borrar las cookies del navegador, cargar una nueva página, actualizar la página y elegir las opciones de acción de desplazamiento .
- Más adelante, en la pestaña de configuración, puedes elegir la opción de iniciar sesión automáticamente, desactivar la descarga de imágenes, desactivar el zoom del navegador y muchas más opciones de este tipo.
Página principal Página de descarga
IRobot
IRobot es un buen software que puede ser utilizado para el screen scraping. Para saber cómo hacer un scraping de una página web con este software, hay que seguir los siguientes pasos.
- Introduzca la URL desde la que desea descargar los datos.
- Seleccione la opción para ejecutar la tarea de navegación y cree su propia lista de tareas de navegación si es necesario.
- Se pueden realizar diferentes acciones en la página donde se elige la opción de extraer diferentes tipos de datos, como: lista de enlaces, tomar datos, tomar tabla, enviar formulario, iniciar sesión, abrir marco, enviar correos electrónicos y hacer un horario .
- Los datos así generados pueden copiarse al portapapeles o descargarse como CSV.
- Junto con esto, también puedes realizar diferentes acciones como generar robots para automatizar tus tareas.
- El archivo de registro también se genera para que pueda supervisar su tarea en cualquier momento.
- Aquí también puedes seleccionar la velocidad de navegación, la ventana emergente, la navegación silenciosa y muchas más opciones de este tipo.
Página principal Página de descarga
DataTool
DataTool es un software gratuito de búsqueda en la web, simple y fácil de usar.
- Sólo tienes que instalar el software y luego navegar a la página web de la que quieres raspar los datos.
- Haga clic en el botón DataTool que abre una ventana.
- Luego, aquí puedes elegir la opción de añadir ajustes para navegar por el contenido.
- En la pestaña de acciones, haga clic en el botón » nueva acción «.
- Establezca el modo de selección, que puede ser el modo de añadir contenido, establecer el modo de elemento siguiente o desactivarlo.
- Seleccione los elementos que contienen los datos que desea descargar e introduzca sus detalles.
- Luego haga clic en la opción Obtener datos.
- Luego se recogen los datos y se muestran en forma de tabla.
- Entonces también puede elegir diferentes opciones aquí, es decir nombre de archivo de salida, ubicación de la imagen, recuento total de filas, opción para modificar, y mantener o no los nombres originales de la imagen .
- Los datos pueden ser guardados en diferentes formatos de archivo, como: CSV Unicode, Excel, SQL script, SQL, XML y HTML .
Página principal Descargar página
GetData.IO
GetData.IO es una sencilla extensión de Chrome que puede utilizarse para raspar datos de los sitios web.
- Tienes que registrarte en la página web primero.
- Después de instalar la extensión, navegue por el sitio web y haga clic en el botón GetData.IO.
- Luego, en la parte inferior se proporciona la opción de añadir columnas.
- Nombra la columna y elige los detalles haciendo clic en el tipo de datos apropiado.
- Haga clic en el botón de listo, después de lo cual se le llevará a la página web donde se genera la lista.
- Aquí puedes ver los detalles de la configuración de las arañas, la definición de las arañas, la vista previa de los datos de las arañas y el registro de la vista previa de las arañas.
- También puedes pausar el rastreador de datos cuando quieras.
- Haga clic en el botón de guardar para descargar el archivo de datos como CSV, JSON o HTML.
- También puede ver el detalle de la configuración de la oruga, la definición de la oruga y los conjuntos de datos vinculados.
- Los resultados de los datos pueden ser editados o eliminados de acuerdo con el requisito.
Página de inicio Página de descarga
Rana Gritona SEO Spider
Screaming Frog SEO Spider es un simple software que se utiliza para raspar datos de los sitios web, principalmente para fines de SEO. La versión gratuita tiene un límite de 500 URLs.
- Para utilizarlo, simplemente hay que introducir la URL del sitio web, y luego se muestra el resultado.
- Así, los datos generados se generan automáticamente y se clasifican en diferentes pestañas como enlaces, H1, H2, longitud de las meta palabras clave, ruta, dirección, contenido , etc.
- Elija la vista que puede ser de árbol o de lista.
- También puede ver los diferentes tipos de elementos de datos disponibles eligiendo las pestañas Interno, Externo, protocolo, códigos de respuesta, URI, títulos de páginas, meta descripción, meta palabras clave, H1, H2, imágenes, directivas, AJAX, personalizado, análisis y consola de búsqueda .
- También se muestra información diferente como los tiempos de respuesta, la estructura del sitio y la visión general .
- También puedes ver la información de la URL , los enlaces de entrada, los enlaces de salida, la información de la imagen y el fragmento de la serpiente .
- También puede exportar el mapa del sitio como CSV, XLS o XLSX .
Página principal Página de descarga
OpenOffice Calc
OpenOffice Calc es una popular aplicación de hoja de cálculo que también se puede utilizar para raspar datos de la web. Es bastante simple y fácil de usar. Para poder utilizar esta función hay que seguir los siguientes pasos:
- Abrir OpenOffice Calc. Vaya a la pestaña de inserción y seleccione la opción » link to external data «.
- Introduzca la URL de la fuente de datos externa y pulse intro.
- Luego se muestran los rangos de datos de tabla disponibles .
- Seleccione la lista apropiada que desea importar.
- Elija la opción de actualización automática si es necesario, a fin de mantener la lista actualizada a partir de los datos en línea.
- También puede establecer la duración del tiempo de actualización.
- Entonces también puedes añadir tus propios datos y elegir las diferentes opciones disponibles.
- Entonces los datos también pueden ser exportados en varios formatos populares como: PDF, HTML, ODS, XML, CSV, XLS , y muchos más.
Página de Inicio Página de Descarga
Rascador
El rascador es una herramienta sencilla para raspar datos de los sitios web. Para ello hay que seguir los pasos que se especifican a continuación:
- Instala la extensión Chrome . Esto añade un menú contextual al Chrome.
- Navegue por el sitio web del que quiere obtener los datos.
- Seleccione una muestra del contenido, haga clic con el botón derecho del ratón y seleccione el menú contextual Raspe similar .
- Luego se muestra la ventana del rascador donde se muestran los datos completos similares de la tabla con los selectores, columnas y filtros.
- En caso de que quiera añadir o eliminar algunos detalles de la columna puede hacerlo.
- También puedes guardar los preajustes para guardarlos en el futuro.
- Los datos así raspados pueden ser copiados al portapapeles o exportados a Google Docs.
Página de inicio Página de descarga
iMacros
iMacros es un software muy popular para el web scraping. Originalmente estaba disponible como una extensión para Firefox, pero ahora también está disponible para Chrome e IE. Se trata de una extensión muy sencilla que permite «enseñar» qué se debe raspar y cómo hacerlo. Esencialmente, navegas a una página, realizas las acciones que necesitas realizar, y esta extensión registrará todo eso. Luego puede repetir todas esas acciones con un solo clic. Para aprovechar al máximo la potencia de esto, puede ver el guión grabado, y editarlo según sea necesario. Por ejemplo, puede agregar variables en el guión, que le pedirán que introduzca valores cuando comience a ejecutar la extensión. La extensión es tan popular que puedes encontrar fácilmente guiones en la web para realizar tareas populares.
Página principal Página de descarga
WebHarvest
Web-Harvest es una buena aplicación de Java que puede utilizarse para extraer datos del sitio web. Para ello, hay que seguir los siguientes pasos:
- Crear un nuevo archivo de configuración. Introduce el código que quieres introducir y guarda el archivo de configuración.
- Ejecuta el archivo y en base al código que introdujiste, los datos serán recuperados.
- Basado en el tipo de datos, puedes verlo en diferentes formatos, como: texto, imagen, XML, HTML , y muchos más.
- También puede modificar la configuración de la extracción y hacer uso de algunos de los archivos de configuración predefinidos, y ejecutarlo.
- También puede modificar la configuración para mostrar el panel de jerarquía, el panel de registro, los números de línea y localizar dinámicamente los procesadores en tiempo real .
Página de inicio Página de descarga
Rascador Regex
Rascador Regex es una extensión simple de cromo que utiliza expresiones regulares para extraer datos de los sitios web. Para poder hacer uso de esta característica debes tener una idea básica de las expresiones regulares.
- Instale la extensión Chrome y navegue hasta el sitio web del que desea extraer los datos.
- Luego haz clic en el botón del plugin del Rascador Regex.
- Introduce la expresión regular que quieres ejecutar.
- Si es necesario, también puede elegir la opción de sustitución.
- También puedes aplicar diferentes modificadores como: Global, mayúsculas y minúsculas, línea única y multilínea .
- Luego haga clic en el botón aplicar Regex .
- Después de que se muestren los resultados, elija la opción de copiar al portapapeles, o despeje el Regex.
Página de inicio Página de descarga
YellowPageRobot(YPR)
YellowPageRobot(YPR) es un simple software que le ayuda a extraer datos de YellowPages y también de otros sitios web.
- Mientras operas En el software, automáticamente todo
Deja una respuesta