El web scraping tal y como lo conocemos está a punto de cambiar

El web scraping tal y como lo conocemos está a punto de cambiar

(Búsqueda visual a escala, completamente de código abierto)

PixelRAG es un sistema de recuperación de información que prescinde por completo del análisis del HTML. En lugar de convertir una página en texto y fragmentarla en chunks, captura una pantalla de esa página y trabaja directamente con la imagen. Un modelo de lenguaje visual lee la respuesta directamente desde los píxeles.

Por qué esto importa: el análisis del HTML es el punto donde el web RAG pierde información de forma silenciosa.

    — Un único parser de HTML a texto puede descartar más del 40% del contenido de una página.

    — Las tablas, los gráficos y la estructura visual quedan aplastados o simplemente se eliminan.

    — Solo cambiando el parser se pueden perder o ganar cerca de 10 puntos de precisión sobre los mismos documentos.

PixelRAG indexa la página tal y como la ve una persona. El equipo ha construido un índice visual de toda la Wikipedia con más de 30 millones de capturas de pantalla, y aun así supera al mejor sistema de RAG basado en texto en un 18,1% en preguntas de solo texto.

El repositorio también incluye un plugin para Claude Code que, básicamente, le da ojos a Claude. Permite capturar cualquier URL y leer la página renderizada en lugar de raspar el DOM. Puedes pasarle una página en directo, un artículo de arXiv o tu propio sitio local, y preguntarle qué tiene delante.

Un único script de configuración. Sin servidor MCP, sin backend.

Así funciona el flujo de trabajo:

    — Convierte cada documento —web, PDF o imagen— en mosaicos de imagen.

    — Los incrusta con Qwen3-VL-Embedding, ajustado con LoRA sobre capturas de pantalla.

    — Construye un índice FAISS y expone una API de búsqueda.

Un modelo de lectura más potente mejora la precisión sin necesidad de reindexar, porque el índice son simplemente píxeles.

Todo está disponible como código abierto bajo licencia Apache-2.0. El enlace al repositorio de GitHub está en los comentarios.


PixelRAG: scraping visual sin parseo HTML mediante índices de capturas de pantalla a escala

Resumen técnico

PixelRAG elimina el parseo HTML clásico sustituyéndolo por capturas de pantalla de cada página. El pipeline renderiza documentos web, PDF e imágenes en image tiles, los embebe con Qwen3-VL-Embedding ajustado con LoRA sobre capturas reales, y construye un índice FAISS que sirve una API de búsqueda visual. Un modelo de visión-lenguaje lee directamente los píxeles para responder consultas. El sistema indexó más de 30 millones de capturas de Wikipedia y supera en 18,1% al mejor baseline de text RAG en QA sobre texto. Incluye un plugin para Claude Code que permite a Claude leer páginas renderizadas en lugar del DOM. Licencia Apache-2.0.

Análisis de implicaciones

Los parsers HTML-a-texto pueden eliminar más del 40% del contenido de una página; tablas, gráficos y estructura visual se pierden en el proceso. PixelRAG desplaza el cuello de botella del parseo al modelo lector: cambiar únicamente el reader model mejora la precisión sin necesidad de reindexar, ya que el índice almacena píxeles, no texto. Esto elimina la dependencia de selectores CSS, estructuras DOM o esquemas HTML específicos, haciendo el sistema resistente a cambios de markup. La limitación principal es el coste computacional del renderizado y embedding visual a escala.

Aplicación práctica

Con un único script de instalación, sin servidor MCP ni backend adicional, se puede apuntar el plugin de Claude Code a cualquier URL, paper de arXiv o servidor local para obtener respuestas basadas en la página renderizada. Para scraping de e-commerce con tablas de precios o comparativas visuales, PixelRAG extrae información que parsers como BeautifulSoup o Trafilatura descartan. El pipeline admite PDFs e imágenes nativamente, lo que lo hace útil para extracción de datos de informes o dashboards donde el HTML no existe o no es accesible.

Contexto del sector

Las soluciones RAG tradicionales sobre web dependen de librerías como Trafilatura, Unstructured o parsers ad hoc, con pérdidas de información documentadas y alta sensibilidad al markup. El auge de modelos VLM como Qwen3-VL y GPT-4o hace viable procesar imágenes a coste razonable. PixelRAG es la primera implementación open-source que lleva este enfoque a escala de decenas de millones de documentos, compitiendo directamente con pipelines de text RAG consolidados.

Artículo relacionado

Akshay Pachaar

Ver publicación original

Deja un comentario

Información básica sobre protección de datos Ver más

  • Responsable: Lorenzo Lardillier Sanchez.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a htpps://www.unelink.es que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos y para mostrarte publicidad relacionada con sus preferencias en base a un perfil elaborado a partir de tus hábitos de navegación. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver Política de cookies
Privacidad