Tabla de Contenidos
El web scraping tal y como lo conocemos está a punto de cambiar
(Búsqueda visual a escala, completamente de código abierto)
PixelRAG es un sistema de recuperación de información que prescinde por completo del análisis del HTML. En lugar de convertir una página en texto y fragmentarla en chunks, captura una pantalla de esa página y trabaja directamente con la imagen. Un modelo de lenguaje visual lee la respuesta directamente desde los píxeles.
Por qué esto importa: el análisis del HTML es el punto donde el web RAG pierde información de forma silenciosa.
— Un único parser de HTML a texto puede descartar más del 40% del contenido de una página.
— Las tablas, los gráficos y la estructura visual quedan aplastados o simplemente se eliminan.
— Solo cambiando el parser se pueden perder o ganar cerca de 10 puntos de precisión sobre los mismos documentos.
PixelRAG indexa la página tal y como la ve una persona. El equipo ha construido un índice visual de toda la Wikipedia con más de 30 millones de capturas de pantalla, y aun así supera al mejor sistema de RAG basado en texto en un 18,1% en preguntas de solo texto.
El repositorio también incluye un plugin para Claude Code que, básicamente, le da ojos a Claude. Permite capturar cualquier URL y leer la página renderizada en lugar de raspar el DOM. Puedes pasarle una página en directo, un artículo de arXiv o tu propio sitio local, y preguntarle qué tiene delante.
Un único script de configuración. Sin servidor MCP, sin backend.
Así funciona el flujo de trabajo:
— Convierte cada documento —web, PDF o imagen— en mosaicos de imagen.
— Los incrusta con Qwen3-VL-Embedding, ajustado con LoRA sobre capturas de pantalla.
— Construye un índice FAISS y expone una API de búsqueda.
Un modelo de lectura más potente mejora la precisión sin necesidad de reindexar, porque el índice son simplemente píxeles.
Todo está disponible como código abierto bajo licencia Apache-2.0. El enlace al repositorio de GitHub está en los comentarios.
PixelRAG: scraping visual sin parseo HTML mediante índices de capturas de pantalla a escala
Resumen técnico
PixelRAG elimina el parseo HTML clásico sustituyéndolo por capturas de pantalla de cada página. El pipeline renderiza documentos web, PDF e imágenes en image tiles, los embebe con Qwen3-VL-Embedding ajustado con LoRA sobre capturas reales, y construye un índice FAISS que sirve una API de búsqueda visual. Un modelo de visión-lenguaje lee directamente los píxeles para responder consultas. El sistema indexó más de 30 millones de capturas de Wikipedia y supera en 18,1% al mejor baseline de text RAG en QA sobre texto. Incluye un plugin para Claude Code que permite a Claude leer páginas renderizadas en lugar del DOM. Licencia Apache-2.0.
Análisis de implicaciones
Los parsers HTML-a-texto pueden eliminar más del 40% del contenido de una página; tablas, gráficos y estructura visual se pierden en el proceso. PixelRAG desplaza el cuello de botella del parseo al modelo lector: cambiar únicamente el reader model mejora la precisión sin necesidad de reindexar, ya que el índice almacena píxeles, no texto. Esto elimina la dependencia de selectores CSS, estructuras DOM o esquemas HTML específicos, haciendo el sistema resistente a cambios de markup. La limitación principal es el coste computacional del renderizado y embedding visual a escala.
Aplicación práctica
Con un único script de instalación, sin servidor MCP ni backend adicional, se puede apuntar el plugin de Claude Code a cualquier URL, paper de arXiv o servidor local para obtener respuestas basadas en la página renderizada. Para scraping de e-commerce con tablas de precios o comparativas visuales, PixelRAG extrae información que parsers como BeautifulSoup o Trafilatura descartan. El pipeline admite PDFs e imágenes nativamente, lo que lo hace útil para extracción de datos de informes o dashboards donde el HTML no existe o no es accesible.
Contexto del sector
Las soluciones RAG tradicionales sobre web dependen de librerías como Trafilatura, Unstructured o parsers ad hoc, con pérdidas de información documentadas y alta sensibilidad al markup. El auge de modelos VLM como Qwen3-VL y GPT-4o hace viable procesar imágenes a coste razonable. PixelRAG es la primera implementación open-source que lleva este enfoque a escala de decenas de millones de documentos, compitiendo directamente con pipelines de text RAG consolidados.