El web scraping está a punto de cambiar por completo

PixelRAG plantea un enfoque sorprendentemente sencillo sobre web scraping que está a punto de cambiar por completo y es que en lugar de interpretar una página web como HTML, la trata como una imagen. Nada de extraer texto, trocearlo en fragmentos y generar embeddings. Lo que hace es capturar screenshots de la página, indexarlos y dejar que un modelo de visión y lenguaje busque las respuestas directamente en los píxeles.

La razón por la que esto tiene sentido es que el parsing tradicional de HTML deja cosas por el camino:

  • Tablas
  • Gráficas
  • La disposición visual de los elementos
  • La jerarquía que se percibe a simple vista
  • Todo lo que el parser descarta sin más

La premisa de fondo es clara: indexar lo que el usuario realmente ve, no lo que dicta el DOM ni lo que el parser haya sido capaz de recuperar.

El equipo llegó a construir un índice visual de Wikipedia con más de 30 millones de screenshots y superó al mejor sistema de text RAG en un 18,1% en tareas de preguntas y respuestas sobre texto.

El flujo de trabajo es el siguiente: renderiza los documentos como imágenes, genera embeddings visuales, construye un índice con FAISS y emplea un modelo lector para formular las respuestas.

Hay algo especialmente relevante en todo esto: es posible mejorar el modelo lector sin necesidad de reindexar todo el contenido. El índice no almacena texto, almacena píxeles. Y eso cambia por completo la manera de concebir el web RAG.


PixelRAG: índice visual de páginas web con screenshots y embeddings de imagen para superar el text RAG tradicional

Resumen técnico

PixelRAG reemplaza el pipeline clásico de HTML parsing + text embeddings por un enfoque basado en visión. El sistema renderiza páginas como imágenes, genera embeddings visuales y construye un índice con FAISS. Un modelo vision-language actúa como lector para responder consultas directamente sobre los píxeles indexados. El equipo construyó un índice visual de Wikipedia con más de 30 millones de screenshots y superó al mejor baseline de text RAG en +18,1% en tareas de QA. El índice es independiente del modelo lector, lo que permite actualizar el reader sin reindexar.

Análisis de implicaciones

El cambio principal es arquitectónico: el índice deja de depender del DOM o del output del parser. Esto elimina la pérdida de información en tablas, gráficas, jerarquía visual y elementos descartados por el parser. A nivel de workflow, separa claramente la fase de indexación de la de inferencia, permitiendo sustituir el modelo lector sin tocar el índice FAISS. La limitación más directa es el coste computacional: almacenar y procesar 30 millones de imágenes exige infraestructura significativamente mayor que índices de texto equivalentes.

Aplicación práctica

El pipeline se puede implementar en cuatro pasos: renderizado de páginas con herramientas como Playwright o Puppeteer, generación de embeddings visuales con modelos como CLIP o similares, indexación con FAISS y consulta mediante un modelo vision-language tipo GPT-4o o LLaVA. Casos de uso directos incluyen scraping de portales financieros con tablas complejas, extracción de datos de dashboards no accesibles vía API y monitorización de páginas donde el layout es parte de la información. Es especialmente útil cuando el HTML renderizado difiere del DOM estático.

Contexto del sector

El text RAG sobre HTML tiene limitaciones conocidas desde que el scraping enfrenta JavaScript dinámico, shadow DOM y layouts visuales imposibles de parsear limpiamente. PixelRAG converge con la tendencia de los modelos multimodales aplicados a documentos, donde ya existen enfoques similares para PDFs como ColPali. La diferencia es aplicarlo a web en escala. Con modelos vision-language cada vez más eficientes, el coste de este enfoque seguirá bajando, lo que lo hace relevante a corto plazo.

Artículo relacionado

Alvaro del Pozo Ortiz

Ver publicación original

Deja un comentario

Información básica sobre protección de datos Ver más

  • Responsable: Lorenzo Lardillier Sanchez.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a htpps://www.unelink.es que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos y para mostrarte publicidad relacionada con sus preferencias en base a un perfil elaborado a partir de tus hábitos de navegación. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver Política de cookies
Privacidad