Capybara Labs
Open Source · P2P · Conocimiento verificado
HIVE

Base de conocimiento descentralizada y verificable para LLMs

Lo que Wikipedia es para los humanos — pero para máquinas.

Crea tu propio RAG — o comparte conocimiento con cualquiera — sin servidores de por medio.

Live demo

Prueba HIVE

Demo en vivo conectada a la queen pública. Cada respuesta viene de fragmentos firmados criptográficamente por BEEs reales.

Demo pública · queen LanceDB + bees de Wikipedia y RSS en Hetzner · token pre-cargado, sin setup. Conéctala a Claude por MCP para citas verificables en tu IDE.

El problema

El problema con el conocimiento en IA

Los modelos de IA de hoy — GPT, Claude, Gemini — se entrenan una vez y se congelan. Su conocimiento tiene una fecha de corte. Alucinan cuando no saben algo. Su contenido lo decide un puñado de corporaciones. Y cada consulta pasa por servidores que no controlas.

Esta es la arquitectura equivocada para un mundo que funciona con IA.

Qué es

Qué es HIVE

HIVE es una base de conocimiento descentralizada y verificable, construida para LLMs — no para humanos. Es para la IA lo que Wikipedia es para los humanos: un repositorio vivo, abierto y con fuentes trazables que cualquiera puede leer, en el que cualquiera puede contribuir, y que nadie controla.

Fuente verificada

Sin citas fabricadas. Cada fragmento tiene origen real.

Firma criptográfica

ed25519 + SHA-256. Sabes quién lo añadió y que no fue modificado.

Log append-only

Historial permanente en Hypercore. Las correcciones son explícitas.

Sin punto de fallo

Cientos de nodos independientes. Sin censura ni punto central.

Cómo funciona

Cómo funciona

Cada participante ejecuta un BEE (productor) o una QUEEN (consumidor). Los BEEs son agentes autónomos que:

01

Declaran una fuente y un ámbito (categoría de Wikipedia, categorías de arXiv, feeds…) y se reparten el trabajo con otros BEEs vía particiones

02

Extraen contenido verbatim de fuentes verificadas: Wikipedia, arXiv, RSS, Common Crawl

03

Firman cada fragmento con su identidad ed25519 y lo añaden a su Hypercore append-only

04

Replican a sus peers vía Hyperswarm; las QUEENs indexan en Qdrant y responden las consultas

BEE starts

→ Reads its manifest: declared sources + scope/partition

→ Sources: Wikipedia · arXiv · RSS · Common Crawl (ForagerSource adapters)

→ Seeds its crawl queue from the declared scope

→ Per article: fetch verbatim → all sections → chunk → sign (ed25519) → append

→ Loop ~continuous: extract → sign → store → replicate to peers

→ TTL dedup: skips fresh content (wiki 7d · rss 24h · arXiv 30d)

Por qué importa

Por qué importa

Para usuarios de IA

Respuestas basadas en fuentes verificables y actualizadas. Sabes exactamente de dónde viene cada dato.

Para desarrolladores

Una capa RAG descentralizada que no requiere construir y mantener tu propio pipeline de conocimiento.

Para la web abierta

Un común de conocimiento legible por máquinas que ninguna corporación puede retirar, editar en silencio o monetizar.

Casos de uso

Para qué sirve

RAG distribuido — público y privado, especializado y general, para LLMs locales o en la nube. Monta tu propia base de conocimiento, o compártela peer-to-peer sin ningún servidor de por medio. El mismo protocolo se compone en patrones de despliegue que van desde swarms públicos hasta integraciones por LLM-host — once mostrados abajo, catálogo completo al final.

01
Público

Únete al swarm público con un hash de topic

Una reina se une al HIVE público hasheando una cadena conocida — sha256("hive-network-v0.1") — y llamando a swarm.join(topic). La DHT de Hyperswarm la presenta a cada BEE en ese topic; la replicación nativa de Hypercore baja sus fragmentos firmados sin ningún registro central en medio. Las mallas públicas especializadas son solo otra cadena — "hive-medical-v0.1", "hive-legal-v0.1" — mismo protocolo, swarm más estrecho.

topic hyperswarmdescubrimiento DHTfragmentos ed25519sin registro
02
Privado

Monta un swarm privado para uso interno

Las mismas BEEs y reinas; tres ajustes vuelven la red privada: un topic aleatorio de 32 bytes (espacio de 2²⁵⁶), claves de cifrado Hypercore para que los cores sean texto cifrado en reposo y en tránsito, y una allowlist de peers por clave pública que rechaza cualquier conexión no autorizada. Las BEEs internas indexan wikis, tickets, repos y contratos de la empresa; una reina los indexa y sirve /api/query — ningún tráfico sale del perímetro.

topic aleatoriocores cifradosallowlist de clavesaislado
03
B2B

Comparte claves privadas entre empresas

Dos organizaciones intercambian tres valores fuera de banda — topic del swarm, clave de cifrado Hypercore y la clave pública de la reina de cada lado para la allowlist. Ambas reinas se unen al mismo swarm privado y replican solo las BEEs que la otra parte decidió exponer. Sin copia, sin broker externo, sin fusión de hives: cada empresa conserva su reina, su índice LanceDB y su rastro de auditoría. Revocar es rotar una clave o editar la allowlist.

swarm compartidoclave de cifradoexposición selectivarevocable
04
Híbrido

Una reina en muchos swarms — cobertura compuesta

Los casos 01–03 se componen en la capa de la reina. Una sola reina puede unirse a tantos topics como credenciales tenga — malla pública, su swarm privado, cada swarm de partner — y replicar BEEs de todos ellos en un único índice LanceDB. Una consulta, una síntesis del LLM, fuentes de cada swarm al que pertenece la reina. Cada fragmento mantiene su clave de origen y su firma, así que la procedencia sobrevive a la fusión. Nada cruza entre swarms — la reina es el único punto donde se encuentran.

reina multi-swarmíndice únicoprocedencia intactasin fugas
05
Extensibilidad

Conectores a medida como plugins ForagerSource

Cualquier cosa no cubierta — un ERP heredado, una API REST interna, un archivo propietario — se integra implementando la interfaz ForagerSource (seed / fetch / normalize / owns), publicándola como paquete npm y añadiendo su id al manifiesto de la BEE. En el siguiente arranque el forager la recoge, drena su cola mecánicamente y firma cada fragmento emitido. Sin forkear el core de HIVE, sin registro central que actualizar — el conector vive en el repo del cliente.

ForagerSourcepaquete npmBeeManifest.sourcessin fork
06
IA Local

Reina con LLM local — stack offline completo

El cliente LLM de la reina es enchufable; apúntalo a Ollama (o cualquier runtime local) y todo el stack corre on-prem — BEEs extrayendo, LanceDB indexando, embedder local, síntesis local. Sin API key, sin tráfico que salga de la máquina. Un modelo pequeño tiene memoria paramétrica estrecha; la recuperación de la reina le da contexto firmado y con fuentes en tiempo de consulta — la combinación se comporta como un modelo mucho mayor en tareas acotadas a un dominio, preservando la privacidad. La capa de conocimiento natural para agentes locales tipo QVAC.

ollama / LLM localon-premcero nubemodelo pequeño con fuentes
07
Entrenamiento

Corpus de entrenamiento con procedencia criptográfica

Las BEEs guardan la extracción verbatim — sin LLM de por medio, sin parafraseo. Cada fragmento lleva URL de origen, scope, timestamp y firma ed25519. Eso hace de un HIVE una fuente de entrenamiento inusualmente limpia: streamea fragmentos directamente desde los Hypercores replicados de la reina hacia un pipeline de pre-training, SFT o destilación. Filtra por fuente, scope, idioma o BEE firmante para construir un corpus generalista amplio o uno especialista estrecho. La procedencia es por fragmento y verificable — útil para propagación de licencias y auditoría de datasets.

verbatim · firmadofiltra por scopepre-train / SFTdestilación
08
Personal

Memoria personal para tu IA

Una queen HIVE local-only indexa tu propia actividad — conversaciones con Claude, historial de comandos, notas, ficheros de memoria del agente. El servidor MCP la expone a cualquier cliente, así Claude (o Cursor, o cualquier asistente MCP-aware) recupera memoria entre sesiones sin enviar nada a terceros. Adapter ForagerSource, firmado ed25519 con tu propia clave, vive solo en tu swarm privado — privacidad por diseño.

RAG personalmemoria entre sesionessolo localfirmado por ti
13
Auditoría

Citas verificables para periodismo y compliance

Las BEEs indexan fuentes oficiales y reguladas (boletines, registros públicos, RSS de reguladores, organismos de estándares) y firman cada extracción. Un periodista u oficial de compliance cita por id de fragmento; la cita es verificable independientemente años después contra la clave pública ed25519 de la bee, aunque cambie o desaparezca la URL original. La procedencia criptográfica por fragmento es el diferenciador — ninguna otra arquitectura RAG la ofrece nativa.

procedencia firmadacita verificablearchivo frío fiable
14
MCP

Servidor MCP — enchufa HIVE a cualquier LLM host

@capybaralabs/hive-mcp empaqueta HIVE como servidor MCP para Claude Desktop, Claude Code, Cursor, Continue, Goose, OpenClaw — y el resto del ecosistema MCP. Una línea en la config de tu cliente y Claude puede consultar una queen HIVE como tool nativa. Devuelve fragmentos firmados crudos; el LLM del host sintetiza. Sin código pegamento, sin fork, sin build específico de plataforma.

servidor MCPClaude / Cursor / OpenClawfragmentos firmadoscero código pegamento
15
Skill

Claude Skill — cuándo y cómo citar HIVE

El Claude Skill hive-research es guía de comportamiento que el modelo carga antes de responder. Le enseña cuándo consultar HIVE frente a WebSearch, cómo leer score + flag del retrieval gate, cómo citar cada afirmación por id de fragmento + URL, y a admitir cuando la queen no tiene datos relevantes en vez de inventar. Markdown puro — funciona en cualquier cliente que lea ~/.claude/skills/, independiente del MCP.

SKILL.mdguía de comportamientosin API keyindependiente del MCP
Publicado

Enchufa HIVE a Claude, Cursor, OpenClaw — un comando

Tres piezas, una historia de producto. Levanta una queen HIVE con un comando, enchúfala a Claude / Cursor / OpenClaw vía el servidor MCP, y carga el Skill para que el modelo cite fragmentos de HIVE proactivamente en vez de inventar.

@capybaralabs/hive
npx @capybaralabs/hive

Wizard interactivo → arranca un nodo queen / bee / hive. Sin Docker.

@capybaralabs/hive-mcp
npx @capybaralabs/hive-mcp

Añádelo a la config MCP de tu cliente, apunta a la queen, listo.

hive-research Skill
cp -r hive/skills/hive-research \
  ~/.claude/skills/

Recarga Claude — citas proactivas, sin invención.

Por dentro

Cómo funciona por dentro

Para quien quiera el detalle — las primitivas criptográficas y P2P sobre las que se construye HIVE.

Hypercore

Log firmado append-only

Cada nodo posee un Hypercore: un log append-only donde cada bloque se hashea en un árbol de Merkle y se firma con la clave del nodo. Los bloques son inmutables y verificables de forma aislada — un peer puede probar que el bloque N pertenece al log sin confiar en nadie. Es el mismo core que mueve Keet.

Hyperbee

B-tree sobre Hypercore

Los fragmentos, claims y el manifiesto de la abeja se guardan en un Hyperbee — un árbol B clave-valor ordenado sobre el Hypercore. Da consultas por rango y streams de historial heredando las garantías firmadas y append-only del log. La replicación de la reina lee un stream de historial del Hyperbee para ingerir fragmentos en orden.

ed25519 + SHA-256

Procedencia por fragmento

Cada fragmento se hashea (SHA-256) sobre su payload y se firma (ed25519) con la abeja que lo produjo. Al recibirlo, la reina recalcula el hash y verifica la firma contra la clave pública publicada de la abeja antes de indexar — un fragmento manipulado o sin firmar se descarta. La procedencia sobrevive a la replicación e incluso a fusiones entre swarms.

Hyperswarm DHT

Descubrimiento + NAT

Los nodos se encuentran uniéndose a un topic (una clave de 32 bytes) en la DHT de Hyperswarm — sin registro central, sin servidor de bootstrap que tengas que correr. La DHT presenta a los peers y atraviesa NATs; a partir de ahí la replicación nativa de Hypercore toma la conexión.

Cifrado y allowlists

Swarms privados

Un swarm público es un hash de topic conocido. Uno privado activa tres palancas: un topic aleatorio de 32 bytes (espacio de 2²⁵⁶), claves de cifrado Hypercore para que los cores sean texto cifrado en reposo y en tránsito, y una allowlist de claves públicas que rechaza cualquier conexión no autorizada. Mismo protocolo, perímetro sellado.

LanceDB + e5-base

Vectorización y consulta

Vectorización del lado del productor: cada BEE embebe sus propios chunks con multilingual-e5-base (768-d, ONNX int8) y firma el vector inline. La reina nunca embebe pasajes — copia los vectores firmados a un LanceDB en proceso (el backend por defecto; la interfaz VectorIndex es intercambiable, así que una reina puede correr Qdrant o el backend que quiera). Una consulta embebe solo la pregunta, saca el top-K por similitud coseno, los filtra por score + coincidencia de palabras, y pasa los supervivientes a una sola llamada al LLM para sintetizar. El LLM es el único paso no local y no determinista — y el único sitio donde se usa una clave.

Estado

En producción

Estado actual

HIVE está en producción (v0.8) con la arquitectura BEE/QUEEN: las abejas extraen, embeben y firman cada fragmento (vector inline), las reinas indexan los vectores ya firmados en LanceDB y sirven consultas. Una reina y una abeja corren ahora mismo en producción (enlaces abajo).

Separación de roles BEE (productor) / QUEEN (consumidor) — la abeja no usa LLM; en v0.8 además embebe sus propios chunks en proceso con multilingual-e5-base (ONNX int8, 768-d)
Extractor autónomo dirigido por fuentes: Wikipedia, arXiv, RSS, Common Crawl (adaptadores ForagerSource)
KnowledgeStore en Hypercore + Hyperbee — log append-only firmado con ed25519 (el vector va dentro de la firma), replicación P2P nativa
Red P2P — Hyperswarm DHT + replicación Hypercore con cursor persistente
Reina con LanceDB (backend por defecto detrás de una interfaz VectorIndex intercambiable) — recibe vectores ya firmados desde las abejas y nunca re-embebe pasajes; stack 100% Node, sin Python
Particiones de scope (v0.7.6) — varias abejas se reparten una fuente sin solaparse
Gating de recuperación recalibrado para e5 (RELEVANT_SCORE 0.82) — solo cita fuentes que realmente coinciden; LLM local (Ollama) o cloud (Groq/Gemini/Claude/OpenAI)

Publicado recientemente (2026-05)

Servidor MCP (@capybaralabs/hive-mcp)Claude Skill bundleCLI npm (npx @capybaralabs/hive)HTTPS auto-TLS vía sslip.ioAuth por bearer token en /api/*Compactación periódica de LanceDB

Roadmap

UI de Settings · constructor gráfico de manifestsRegistro Público de Topics · descubrimiento P2PAdapter de memoria personal (caso 08)Tokens API multi-tenant + audit logReplicación selectiva · routing BloomSelf-host one-click (Umbrel / CasaOS)Score por corroboración

Ejecuta un BEE

Ejecuta un BEE

Tu BEE arrancará, encontrará un área de conocimiento sin cubrir y comenzará a indexar. Sin configuración necesaria.

1One command (recommended)
$npx @capybaralabs/hive # wizard → starts a node
2Docker
$git clone https://github.com/capybarist/hive && cd hive && docker compose up -d
3From source
$git clone https://github.com/capybarist/hive && cd hive && bash hive.sh

Licencia Business Source (BUSL-1.1). Gratuito para uso no comercial. Se convierte en MIT en 4 años.