Validazione · Benchmark Validation · Benchmark

Misurare Cortex,
onestamente.
Measuring Cortex,
honestly.

Abbiamo valutato Cortex su LoCoMo, il benchmark di memoria conversazionale a lungo termine usato dai sistemi pubblicati. 1.986 domande su conversazioni lunghe. Questa pagina riporta il risultato e, soprattutto, come ci siamo arrivati: ogni numero troppo bello si è rivelato un errore di misura, e l'abbiamo corretto. We evaluated Cortex on LoCoMo, the long-term conversational memory benchmark used by published systems. 1,986 questions over long conversations. This page reports the result and, above all, how we got there: every number that looked too good turned out to be a measurement error, and we fixed it.

LoCoMo 1.986 domande1,986 questions 2026

Il risultato.

The result.

~56%

Con governance attiva.

With governance on.

Accuratezza con il filtro di qualità in funzione: la memoria sceglie cosa accogliere.

Accuracy with the quality gate active: the memory chooses what to admit.

~69%

A recall pieno.

At full recall.

Con il filtro disattivato: nell'ordine dei sistemi di memoria pubblicati sullo stesso benchmark.

With the gate off: in the range of published memory systems on the same benchmark.

~13 pt

Il costo della governance.

The cost of governance.

La differenza tra le due configurazioni: il prezzo, misurato, di una memoria che filtra invece di accumulare.

The gap between the two configurations: the measured price of a memory that filters instead of accumulating.

Su un benchmark che premia il ricordo esaustivo, una memoria con governance rinuncia a qualche punto di richiamo. In cambio offre filtraggio in scrittura, tracciamento dei conflitti e un costo di esercizio molto inferiore: proprietà che un test di solo richiamo non misura. On a benchmark that rewards exhaustive recall, a memory with governance gives up a few points of retrieval. In return it offers write-time filtering, conflict tracking and a much lower running cost: properties a recall-only test does not measure.

I numeri, in chiaro.

The numbers, in the open.

Accuratezza nelle due configurazioni della stessa memoria. Stessi contenuti, gate di qualità acceso o spento. Accuracy in the two configurations of the same memory. Same content, quality gate on or off.

Governance attivaGovernance onRecall pienoFull recall
56%Governance attiva69%Recall pieno

Per categoria di domanda.

By question category.

Governance attivaGovernance onRecall pienoFull recall
5475single-hop3441multi-hop3454temporal2734open-domain9595adversarial

Onestà della misura.

Honesty of the measurement.

Le quattro misure che abbiamo fatto. La seconda, troppo alta, era un artefatto del metodo: l'abbiamo scartata, non pubblicata. The four measurements we ran. The second, too high, was a method artifact: we discarded it, did not publish it.

45%Misura 182%Misura 2artefatto, scartato47%Verifica69%Misura finale

Nota. Valutazione interna SKYNETLAB con protocollo proprietario, non l'eval ufficiale del benchmark. I numeri sono indicativi e non costituiscono una comparazione pubblicitaria con prodotti di terzi. Metodo e dati grezzi disponibili su richiesta. Note. Internal SKYNETLAB evaluation with a proprietary protocol, not the benchmark's official eval. The numbers are indicative and do not constitute comparative advertising against third-party products. Method and raw data available on request.

Oltre l'accuratezza.

Beyond accuracy.

Un benchmark misura il richiamo. Cortex espone anche proprietà che un test di solo richiamo non vede, ed è qui che si gioca la differenza. A benchmark measures recall. Cortex also exposes properties a recall-only test cannot see, and that is where the difference lies.

Filtraggio in scrittura.

Write-time filtering.

La memoria decide cosa accogliere prima di scriverlo, invece di accumulare tutto.

The memory decides what to admit before writing it, instead of accumulating everything.

Conflitti tracciati.

Tracked conflicts.

Le contraddizioni tra ricordi vengono rilevate e datate, non sovrascritte in silenzio.

Contradictions between memories are detected and dated, not silently overwritten.

Coerenza misurabile.

Measurable coherence.

Ogni ricordo porta un punteggio di coerenza interrogabile, non solo un testo.

Each memory carries a queryable coherence score, not just text.

Costo di esercizio ridotto.

Lower running cost.

Filtrare invece di accumulare riduce l'archivio e il costo di gestione nel tempo.

Filtering instead of accumulating reduces the store and the running cost over time.

Quattro misure, tre trappole.

Four measurements, three traps.

Misurare un sistema di memoria è facile da sbagliare. Lo abbiamo sbagliato tre volte, e ogni volta lo abbiamo scoperto e corretto prima di crederci. Riportiamo anche i passaggi falliti: è la parte più onesta del lavoro.

Measuring a memory system is easy to get wrong. We got it wrong three times, and each time we caught and corrected it before believing it. We report the failed steps too: it is the most honest part of the work.

I.

Lingua sbagliata.

Wrong language.

Prima misura: istruzioni nella lingua sbagliata e nessuna gestione delle domande senza risposta. Numeri bassi e fuorvianti.

First measurement: instructions in the wrong language and no handling of unanswerable questions. Low, misleading numbers.

II.

Giudice generoso.

Lenient judge.

Seconda misura: un giudizio automatico troppo permissivo premiava i "non lo so". Risultato apparentemente ottimo, e falso. Scartato.

Second measurement: an automated judge too lenient, rewarding "I don't know" answers. A seemingly great, false result. Discarded.

III.

La verifica.

The check.

Nei casi di resa, l'informazione giusta era spesso già stata recuperata dalla memoria. Il limite era nel formulare la risposta, non nel ricordare.

In the give-up cases, the right information had often already been retrieved by the memory. The limit was in phrasing the answer, not in remembering.

IV. La misura finale. Risposta meno timida, giudizio severo, controllo manuale a campione. È il numero che riportiamo qui sopra, con i suoi limiti dichiarati.

IV. The final measurement. A less timid answerer, a strict judge, manual spot-checks. It is the number reported above, with its limits stated.

Cosa dimostra.

What it shows.

Cortex recupera la memoria giusta. Con una pipeline di risposta corretta, la sua accuratezza è competitiva con i sistemi di memoria pubblicati sullo stesso benchmark. Il risultato non era scontato, e non lo abbiamo gonfiato per renderlo tale.

La distanza misurabile tra governance attiva e recall pieno è il punto: quantifica cosa costa una memoria che sceglie, invece di accumulare tutto. Quel costo è il prezzo di proprietà che gli altri non offrono, e che un benchmark di solo richiamo non vede.

Cortex retrieves the right memory. With a correct answering pipeline, its accuracy is competitive with the memory systems published on the same benchmark. The result was not a given, and we did not inflate it to make it one.

The measurable distance between active governance and full recall is the point: it quantifies what a memory that chooses, rather than accumulating everything, costs. That cost buys properties others do not offer, and that a recall-only benchmark cannot see.

Limiti dichiarati.

Stated limits.

Misura indicativa.

Indicative measure.

Abbiamo usato un nostro protocollo di valutazione, non quello ufficiale del benchmark. I numeri sono indicativi e vanno confrontati con cautela.

We used our own evaluation protocol, not the benchmark's official one. The numbers are indicative and should be compared with care.

Rumore del giudizio.

Judging noise.

Il giudizio automatico ha un margine di errore in entrambe le direzioni. Lo abbiamo ridotto con regole esplicite e controlli manuali, non eliminato.

Automated judging carries an error margin in both directions. We reduced it with explicit rules and manual checks, not eliminated it.

Margine di recupero.

Retrieval headroom.

Una parte dei casi non risolti resta un limite di recupero: spazio reale di miglioramento, dichiarato e non nascosto.

A share of unresolved cases remains a retrieval limit: genuine room for improvement, stated and not hidden.

Metodo e dati Method and data

Trasparenti su richiesta. Transparent on request.

Il metodo completo, le configurazioni e i dati grezzi delle risposte, compresi i passaggi sbagliati, sono disponibili su richiesta. The full method, the configurations and the raw answer data, including the failed steps, are available on request.

Richiedi metodo e dati Request method and data