
Si utilitzeu LLMs de manera consistent en qualsevol tasca no trivial, hauríeu de crear les vostres pròpies ‘avaluacions’ privades (també conegudes com a proves). Dediqueu un parell d’hores, comenceu de manera senzilla i passeu del consum passiu de l’eufòria de la IA a un ús actiu i crític de l’eina. Vaig començar després de notar que diversos enginyers de personal que segueixo i admiro compartien que tenien avaluacions privades (1, 2, 3). Tant els enginyers júnior com els de personal utilitzen intensament els LLMs, però aquests últims s’impliquen amb la tecnologia emergent d’una manera sorprenentment diferent i més productiva. Els júniors ‘proben sort’, sorpresos per la velocitat i la capacitat d’aquests sistemes. Els enginyers sèniors, en canvi, apliquen judici, escepticisme i bon gust a la sortida dels LLM, actuant com un filtre essencial en el flux de tokens. Les avaluacions privades formen part d’aquesta activitat de filtratge.
En cedir l’obertura i el control, el treball de coneixement impulsat per LLM s’assembla més al Magisteri Catòlic. La tasca de crear i jutjar models de frontera recau únicament en els nostres bisbes, aquells investigadors brillants i en procés de ser-ho d’OpenAI, Anthropic, Gemini.
Us diuen que és un geni. Diuen que hauria d’escriure gairebé tot el codi. La propera vegada que llancin un model, uniu-vos a altres per clavar les vostres avaluacions privades a la seva porta.

Com fer-ho: escollir avaluacions
Com que els LLMs són generadors de tokens fabulosament flexibles, el panorama de possibles proves de rendiment és impossiblement gran. Teniu temps limitat i probablement voleu dedicar aquest temps a explotar els LLMs, no a avaluar-los. Així que sigueu exigents amb el que avalueu.
El lloc obvi i correcte per començar és el vostre historial de xat. Ja heu tingut LLMs que us han ajudat en centenars de problemes. Trieu alguns dels més importants i interessants per formar part de la vostra avaluació privada.
Ara, tenint una font d’avaluacions potencials, la següent pregunta és com automatitzar. L’automatització és important, però pel que he vist entre la gent que fa avaluacions privades, hi ha massa èmfasi en escriure scripts i construir frameworks per automatitzar les avaluacions de pass/fail. Espereu que aproximadament la meitat de les vostres avaluacions no siguin adequades per a l’automatització.
Simon Eskildsen aparentment no té cap automatització, fent un seguiment de les seves avaluacions privades a Notion. Això funciona bé. No us compliqueu la vida.

Un cop tractada la qüestió de l’automatització, tinc altres consells. Les avaluacions haurien de ser:
- Quelcom que coneixeu molt bé. Si sou un avaluador poc fiable, us confondereu i no obtindreu senyal sobre el rendiment dels LLM de frontera. Per exemple, els benchmarks mostren que els LLM superen el Test d’Admissió a la Facultat de Dret (LSAT). Si sou advocat, per descomptat, tingueu avaluacions de dret privades. En cas contrari, no.
- Quelcom que us importi molt. Si els LLM són tan transformadors de la vida i del món com afirmen els CEOs, proto-AGIs, haurien de ajudar-vos amb el que us importa. Si és cultivar varietats rares de te en climes desfavorables, pregunteu sobre això. 🍵.
- Hauria de ser difícil per als LLM, hauria de ser difícil per a vosaltres. En altres paraules, apunteu a un alt ROI. Si una avaluació és fàcil per als LLM actuals, esteu perdent temps i diners executant l’avaluació. Si no és difícil per a vosaltres, no importa tant que un LLM pugui fer-ho.
- Diverses. Els LLM són òbviament útils per a la programació, però si seran una revolució tecnològica a l’escala de l’electricitat, la impremta o Internet, haurien de començar a ser-vos útils en la majoria dels aspectes de la vostra vida.

Com fer-ho: exemples
Quan la gent parla de les seves avaluacions privades, té un aire de burla. Són privades al cap i a la fi. “No puc dir-t’ho, estrany d’Internet, sense dir-ho als LLMs.” Sempre estan rastrejant.
Però puc ser prou concret i específic per ajudar-vos a iniciar un conjunt d’avaluacions.
Agrupo les meves avaluacions en categories. Escolliré un exemple de cada categoria: recomanació, revisió, codi, disseny, escriptura.
Recomanació:
Una bona recomanació és difícil i valuosa. Tots som conscients de com l’índex de cerca de Google i els productes de revisió estan patint, però poden els LLM substituir-los? Poden els LLM, havent-se empassat Reddit, substituir-lo també?
Una avaluació de recomanació que tinc és demanar als LLM que recomanin la millor cafeteria de la meva zona, basant-me en alguns paràmetres. Un local amb coneixement pot encertar aquesta pregunta. Jo puc respondre aquesta pregunta. Els LLM actualment ho fan malament. No al·lucinen tant, però recomanen llocs tancats o fora de domini (“aquí hi ha alguna cosa tancada a Bushwick. És genial!”).
Serà interessant per a mi si alguna vegada milloren en això. Si ho fan, els confiaré més amb llocs que no conec íntimament. Per ara, Reddit és l’opció en línia “simplement bé”. Els companys locals són els millors.
Revisió:
Els humans són revisors essencials, fal·libles i cars. Cada vegada que detecto un error no trivial en un conjunt de canvis, és un candidat obvi per a una avaluació de revisió privada.
Si aconseguiu que l’LLM seleccioni una línia específica amb l’error en un fragment de més de 100 línies, això és automàticament comprovable i després podeu fer un seguiment avaluant manualment l’explicació.
Emocionantment, he descobert que els LLM són bons en la revisió. Tinc una avaluació que implica aritmètica per a un limitador de cub de fuita i els LLM de frontera poden trobar de manera consistent l’error de cas límit introduït per l’LLM que el va expulsar originalment (Claude 3.5).
Codi:
Les avaluacions automatitzades per a la codificació haurien de ser òbviament per a qualsevol programador. Escriviu una sol·licitud, escriviu una prova. L’LLM llegeix la sol·licitud, expulsa una mica de codi i executeu la prova.
Hi ha dues coses interessants, però. Primer, hauríeu de posar en quarantena l’execució del codi. Segon, com automatitzeu l’avaluació del codi que produeix una sortida visual.
L’execució de codi en quarantena la tractaré més endavant. Per a l’avaluació visual, Nicholas Carlini té un gran exemple d’ús de LLM visuals com a jutges:
"Write a C program that draws an american flag to stdout." >> LLMRun() >> CRun() >> \
LLMRun("What flag is shown in this image?") >> \
(SubstringEvaluator("United States") |
SubstringEvaluator("USA") |
SubstringEvaluator("America"))
Hi ha límits a les capacitats actuals de raonament visual dels models de frontera, però crec que això és bastant genial!
Disseny:
Problema: esbrinar l’estratègia de col·locació òptima per emmagatzemar fitxers en un disc dur donada una predicció de la popularitat futura del fitxer, tenint en compte que esteu minimitzant i maximitzant certes coses
Resultats: Guanyador clar: o1
Admeto que no he dedicat temps a fer una avaluació en aquesta categoria. Em remeto a la descripció de Grant Slatton de la seva avaluació privada de disseny de programari: x.com/GrantSlatton/status/1874900859462856977.
Escriptura:
Abans de dedicar temps a les avaluacions privades, no estava convençut que els LLM fossin escriptors o editors eficaços. Després d’afegir avaluacions d’escriptura privades, ara crec que poden ser editors eficaços.
Un exemple d’avaluació aquí és agafar un esborrany d’una publicació de blog d’enginyeria de Modal.com que vaig editar jo mateix i després reescriure’l completament i donar-lo a l’LLM per criticar-lo. He de revisar manualment el treball de l’LLM, però 3 de cada 5 van proporcionar un feedback de valor net.
Com fer-ho: codi d’inici

El meu sistema bàsic d’avaluació privada és, com el d’Edward Yang, basat en el YAALLMB de Nicholas Carlini. Però no recomano bifurcar YALLMB per diverses raons.
- Ha acumulat molta complexitat per donar suport a les nombroses i sofisticades avaluacions (públiques) de Carlini.
- Gran part del codi que conté és generat per LLM i, francament, és inestable.
- Depèn d’un shim fràgil a un motor Docker o Podman local.
En canvi, podeu fer una ullada al meu repositori significativament simplificat: github.com/thundergolfer/private-llm-bench.
Consulteu el README
per obtenir instruccions completes i actualitzades, però ara mateix només depèn de uv
, modal
i una clau API per a tots els proveïdors de LLM de frontera que espereu.
El cost d’executar això és insignificant. En una dotzena de proves, executant-se en un cron setmanal, he gastat 48 cèntims a OpenAI.


Acabar al principi, sabent per primera vegada.
Un comportament clau dels enginyers forts és ‘mirar sota el capó’ i aprendre com funcionen les eines per poder-les explotar millor. Mirar sota el capó també és com veieu les eines com a eines, i no com a màgia negra. Les imatges de Docker no són màgia, només són una pila de tarballs.
Donat l’estat del programari LLM de frontera —molt privat, molt complicat, estocàstic, poc entès—, malauradament no podeu gestionar-los com la resta del vostre conjunt d’eines. Però amb les avaluacions privades podeu fer alguna cosa que s’assembla més a un treball de clau anglesa adequat. I això és un començament.