Win HTTrack e programmi simili copiano l'intera pagina, compresa struttura di navigazione, bordi, pubblicità, ecc, però funzionano su quasi¹ qualunque sito internet, senza aver bisogno di sapere nulla di cosa contengono.
I programmi usati per generare i file per kiwix invece sono specifici per il sito su cui stanno lavorando², sanno cosa aspettarsi e scaricano esclusivamente i contenuti dell'articolo e le immagini ad una risoluzione adatta per la visualizzazione online (non l'originale ad alta risoluzione), risparmiando una notevole quantità di spazio.
Dopodiché i programmi stile HTTrack salvano semplicemente pagine html, mentre quelli di kiwix creano un formato apposta, zim, che è ottimizzato specificatamente per questo scopo, compresso e supporta cose come l'avere un indice per facilitare le ricerche.
Per aprire il formato zim ci sono le varie versioni di kiwix (desktop, mobile, server); in teoria c'è anche GoldenDict (un visualizzatore di dizionari) che dovrebbe aprirli, ma non sono mai riuscita a farlo funzionare.
Detto questo, il dump di wikipedia in inglese senza immagini occupa comunque quei 36GB di spazio (con le foto sono quasi 80), il progetto gutenberg 54GB e stackoverflow (solo la sezione sulla programmazione) sono 134GB (sono i tre file zim più grossi che conosco); se i dati sono tanti li si può ottimizzare, ma non si possono fare miracoli.
¹ hanno problemi coi siti moderni molto dinamici, ovviamente
² o quantomento per il tipo di sito: il programma per wikipedia ad esempio può scaricare i dati di qualunque wiki che usi lo stesso programma (mediawiki) di wikipedia, che è ciò che ci ha permesso di richiedere il dump di fountainpen senza fatica.