Dump offline della wiki?

valhalla

Hiroshi ha scritto: ↑domenica 19 gennaio 2020, 9:41 Potrei chiedervi per favore se mi spiegate in due parole in cosa consiste kiwix? (...)

Win HTTrack e programmi simili copiano l'intera pagina, compresa struttura di navigazione, bordi, pubblicità, ecc, però funzionano su quasi¹ qualunque sito internet, senza aver bisogno di sapere nulla di cosa contengono.

I programmi usati per generare i file per kiwix invece sono specifici per il sito su cui stanno lavorando², sanno cosa aspettarsi e scaricano esclusivamente i contenuti dell'articolo e le immagini ad una risoluzione adatta per la visualizzazione online (non l'originale ad alta risoluzione), risparmiando una notevole quantità di spazio.

Dopodiché i programmi stile HTTrack salvano semplicemente pagine html, mentre quelli di kiwix creano un formato apposta, zim, che è ottimizzato specificatamente per questo scopo, compresso e supporta cose come l'avere un indice per facilitare le ricerche.

Per aprire il formato zim ci sono le varie versioni di kiwix (desktop, mobile, server); in teoria c'è anche GoldenDict (un visualizzatore di dizionari) che dovrebbe aprirli, ma non sono mai riuscita a farlo funzionare.

Detto questo, il dump di wikipedia in inglese senza immagini occupa comunque quei 36GB di spazio (con le foto sono quasi 80), il progetto gutenberg 54GB e stackoverflow (solo la sezione sulla programmazione) sono 134GB (sono i tre file zim più grossi che conosco); se i dati sono tanti li si può ottimizzare, ma non si possono fare miracoli.

¹ hanno problemi coi siti moderni molto dinamici, ovviamente
² o quantomento per il tipo di sito: il programma per wikipedia ad esempio può scaricare i dati di qualunque wiki che usi lo stesso programma (mediawiki) di wikipedia, che è ciò che ci ha permesso di richiedere il dump di fountainpen senza fatica.

Hiroshi · Messaggio da **Hiroshi** » domenica 19 gennaio 2020, 15:23

Grazie della spiegazione, chiarissima!
Avrei detto che il backup di Wikipedia inglese tenesse di più, anche con le ottimizzazioni di cui hai parlato. Veramente interessante!

nacanco · Messaggio da **nacanco** » lunedì 20 gennaio 2020, 12:32

valhalla ha scritto: ↑domenica 19 gennaio 2020, 13:45
Hiroshi ha scritto: ↑domenica 19 gennaio 2020, 9:41 Potrei chiedervi per favore se mi spiegate in due parole in cosa consiste kiwix? (...)
Win HTTrack e programmi simili copiano l'intera pagina, ( . . . o m i s s i s . . . ) si può ottimizzare, ma non si possono fare miracoli.

Grazie, e brava, Elena per la approfondita e sintetica spiegazione; anche per me ora l'argomento è un poco più chiaro.
Buona giornata.
Michele

FountainPen.it Forum