Pagina 2 di 2

Dump offline della wiki?

Inviato: domenica 19 gennaio 2020, 13:45
da valhalla
Hiroshi ha scritto: domenica 19 gennaio 2020, 9:41 Potrei chiedervi per favore se mi spiegate in due parole in cosa consiste kiwix? (...)
Win HTTrack e programmi simili copiano l'intera pagina, compresa struttura di navigazione, bordi, pubblicità, ecc, però funzionano su quasi¹ qualunque sito internet, senza aver bisogno di sapere nulla di cosa contengono.

I programmi usati per generare i file per kiwix invece sono specifici per il sito su cui stanno lavorando², sanno cosa aspettarsi e scaricano esclusivamente i contenuti dell'articolo e le immagini ad una risoluzione adatta per la visualizzazione online (non l'originale ad alta risoluzione), risparmiando una notevole quantità di spazio.

Dopodiché i programmi stile HTTrack salvano semplicemente pagine html, mentre quelli di kiwix creano un formato apposta, zim, che è ottimizzato specificatamente per questo scopo, compresso e supporta cose come l'avere un indice per facilitare le ricerche.

Per aprire il formato zim ci sono le varie versioni di kiwix (desktop, mobile, server); in teoria c'è anche GoldenDict (un visualizzatore di dizionari) che dovrebbe aprirli, ma non sono mai riuscita a farlo funzionare.

Detto questo, il dump di wikipedia in inglese senza immagini occupa comunque quei 36GB di spazio (con le foto sono quasi 80), il progetto gutenberg 54GB e stackoverflow (solo la sezione sulla programmazione) sono 134GB (sono i tre file zim più grossi che conosco); se i dati sono tanti li si può ottimizzare, ma non si possono fare miracoli.

¹ hanno problemi coi siti moderni molto dinamici, ovviamente
² o quantomento per il tipo di sito: il programma per wikipedia ad esempio può scaricare i dati di qualunque wiki che usi lo stesso programma (mediawiki) di wikipedia, che è ciò che ci ha permesso di richiedere il dump di fountainpen senza fatica.

Dump offline della wiki?

Inviato: domenica 19 gennaio 2020, 15:23
da Hiroshi
Grazie della spiegazione, chiarissima!
Avrei detto che il backup di Wikipedia inglese tenesse di più, anche con le ottimizzazioni di cui hai parlato. Veramente interessante!

Dump offline della wiki?

Inviato: lunedì 20 gennaio 2020, 12:32
da nacanco
valhalla ha scritto: domenica 19 gennaio 2020, 13:45
Hiroshi ha scritto: domenica 19 gennaio 2020, 9:41 Potrei chiedervi per favore se mi spiegate in due parole in cosa consiste kiwix? (...)
Win HTTrack e programmi simili copiano l'intera pagina, ( . . . o m i s s i s . . . ) si può ottimizzare, ma non si possono fare miracoli.
Grazie, e brava, Elena per la approfondita e sintetica spiegazione; anche per me ora l'argomento è un poco più chiaro.
Buona giornata.
Michele