Bologna Pen Show - Mostra Scambio di Bologna
30 novembre 2024 - Hotel I Portici, via dell’Indipendenza 69

Dump offline della wiki?

Per fare due chiacchiere insieme su argomenti vari
valhalla
Vacumatic
Vacumatic
Messaggi: 995
Iscritto il: lunedì 20 maggio 2019, 17:20
La mia penna preferita: penna Astoria (tour Eiffel)
Misura preferita del pennino: Extra Fine

Dump offline della wiki?

Messaggio da valhalla »

Hiroshi ha scritto: domenica 19 gennaio 2020, 9:41 Potrei chiedervi per favore se mi spiegate in due parole in cosa consiste kiwix? (...)
Win HTTrack e programmi simili copiano l'intera pagina, compresa struttura di navigazione, bordi, pubblicità, ecc, però funzionano su quasi¹ qualunque sito internet, senza aver bisogno di sapere nulla di cosa contengono.

I programmi usati per generare i file per kiwix invece sono specifici per il sito su cui stanno lavorando², sanno cosa aspettarsi e scaricano esclusivamente i contenuti dell'articolo e le immagini ad una risoluzione adatta per la visualizzazione online (non l'originale ad alta risoluzione), risparmiando una notevole quantità di spazio.

Dopodiché i programmi stile HTTrack salvano semplicemente pagine html, mentre quelli di kiwix creano un formato apposta, zim, che è ottimizzato specificatamente per questo scopo, compresso e supporta cose come l'avere un indice per facilitare le ricerche.

Per aprire il formato zim ci sono le varie versioni di kiwix (desktop, mobile, server); in teoria c'è anche GoldenDict (un visualizzatore di dizionari) che dovrebbe aprirli, ma non sono mai riuscita a farlo funzionare.

Detto questo, il dump di wikipedia in inglese senza immagini occupa comunque quei 36GB di spazio (con le foto sono quasi 80), il progetto gutenberg 54GB e stackoverflow (solo la sezione sulla programmazione) sono 134GB (sono i tre file zim più grossi che conosco); se i dati sono tanti li si può ottimizzare, ma non si possono fare miracoli.

¹ hanno problemi coi siti moderni molto dinamici, ovviamente
² o quantomento per il tipo di sito: il programma per wikipedia ad esempio può scaricare i dati di qualunque wiki che usi lo stesso programma (mediawiki) di wikipedia, che è ciò che ci ha permesso di richiedere il dump di fountainpen senza fatica.
Immagine
Hiroshi

Dump offline della wiki?

Messaggio da Hiroshi »

Grazie della spiegazione, chiarissima!
Avrei detto che il backup di Wikipedia inglese tenesse di più, anche con le ottimizzazioni di cui hai parlato. Veramente interessante!
nacanco
Pulsante di Fondo
Pulsante di Fondo
Messaggi: 342
Iscritto il: domenica 22 maggio 2016, 12:06
La mia penna preferita: Perry
Misura preferita del pennino: Fine
Località: Milano

Dump offline della wiki?

Messaggio da nacanco »

valhalla ha scritto: domenica 19 gennaio 2020, 13:45
Hiroshi ha scritto: domenica 19 gennaio 2020, 9:41 Potrei chiedervi per favore se mi spiegate in due parole in cosa consiste kiwix? (...)
Win HTTrack e programmi simili copiano l'intera pagina, ( . . . o m i s s i s . . . ) si può ottimizzare, ma non si possono fare miracoli.
Grazie, e brava, Elena per la approfondita e sintetica spiegazione; anche per me ora l'argomento è un poco più chiaro.
Buona giornata.
Michele
Rispondi

Torna a “Chiacchiere in libertà”