Non frequento malsane contrade e poi, se davvero le frequentassi, avrei invocato direttamente il Vesuvio, come fecero anni addietro gli ultras nazi del Verona. Io nutro speranze sulla Brigata Spalletti.
Egregio, sui Veneti e sul veneto pre-romano o coevo a Roma possiedo molti materiali cartacei, compreso il catalogo “Venetkens”, pubblicato da Marsilio e che riecheggi nella tua domanda. Fra l’altro risiedo a pochi km dai resti della città romana di Altino e conosco di persona molti fra coloro che vanno indagando su questo sito archeologico. In formato digitale ho davvero poco e in futuro non mancherò di condividere. A dirla tutta i miei antenati non sono veneti ma friulani carnici, almeno da parte paterna, e ciò significa quasi certamente che le origini più lontane sono barbare, come testimonierebbe la genetica.
Caspita, questo è un lavoro prezioso. Sono due romanzi mastodontici, Il coltivatore in due volumi attirittura. Ho i libri cartacei e mi ero ripromesso di trasformarli in epub prima o poi. Personalmente da scansionare ho anche L’opera galleggiante, La casa dell’allegria e Fine della strada; non sono voluminosi come i precedenti due, ma prometto che li farò per la comunità.
salve avrei bisogno di questi libri:
La Psicologia di C.G. Jung (Jolande Jacobi)
L’uomo e i suoi simboli (Jung e collaboratori)
Introduzione alla Psicologia Analitica. Cinque conferenze. (C.G. Jung)
La psicologia dell’inconscio (Jung)
L’io e l’inconscio (Jung)
Psicologia Analitica. La teoria della clinica. (a cura di Luigi Aversa)
La sincronicità (C.G. Jung)
Manuale di Psicologia Junghiana. Teoria, pratica e applicazioni
Storia delle Origini della Coscienza (Erich Neumann)
Psiche e Materia (Marie Louise von Franz)
Ciao a tutti, vi ringrazio nuovamente per il suggerimento su dove reperire il libro della Bifarini, che ho concluso giorni fà.
Volevo invece qui chiedervi un’altra informazione:
volendo creare un ebook in formato MOBI a partire da un PDF, come vi regolate?
Non è che avreste una guida fatta bene da consigliarmi?
Infatti ho trovato il PDF di un documento che mi interessava leggere più comodamente sul kindle, e ho provato con calibre a convertirlo appunto in mobi, ma il risultato non è il massimo della vita, in particolare la lunghezza delle righe resta costante, cioè dove nel pdf c’era un “a capo”, questo viene copiato anche nel mobi, il risultato è che una riga si e una no si vede una riga che termina a metà e va a capo senza quindi adattarsi alla larghezza del display…
Poi ad esempio nella versione convertita permane il numero di pagina presente sul pdf di partenza…
Insomma non è bello da vedere nè comodo da leggere.
Mi piacerebbe capire come si fà in questo casi a correggere l’ebook convertito, o convertirlo “meglio”, in modo da ottenere un risultato migliore.
Grazie mille in anticipo! 🙂
Ma con l’OCR ottieni il testo semplice no?
Però poi occorrerà modificarlo, ad esempio togliendo gli “a capo” che non servono… Oppure ci pensa già il software OCR auto-magicamente?
Ho provato anche a prendere il PDF ed esportarlo in testo semplice: ne esce un file txt.
Ma anche in questo caso il txt deve essere ritoccato togliendo gli “a capo” non necessari.
In più passando in txt semplice, si perde l’ipertesto: ad esempio nel pdf originario con cui ho tentato, l’indice conteneva i vari collegamenti ai relativi capitoli e sottocapitoli, che sarebbe buona cosa mantenere anche nell’ebook finale.
Aggiungo che ho visto in Calibre la possibilità di editare l’ebook convertito (solo se è stato convertito in azw3 o epub, non mobi). In questo modo si può modificare proprio il codice simil html (o XML, insomma quel che è). In calibre, selezionato il libro si sceglie “modifica libro” e si apre una doppia finestra con a sinistra il codice da modificare e a destra l’anteprima dell’ebook.
Forse il discorso OCR è attinente quando hai un PDF di pagine ottenute con scansione, che quindi sono praticamente immagini. Invece nel mio caso sono già a qualcosa di più digitalizzato. Poi correggimi se sbaglio…
In realtà l’ocr può essere fatto anche con pdf non in formato immagine. In generale mi sentirei sempre di sconsigliare la conversione diretta da pdf ad altro formato. Calibre va bene per i formati tra loro gemelli (p.es. da epub a mobi, da mobi a azw3). Comunque, per onestà devo ammettere di non essere un esperto di quel particolare programma. Qualcuno utilizza Calibre per agire direttamente sul codice del libro, se codeste persone stanno leggendo e vorranno intervenire e chiarire i loro metodi potrai confrontarti con loro.
La mia procedura è questa: con il programma ocr ottieni del testo formattato (corsivi, a capo ecc.) poi quel testo dovrai ulteriormente elaborarlo con openoffice e/o sigil (io uso entrambi, openoffice per correggere gli errori sintattici, i refusi e per l’aggiunta degli indici, sigil per sistemare il codice del libro e per dare un ulteriore correzione al testo); gli a capo, insieme alle parole “spezzate” dal trattino – a quanto ne so sono inevitabili: le estensioni di openoffice, perfectepub e pepito, danno una gran mano in questo senso.
Va bene, grazie per le dritte.
Se altri volessero riportare la propria esperienza e il proprio metodo di conversione/creazione dell’ebook leggerò senz’altro con interesse.
Un saluto a tutti!
PDF e EPUB sono due “cose” talmente diverse che non esiste, come avrai già letto altrove, la possibilità di fare una buona conversione direttamente dal primo al secondo. Esiste pdfonline punto com che fa un lavoro apparentemente leggibile, ma a costo di marchingegni enormi ed ingestibili interni all’html.
Da un (buon) pdf ottieni al massimo il puro testo, che è un punto di partenza. Da questo ottieni un html con vim o emacs e una buona conoscenza delle regex. L’html lo trasformi in odt con libre office, lo correggi con alt search and replace e pepito cleaner, Lo trasformi in epub con writertoepub. Solo a questo punto usi l’editor di calibre (NON sigil, destinato a sparire) per trasformare un epub grezzo in qualcosa di presentabile in rete. Anche per quest’ultimo passaggio tornano molto utili le regex.
Questo è il procedimento che uso io, ma ho visto lavori molto buoni fatti da blutaski e da pierre, forse loro possono intervenire per condividere le loro esperienze.
Ciao e grazie!
Chiederei a Nat di intervenire qualora il discorso diventi troppo lungo e rompa le scatole…
Riporto un esempio di qualche passaggio che ho fatto io col PDF di partenza che avevo.
Come accennato già con testo digitalizzato è stato facile ridurlo a testo semplice:
l’ho aperto con Okular (il visualizzatore di pdf) e ho scelto “export as plain text”. Vedo che ci sono anche pdftotext e persino pdftohtml che fanno parte di questo progetto poppler.freedesktop.org, magari provo visto che li ho sul sistema.
Tornando a quello che ho fatto… ho ottenuto un testo semplice con:
– a capo come nel pdf, invece immagino che nell’epub finale, ma anche se non sbaglio nell’html si voglia andare a capo in base alla larghezza del display. Pertanto ciò che conta sono gli “a capo” di fine periodo.
– vengono trascritti i numeri di pagina presenti nel pdf, invece nel documento ebook non li vogliamo
– alcune note (indicate con asterischi *, **, ecc) sono collocate “in linea” in fondo alla pagina cui si riferiscono e non come altre “numerate” che invece sono collegate via ipertesto alle corrispondenti didascalie in fondo al libro.
– le tabelle presenti vengono trasformate anche loro in txt. Non so forse nell’ebook finale sarebbe meglio riportarle come una immagine…
Utilizzando “sed” ho eliminato le righe che contengono i numeri di pagina, ad esempio il comando con la regexp per beccare le pagine superiori alla centesima:
sed ‘/^ *[0-9][0-9][0-9]$/d’ ebook.txt
Ho poi usato Vim come editor di testo semplice per eliminare tutti gli a capo non necessari:
– V maiuscolo per andare in visual e selezionare tutte le righe di un periodo tranne l’ultima.
– introdurre il comando coi due punti, praticamente si digita “:s/n/ /” (senza le virgolette) e gli a capo non necessari vengono trasformati in spazio, in pratica si ottiene tutto il periodo su una sola riga.
– ho tolto anche i rientri del primo carattere dei periodi..
Questo è stato un lavoraccio, ma non avrei saputo come automatizzarlo diversamente. Lavorando con un editor “interattivo” manuale ho potuto però esaminare il testo isolando ad esempio i titoli di capitoli e sotto capitoli.
Ora quindi ho un testo semplice diciamo rivisto che potrebbe essere pronto per essere trasformato in html.
Quello che non ho capito è come intendevi trasformarlo in html con vim o emacs + regexp…
Se puoi darmi qualche dettaglio in più su questo punto mi farebbe molto comodo.
Anche altri consigli da blutaski, da pierre e da altri utenti che hanno esperienze in merito saranno sicuramente utilissimi.
Grazie ancora per la risposta e le indicazioni!
PS.
Ho provato pdftohtml, ma anche in questo caso gli “a capo” del pdf vengono mantenuto come sono. Vengono però mantenuti i links, quindi l’indice del pdf, le note ecc funzionano, il chè nel testo semplice invece va perso ovviamente.
Le tabelle invece non si salvano… si ottiene qualcosa di non consultabile, tipo una parola per riga… non è più una tabella insomma.
Se usi vim sed non serve: ad es. per eliminare le righe con i numeri di pagina puoi usare qualcosa come “:s/^s*t*d{1,4}s*t*$//g” (elimina tutti i caratteri delle righe formate solo da sequenze da una a quattro cifre che siano o non siano precedute o seguite da un qualunque numero di spazi bianchi o tabulazioni), ma ovviamente ogni regex va costruita tenendo presente il singolo caso specifico. Il succo della mia risposta precedente è: 1) convertire da pdf a epub è un lavoraccio (perciò non ringrazieremo mai abbastanza natjus e gli altri eroi), 2) è necessario conoscere molti ausili tecnici diversi che comunque non fanno in automatico l’intero lavoro e 3) se fai precedere alla tecnica digitale una lettura degli “Elementi dello stile tipografico” di Bringhurst (una vera scuola di vita) è anche meglio.
Ti ringrazio anzitutto per il consiglio sul libro, che spero sia rintracciabile anche in pdf da qualche parte (non ho ancora cercato…).
Sugli altri punti, ok, me ne ero accorto! 😉
Però tutto sommato si può fare, magari in più serate…
Sulle regexp concordo, ma è questione di abitudine: sono più abituato ad usare sed per regexp da applicare “non interattivamente su tutto il documento, poi sed non modifica nulla, mostra solo a video come viene il risultato, quindi se tipo lo reindirizzi a less poi monitorare l’anteprima del testo che ne esce. Anche grep è stato utilissimo per verificare la regexp ottenendo un anteprima delle righe che saranno poi eliminate (usando la stessa regexp con sed). Poi è questione di abitudine e di comodità personale. Ma come dicevi il tutto va usato adeguandolo al testo che si ha sottomano: non ci sono pasti gratis!
Invece resto fermo per il momento al passaggio da testo semplice ad html che indicavi nel tuo precedente messaggio. Tu come fai quest’operazione?
Grazie davvero, spero che tutte queste righe possano essere di ispirazione anche ad altri che vogliano cimentarsi nella creazione di ebooks.
Un saluto a tutti! 😀
HTML mi serve per dare una prima formattazione di massima al testo prima di perfezionarlo con libre office. Applico solo i tag da a , , ,
, e . Purtroppo è un lavoro manuale che va fatto confrontado sempre il testo originale. A volte, ma non sempre, si può accelerare il lavoro con una regex, ad esempio se vedo che i titoli dei capitoli in tutto il testo sono una riga di testo breve preceduta e seguita da due righe vuote, con una sola passata chiudo tutti i titoli in una coppia di tag . Vim è uno strumento complesso, ma quando avrai imparato le funzioni fondamentali ti accorgerai che può accelerare enormemente il lavoro di trasformazione di un file di testo.
Le tabelle sono un problema a parte, in genere sono le ultime cose cui metto mano nella revisione finale con calibre. Una volta i tipografi si facevano pagare una somma extra per ogni tabella presente nel manoscritto, proprio perchè ogni tabella richiede un lavoro diverso dalle altre. La situazione non è cambiata con la tipografia digitale.
Ok, più o meno ho capito, cioè in pratica a parte appoggiarti su regexp costruite in base a come è strutturato il testo direi sintetizzando molto che: prendi il txt semplice e lo editi a mano inserendo i vari tags html.
Il che si può fare con il proprio editor preferito di testo, sia esso vim, emacs, gedit, blocco note ecc ecc…
Il libro di Bringhurst cui facevi riferimento l’ho trovato in inglese, ma da quello che ho visto così al volo non tratta precisamente la creazione di un ebook, tratta altri aspetti importanti più volti all’editoria e alla tipografia in generale, che è sicuramente buona cosa conoscere, ma qui a me interessava capire meglio:
– come è strutturato il “sorgente” di un ebook
– come realizzarlo manualmente (per capire la procedura e la struttura in modo diretto senza troppi automatismi che sicuramente semplificano, ma nascondono inevitabilmente qualcosa)
– (dopo aver capito la procedura manuale) quali eventuali strategie adottare per realizzarlo in modo più speditivo per esempio partendo da un pdf con testo già digitalizzato.
È ovvio che non puoi descrivere tutto qui, anche se hai già descritto abbastanza per farsi un’idea. Per questo penso che sarebbe un’ottima idea mettere qualche links a guide che spiegano passo passo alcune procedure da seguire per lo scopo.
Dal canto mio sto cercando in tal senso in rete. Qualcosa direi che si dovrebbe trovare…
Se qualcuno qui conosce qualche guida ben fatta per realizzare ebooks ben venga!
Questo sito mi sembra il posto giusto per discuterne e proporle: così chi ha la necessità o volesse cimentarsi nell’impresa avrebbe una traccia su “come si fa” e potrebbe poi condividere qualche testo creato in modo da allargare ancor più il già ricco archivio LdB.
Dopo di che (per tutti):
Dato un qualsiasi file testo di partenza, la migliore sistemazione in termini di formattazione, carattere etc per cominciare ad elaborarlo io la ottengo importandolo in Calibre e convertendolo in RTF.
Prelevo questo file dalla cartella della biblioteca di Calibre e lo apro con Libreoffice su cui ho installato l’estensione PepitoCleaner e Writer2epub, la prima per pulire il testo e la seconda per esportarlo alla fine in html (verificare la compatibilità di W2E con la versione di Libre). Pepito ha degli strumenti di default, ma anche la possibilità di implementare espressioni regolari, le regex, individuali. Io non conoscendole uso la funzione Cerca e sostituisci (la lente). Anche questo strumento se si clicca “ulteriori opzioni” permette l’uso di regex. Uno strumento ulteriore e più sofisticato è l’estensione Alt Search che bisogna però aggiungere. Tutto questo vale anche per OpenOffice.
Dopo le prime modifiche salvo il testo nel formato ODT e continuo.
Una volta fatto il lavoro di correttore di bozze e di impaginazione del testo lo esporto in epub con W2E.
Il file ottenuto lo apro con Sigil e fondamentalmente lo aggiusto seguendo la guida che ho linkato.
Poi verifico la validità del foglio di stile cliccando l’apposito comando in strumenti e la validità globale del file con Flight Crew (quest’ultimo un plugin da installare a parte nelle versioni più recenti di Sigil).
Ulteriore controllo del file finale aprendolo con l’editor di testo di Calibre (Edit ebook) per verificare validità e fare le ultime aggiustature.
Tutto questo si può fare in modo gratuito (eventuali donazioni) che l’unico strumento a pagamento necessario è il programma di conversione OCR Abbyy Finereader che tra l’altro richiede Windows.
A grandi linee e la stessa procedura che seguo io stesso, senza usare Calibre però. P.s. versioni crackate di abby si trovano facilmente in rete.
@pieros Che formato consigli per la conversione tramite Abby Fine Reader? E con quale layout? Grazie!
Prendendola larga:
Scansione a 300 dpi con opzione bianco e nero (la più veloce).
Output singole immagini della doppia pagina in formato .jpg.
Elaborazione delle stesse con Scantailor (free), divisione raddrizzamento, margini etc con output 300 dpi in bianco e nero.
A questo punto do in pasto la cartella con i singoli file, diventati nel frattempo .tif ad AcrobatDc per convertirli in un singolo Pdf, al quale applico poi il comando modifica per renderlo un Pdf cliccabile. Mi sono creato così il testo di riferimento da confrontare per tutte le successive correzioni.
Importo il Pdf in Abbyy e dopo il riconoscimento salvo in RTF con le impostazioni di default. Questo è il file che riconverto nell’RTF di Calibre. (Apri entrambi con Libre e noterai la differenza)
Il prolema con Abbyy (che uso in modo primitivo) sono le note: non sempre vengono riconosciute correttamente e quindi richiedono uno sforzo ulteriore in fase di sistemazione. C’era un post di Nat a tale proposito con una procedura per ovviare al problema…
@ Acciaierie Stahlberg:grazie per il consiglio del testo di Bringhurst che non conoscevo.
Ciao a tutti, volevo ringraziare per tutti questi spunti e per le linee guida del progetto griffo.
Nei prossimi giorni provo a mettere in pratica le indicazioni applicandole ai libri che volevo passare in ebook.
Magari quando avrò finito condivido il risultato in modo che possiate darmi un giudizio sul risultato…
Grazie ancora a tutti! 😀
Per i due testi postati ieri si ringrazia Democrito, che ne ha fornito i PDF.
E’ la terza volta che chiedo di essere aggiunta, ma non mi arriva nessuna richiesta sul mio profilo! :”( Vorrei entrare a far parte di questo splendido gruppo… Per favore: invernomuto999@gmail.com
Grazie Carla, questi due li ho trovati in questi giorni. In cartaceo possiedo: Nel labirinto, Le gomme, Topologia di una città fantasma e altri… Li devo scansionare e trasformare in ePub. Nel labirinto è quasi fatto, devo fare alcune correzioni e sistemarlo. Chiedo a Nat: come funziona se si ha qualcosa da condividere? Ci terrei che la firma maxthereader rimanesse all’interno dell’epub.
Allora condividi qui nei commenti e poi il materiale verrà spostato in amici di ldb, in una cartella col tuo nickname, affinchè i nuovi utenti non siano costretti a spulciare tutti i vecchi commenti per trovare il materiale già condiviso. La firma puoi aggiungerla con uno strumento tipo sigil. Devo però avvisarti che essendo questo un archivio pubblico ci sono individui meschini che prendono i lavori altrui, tolgono la firma e poi condividono sui siti di file sharing come dasolo.
Nelle prossime settimane vorrei procedere con il secondo libro in assoluto (il primo è stato Nel labirinto di Robbe-Grillet).
Può essere un’dea o un aiuto per qualcuno se descrivessi i vari passaggi da zero, step by step? Non seguo nessun tutorial preconfezionato, fin dal primo libro ho cercato una strada completamente autonoma, scrivendo anche diverse macro per Word. Fammi sapere se è il caso.
certamente, anzi invito (rivolgo questo invito anche a me stesso) tutti coloro che hanno questo hobby a descrivere passaggio per passaggio il loro metodo di conversione.
Salve a tutti, sarebbe cosa gradita se qualche adepto di LDB ci facesse dono dei seguenti testi:
-Diadori, Insegnare Italiano a stranieri.
-Serra-Borneto, C’era una volta il metodo.
-Diadori-Troncarelli-Palermo, Insegnare italiano come seconda lingua.
-Bettoni Camilla, Usare un’altra lingua.
-Serraggiotto-Caon, Tecnologie e didattica delle lingue
-Bosisio, Il docente di lingue in Italia-linee guida per una formazione europea
-Balboni-Caon, La comunicazione interculturale
-Nuovi Quaderni Ditals sessioni 2013-2105
-La Ditals risponde n 4
-Sorbrero, Introduzione all’italiano contemporaneo, le strutture
-Diadori, Formazione Qualità Certificazione per la didattica delle lingue moderne in Europa
-Berruto, Sociolinguistica dell’italiano contemporaneo
Grazie per il lavoro indispensabile che svolgete distribuendo il pane quotidiano ai bisognosi!
Mi pare che il blog vada assumendo un “inquietante” – Zovvo docet – risvolto partenopeo. A Sarri, neo Vescovo di Napoli, manca il mandolino …
Ti sembra inquietante perché ritorni or ora da pontida, dì la verità.
Buonasera, come da istruzioni scrivo qui per essere aggiunto
(Se ho capito bene 😁)
Grazie, e complimenti per l’iniziativa !!!
Non frequento malsane contrade e poi, se davvero le frequentassi, avrei invocato direttamente il Vesuvio, come fecero anni addietro gli ultras nazi del Verona. Io nutro speranze sulla Brigata Spalletti.
Sior Aletinus, possiede qualcosa sui suoi antenati Venetkens? 😉
Egregio, sui Veneti e sul veneto pre-romano o coevo a Roma possiedo molti materiali cartacei, compreso il catalogo “Venetkens”, pubblicato da Marsilio e che riecheggi nella tua domanda. Fra l’altro risiedo a pochi km dai resti della città romana di Altino e conosco di persona molti fra coloro che vanno indagando su questo sito archeologico. In formato digitale ho davvero poco e in futuro non mancherò di condividere. A dirla tutta i miei antenati non sono veneti ma friulani carnici, almeno da parte paterna, e ciò significa quasi certamente che le origini più lontane sono barbare, come testimonierebbe la genetica.
lonelywolve@live.com grazie 🙂
chiedo di essere aggiunto, grazie
Qualcuno possiede epub di John Barth?
Di John Barth ho questi due romanzi in epub (uno realizzato da Athanasius):
https://mega.nz/#F!DQUCnZBS!XL4znxvh_egCZwZYV_4Xsw
Caspita, questo è un lavoro prezioso. Sono due romanzi mastodontici, Il coltivatore in due volumi attirittura. Ho i libri cartacei e mi ero ripromesso di trasformarli in epub prima o poi. Personalmente da scansionare ho anche L’opera galleggiante, La casa dell’allegria e Fine della strada; non sono voluminosi come i precedenti due, ma prometto che li farò per la comunità.
Vedi qui sotto
Non considerare il precedente post, è un errore!
Grazie mille, Il coltivatore del Maryland ero riuscito a trovarlo ma il secondo no
non è che qualcuno potrebbe aggiungermi? ciao, piacere a tutti, francesco
Salve a tutti, sono Luca e vorrei essere aggiunto in questa fantastica biblioteca
Chiedo umilmente di essere ammesso al nobile consesso, grazie!
Ciao a tutti
Anche a me farebbe TANTO piacere essere aggiunto
Grazie !!!
Vorrei essere aggiunto, grazie
salve avrei bisogno di questi libri:
La Psicologia di C.G. Jung (Jolande Jacobi)
L’uomo e i suoi simboli (Jung e collaboratori)
Introduzione alla Psicologia Analitica. Cinque conferenze. (C.G. Jung)
La psicologia dell’inconscio (Jung)
L’io e l’inconscio (Jung)
Psicologia Analitica. La teoria della clinica. (a cura di Luigi Aversa)
La sincronicità (C.G. Jung)
Manuale di Psicologia Junghiana. Teoria, pratica e applicazioni
Storia delle Origini della Coscienza (Erich Neumann)
Psiche e Materia (Marie Louise von Franz)
amici di ldb, c’è qualcuno che ha l’adelphino di Jouve sul Don Giovanni???
Salve a tutti, io sto cercando La Distruzione di Dante Virgili, qualcuno per caso ce l’ha?
Grazie.
…un pò in ritardo: Dante Virgili
https://mega.nz/#!HQsx0ZyA!XrANpQn0TigEwdPm6tTIAkIIbEbuRZ2oneX64NxoyhE
Grazie mille 🙂
Grazie infinite per la gentilezza.
https://mega.nz/#!9kIxGYxT!fKsSLunTBvQktap-rkDfBXkCExCo2kU-EO9hgY0VOkM
Grazie Pierre!
Ciao, aggiungimi per favore!
nobanananoparty17@yahoo.it
https://mega.nz/#!MlInVLgb!FZPYWpNlKM2Dwh9JurXlBrs_R6B-G643zkeAldHkCfw
Grazie Matteo Carlini ex pierre!
Oh signoreiddio!
Ciao a tutti, vi ringrazio nuovamente per il suggerimento su dove reperire il libro della Bifarini, che ho concluso giorni fà.
Volevo invece qui chiedervi un’altra informazione:
volendo creare un ebook in formato MOBI a partire da un PDF, come vi regolate?
Non è che avreste una guida fatta bene da consigliarmi?
Infatti ho trovato il PDF di un documento che mi interessava leggere più comodamente sul kindle, e ho provato con calibre a convertirlo appunto in mobi, ma il risultato non è il massimo della vita, in particolare la lunghezza delle righe resta costante, cioè dove nel pdf c’era un “a capo”, questo viene copiato anche nel mobi, il risultato è che una riga si e una no si vede una riga che termina a metà e va a capo senza quindi adattarsi alla larghezza del display…
Poi ad esempio nella versione convertita permane il numero di pagina presente sul pdf di partenza…
Insomma non è bello da vedere nè comodo da leggere.
Mi piacerebbe capire come si fà in questo casi a correggere l’ebook convertito, o convertirlo “meglio”, in modo da ottenere un risultato migliore.
Grazie mille in anticipo! 🙂
Devi usare un programma di riconoscimento testo (OCR) per avere un testo decente.
Ma con l’OCR ottieni il testo semplice no?
Però poi occorrerà modificarlo, ad esempio togliendo gli “a capo” che non servono… Oppure ci pensa già il software OCR auto-magicamente?
Ho provato anche a prendere il PDF ed esportarlo in testo semplice: ne esce un file txt.
Ma anche in questo caso il txt deve essere ritoccato togliendo gli “a capo” non necessari.
In più passando in txt semplice, si perde l’ipertesto: ad esempio nel pdf originario con cui ho tentato, l’indice conteneva i vari collegamenti ai relativi capitoli e sottocapitoli, che sarebbe buona cosa mantenere anche nell’ebook finale.
Aggiungo che ho visto in Calibre la possibilità di editare l’ebook convertito (solo se è stato convertito in azw3 o epub, non mobi). In questo modo si può modificare proprio il codice simil html (o XML, insomma quel che è). In calibre, selezionato il libro si sceglie “modifica libro” e si apre una doppia finestra con a sinistra il codice da modificare e a destra l’anteprima dell’ebook.
Forse il discorso OCR è attinente quando hai un PDF di pagine ottenute con scansione, che quindi sono praticamente immagini. Invece nel mio caso sono già a qualcosa di più digitalizzato. Poi correggimi se sbaglio…
In realtà l’ocr può essere fatto anche con pdf non in formato immagine. In generale mi sentirei sempre di sconsigliare la conversione diretta da pdf ad altro formato. Calibre va bene per i formati tra loro gemelli (p.es. da epub a mobi, da mobi a azw3). Comunque, per onestà devo ammettere di non essere un esperto di quel particolare programma. Qualcuno utilizza Calibre per agire direttamente sul codice del libro, se codeste persone stanno leggendo e vorranno intervenire e chiarire i loro metodi potrai confrontarti con loro.
La mia procedura è questa: con il programma ocr ottieni del testo formattato (corsivi, a capo ecc.) poi quel testo dovrai ulteriormente elaborarlo con openoffice e/o sigil (io uso entrambi, openoffice per correggere gli errori sintattici, i refusi e per l’aggiunta degli indici, sigil per sistemare il codice del libro e per dare un ulteriore correzione al testo); gli a capo, insieme alle parole “spezzate” dal trattino – a quanto ne so sono inevitabili: le estensioni di openoffice, perfectepub e pepito, danno una gran mano in questo senso.
Va bene, grazie per le dritte.
Se altri volessero riportare la propria esperienza e il proprio metodo di conversione/creazione dell’ebook leggerò senz’altro con interesse.
Un saluto a tutti!
PDF e EPUB sono due “cose” talmente diverse che non esiste, come avrai già letto altrove, la possibilità di fare una buona conversione direttamente dal primo al secondo. Esiste pdfonline punto com che fa un lavoro apparentemente leggibile, ma a costo di marchingegni enormi ed ingestibili interni all’html.
Da un (buon) pdf ottieni al massimo il puro testo, che è un punto di partenza. Da questo ottieni un html con vim o emacs e una buona conoscenza delle regex. L’html lo trasformi in odt con libre office, lo correggi con alt search and replace e pepito cleaner, Lo trasformi in epub con writertoepub. Solo a questo punto usi l’editor di calibre (NON sigil, destinato a sparire) per trasformare un epub grezzo in qualcosa di presentabile in rete. Anche per quest’ultimo passaggio tornano molto utili le regex.
Questo è il procedimento che uso io, ma ho visto lavori molto buoni fatti da blutaski e da pierre, forse loro possono intervenire per condividere le loro esperienze.
Ciao e grazie!
Chiederei a Nat di intervenire qualora il discorso diventi troppo lungo e rompa le scatole…
Riporto un esempio di qualche passaggio che ho fatto io col PDF di partenza che avevo.
Come accennato già con testo digitalizzato è stato facile ridurlo a testo semplice:
l’ho aperto con Okular (il visualizzatore di pdf) e ho scelto “export as plain text”. Vedo che ci sono anche pdftotext e persino pdftohtml che fanno parte di questo progetto poppler.freedesktop.org, magari provo visto che li ho sul sistema.
Tornando a quello che ho fatto… ho ottenuto un testo semplice con:
– a capo come nel pdf, invece immagino che nell’epub finale, ma anche se non sbaglio nell’html si voglia andare a capo in base alla larghezza del display. Pertanto ciò che conta sono gli “a capo” di fine periodo.
– vengono trascritti i numeri di pagina presenti nel pdf, invece nel documento ebook non li vogliamo
– alcune note (indicate con asterischi *, **, ecc) sono collocate “in linea” in fondo alla pagina cui si riferiscono e non come altre “numerate” che invece sono collegate via ipertesto alle corrispondenti didascalie in fondo al libro.
– le tabelle presenti vengono trasformate anche loro in txt. Non so forse nell’ebook finale sarebbe meglio riportarle come una immagine…
Utilizzando “sed” ho eliminato le righe che contengono i numeri di pagina, ad esempio il comando con la regexp per beccare le pagine superiori alla centesima:
sed ‘/^ *[0-9][0-9][0-9]$/d’ ebook.txt
Ho poi usato Vim come editor di testo semplice per eliminare tutti gli a capo non necessari:
– V maiuscolo per andare in visual e selezionare tutte le righe di un periodo tranne l’ultima.
– introdurre il comando coi due punti, praticamente si digita “:s/n/ /” (senza le virgolette) e gli a capo non necessari vengono trasformati in spazio, in pratica si ottiene tutto il periodo su una sola riga.
– ho tolto anche i rientri del primo carattere dei periodi..
Questo è stato un lavoraccio, ma non avrei saputo come automatizzarlo diversamente. Lavorando con un editor “interattivo” manuale ho potuto però esaminare il testo isolando ad esempio i titoli di capitoli e sotto capitoli.
Ora quindi ho un testo semplice diciamo rivisto che potrebbe essere pronto per essere trasformato in html.
Quello che non ho capito è come intendevi trasformarlo in html con vim o emacs + regexp…
Se puoi darmi qualche dettaglio in più su questo punto mi farebbe molto comodo.
Anche altri consigli da blutaski, da pierre e da altri utenti che hanno esperienze in merito saranno sicuramente utilissimi.
Grazie ancora per la risposta e le indicazioni!
PS.
Ho provato pdftohtml, ma anche in questo caso gli “a capo” del pdf vengono mantenuto come sono. Vengono però mantenuti i links, quindi l’indice del pdf, le note ecc funzionano, il chè nel testo semplice invece va perso ovviamente.
Le tabelle invece non si salvano… si ottiene qualcosa di non consultabile, tipo una parola per riga… non è più una tabella insomma.
Proseguite pure, non preoccupatevi.
Se usi vim sed non serve: ad es. per eliminare le righe con i numeri di pagina puoi usare qualcosa come “:s/^s*t*d{1,4}s*t*$//g” (elimina tutti i caratteri delle righe formate solo da sequenze da una a quattro cifre che siano o non siano precedute o seguite da un qualunque numero di spazi bianchi o tabulazioni), ma ovviamente ogni regex va costruita tenendo presente il singolo caso specifico. Il succo della mia risposta precedente è: 1) convertire da pdf a epub è un lavoraccio (perciò non ringrazieremo mai abbastanza natjus e gli altri eroi), 2) è necessario conoscere molti ausili tecnici diversi che comunque non fanno in automatico l’intero lavoro e 3) se fai precedere alla tecnica digitale una lettura degli “Elementi dello stile tipografico” di Bringhurst (una vera scuola di vita) è anche meglio.
Ti ringrazio anzitutto per il consiglio sul libro, che spero sia rintracciabile anche in pdf da qualche parte (non ho ancora cercato…).
Sugli altri punti, ok, me ne ero accorto! 😉
Però tutto sommato si può fare, magari in più serate…
Sulle regexp concordo, ma è questione di abitudine: sono più abituato ad usare sed per regexp da applicare “non interattivamente su tutto il documento, poi sed non modifica nulla, mostra solo a video come viene il risultato, quindi se tipo lo reindirizzi a less poi monitorare l’anteprima del testo che ne esce. Anche grep è stato utilissimo per verificare la regexp ottenendo un anteprima delle righe che saranno poi eliminate (usando la stessa regexp con sed). Poi è questione di abitudine e di comodità personale. Ma come dicevi il tutto va usato adeguandolo al testo che si ha sottomano: non ci sono pasti gratis!
Invece resto fermo per il momento al passaggio da testo semplice ad html che indicavi nel tuo precedente messaggio. Tu come fai quest’operazione?
Grazie davvero, spero che tutte queste righe possano essere di ispirazione anche ad altri che vogliano cimentarsi nella creazione di ebooks.
Un saluto a tutti! 😀
HTML mi serve per dare una prima formattazione di massima al testo prima di perfezionarlo con libre office. Applico solo i tag da a , , ,
Mi accorgo adesso che wordpress riconosce la formattazione html nei commenti. Il brano che non si legge nel commento precedente è:
Ok, più o meno ho capito, cioè in pratica a parte appoggiarti su regexp costruite in base a come è strutturato il testo direi sintetizzando molto che: prendi il txt semplice e lo editi a mano inserendo i vari tags html.
Il che si può fare con il proprio editor preferito di testo, sia esso vim, emacs, gedit, blocco note ecc ecc…
Il libro di Bringhurst cui facevi riferimento l’ho trovato in inglese, ma da quello che ho visto così al volo non tratta precisamente la creazione di un ebook, tratta altri aspetti importanti più volti all’editoria e alla tipografia in generale, che è sicuramente buona cosa conoscere, ma qui a me interessava capire meglio:
– come è strutturato il “sorgente” di un ebook
– come realizzarlo manualmente (per capire la procedura e la struttura in modo diretto senza troppi automatismi che sicuramente semplificano, ma nascondono inevitabilmente qualcosa)
– (dopo aver capito la procedura manuale) quali eventuali strategie adottare per realizzarlo in modo più speditivo per esempio partendo da un pdf con testo già digitalizzato.
È ovvio che non puoi descrivere tutto qui, anche se hai già descritto abbastanza per farsi un’idea. Per questo penso che sarebbe un’ottima idea mettere qualche links a guide che spiegano passo passo alcune procedure da seguire per lo scopo.
Dal canto mio sto cercando in tal senso in rete. Qualcosa direi che si dovrebbe trovare…
Se qualcuno qui conosce qualche guida ben fatta per realizzare ebooks ben venga!
Questo sito mi sembra il posto giusto per discuterne e proporle: così chi ha la necessità o volesse cimentarsi nell’impresa avrebbe una traccia su “come si fa” e potrebbe poi condividere qualche testo creato in modo da allargare ancor più il già ricco archivio LdB.
Ciao a tutti! 😀
@ Jox.
puoi provare a leggere il manuale del progetto scaricabile qui:
https://www.liberliber.it/online/aiuta/progetti/griffo/collaborare/
ciao
Dopo di che (per tutti):
Dato un qualsiasi file testo di partenza, la migliore sistemazione in termini di formattazione, carattere etc per cominciare ad elaborarlo io la ottengo importandolo in Calibre e convertendolo in RTF.
Prelevo questo file dalla cartella della biblioteca di Calibre e lo apro con Libreoffice su cui ho installato l’estensione PepitoCleaner e Writer2epub, la prima per pulire il testo e la seconda per esportarlo alla fine in html (verificare la compatibilità di W2E con la versione di Libre). Pepito ha degli strumenti di default, ma anche la possibilità di implementare espressioni regolari, le regex, individuali. Io non conoscendole uso la funzione Cerca e sostituisci (la lente). Anche questo strumento se si clicca “ulteriori opzioni” permette l’uso di regex. Uno strumento ulteriore e più sofisticato è l’estensione Alt Search che bisogna però aggiungere. Tutto questo vale anche per OpenOffice.
Dopo le prime modifiche salvo il testo nel formato ODT e continuo.
Una volta fatto il lavoro di correttore di bozze e di impaginazione del testo lo esporto in epub con W2E.
Il file ottenuto lo apro con Sigil e fondamentalmente lo aggiusto seguendo la guida che ho linkato.
Poi verifico la validità del foglio di stile cliccando l’apposito comando in strumenti e la validità globale del file con Flight Crew (quest’ultimo un plugin da installare a parte nelle versioni più recenti di Sigil).
Ulteriore controllo del file finale aprendolo con l’editor di testo di Calibre (Edit ebook) per verificare validità e fare le ultime aggiustature.
Tutto questo si può fare in modo gratuito (eventuali donazioni) che l’unico strumento a pagamento necessario è il programma di conversione OCR Abbyy Finereader che tra l’altro richiede Windows.
A grandi linee e la stessa procedura che seguo io stesso, senza usare Calibre però. P.s. versioni crackate di abby si trovano facilmente in rete.
@pieros Che formato consigli per la conversione tramite Abby Fine Reader? E con quale layout? Grazie!
Prendendola larga:
Scansione a 300 dpi con opzione bianco e nero (la più veloce).
Output singole immagini della doppia pagina in formato .jpg.
Elaborazione delle stesse con Scantailor (free), divisione raddrizzamento, margini etc con output 300 dpi in bianco e nero.
A questo punto do in pasto la cartella con i singoli file, diventati nel frattempo .tif ad AcrobatDc per convertirli in un singolo Pdf, al quale applico poi il comando modifica per renderlo un Pdf cliccabile. Mi sono creato così il testo di riferimento da confrontare per tutte le successive correzioni.
Importo il Pdf in Abbyy e dopo il riconoscimento salvo in RTF con le impostazioni di default. Questo è il file che riconverto nell’RTF di Calibre. (Apri entrambi con Libre e noterai la differenza)
Il prolema con Abbyy (che uso in modo primitivo) sono le note: non sempre vengono riconosciute correttamente e quindi richiedono uno sforzo ulteriore in fase di sistemazione. C’era un post di Nat a tale proposito con una procedura per ovviare al problema…
@ Acciaierie Stahlberg:grazie per il consiglio del testo di Bringhurst che non conoscevo.
Ciao a tutti, volevo ringraziare per tutti questi spunti e per le linee guida del progetto griffo.
Nei prossimi giorni provo a mettere in pratica le indicazioni applicandole ai libri che volevo passare in ebook.
Magari quando avrò finito condivido il risultato in modo che possiate darmi un giudizio sul risultato…
Grazie ancora a tutti! 😀
Per i due testi postati ieri si ringrazia Democrito, che ne ha fornito i PDF.
E’ la terza volta che chiedo di essere aggiunta, ma non mi arriva nessuna richiesta sul mio profilo! :”( Vorrei entrare a far parte di questo splendido gruppo… Per favore: invernomuto999@gmail.com
Mi garberebbe assai esser dei vostri, aggiungetemi 🙂
Ciao ragazzi,
qualcuno ha qualcosa di Micheal Butor, Alain Robbe-Grillet, Claude Ollier e gli altri del Nouveau Roman?
Di Alain Robbe-Grillet
https://mega.nz/#!nUV1zTaY!IHy_sGVhIBP2ufmA2xxreB852tC-nlWgoV_LgY2PC54
https://mega.nz/#!nRUgxTbI!0Wp52yng_UeosrUgeKdqHr3TP4O2GB_sBg4Fr-i3szc
Grazie Carla, questi due li ho trovati in questi giorni. In cartaceo possiedo: Nel labirinto, Le gomme, Topologia di una città fantasma e altri… Li devo scansionare e trasformare in ePub. Nel labirinto è quasi fatto, devo fare alcune correzioni e sistemarlo. Chiedo a Nat: come funziona se si ha qualcosa da condividere? Ci terrei che la firma maxthereader rimanesse all’interno dell’epub.
Allora condividi qui nei commenti e poi il materiale verrà spostato in amici di ldb, in una cartella col tuo nickname, affinchè i nuovi utenti non siano costretti a spulciare tutti i vecchi commenti per trovare il materiale già condiviso. La firma puoi aggiungerla con uno strumento tipo sigil. Devo però avvisarti che essendo questo un archivio pubblico ci sono individui meschini che prendono i lavori altrui, tolgono la firma e poi condividono sui siti di file sharing come dasolo.
Nelle prossime settimane vorrei procedere con il secondo libro in assoluto (il primo è stato Nel labirinto di Robbe-Grillet).
Può essere un’dea o un aiuto per qualcuno se descrivessi i vari passaggi da zero, step by step? Non seguo nessun tutorial preconfezionato, fin dal primo libro ho cercato una strada completamente autonoma, scrivendo anche diverse macro per Word. Fammi sapere se è il caso.
certamente, anzi invito (rivolgo questo invito anche a me stesso) tutti coloro che hanno questo hobby a descrivere passaggio per passaggio il loro metodo di conversione.
Salve, mi farebbe davvero piacere essere aggiunto
Ci riprovo, ma forse sbaglio qualcosa nel fornire l’indirizzo moreno@soppelsa.it
Qualcuno ha Fukuyama “L’uomo oltre l’uomo”?
Un saluto a tutti. Chiedo di essere aggiunto. Vi ringrazio in anticipo.
Salve a tutti, sarebbe cosa gradita se qualche adepto di LDB ci facesse dono dei seguenti testi:
-Diadori, Insegnare Italiano a stranieri.
-Serra-Borneto, C’era una volta il metodo.
-Diadori-Troncarelli-Palermo, Insegnare italiano come seconda lingua.
-Bettoni Camilla, Usare un’altra lingua.
-Serraggiotto-Caon, Tecnologie e didattica delle lingue
-Bosisio, Il docente di lingue in Italia-linee guida per una formazione europea
-Balboni-Caon, La comunicazione interculturale
-Nuovi Quaderni Ditals sessioni 2013-2105
-La Ditals risponde n 4
-Sorbrero, Introduzione all’italiano contemporaneo, le strutture
-Diadori, Formazione Qualità Certificazione per la didattica delle lingue moderne in Europa
-Berruto, Sociolinguistica dell’italiano contemporaneo
Grazie per il lavoro indispensabile che svolgete distribuendo il pane quotidiano ai bisognosi!