Ahoj,
zajimalo by mne jake nastroje pouzivate pro formatovani HTML zdroju. Vcera jsem si trosku hral, nasel jsem krasnou knihu v pdf formatu a rad bych ji prevedl do LRF. Mezistupen v HTML se mne zdal nejvic prakticky na editovani, jen jsou to tuny stranek ktere bych nerad projizdel cele rucne. Existuje nejaky skript/rada nebo tomu mam radeji venovat jeden cely vecer? :)
Dekuju,
-= Rudla
No tak první rada je, že z PDF skoro určitě nic použitelného nevyleze a tudíž nemá cenu s tím ztrácet čas.
Na převod PDF na HTML existují nástroje, jejich úspěšnost je různá (často taky hrůzná, ale za to ty nástroje nemohou). Pokud jde o editování, záleží na tom, co v tom HTML máš a co z toho chceš mít
- pokud jsou jak zdroj tak cíl jenom trochu rozumné, tak se vesměs dá z jednoho do druhého dostat sekvencí vhodných regulárních výrazů (pokud se v regulárních výrazech vyznáš).
Bez ohledu na to, co vlastně chceš a jaký nástroj k tomu zvolíš, ale dost pochybuju o tom, že to půjde nějak automaticky. Skoro jistě budeš muset značnou část udělat ručně a jde jen o to, jestli to "ručně" má znamenat "ručně oeditovat", "ručně si sestavit vhodné regexpy" nebo "rně naprosgramovat vhodný skript/makro".
Po třídenním hledání, zkoušení, různých převodech jsem také došel k tomu, že jediné co mně zbyde je to celé ručně přeeditovat. V mém případě totiž poznámky pod čarou a citace na stranách stránek jsou přimixovány konvertorem přímo do
regulerního textu a vznikají tak někdy až komické interpretace :)
Malinko tomu rozumím, od PDF jsem toho vážně tolik nečekal - bohužel mam spousty textů v tomhle formátu, většinou odborné knihy. Tohle vážně vyřeší až větší obrazovka, kompromisem je čtení když se obrátí obrazovka ....
-= Rudla
Quote from: pepakNo tak první rada je, že z PDF skoro určitě nic použitelného nevyleze a tudíž nemá cenu s tím ztrácet čas.
Na převod PDF na HTML existují nástroje, jejich úspěšnost je různá (často taky hrůzná, ale za to ty nástroje nemohou). Pokud jde o editování, záleží na tom, co v tom HTML máš a co z toho chceš mít
- pokud jsou jak zdroj tak cíl jenom trochu rozumné, tak se vesměs dá z jednoho do druhého dostat sekvencí vhodných regulárních výrazů (pokud se v regulárních výrazech vyznáš).
Bez ohledu na to, co vlastně chceš a jaký nástroj k tomu zvolíš, ale dost pochybuju o tom, že to půjde nějak automaticky. Skoro jistě budeš muset značnou část udělat ručně a jde jen o to, jestli to "ručně" má znamenat "ručně oeditovat", "ručně si sestavit vhodné regexpy" nebo "rně naprosgramovat vhodný skript/makro".
Odbornou literaturu podle mě nemá smysl předělávat už vůbec - bude to šílené práce a výsledek asi nic moc.
Ještě jakž takž to jde u beletrie, ale upřímně řečeno, i tam jsem to vzdal - skutečně je míň práce knihu naskenovat znovu a zOCRkovat do nějakého slušného formátu.
Souhlas :) nejvetsi ....
Zdravím!
Jak už jsem tady někde psal, v nouzi stojí za vyzkoušení program JAP (Just Another Printer).
Ten natáhne PDF, rozdělí stránku na dvě (vodorovným řezem) a tak to dokáže vyexportovat.
Takže když je odborná publikace (vzorce, poznámky pod čarou) těžko editovatelná a má třeba formát B5, dá se poměrně dobře v Sony přečít na šířku v nativním vzhledu.
Pepákovi se to sice moc nelíbilo, ale zkuste...
Teď úplně nerozumím.
Máme PDF ve formátu A4. JAP ho rozřízne v polovině na dvě A5 naležato nad sebou. To nahraješ do Readeru a co? Zobrazuješ normálně? Tzn. v konečném důsledku prohlížíš na Readeru stránku A5?
Protože tohle umí Reader sám od sebe: Nahraj do něj A4 PDF a podrž zoomovací tlačítko. On tu stránku rozřízne na dvě a otočí je, aby se prohlížely horizontálně.
Quote from: Rudolf KorinekVcera jsem si trosku hral, nasel jsem krasnou knihu v pdf formatu a rad bych ji prevedl do LRF.
Ja PDF knizku prezeniem cez OCR.
Abbey Fine reader dosahuje vynikajuce vysledky.
Taktiez ReadirisPro ktory som ziskal ako "bundle" ku lacnej kombinacii tlaciarne/scnnery/kopirky od Hewlett Packard.
Aj FineReader aj Readiris si najprv vytvoria z pdf bitmapy, a tam to uz maju velmi dobre zvladnute.
Naposledy som si takto upravoval napriklad knihu "Beekepers apprentice", ktora bola k stiahnutiu zadarmo, avsak v PDF formate uplne nevhodnom na naladovanie do Sony readera.
Fine Reader odviedol trochu lepsiu roboto ako Readiris, lebo tam sa mi podarilo, znacne komplikovanysm sposobom nastavit orezanie "crop marks" a inych typografickych somarin na okraji stranky.