Pepak.net Forum

Tematická diskuse => E-books => Topic started by: Rudolf Korinek on April 14, 2009, 09:18:59 AM

Title: Jak upravit HTML k obrazu (ctecky) svemu?
Post by: Rudolf Korinek on April 14, 2009, 09:18:59 AM
Ahoj,

zajimalo by mne jake nastroje pouzivate pro formatovani HTML zdroju.  Vcera jsem si trosku hral, nasel jsem krasnou knihu v pdf formatu a rad bych ji prevedl do LRF.  Mezistupen v HTML se mne zdal nejvic prakticky na editovani, jen jsou to tuny stranek ktere bych nerad projizdel cele rucne.  Existuje nejaky skript/rada nebo tomu mam radeji venovat jeden cely vecer? :)

Dekuju,
-= Rudla
Title: Jak upravit HTML k obrazu (ctecky) svemu?
Post by: pepak on April 15, 2009, 09:09:57 PM
No tak první rada je, že z PDF skoro určitě nic použitelného nevyleze a tudíž nemá cenu s tím ztrácet čas.

Na převod PDF na HTML existují nástroje, jejich úspěšnost je různá (často taky hrůzná, ale za to ty nástroje nemohou). Pokud jde o editování, záleží na tom, co v tom HTML máš a co z toho chceš mít
- pokud jsou jak zdroj tak cíl jenom trochu rozumné, tak se vesměs dá z jednoho do druhého dostat sekvencí vhodných regulárních výrazů (pokud se v regulárních výrazech vyznáš).

Bez ohledu na to, co vlastně chceš a jaký nástroj k tomu zvolíš, ale dost pochybuju o tom, že to půjde nějak automaticky. Skoro jistě budeš muset značnou část udělat ručně a jde jen o to, jestli to "ručně" má znamenat "ručně oeditovat", "ručně si sestavit vhodné regexpy" nebo "rně naprosgramovat vhodný skript/makro".
Title: Jak upravit HTML k obrazu (ctecky) svemu?
Post by: Rudolf Korinek on April 16, 2009, 10:35:41 AM
Po třídenním hledání, zkoušení, různých převodech jsem také došel k tomu, že jediné co mně zbyde je to celé ručně přeeditovat.  V mém případě totiž poznámky pod čarou a citace na stranách stránek jsou přimixovány konvertorem přímo do
regulerního textu a vznikají tak někdy až komické interpretace :)

Malinko tomu rozumím, od PDF jsem toho vážně tolik nečekal - bohužel mam spousty textů v tomhle formátu, většinou odborné knihy.  Tohle vážně vyřeší až větší obrazovka, kompromisem je čtení když se obrátí obrazovka ....

-= Rudla

Quote from: pepakNo tak první rada je, že z PDF skoro určitě nic použitelného nevyleze a tudíž nemá cenu s tím ztrácet čas.

Na převod PDF na HTML existují nástroje, jejich úspěšnost je různá (často taky hrůzná, ale za to ty nástroje nemohou). Pokud jde o editování, záleží na tom, co v tom HTML máš a co z toho chceš mít
- pokud jsou jak zdroj tak cíl jenom trochu rozumné, tak se vesměs dá z jednoho do druhého dostat sekvencí vhodných regulárních výrazů (pokud se v regulárních výrazech vyznáš).

Bez ohledu na to, co vlastně chceš a jaký nástroj k tomu zvolíš, ale dost pochybuju o tom, že to půjde nějak automaticky. Skoro jistě budeš muset značnou část udělat ručně a jde jen o to, jestli to "ručně" má znamenat "ručně oeditovat", "ručně si sestavit vhodné regexpy" nebo "rně naprosgramovat vhodný skript/makro".
Title: Jak upravit HTML k obrazu (ctecky) svemu?
Post by: admin on April 16, 2009, 09:46:12 PM
Odbornou literaturu podle mě nemá smysl předělávat už vůbec - bude to šílené práce a výsledek asi nic moc.

Ještě jakž takž to jde u beletrie, ale upřímně řečeno, i tam jsem to vzdal - skutečně je míň práce knihu naskenovat znovu a zOCRkovat do nějakého slušného formátu.
Title: Jak upravit HTML k obrazu (ctecky) svemu?
Post by: Rudy Korinek on April 17, 2009, 07:50:21 AM
Souhlas :) nejvetsi ....
Title: Jak upravit HTML k obrazu (ctecky) svemu?
Post by: Emil Vlasák on April 22, 2009, 02:43:53 PM
Zdravím!

Jak už jsem tady někde psal, v nouzi stojí za vyzkoušení program JAP (Just Another Printer).

Ten natáhne PDF, rozdělí stránku na dvě (vodorovným řezem) a tak to dokáže vyexportovat.
Takže když je odborná publikace (vzorce, poznámky pod čarou) těžko editovatelná a má třeba formát B5, dá se poměrně dobře v Sony přečít na šířku v nativním vzhledu.

Pepákovi se to sice moc nelíbilo, ale zkuste...
Title: Jak upravit HTML k obrazu (ctecky) svemu?
Post by: pepak on April 22, 2009, 04:40:33 PM
Teď úplně nerozumím.

Máme PDF ve formátu A4. JAP ho rozřízne v polovině na dvě A5 naležato nad sebou. To nahraješ do Readeru a co? Zobrazuješ normálně? Tzn. v konečném důsledku prohlížíš na Readeru stránku A5?

Protože tohle umí Reader sám od sebe: Nahraj do něj A4 PDF a podrž zoomovací tlačítko. On tu stránku rozřízne na dvě a otočí je, aby se prohlížely horizontálně.
Title: Jak upravit HTML k obrazu (ctecky) svemu?
Post by: jmeno povinne on May 18, 2009, 12:42:29 PM
Quote from: Rudolf KorinekVcera jsem si trosku hral, nasel jsem krasnou knihu v pdf formatu a rad bych ji prevedl do LRF.
Ja PDF knizku prezeniem cez OCR.
Abbey Fine reader dosahuje vynikajuce vysledky.
Taktiez ReadirisPro ktory som ziskal ako "bundle" ku lacnej kombinacii tlaciarne/scnnery/kopirky od Hewlett Packard.

Aj FineReader aj Readiris si najprv vytvoria z pdf bitmapy, a tam to uz maju velmi dobre zvladnute.
Naposledy som si takto upravoval napriklad knihu "Beekepers apprentice", ktora bola k stiahnutiu zadarmo, avsak v PDF formate uplne nevhodnom na naladovanie do Sony readera.
Fine Reader odviedol trochu lepsiu roboto ako Readiris, lebo tam sa mi podarilo, znacne komplikovanysm sposobom nastavit orezanie "crop marks" a inych typografickych somarin na okraji stranky.