Jak upravit HTML k obrazu (ctecky) svemu?

Started by Rudolf Korinek, April 14, 2009, 09:18:59 AM

Previous topic - Next topic

Rudolf Korinek

Ahoj,

zajimalo by mne jake nastroje pouzivate pro formatovani HTML zdroju.  Vcera jsem si trosku hral, nasel jsem krasnou knihu v pdf formatu a rad bych ji prevedl do LRF.  Mezistupen v HTML se mne zdal nejvic prakticky na editovani, jen jsou to tuny stranek ktere bych nerad projizdel cele rucne.  Existuje nejaky skript/rada nebo tomu mam radeji venovat jeden cely vecer? :)

Dekuju,
-= Rudla

pepak

No tak první rada je, že z PDF skoro určitě nic použitelného nevyleze a tudíž nemá cenu s tím ztrácet čas.

Na převod PDF na HTML existují nástroje, jejich úspěšnost je různá (často taky hrůzná, ale za to ty nástroje nemohou). Pokud jde o editování, záleží na tom, co v tom HTML máš a co z toho chceš mít
- pokud jsou jak zdroj tak cíl jenom trochu rozumné, tak se vesměs dá z jednoho do druhého dostat sekvencí vhodných regulárních výrazů (pokud se v regulárních výrazech vyznáš).

Bez ohledu na to, co vlastně chceš a jaký nástroj k tomu zvolíš, ale dost pochybuju o tom, že to půjde nějak automaticky. Skoro jistě budeš muset značnou část udělat ručně a jde jen o to, jestli to "ručně" má znamenat "ručně oeditovat", "ručně si sestavit vhodné regexpy" nebo "rně naprosgramovat vhodný skript/makro".

Rudolf Korinek

Po třídenním hledání, zkoušení, různých převodech jsem také došel k tomu, že jediné co mně zbyde je to celé ručně přeeditovat.  V mém případě totiž poznámky pod čarou a citace na stranách stránek jsou přimixovány konvertorem přímo do
regulerního textu a vznikají tak někdy až komické interpretace :)

Malinko tomu rozumím, od PDF jsem toho vážně tolik nečekal - bohužel mam spousty textů v tomhle formátu, většinou odborné knihy.  Tohle vážně vyřeší až větší obrazovka, kompromisem je čtení když se obrátí obrazovka ....

-= Rudla

Quote from: pepakNo tak první rada je, že z PDF skoro určitě nic použitelného nevyleze a tudíž nemá cenu s tím ztrácet čas.

Na převod PDF na HTML existují nástroje, jejich úspěšnost je různá (často taky hrůzná, ale za to ty nástroje nemohou). Pokud jde o editování, záleží na tom, co v tom HTML máš a co z toho chceš mít
- pokud jsou jak zdroj tak cíl jenom trochu rozumné, tak se vesměs dá z jednoho do druhého dostat sekvencí vhodných regulárních výrazů (pokud se v regulárních výrazech vyznáš).

Bez ohledu na to, co vlastně chceš a jaký nástroj k tomu zvolíš, ale dost pochybuju o tom, že to půjde nějak automaticky. Skoro jistě budeš muset značnou část udělat ručně a jde jen o to, jestli to "ručně" má znamenat "ručně oeditovat", "ručně si sestavit vhodné regexpy" nebo "rně naprosgramovat vhodný skript/makro".

admin

Odbornou literaturu podle mě nemá smysl předělávat už vůbec - bude to šílené práce a výsledek asi nic moc.

Ještě jakž takž to jde u beletrie, ale upřímně řečeno, i tam jsem to vzdal - skutečně je míň práce knihu naskenovat znovu a zOCRkovat do nějakého slušného formátu.


Emil Vlasák

Zdravím!

Jak už jsem tady někde psal, v nouzi stojí za vyzkoušení program JAP (Just Another Printer).

Ten natáhne PDF, rozdělí stránku na dvě (vodorovným řezem) a tak to dokáže vyexportovat.
Takže když je odborná publikace (vzorce, poznámky pod čarou) těžko editovatelná a má třeba formát B5, dá se poměrně dobře v Sony přečít na šířku v nativním vzhledu.

Pepákovi se to sice moc nelíbilo, ale zkuste...

pepak

Teď úplně nerozumím.

Máme PDF ve formátu A4. JAP ho rozřízne v polovině na dvě A5 naležato nad sebou. To nahraješ do Readeru a co? Zobrazuješ normálně? Tzn. v konečném důsledku prohlížíš na Readeru stránku A5?

Protože tohle umí Reader sám od sebe: Nahraj do něj A4 PDF a podrž zoomovací tlačítko. On tu stránku rozřízne na dvě a otočí je, aby se prohlížely horizontálně.

jmeno povinne

Quote from: Rudolf KorinekVcera jsem si trosku hral, nasel jsem krasnou knihu v pdf formatu a rad bych ji prevedl do LRF.
Ja PDF knizku prezeniem cez OCR.
Abbey Fine reader dosahuje vynikajuce vysledky.
Taktiez ReadirisPro ktory som ziskal ako "bundle" ku lacnej kombinacii tlaciarne/scnnery/kopirky od Hewlett Packard.

Aj FineReader aj Readiris si najprv vytvoria z pdf bitmapy, a tam to uz maju velmi dobre zvladnute.
Naposledy som si takto upravoval napriklad knihu "Beekepers apprentice", ktora bola k stiahnutiu zadarmo, avsak v PDF formate uplne nevhodnom na naladovanie do Sony readera.
Fine Reader odviedol trochu lepsiu roboto ako Readiris, lebo tam sa mi podarilo, znacne komplikovanysm sposobom nastavit orezanie "crop marks" a inych typografickych somarin na okraji stranky.

Quick Reply

Note: this post will not display until it has been approved by a moderator.

Name:
Email:
Verification:
Please leave this box empty:
Type the letters shown in the picture
Listen to the letters / Request another image

Type the letters shown in the picture:
Shortcuts: ALT+S post or ALT+P preview