No tak první rada je, že z PDF skoro určitě nic použitelného nevyleze a tudíž nemá cenu s tím ztrácet čas.
Na převod PDF na HTML existují nástroje, jejich úspěšnost je různá (často taky hrůzná, ale za to ty nástroje nemohou). Pokud jde o editování, záleží na tom, co v tom HTML máš a co z toho chceš mít
- pokud jsou jak zdroj tak cíl jenom trochu rozumné, tak se vesměs dá z jednoho do druhého dostat sekvencí vhodných regulárních výrazů (pokud se v regulárních výrazech vyznáš).
Bez ohledu na to, co vlastně chceš a jaký nástroj k tomu zvolíš, ale dost pochybuju o tom, že to půjde nějak automaticky. Skoro jistě budeš muset značnou část udělat ručně a jde jen o to, jestli to "ručně" má znamenat "ručně oeditovat", "ručně si sestavit vhodné regexpy" nebo "rně naprosgramovat vhodný skript/makro".
Na převod PDF na HTML existují nástroje, jejich úspěšnost je různá (často taky hrůzná, ale za to ty nástroje nemohou). Pokud jde o editování, záleží na tom, co v tom HTML máš a co z toho chceš mít
- pokud jsou jak zdroj tak cíl jenom trochu rozumné, tak se vesměs dá z jednoho do druhého dostat sekvencí vhodných regulárních výrazů (pokud se v regulárních výrazech vyznáš).
Bez ohledu na to, co vlastně chceš a jaký nástroj k tomu zvolíš, ale dost pochybuju o tom, že to půjde nějak automaticky. Skoro jistě budeš muset značnou část udělat ručně a jde jen o to, jestli to "ručně" má znamenat "ručně oeditovat", "ručně si sestavit vhodné regexpy" nebo "rně naprosgramovat vhodný skript/makro".