Ahoj,
pracujem na programe, ktory by mal automaticky najst a pripadne
opravit chyby v dokumentoch rozpoznanych pomocou OCR.
Velmi by mi pomohlo, keby som mala k dispozicii povodne texty ziskane
ako vystup z OCR softwaru, bez opravenych chyb, a tie iste texty s uz
opravenymi chybami. Teda pred obsahovou korekturou a po tejto korekture.
Je nejako mozne sa k takymto dokumentom dostat? Mala by som
zaujem hlavne o cestinu a anglictinu.
Ide o skolsky projekt, v pripade, ze bude nejako rozumne fungovat, dam ho
k dispozicii na internet.
Takový program by se mi moc líbil, i když jsem skeptický k samotné možnosti jeho existence - těch chyb je mnoho a ačkoliv u některých si dokážu představit jejich automatickou opravu, u značné části z nich mě moc nenapadá ani teoretický způsob, jak je detekovat, natož opravovat.
No ale napiš mi mail na pepak zavináč pepak.net a nějak se domluvíme.