Jak skenovat noty a černobílý text, aby výsledný soubor byl malý

PhDr. Mgr. Jeroným Klimeš, Ph.D. 2006

English version

Když dobře naskenujete noty či jiný černobílý materiál, tak je nejen možno zachovat kvalitu (rozlišení), ale výsledné obrázky jsou pak malé do 100 kB.


Toto je JPEG o velikosti 800kB a A4


Toto je TIFF o velikosti 42kb a A4

Používám následující postup.

Skenování

Dobře nastavený skener je základ všeho a ušetří mnoho práce.

Je třeba nastavit čtyři parametry:

Rozlišení - 300 dpi

Černobílý výstup - B/W, 1bitový

Práh - automaticky nebo trochu doladit

Příponu souboru (tzv. bezztrátová komprese) - TIF (kompresovaný), BMP, GIF, PNG, ale nikdy ne JPG!

Nejprve nastavíme rozlišení - 300 dpi. Potom typ výstupu černobílý (black&white, B/W, 1 bitový ap. Existují různé zkratky). Naskenuji první stranu a metodou pokus omyl nastavím práh (threshold) tak, aby na stránce  nebylo příliš černých teček, aby to byl opravdu černý tisk na bílé stránce. Výstup TIF (nejlépe kompresovaný).  Pak už skenuji jednu stránku za druhou bez přenastavování.

Úpravy ve GIMPu

Obrázky otevřu v nějakém programu, který umožňuje ořezávání a rotaci, například GIMP, popř. Photoshop a stránky upravím - otočím, oříznu.

Pokud dostanete naskenované obrázky v JPG. Nevyhnete se následující průdě, kterou sice lze u knih relativně zautomatizovat tím, že úpravy provádíme programem Imagemagick, ale přesto je to dost práce vše správně nastavit.

Pokud je předloha hodně špatná:

A) Převedeme z RGB na Grayscale čili z barev na šedou (v GIMPu menu Picture/Mode/Grayscale, Bild/Modus/Graustuffen - omlouvám se, mám GIMP v němčině, tak anglické názvy jen tipuji.)

B) Zvětšíme, aby A4 měla na šířku tak 2500-3000 bodů. (GIMP - Picture/Scale picture; Bild/Bild skalieren) To je kvůli následujícímu zaostření.

C) Zaostříme (GIMP Filter/Improve/Unsharp masking; Filter/Verbessern/Uncharf Maskieren). Parametry jsou obvykle 5 bodů a měl by se kolem písmen objevit takový světlý okraj. To imituje funkci sítnice, která zesiluje hrany.

Parametry ve Photoshopu: Míra: 420; Poloměr: 7 bodů (něco míň než velikost písmene); Práh: 10 úrovní.

3) Upravíme úrovně (GIMP: Color/Levels; Farben/Werte), tak že posuneme posuvníky za hrbol tak, aby text hezky vynikl a bylo minimum teček.

Ty tři malé trojúhelníčky je úroveň černé, bílé a středu. U černobílých pérovek a u textu je dáváme všechny na jedno místo, a to na střední.

4) Pokud je v obrazu přesto hodně teček, tak odstraníme tečky (GIMP Filter/Improve/Remove stains; Filter/Verbessern/Flecken entfernen)

5) Převedeme na black&white čili černobílou (GIMP Picture/Mode/Indexed colors/Black&White; Bild/Modus/Indexiert/Schwartzweiß Palette)

6) Uložíme či exportujeme jako PNG, popř. TIFF s kompresí CCITT Group 4 - Fax. Nevím, jestli to Photoshop umí, měl by.

Automatizované úpravy v ImageMagick

Je jasné, že těchto šest kroků by nás připravilo o rozum, kdybychom to museli dělat obrázek po obrázku u celé knihy. Automatizace je možná na příkazové řádce. Možná ve Photoshopu ještě fungují makra, nevím, nové verze neznám. GIMP makra nemá. Je to zbytečné, když to jde stejně dobře na příkazové řádce:

Příklady

sudo apt install imagemagick # instalace v Lubuntu, ale myslím, že se dá instalovat i ve Windows.

convert -colorspace Gray -unsharp 6x6+4+0 -level 75%,76% -trim -format tiff ‑compress group4 image_input.tiff image_output.tiff

mogrify -colorspace Gray -level 55%,56%,1 -trim -format tiff -compress Group4 *.png

Ručně se musejí dělat ořezy, ale třeba půlit stránky na polovinu se dělá snadno. Doporučuji udělat před ručními ořezy:

mogrify -gravity northwest -crop 50%x100% -trim *.tiff # leve pulky

mogrify -gravity southeast -crop 50%x100% -trim *.tiff # prave pulky

Tedy klasický Linux - složitá příprava příkazu, ale pak velká úspora času. Spustíte to a za 5 minut máte hotovou celou knihu a mezi tím si dáte kafe. Jinými slovy, i když normálně pracujete ve Windows, tak pro takovouto profesionální práci se vyplatí mít doma jeden starší počítač s Linuxem. Já jsem t.č. na Lubuntu, ten běží rychle skoro na čemkoli.

Převod do PDF

V Linuxu jsou to dva příkazy, na které mám makro, které si můžete stáhnout:

tiffcp -x *.tiff docasny_vicestrankovy_dokument.tiff

# -x Force the output file to be written with PAGENUMBER value in sequence.

tiff2pdf -z -f -F -o vysledny_dokument.pdf docasny_vicestrankovy_dokument.tiff

U JPG souborů je velmi úsporná tato konverze přes ImageMagick:

convert obrazek.jpg obrazek.pdf

nebo složitěji

convert -units PixelsPerInch $(ls -v *.jpg *.jpeg *.JPG *.JPEG *.png *.PNG) -density 300 +repage vystupni_soubor.pdf

I na to mám podobné makro. Pokud máte o ně zájem, nebo máte nějaké jiné dotazy, napište.

Ve Windows se to dělalo před PDF printer nebo přes Adobe Acrobat, ale dnešní stav neznám.

Úpravy v ACDSee ve Windows

Kdysi jsem používal ACDSee ve Windows, ale nevím, v jakém stavu jsou novější verze.

Obrázky otevřu v ACDSee.

Klepnu na něj dvakrát, aby se přepnul do seznamu souborů - Browse.

Vyberu obrázky, které chci zkonvertovat.

Druhé tlačítko myši: Convert, TIF, Format setting, Rozlišení 300, Compression CCITT Group 4

Tak a z obrázku o velikosti 800kB je 42 kb. 5% velikost je dost dobrý výsledek a velká úspora místa.

Příklad knihy, kterou jsem takto naskenoval a upravil

Emil Holan: Jiskra, která dobyla světa