#!/bin/bash # vse pouze pro Linux (ubuntu) # stahnout prejmenovat, aby to melo priponu .sh a nastavit spustitelnost # mkdir emaily_poslancu cd emaily_poslancu # timto prikazem byly stazeny vsechny soubory s emaily poslancu # wget --timeout 5 --continue --mirror --base=https://www.psp.cz/sqw/ https://www.psp.cz/sqw/hp.sqw?k=192 # bezi to dlouho, zaplni to adresar spoustou souboru, jen nektere jsou uzitecne. vystup=emaily$(date +%Y-%m-%d_%H-%M-%S) # nazev textoveho souboru, kde budou ulozeny emaily i=0 for soubor in *; do vyskyt=$( grep -c "" $soubor) # takto se vybraly jen ty soubory, ktere maji kontaktni informace if [ $vyskyt -gt 0 ]; then (( i++ )) # jmeno=$(egrep -o "

.*?

" $soubor | sed 's/

//;s/<\/h1>//;s/ / /;') # toto nekdy nefungovalo, nevim proc jmeno=$(sed 's///p' | sed 's/ / /p;' | iconv -f windows-1250 -t utf8 ) #kazdy tag na novy radek najdi nadpis odstran pevne mezery zkonvertuj z 1250 email=$(grep -Po "mailto:\K(.*?)\"" "$soubor" | sed "s/\"//" | tr "\n" ";" | iconv -f windows-1250 -t utf8 ) # najdi mailto odstran uvozovky stredni misto odstavce zkonvertuj 1250 echo -e "$email \t $jmeno " >> $vystup.tmp echo -e "$i. \t $jmeno \t $email \t $soubor" # read fi done sort $vystup.tmp |uniq | LC_ALL=C sort -n -t$'\t' -k2 >$vystup.txt rm $vystup.tmp less $vystup.txt # docasny vystup na obrazovku echo Emaily poslancu jsou ulozeny do souboru $vystup.txt. exit # nasleduji poznamky a odpad Analyza souboru: musi obsahovat toto "Nacházíte se: Úvod › Poslanci a orgány › Poslanci " poslanci maji tento odkaz
tady je em adresa poslance >hanzelt@psp.cz< PhDr. Ivan Bartoš, Ph.D.