Describe It20CheckHarvestDeduplicated 19. Check at billeder er deduplikeret væk i 2. tværsnithøstning (DK) here.

---+ Check at billeder er deduplikeret væk

---++ Log ind som bruger netarkiv på sb-test-bar-001.statsbiblioteket.dk Sæt TESTX til den test, som du udfører (TEST1 eller lignende) Sæt ID til job-IDerne for opfølgningshøstningen, f.eks. ID=3 eller ID='[45]' (jobid 4 og 5) Sæt OLDID til job-IDerne for den oprindelige høstning, f.eks. OLDID=1 eller OLDID='[23]' (jobid 2 og 3) <verbatim> export ID='[45]' export OLDID='[23]' export TESTX=TEST1

</verbatim>

---+++ Check at tekstdokumenter ikke deduplikeres

Dette kan gøres vha. kommandoen (som ikke skal give noget output): (NB: data skrives nu til /netarkiv/0002 istedet for /netarkiv/0001) <verbatim>

</verbatim>

Dette undersøger, om crawl.log indeholder annotationen duplicate: for tekst-dokumenter.

---+++ Check at ikke-tekst dokumenter er deduplikeret hvor muligt.

For ikke-tekst dokumenter forventer vi, at alle er deduplikeret væk (vi forventer ingen ændringer mellem vores kørsler). De eneste undtagelser er filer der ikke blev fundet i den tidligere høstning. Dette kan checkes (for HTTP result code 200 filer) med følgende pipeline, som ikke skulle give noget output:

<verbatim> grep -v duplicate: $ID-metadata-1.arc | grep -v ' text/' | grep ' 200 ' | grep 'https\?://' | tr -s ' ' | cut -d' ' -f4 | while read I; do grep '^'$I $OLDID-metadata-1.arc ; done </verbatim>

Dette checker, at de ikke-duplikerede ikke-tekst dokumenter nævnt i crawl.log ikke også findes i den gamle høstning.

Hvis der *alligevel* kommer output checkes det at URL'en peger på noget der med rimelighed kan forventes har ændret sig. Det kan f.eks. være "2-metadata-1.arc:http://login.kb.dk/scholarredir/redir 130.226.229.13 20060825081733 no-type 787 2-2-20060825081729-00002-kb-test-har-001.kb.dk.arc 181329 c2c66fd23d710c0388cb15a44ae500e7". Læg mærke til at URL'en er "http://login.kb.dk/scholarredir/redir" som det er rimeligt kan være forskellig fra gang til gang. Der kan også være tale om script-genererede billeder, f.eks http://www.olsen.dk/_vti_bin/fpcount.exe/?Page=default.htm|Image=1|Digits=5

N.B. Nogle filer kan have et ,3t eller lignende bagefter. Hvad betyder det: Det betyder, at den er forsøgt hentet 3 gange. jf. http://crawler.archive.org/articles/user_manual.html#logs (section 8.2.1). Bemærk, at området (12th column of the crawl.log), hvor origin-oplysningerne står, er til annotations: Processorerne kan her skrive hvad som helst. (SVC).

---+++ Check at deduplikerede dokumenters origin peget på noget der findes i de gamle høstninger

For alle de deduplikerede elementer skal vi se om deduplikeringen peger tilbage på noget der findes. Dette kan gøres ved at gennemløbe CDX-filen med følgende pipeline som ikke skulle give noget output:

<verbatim>

</verbatim>

Hvis der kommer output, betyder der, at de viste origins ikke kunne findes i CDX for de gamle jobs.

*Bemærk:* Dette går galt for URL'er der indeholder komma. Hvis der kommer output der ser mærkeligt ud (hvor $FILE ligner slutningen af en URL go INDEX ligner et filnavn) er dette problemet, og harmløst. Check evt. i metadata-filen at URL'en indeholder et komma.

---+++ Check at deduplikerede dokumenters origin peger tilbage på den rigtige URL

For alle de deduplikerede elementer skal vi se om deduplikeringen peger tilbage på den samme URL. Dette kan gøres ved at gennemløbe CDX-filen med følgende pipeline som ikke skulle give noget output:

<verbatim>

</verbatim>

Dette checker, at hvor de deduplikerede dokumenters origin findes i CDX indexet har de den rigtige URL.

---+++ Check at den nævnte fil er fra ét af de jobs der skal deduplikeres ud fra:

Åbn =/netarkiv/0002/$TESTX/filedir/$ID-metadata-1.arc igen.=

Find =metadata://netarkivet.dk/crawl/reports/processors-report.txt=

Der børe en sektion der minder om

<verbatim> Processor: is.hi.bok.digest.DeDuplicator

</verbatim>

Det er _vigtigt_ at duplicates found ikke må være 0.00%

-- Main.kfc - 27 Jul 2006

It20CheckHarvestDeduplicated 19. Check at billeder er deduplikeret væk i 2. tværsnithøstning (DK) (last edited 2010-08-16 10:24:34 by localhost)