Differences between revisions 2 and 3
Revision 2 as of 2009-10-01 13:30:08
Size: 6712
Editor: TueLarsen
Comment:
Revision 3 as of 2010-08-16 10:24:34
Size: 6712
Editor: localhost
Comment: converted to 1.6 markup
No differences found!

Describe It20CheckHarvestDeduplicated 19. Check at billeder er deduplikeret væk i 2. tværsnithøstning (DK) here.

---+ Check at billeder er deduplikeret væk

---++ Log ind som bruger netarkiv på sb-test-bar-001.statsbiblioteket.dk Sæt TESTX til den test, som du udfører (TEST1 eller lignende) Sæt ID til job-IDerne for opfølgningshøstningen, f.eks. ID=3 eller ID='[45]' (jobid 4 og 5) Sæt OLDID til job-IDerne for den oprindelige høstning, f.eks. OLDID=1 eller OLDID='[23]' (jobid 2 og 3) <verbatim> export ID='[45]' export OLDID='[23]' export TESTX=TEST1

</verbatim>

---+++ Check at tekstdokumenter ikke deduplikeres

Dette kan gøres vha. kommandoen (som ikke skal give noget output): (NB: data skrives nu til /netarkiv/0002 istedet for /netarkiv/0001) <verbatim>

  • cd /netarkiv/0002/$TESTX/filedir/ grep duplicate: $ID-metadata-1.arc | grep ' text/'

</verbatim>

Dette undersøger, om crawl.log indeholder annotationen duplicate: for tekst-dokumenter.

---+++ Check at ikke-tekst dokumenter er deduplikeret hvor muligt.

For ikke-tekst dokumenter forventer vi, at alle er deduplikeret væk (vi forventer ingen ændringer mellem vores kørsler). De eneste undtagelser er filer der ikke blev fundet i den tidligere høstning. Dette kan checkes (for HTTP result code 200 filer) med følgende pipeline, som ikke skulle give noget output:

<verbatim> grep -v duplicate: $ID-metadata-1.arc | grep -v ' text/' | grep ' 200 ' | grep 'https\?://' | tr -s ' ' | cut -d' ' -f4 | while read I; do grep '^'$I $OLDID-metadata-1.arc ; done </verbatim>

Dette checker, at de ikke-duplikerede ikke-tekst dokumenter nævnt i crawl.log ikke også findes i den gamle høstning.

Hvis der *alligevel* kommer output checkes det at URL'en peger på noget der med rimelighed kan forventes har ændret sig. Det kan f.eks. være "2-metadata-1.arc:http://login.kb.dk/scholarredir/redir 130.226.229.13 20060825081733 no-type 787 2-2-20060825081729-00002-kb-test-har-001.kb.dk.arc 181329 c2c66fd23d710c0388cb15a44ae500e7". Læg mærke til at URL'en er "http://login.kb.dk/scholarredir/redir" som det er rimeligt kan være forskellig fra gang til gang. Der kan også være tale om script-genererede billeder, f.eks http://www.olsen.dk/_vti_bin/fpcount.exe/?Page=default.htm|Image=1|Digits=5

N.B. Nogle filer kan have et ,3t eller lignende bagefter. Hvad betyder det: Det betyder, at den er forsøgt hentet 3 gange. jf. http://crawler.archive.org/articles/user_manual.html#logs (section 8.2.1). Bemærk, at området (12th column of the crawl.log), hvor origin-oplysningerne står, er til annotations: Processorerne kan her skrive hvad som helst. (SVC).

---+++ Check at deduplikerede dokumenters origin peget på noget der findes i de gamle høstninger

For alle de deduplikerede elementer skal vi se om deduplikeringen peger tilbage på noget der findes. Dette kan gøres ved at gennemløbe CDX-filen med følgende pipeline som ikke skulle give noget output:

<verbatim>

  • grep duplicate: $ID-metadata-1.arc | tr -s ' ' | cut -d' ' -f4,12 | sed 's/\(.* \)duplicate:\"\([^\" ]*\)\"/\1\2/;' | tr , ' ' | cut -d' ' -f1,2,3 | while read URL FILE INDEX; do grep "$FILE $INDEX" $OLDID-metadata-1.arc >/dev/null || echo Cannot find anything in $FILE at $INDEX for $URL; done

</verbatim>

Hvis der kommer output, betyder der, at de viste origins ikke kunne findes i CDX for de gamle jobs.

*Bemærk:* Dette går galt for URL'er der indeholder komma. Hvis der kommer output der ser mærkeligt ud (hvor $FILE ligner slutningen af en URL go INDEX ligner et filnavn) er dette problemet, og harmløst. Check evt. i metadata-filen at URL'en indeholder et komma.

---+++ Check at deduplikerede dokumenters origin peger tilbage på den rigtige URL

For alle de deduplikerede elementer skal vi se om deduplikeringen peger tilbage på den samme URL. Dette kan gøres ved at gennemløbe CDX-filen med følgende pipeline som ikke skulle give noget output:

<verbatim>

  • grep duplicate: $ID-metadata-1.arc | tr -s ' ' | cut -d' ' -f4,12 | sed 's/\(.* \)duplicate:\"\([\" ]*\)\"/\1\2/;' | tr , ' ' | cut -d' ' -f1,2,3 | while read URL FILE INDEX; do grep "$FILE $INDEX" $OLDID-metadata-1.arc | grep -v "$URL " | grep -v "^$OLDID-metadata-[0-9]*.arc:$URL"; done

</verbatim>

Dette checker, at hvor de deduplikerede dokumenters origin findes i CDX indexet har de den rigtige URL.

---+++ Check at den nævnte fil er fra ét af de jobs der skal deduplikeres ud fra:

  • For selektive høstninger er det et job fra sidste høstning af denne høstningsdefinition
  • For tværsnitshøstninger er det et job fra denne eller forrige kæde af tværsnitshøstninger

Åbn =/netarkiv/0002/$TESTX/filedir/$ID-metadata-1.arc igen.=

Find =metadata://netarkivet.dk/crawl/reports/processors-report.txt=

Der børe en sektion der minder om

<verbatim> Processor: is.hi.bok.digest.DeDuplicator

  • Function: Abort processing of duplicate records
    • - Lookup by url in use
    Total handled: 65 Duplicates found: 11 16.92% Bytes total: 618809 (604 KB) Bytes discarded: 154166 (150 KB) 24.91% New (no hits): 54 Exact hits: 11 Equivalent hits: 0 Timestamp predicts: (Where exact URL existed in the index) Change correctly: 0 Change falsly: 0 Non-change correct:11 Non-change falsly: 0 Missing timpestamp:0 [Host] [total] [duplicates] [bytes] [bytes discarded] [new] [exact] [equiv] [change correct] [change falsly] [non-change correct] [non-change falsly] [no timestamp] www.kb.dk 8 0 30916 0 8 0 0 0 0 0 0 0 www.kaareogtrine.dk 2 0 68545 0 2 0 0 0 0 0 0 0 survey.webstatus.dk 6 1 5592 1472 5 1 0 0 0 1 0 0 raeder.dk 2 0 3432 0 2 0 0 0 0 0 0 0 www.baldurs-archery.dk 1 0 67242 0 1 0 0 0 0 0 0 0 www.slothchristensen.dk 1 1 62425 62425 0 1 0 0 0 1 0 0 www.sy-jonna.dk 1 0 47166 0 1 0 0 0 0 0 0 0 www.google.com 1 1 1837 1837 0 1 0 0 0 1 0 0 jigsaw.w3.org 2 2 3790 3790 0 2 0 0 0 2 0 0 www.w3.org 2 2 3937 3937 0 2 0 0 0 2 0 0 www.statsbiblioteket.dk 3 0 23276 0 3 0 0 0 0 0 0 0 netarkivet.dk 8 0 6157 0 8 0 0 0 0 0 0 0 sfx-images.mozilla.org 1 1 3919 3919 0 1 0 0 0 1 0 0 www.trinekc.dk 2 1 43371 312 1 1 0 0 0 1 0 0 www.drive-badmintonklub.dk 2 1 46110 14049 1 1 0 0 0 1 0 0 www.oernhoej.dk 1 1 62425 62425 0 1 0 0 0 1 0 0 dublincore.org 12 0 14236 0 12 0 0 0 0 0 0 0 www.kum.dk 2 0 2982 0 2 0 0 0 0 0 0 0 www.pligtaflevering.dk 5 0 61799 0 5 0 0 0 0 0 0 0 www.trineogkaare.dk 3 0 59652 0 3 0 0 0 0 0 0 0

</verbatim>

Det er _vigtigt_ at duplicates found ikke må være 0.00%

-- Main.kfc - 27 Jul 2006

It20CheckHarvestDeduplicated 19. Check at billeder er deduplikeret væk i 2. tværsnithøstning (DK) (last edited 2010-08-16 10:24:34 by localhost)