Diff for "It20CheckHarvestDeduplicated 19. Check at billeder er deduplikeret væk i 2. tværsnithøstning (DK)"

Differences between revisions 1 and 2

Describe It20CheckHarvestDeduplicated 19. Check at billeder er deduplikeret væk i 2. tværsnithøstning (DK) here.

---+ Check at billeder er deduplikeret væk

---++ Log ind som bruger netarkiv på sb-test-bar-001.statsbiblioteket.dk Sæt TESTX til den test, som du udfører (TEST1 eller lignende) Sæt ID til job-IDerne for opfølgningshøstningen, f.eks. ID=3 eller ID='[45]' (jobid 4 og 5) Sæt OLDID til job-IDerne for den oprindelige høstning, f.eks. OLDID=1 eller OLDID='[23]' (jobid 2 og 3) <verbatim> export ID='[45]' export OLDID='[23]' export TESTX=TEST1

</verbatim>

---+++ Check at tekstdokumenter ikke deduplikeres

Dette kan gøres vha. kommandoen (som ikke skal give noget output): (NB: data skrives nu til /netarkiv/0002 istedet for /netarkiv/0001) <verbatim>

cd /netarkiv/0002/$TESTX/filedir/ grep duplicate: $ID-metadata-1.arc | grep ' text/'

</verbatim>

Dette undersøger, om crawl.log indeholder annotationen duplicate: for tekst-dokumenter.

---+++ Check at ikke-tekst dokumenter er deduplikeret hvor muligt.

For ikke-tekst dokumenter forventer vi, at alle er deduplikeret væk (vi forventer ingen ændringer mellem vores kørsler). De eneste undtagelser er filer der ikke blev fundet i den tidligere høstning. Dette kan checkes (for HTTP result code 200 filer) med følgende pipeline, som ikke skulle give noget output:

Dette checker, at de ikke-duplikerede ikke-tekst dokumenter nævnt i crawl.log ikke også findes i den gamle høstning.

Hvis der *alligevel* kommer output checkes det at URL'en peger på noget der med rimelighed kan forventes har ændret sig. Det kan f.eks. være "2-metadata-1.arc:http://login.kb.dk/scholarredir/redir 130.226.229.13 20060825081733 no-type 787 2-2-20060825081729-00002-kb-test-har-001.kb.dk.arc 181329 c2c66fd23d710c0388cb15a44ae500e7". Læg mærke til at URL'en er "http://login.kb.dk/scholarredir/redir" som det er rimeligt kan være forskellig fra gang til gang. Der kan også være tale om script-genererede billeder, f.eks http://www.olsen.dk/_vti_bin/fpcount.exe/?Page=default.htm|Image=1|Digits=5

N.B. Nogle filer kan have et ,3t eller lignende bagefter. Hvad betyder det: Det betyder, at den er forsøgt hentet 3 gange. jf. http://crawler.archive.org/articles/user_manual.html#logs (section 8.2.1). Bemærk, at området (12th column of the crawl.log), hvor origin-oplysningerne står, er til annotations: Processorerne kan her skrive hvad som helst. (SVC).

---+++ Check at deduplikerede dokumenters origin peget på noget der findes i de gamle høstninger

For alle de deduplikerede elementer skal vi se om deduplikeringen peger tilbage på noget der findes. Dette kan gøres ved at gennemløbe CDX-filen med følgende pipeline som ikke skulle give noget output:

grep duplicate: $ID-metadata-1.arc | tr -s ' ' | cut -d' ' -f4,12 | sed 's/$.* $duplicate:\"$[^\" ]*$\"/\1\2/;' | tr , ' ' | cut -d' ' -f1,2,3 | while read URL FILE INDEX; do grep "$FILE $INDEX" $OLDID-metadata-1.arc >/dev/null || echo Cannot find anything in $FILE at $INDEX for $URL; done

</verbatim>

Hvis der kommer output, betyder der, at de viste origins ikke kunne findes i CDX for de gamle jobs.

*Bemærk:* Dette går galt for URL'er der indeholder komma. Hvis der kommer output der ser mærkeligt ud (hvor $FILE ligner slutningen af en URL go INDEX ligner et filnavn) er dette problemet, og harmløst. Check evt. i metadata-filen at URL'en indeholder et komma.

---+++ Check at deduplikerede dokumenters origin peger tilbage på den rigtige URL

For alle de deduplikerede elementer skal vi se om deduplikeringen peger tilbage på den samme URL. Dette kan gøres ved at gennemløbe CDX-filen med følgende pipeline som ikke skulle give noget output:

grep duplicate: $ID-metadata-1.arc | tr -s ' ' | cut -d' ' -f4,12 | sed 's/$.* $duplicate:\"$[^{\" ]*$\"/\1\2/;' | tr , ' ' | cut -d' ' -f1,2,3 | while read URL FILE INDEX; do grep "$FILE $INDEX" $OLDID-metadata-1.arc | grep -v "}$URL " | grep -v "^$OLDID-metadata-[0-9]*.arc:$URL"; done

</verbatim>

Dette checker, at hvor de deduplikerede dokumenters origin findes i CDX indexet har de den rigtige URL.

---+++ Check at den nævnte fil er fra ét af de jobs der skal deduplikeres ud fra:

For selektive høstninger er det et job fra sidste høstning af denne høstningsdefinition
For tværsnitshøstninger er det et job fra denne eller forrige kæde af tværsnitshøstninger

Åbn =/netarkiv/0002/$TESTX/filedir/$ID-metadata-1.arc igen.=

Find =metadata://netarkivet.dk/crawl/reports/processors-report.txt=

Der børe en sektion der minder om

<verbatim> Processor: is.hi.bok.digest.DeDuplicator

Function: Abort processing of duplicate records
- - Lookup by url in use
Total handled: 65 Duplicates found: 11 16.92% Bytes total: 618809 (604 KB) Bytes discarded: 154166 (150 KB) 24.91% New (no hits): 54 Exact hits: 11 Equivalent hits: 0 Timestamp predicts: (Where exact URL existed in the index) Change correctly: 0 Change falsly: 0 Non-change correct:11 Non-change falsly: 0 Missing timpestamp:0 [Host] [total] [duplicates] [bytes] [bytes discarded] [new] [exact] [equiv] [change correct] [change falsly] [non-change correct] [non-change falsly] [no timestamp] www.kb.dk 8 0 30916 0 8 0 0 0 0 0 0 0 www.kaareogtrine.dk 2 0 68545 0 2 0 0 0 0 0 0 0 survey.webstatus.dk 6 1 5592 1472 5 1 0 0 0 1 0 0 raeder.dk 2 0 3432 0 2 0 0 0 0 0 0 0 www.baldurs-archery.dk 1 0 67242 0 1 0 0 0 0 0 0 0 www.slothchristensen.dk 1 1 62425 62425 0 1 0 0 0 1 0 0 www.sy-jonna.dk 1 0 47166 0 1 0 0 0 0 0 0 0 www.google.com 1 1 1837 1837 0 1 0 0 0 1 0 0 jigsaw.w3.org 2 2 3790 3790 0 2 0 0 0 2 0 0 www.w3.org 2 2 3937 3937 0 2 0 0 0 2 0 0 www.statsbiblioteket.dk 3 0 23276 0 3 0 0 0 0 0 0 0 netarkivet.dk 8 0 6157 0 8 0 0 0 0 0 0 0 sfx-images.mozilla.org 1 1 3919 3919 0 1 0 0 0 1 0 0 www.trinekc.dk 2 1 43371 312 1 1 0 0 0 1 0 0 www.drive-badmintonklub.dk 2 1 46110 14049 1 1 0 0 0 1 0 0 www.oernhoej.dk 1 1 62425 62425 0 1 0 0 0 1 0 0 dublincore.org 12 0 14236 0 12 0 0 0 0 0 0 0 www.kum.dk 2 0 2982 0 2 0 0 0 0 0 0 0 www.pligtaflevering.dk 5 0 61799 0 5 0 0 0 0 0 0 0 www.trineogkaare.dk 3 0 59652 0 3 0 0 0 0 0 0 0

</verbatim>

Det er _vigtigt_ at duplicates found ikke må være 0.00%

-- Main.kfc - 27 Jul 2006

It20CheckHarvestDeduplicated 19. Check at billeder er deduplikeret væk i 2. tværsnithøstning (DK) (last edited 2010-08-16 10:24:34 by localhost)

-  ⇤ ← Revision 1 as of 2009-09-22 14:09:10 → 
  Size: 2709
  Editor: TueLarsen
  Comment:
+   ← Revision 2 as of 2009-10-01 13:30:08 → ⇥
  Size: 6712
  Editor: TueLarsen
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 3:
----+ Check that the 2. snapshot harvest has reached the expected byte limits
+---+ Check at billeder er deduplikeret væk
 Line 5:
----++ Do following in a browser
Start program
   * Go to =http://kb-test-adm-001.kb.dk:807?/HarvestDefinition/= (where '807?' is the port number)
+---++ Log ind som bruger netarkiv på sb-test-bar-001.statsbiblioteket.dk
Sæt TESTX til den test, som du udfører (TEST1 eller lignende)
Sæt ID til job-IDerne for opfølgningshøstningen, f.eks. ID=3 eller ID='[45]' (jobid 4 og 5)
Sæt OLDID til job-IDerne for den oprindelige høstning, f.eks. OLDID=1 eller OLDID='[23]' (jobid 2 og 3)
<verbatim>
export ID='[45]'
export OLDID='[23]'
export TESTX=TEST1
-Line 9:
+Line 14:
-Look for output of harvest status on =kb-test-har-00?.kb.dk= via system state
   * Choose 'Systemstate' in the left menu
   * Check that you can see harvest status being outputted for =kb-test-har-00?.kb.dk=
   * Check that kb-test-har-00? finishes the harvest
   * Check that kb-test-har-00? starts uploading
+</verbatim>
-Line 15:
+Line 16:
-Check upload and checksum job on arcrepository and bitarchives
   * Check that text "Job: Checksum job" appears in log for Application <nop>BitarchiveMonitorServer <br> To see log, click on 'BitarchiveMonitorServer' in the 'Application' column and 'show all' in the 'Index' column header
   * Check that the texts "Store started" and "Store OK" and not "Store Failed" appears in log for Application <nop>ArcRepository<br> To see log, click on 'ArcRepository' in the 'Application' column and 'show all' in the 'Index' column header
-Line 19:
+Line 17:
-Check that you can see <nop>GUIWebServer receive answer about the job
   * Check that "Job X succesfully completed" (where X is the job number) appears in log for <nop>GUIWebServer <br> to see log, click on 'GUIWebServer' in the 'Application' column and 'show all' in the 'Index' column header
-Line 22:
+Line 18:
-Look for output of harvest status via harvest status
   * Choose 'Harvest status' -> 'All Jobs' in the left menu
   * Check that the jobs have status "Done"
+---+++ Check at tekstdokumenter ikke deduplikeres
-Line 26:
+Line 20:
-Check reached byte limits
   * Click on the job id for the job (in column 'Job ID')
   * Look under title "Included domains and configurations"
      * Check that following alias domains are *not* to be found in the 'Domain' column
         * =netarkivet.dk=
         * =sulnudu.dk=
      * Check that following 'Domains Completed' are *not* to be found in the 'Domain' column
         * =oernhoej.dk=
      * Check that following 'Domain-config limit reached' are *not* to be found in the 'Domain' column
         * =statsbiblioteket.dk=<p>
      * Check that following domains are found in the 'Domain' column and has 'Stopped due to' reason: "Max Bytes limit reached"
         * =kb.dk=
         * =dbc.dk=
         * =kum.dk=
      * Check following domains are found in the 'Domain' column and has 'Stopped due to' reason: "Domain Completed"( Note: the list may vary depending of the snapshot harvest, which this continues)
         * =kaareogtrine.dk=
         * =trineogkaare.dk=
         * =kaarefc.dk=
+Dette kan gøres vha. kommandoen (som ikke skal give noget output):
(NB: data skrives nu til /netarkiv/0002 istedet for /netarkiv/0001)
<verbatim>
 cd /netarkiv/0002/$TESTX/filedir/
 grep duplicate: $ID-metadata-1.arc | grep ' text/'
</verbatim>

Dette undersøger, om crawl.log indeholder annotationen duplicate: for tekst-dokumenter.

---+++ Check at ikke-tekst dokumenter er deduplikeret hvor muligt.

For ikke-tekst dokumenter forventer vi, at alle er deduplikeret væk (vi forventer ingen ændringer mellem vores kørsler).
De eneste undtagelser er filer der ikke blev fundet i den tidligere høstning.  Dette kan checkes (for HTTP result code 200 filer) med følgende pipeline, som ikke skulle give noget output:

<verbatim>
grep -v duplicate: $ID-metadata-1.arc  | grep -v ' text/' | grep ' 200 ' | grep 'https\?://' | tr -s ' ' | cut -d' ' -f4 | while read I; do grep '^'$I $OLDID-metadata-1.arc ; done
</verbatim>

Dette checker, at de ikke-duplikerede ikke-tekst dokumenter nævnt i crawl.log ikke også findes i den gamle høstning.

Hvis der *alligevel* kommer output checkes det at URL'en peger på noget der med rimelighed kan forventes har ændret sig. Det kan f.eks. være "2-metadata-1.arc:http://login.kb.dk/scholarredir/redir 130.226.229.13 20060825081733 no-type 787 2-2-20060825081729-00002-kb-test-har-001.kb.dk.arc 181329 c2c66fd23d710c0388cb15a44ae500e7". Læg mærke til at URL'en er "http://login.kb.dk/scholarredir/redir" som det er rimeligt kan være forskellig fra gang til gang.
Der kan også være tale om script-genererede billeder,
f.eks http://www.olsen.dk/_vti_bin/fpcount.exe/?Page=default.htm|Image=1|Digits=5

N.B. Nogle filer kan have et ,3t eller lignende bagefter.  Hvad betyder det: Det betyder, at den er forsøgt hentet 3 gange.
jf. http://crawler.archive.org/articles/user_manual.html#logs (section 8.2.1).
Bemærk, at området (12th column of the crawl.log), hvor origin-oplysningerne står, er til annotations: Processorerne kan her skrive hvad som helst.
(SVC).

---+++ Check at deduplikerede dokumenters origin peget på noget der findes i de gamle høstninger

For alle de deduplikerede elementer skal vi se om deduplikeringen peger tilbage på noget der findes.
Dette kan gøres ved at gennemløbe CDX-filen med følgende pipeline som ikke skulle give noget output:

<verbatim>
 grep duplicate: $ID-metadata-1.arc  | tr -s ' '  | cut -d' ' -f4,12 | sed 's/\(.* \)duplicate:\"\([^\" ]*\)\"/\1\2/;' | tr , ' ' | cut -d' ' -f1,2,3 | while read URL FILE INDEX; do grep "$FILE $INDEX" $OLDID-metadata-1.arc >/dev/null || echo Cannot find anything in $FILE at $INDEX for $URL; done
</verbatim>

Hvis der kommer output, betyder der, at de viste origins ikke kunne findes i CDX for de gamle jobs.

*Bemærk:* Dette går galt for URL'er der indeholder komma. Hvis der kommer output der ser mærkeligt ud (hvor $FILE ligner slutningen af en URL go INDEX ligner et filnavn) er dette problemet, og harmløst. Check evt. i metadata-filen at URL'en indeholder et komma.

---+++ Check at deduplikerede dokumenters origin peger tilbage på den rigtige URL

For alle de deduplikerede elementer skal vi se om deduplikeringen peger tilbage på den samme URL.
Dette kan gøres ved at gennemløbe CDX-filen med følgende pipeline som ikke skulle give noget output:

<verbatim>
 grep duplicate: $ID-metadata-1.arc  | tr -s ' '  | cut -d' ' -f4,12 | sed 's/\(.* \)duplicate:\"\([^\" ]*\)\"/\1\2/;' | tr , ' ' | cut -d' ' -f1,2,3 | while read URL FILE INDEX; do grep "$FILE $INDEX" $OLDID-metadata-1.arc | grep -v "^$URL " | grep -v "^$OLDID-metadata-[0-9]*.arc:$URL"; done
</verbatim>

Dette checker, at hvor de deduplikerede dokumenters origin findes i CDX indexet har de den rigtige URL.



---+++ Check at den nævnte fil er fra ét af de jobs der skal deduplikeres ud fra:

   * For selektive høstninger er det et job fra sidste høstning af denne høstningsdefinition
   * For tværsnitshøstninger er det et job fra denne eller forrige kæde af tværsnitshøstninger

Åbn =/netarkiv/0002/$TESTX/filedir/$ID-metadata-1.arc igen.=

Find =metadata://netarkivet.dk/crawl/reports/processors-report.txt=

Der børe en sektion der minder om

<verbatim>
Processor: is.hi.bok.digest.DeDuplicator
  Function:          Abort processing of duplicate records
                     - Lookup by url in use
  Total handled:     65
  Duplicates found:  11 16.92%
  Bytes total:       618809 (604 KB)
  Bytes discarded:   154166 (150 KB) 24.91%
  New (no hits):     54
  Exact hits:        11
  Equivalent hits:   0
  Timestamp predicts: (Where exact URL existed in the index)
  Change correctly:  0
  Change falsly:     0
  Non-change correct:11
  Non-change falsly: 0
  Missing timpestamp:0
  [Host] [total] [duplicates] [bytes] [bytes discarded] [new] [exact] [equiv] [change correct] [change falsly] [non-change correct] [non-change falsly] [no timestamp]
  www.kb.dk 8 0 30916 0 8 0 0 0 0 0 0 0
  www.kaareogtrine.dk 2 0 68545 0 2 0 0 0 0 0 0 0
  survey.webstatus.dk 6 1 5592 1472 5 1 0 0 0 1 0 0
  raeder.dk 2 0 3432 0 2 0 0 0 0 0 0 0
  www.baldurs-archery.dk 1 0 67242 0 1 0 0 0 0 0 0 0
  www.slothchristensen.dk 1 1 62425 62425 0 1 0 0 0 1 0 0
  www.sy-jonna.dk 1 0 47166 0 1 0 0 0 0 0 0 0
  www.google.com 1 1 1837 1837 0 1 0 0 0 1 0 0
  jigsaw.w3.org 2 2 3790 3790 0 2 0 0 0 2 0 0
  www.w3.org 2 2 3937 3937 0 2 0 0 0 2 0 0
  www.statsbiblioteket.dk 3 0 23276 0 3 0 0 0 0 0 0 0
  netarkivet.dk 8 0 6157 0 8 0 0 0 0 0 0 0
  sfx-images.mozilla.org 1 1 3919 3919 0 1 0 0 0 1 0 0
  www.trinekc.dk 2 1 43371 312 1 1 0 0 0 1 0 0
  www.drive-badmintonklub.dk 2 1 46110 14049 1 1 0 0 0 1 0 0
  www.oernhoej.dk 1 1 62425 62425 0 1 0 0 0 1 0 0
  dublincore.org 12 0 14236 0 12 0 0 0 0 0 0 0
  www.kum.dk 2 0 2982 0 2 0 0 0 0 0 0 0
  www.pligtaflevering.dk 5 0 61799 0 5 0 0 0 0 0 0 0
  www.trineogkaare.dk 3 0 59652 0 3 0 0 0 0 0 0 0
</verbatim>

Det er _vigtigt_ at duplicates found ikke må være 0.00%

-- Main.kfc - 27 Jul 2006