Project

General

Profile

Tehtävä #3325

Hanki MARC-dumppi

Added by Mace Ojala almost 7 years ago. Updated over 6 years ago.

Status:
Suljettu
Priority:
Korkea
Assignee:
Start date:
Due date:
16.11.2012
% Done:

100%

Estimated time:
Google Doc:

Description

Tarvitaan tietueet MARC-muodossa.

testi.xml (2.17 MB) testi.xml Axiellilta tullut 692 tietueen koevedos XML:nä Mace Ojala, 06.11.2012 13:45

Related issues

Related to PIKI-tietokannan siivousmenetelmät - Tehtävä #3349: Normalisoi kielikooditSuljettu07.11.2012

Related to PIKI-tietokannan siivousmenetelmät - Tehtävä #3350: Normalisoi YSA-asiasanatSuljettu07.11.2012

Related to PIKI-tietokannan siivousmenetelmät - Tehtävä #3351: Normalisoi luokatSuljettu07.11.2012

Related to PIKI-tietokannan siivousmenetelmät - Tehtävä #3353: Tsekkaa PIKIn omat kaunoluokat kuntoonHylätty07.11.2012

Related to PIKI-tietokannan siivousmenetelmät - Tehtävä #3355: Tarkista onko ISBN:llä useita esiintymiäSuljettu07.11.2012

Related to PIKI-tietokannan siivousmenetelmät - Bugi #3420: MARCXML-dumppi on korruptoitunutHylätty27.11.2012

Blocks PIKI-tietokannan siivousmenetelmät - Tehtävä #3362: Indeksoi PIKIn tietueet BaseX -palvelimelleSuljettu12.11.2012

History

#1 Updated by Mace Ojala almost 7 years ago

  • Due date changed from 01.11.2012 to 16.11.2012
  • Status changed from New to Osoitettu
  • Priority changed from Normaali to Korkea

Tilattu ilmeisen pitkällisen prosessin jälkeen. Tulossa Axiellilta viikon 46 aikana. Odotellaan.

#2 Updated by Petri Tonteri almost 7 years ago

Koevedos saatu Axiellista kommentoitavaksi. Jos koevedos ok, niin viikon 46 alussa Axiell vedostaa dumpin ulos.

Mace Ojala kirjoitti:

Tilattu ilmeisen pitkällisen prosessin jälkeen. Tulossa Axiellilta viikon 46 aikana. Odotellaan.

#3 Updated by Mace Ojala almost 7 years ago

Petri Tonteri kirjoitti:

Koevedos saatu Axiellista kommentoitavaksi. Jos koevedos ok, niin viikon 46 alussa Axiell vedostaa dumpin ulos.

692 tietuetta sisältävä koevedos (liitteenä) näyttää ok:lta, vaikka hieman herjaa tuleekin ja tiedoston alussa on kolme tavua roskaa yms. pientä.

Tämä ei ole tyypillistä MarcXML:ää jollaista odotin saavani ja joka on kääritty <collection> -tägiin, vaan tämä on ennennäkemättömässä muodossa:

<records xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
  <record>
    <recordData xmlns="http://www.loc.gov/zing/srw/">
      <record xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://www.loc.gov/MARC21/slim">
        ...
      </record>
    </recordData>
  </record>
  <record>
    <recordData>
      <record>
      .
      .
      .
      </record>
    </recordData>
  </record>
</records>

#4 Updated by Mace Ojala almost 7 years ago

  • Status changed from Osoitettu to Suljettu
  • % Done changed from 0 to 100

Dumppi tuli tänään 250MB ZIP-tiedostossa, jonka sisältö on:

Archive:  piki_dump.zip
  Length      Date    Time    Name
---------  ---------- -----   ----
181491327  2012-11-07 09:02   dump_1001_99999
204276649  2012-11-07 09:09   dump_100000_199999
303342436  2012-11-07 09:19   dump_200000_299999
316059872  2012-11-07 09:28   dump_300000_399999
109120273  2012-11-07 09:32   dump_400000_499999
 82736143  2012-11-07 09:35   dump_500000_599999
161760181  2012-11-07 09:40   dump_600000_699999
215131430  2012-11-07 09:46   dump_700000_799999
326697926  2012-11-07 10:01   dump_800000_899999
178956942  2012-11-07 10:11   dump_900000_999999
 91723939  2012-11-07 10:16   dump_1000000_1099999
159356759  2012-11-07 10:25   dump_1100000_1199999
127015861  2012-11-07 10:31   dump_1200000_1299999
105453568  2012-11-07 10:37   dump_1300000_1399999
124000991  2012-11-07 10:43   dump_1400000_1499999
137043929  2012-11-07 10:50   dump_1500000_1599999
138185655  2012-11-07 10:57   dump_1600000_1699999
134014561  2012-11-07 11:04   dump_1700000_1799999
136722795  2012-11-07 11:14   dump_1800000_1899999
137970369  2012-11-07 11:21   dump_1900000_1999999
114430481  2012-11-07 11:28   dump_2000000_2099999
115757419  2012-11-07 11:37   dump_2100000_2199999
121584297  2012-11-07 11:45   dump_2200000_2299999
132543773  2012-11-07 11:54   dump_2300000_2399999
122668272  2012-11-07 12:03   dump_2400000_2499999
144322714  2012-11-07 12:14   dump_2500000_2599999
136721906  2012-11-07 12:22   dump_2600000_2699999
138211069  2012-11-07 12:31   dump_2700000_2799999
142341655  2012-11-07 12:40   dump_2800000_2899999
137042234  2012-11-07 12:48   dump_2900000_2999999
140309609  2012-11-07 12:56   dump_3000000_3099999
209979552  2012-11-07 13:09   dump_3100000_3199999
197869455  2012-11-07 13:20   dump_3200000_3299999
187070604  2012-11-07 13:30   dump_3300000_3399133
---------                     -------
5411914646                     34 files

Eli 5.4GB kamaa, mukavasti 100 000 tietuetta per tiedosto. Tiedostopääte puuttuu, mutta XML:ää.

Ilmeisesti Axiellilta on mennyt viisi ja puoli tuntia tuon ulos ottamiseen, mikä ei ole kauaakaan.

Empä laita dumppia tähän liitetiedostoksi, mutta löytyy URLista https://docs.google.com/file/d/0Bz0le7DyUsAOel9aNlZ0aVJhN2M/edit (johon pitää olla Petriltä oikeudet). Kiitos Axiell, kiitos Petri... viikonloppu voi alkaa! :)

#5 Updated by Mace Ojala over 6 years ago

Todettakoot for the record, että toi dumppi mun unzipin (UnZip 6.00 of 20 April 2009, by Debian.) mukaan rikkinäinen ja tiedostojen tarkistussummat pielessä:

    testing: dump_1001_99999          bad CRC 6c702711  (should be d798e089)
    testing: dump_100000_199999       bad CRC 4e6c6546  (should be 529adf9d)
    testing: dump_200000_299999       bad CRC bd62d959  (should be 75f9896f)
    testing: dump_300000_399999       bad CRC d57a9541  (should be 9c629320)
    testing: dump_400000_499999       bad CRC 38c3a42c  (should be f693c307)
    testing: dump_500000_599999       bad CRC e670fece  (should be 79fcd77e)
    testing: dump_600000_699999       bad CRC 4d5dd039  (should be 3b762e9a)
    testing: dump_700000_799999       bad CRC a0a08d9c  (should be a779ac69)
    testing: dump_800000_899999       bad CRC b2800e08  (should be d874a06b)
    testing: dump_900000_999999       bad CRC bf155281  (should be 7491a392)
    testing: dump_1000000_1099999     bad CRC 92b642a2  (should be 791b4d78)
    testing: dump_1100000_1199999     OK
    testing: dump_1200000_1299999     bad CRC 10effed5  (should be 21875618)
    testing: dump_1300000_1399999     OK
    testing: dump_1400000_1499999     OK
    testing: dump_1500000_1599999     OK
    testing: dump_1600000_1699999     bad CRC 188f7c2c  (should be 05521b18)
    testing: dump_1700000_1799999     bad CRC da73e9ed  (should be dd948e72)
    testing: dump_1800000_1899999     bad CRC 40f6b177  (should be bc1c2a9f)
    testing: dump_1900000_1999999     OK
    testing: dump_2000000_2099999     OK
    testing: dump_2100000_2199999     OK
    testing: dump_2200000_2299999     OK
    testing: dump_2300000_2399999     OK
    testing: dump_2400000_2499999     OK
    testing: dump_2500000_2599999     bad CRC 890eab4e  (should be fed4c074)
    testing: dump_2600000_2699999     OK
    testing: dump_2700000_2799999     OK
    testing: dump_2800000_2899999     OK
    testing: dump_2900000_2999999     OK
    testing: dump_3000000_3099999     OK
    testing: dump_3100000_3199999     bad CRC dc6b2dd1  (should be 42eb158d)
    testing: dump_3200000_3299999     bad CRC 9d29f07c  (should be f12336e0)
    testing: dump_3300000_3399133     bad CRC 13938ce8  (should be 59e1d2c1)

#6 Updated by Mace Ojala over 6 years ago

Muistiinpanoksi vielä, että dumpissa on 2345382 kpl (2.345382 miljoonaa) tietueita.

#7 Updated by Mace Ojala over 6 years ago

Oho noi yllä olevat rikkinäiset tarkistussummat (CRC) johtuvatkin mun läppärillä jossain olevasta bugista #3420. Ei ilmeisesti hätää, koska toisella koneella ei tule noita herjoja! (argh!)

Also available in: Atom PDF