Petter Reinholdtsen: Entries Tagged noark5

Some of my 2025 free software activities

31st December 2025

I guess it is about time I posted a new summary of the free software and open culture activites and projects I have been involved in the last year. The days have been so packed the last year that I have failed with my intention to post at least one blog post per month, so this summary became rather long. I am sorry about this.

This year was the year I got tired of the lack of new releases of the multimedia related libraries published via Xiph, and I decided to wrap up the current state and make the releases myself. In a burst of activity early this year, I collected and tested patches, coordinated with other developers and finally made new tarballs and release announcement for theora, and new tarball releases for liboggz, kate and fishsound. This upstreamed several patches accumulated in Debian and other Linux distributions for the last 15 years or so.

To change the world and the future, it is important to start with the kids, and one such avenue of change have been created by the current president of FSF Europe, Matthias Kirschner. He wrote a book for children, Ada & Zangemann, and I have been involved in its translation framework for the entire year. The source code has been transformed to Docbook and I have been conducting and coordinating translations into Norwegian Bokmål and Nynorsk, as well as preparing paper editions of the book and an animation movie with Norwegian voices. The Bokmål edition is very close to ready, and will be available early in 2026, and the movie release will follow shortly after this. I intend announce this on my blog and elsewhere when this happen. Please get in touch if you want to help spread the word about this book in Norwegian. I hope we can get the author to Norway when making the Norwegian releases.

This year I continued a push for the system I made a few years ago to improve hardware dongle handling on Linux. The Isenkram system use hardware mapping information provided by relevant packages using the AppStream system to propose which Linux distribution packages to install on a given machine to support dongles like cameras, finger print readers, smart card readers, LEGO controllers, ECC memory and other hardware. I have followed up on the list of packages providing such mapping, either to get it into Debian or to upstream the necessary metadata. I am not sure if we are at a point where package maintainers on their own add such information to their packages, but there are Debian lintian reports suggesting it and I have send patches to all packages I am aware of that should include such mappings. Most of the patches are included in Debian now, only 27 was left the last time I checked.

As part of my involvement with Debian, I continued my push to get all orphaned packages without a version control repository migrated to git. I am not sure how many packages I went through, but it was in the range of 200-300 packages. In addition to this I updated, sponsored, pushed maintainers for updates upstreamed patches for and fixed RC issues with battery-stats, bs1770gain, isenkram, libonvif, mfiutil, opensnitch, simplescreenrecorder, vlc-plugin-bittorrent and wakeonlan. I've also followed up LEGO related packages, dahdi support for Asterisk, llama.cpp and whisper.cpp in particular for the AMD GPU I was donated by AMD, as well as tried yet again to convince the upstream developers of the photogrammetric workstion e-foto to get their program into a state that could be included in Debian.

As I do not buy into the story that it is great to expose oneself to the whims of and priorities of commercial entities to have access to cultural expressions like films and music, I still maintain a huge collection of movies. For this to work well, I have ended up as part of the people maintaining lsdvd upstream and wrapped up a new release fixing several crash bugs caused by DVDs with intentionally broken metadata, and introduced code to list a DVD ID in the lsdvd output. Related to this, I have also worked some add-ons for my main video and music player, and took over upstream maintenance of the Invidious add-on, which sadly stopped working for non-authenticated users when web scrapers made it impossible for Invidious installations to provide a open API, as well as contributed to the NRK and projector control add-ons.

As part of my involvement in the Norwegian archiving community and standardisation work, we organised a Noark 5 workshop this spring discussing how to decide what to keep and what to delete in digital archives. We finally managed to apply for Noark 5 certification for the free software archive API Nikita, as well as worked to test and improve the performance of Nikita together with people on my day job at the university.

Manufacturing using Free Software is still a focus for me, and I have continued my involved with the LinuxCNC community, organising a developer gathering this summer with the help and sponsoring from the initial start in 2023 from NUUG Foundation and sponsoring from Debian and Redpill-Linpro. We plan to repeat the event also in 2026, but this time NUUG Foundation have told us they do not want a role, so we have found another friendly organisation to handle the money.

A popular machine controller with LinuxCNC is the MESA set of electronics, which is centred around a FPGA which now can be programmed using only Free Software. We discussed during this summers gathering how hard it would be to compile the current FPGA source using a Free Software tool chain, and I started looking into this, locating tools to transform the VHDL source into something the Yosys tool chain can handle. Still lot to do there, and I hope to get further next year.

An important part of Free Software manufacturing is the ability to design parts and create programs that can be passed to machines making parts, also known as CAD/CAM. The most prominent project for this is FreeCAD, and I have been both pushing to get opencamlib integrated with it in Debian as well as fixing bugs in the handling of Fanuc controlled machines, do make it easier to generate instructions for machines I have access to. I expect to also continue this also next year.

This year the UN conference Internet Governance Forum (IGF) was held in Norway, and I tried my best to get a stand for the Norwegian Unix Users Group (NUUG) there. Sadly the effort failed, due to lack of interest with the NUUG Board, but I was happy to see several members at least attend some of the activities related to IGF. Sadly to participate at IGF one need to hand over quite private information, so I decided not to participate in any of the closed forum events myself. Related to NUUG I have been a member of the election board proposing board member candidates to the general assembly, and been part of the program committee of the "Big Tech må vekk" (Big Tech must go away) festival organised by Attac in concert with NUUG and EFN. I've also assisted the Norwegian open TV channel Frikanalen with access to their machines located in a machine room at the university.

Related to the University, I have become involved in a small team of students working to build and program robots for the Robocup@Home competition. For 2026 we also plan to use the new features of FreeCAD to make parts for the open hardware robot arm OpenArm. This is also the group that will handle the money for the LinuxCNC gathering in 2026. Also related to the university I was looking into the Linux security auditing system Falco earlier this year, making improvements to the detection rules. This activity is on hold at the moment, and do not expect to continue with this in 2026.

I will most likely have to cut down a bit on my free software and open culture activities going forward, as NUUG Foundation, who have funded one day a week for such activities for several years no, sadly have decided they do not want to continue doing this. I am very grateful for their contributions over the years, both with freeing up time for me and supporting several events and projects where I have been involved or taken the initiative on. Now they are reorganizing with more focus on paperwork and applications.

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: debian, english, isenkram, lsdvd, noark5, standard, sysadmin, verkidetfri.

Some of my 2024 free software activities

10th February 2025

It is a while since I posted a summary of the free software and open culture activities and projects I have worked on. Here is a quick summary of the major ones from last year.

I guess the biggest project of the year has been migrating orphaned packages in Debian without a version control system to have a git repository on salsa.debian.org. When I started in April around 450 the orphaned packages needed git. I've since migrated around 250 of the packages to a salsa git repository, and around 40 packages were left when I took a break. Not sure who did the around 160 conversions I was not involved in, but I am very glad I got some help on the project. I stopped partly because some of the remaining packages needed more disk space to build than I have available on my development machine, and partly because some had a strange build setup I could not figure out. I had a time budget of 20 minutes per package, if the package proved problematic and likely to take longer, I moved to another package. Might continue later, if I manage to free up some disk space.

Another rather big project was the translation to Norwegian Bokmål and publishing of the first book ever published by a Sámi woman, the «Møter vi liv eller død?» book by Elsa Laula, with a PD0 and CC-BY license. I released it during the summer, and to my surprise it has already sold several copies. As I suck at marketing, I did not expect to sell any.

A smaller, but more long term project (for more than 10 years now), and related to orphaned packages in Debian, is my project to ensure a simple way to install hardware related packages in Debian when the relevant hardware is present in a machine. It made a fairly big advance forward last year, partly because I have been poking and begging package maintainers and upstream developers to include AppStream metadata XML in their packages. I've also released a few new versions of the isenkram system with some robustness improvements. Today 127 packages in Debian provide such information, allowing isenkram-lookup to propose them. Will keep pushing until the around 35 package names currently hard coded in the isenkram package are down to zero, so only information provided by individual packages are used for this feature.

As part of the work on AppStream, I have sponsored several packages into Debian where the maintainer wanted to fix the issue but lacked direct upload rights. I've also sponsored a few other packages, when approached by the maintainer.

I would also like to mention two hardware related packages in particular where I have been involved, the megactl and mfi-util packages. Both work with the hardware RAID systems in several Dell PowerEdge servers, and the first one is already available in Debian (and of course, proposed by isenkram when used on the appropriate Dell server), the other is waiting for NEW processing since this autumn. I manage several such Dell servers and would like the tools needed to monitor and configure these RAID controllers to be available from within Debian out of the box.

Vaguely related to hardware support in Debian, I have also been trying to find ways to help out the Debian ROCm team, to improve the support in Debian for my artificial idiocy (AI) compute node. So far only uploaded one package, helped test the initial packaging of llama.cpp and tried to figure out how to get good speech recognition like Whisper into Debian.

I am still involved in the LinuxCNC project, and organised a developer gathering in Norway last summer. A new one is planned the summer of 2025. I've also helped evaluate patches and uploaded new versions of LinuxCNC into Debian.

After a 10 years long break, we managed to get a new and improved upstream version of lsdvd released just before Christmas. As I use it regularly to maintain my DVD archive, I was very happy to finally get out a version supporting DVDDiscID useful for uniquely identifying DVDs. I am dreaming of a Internet service mapping DVD IDs to IMDB movie IDs, to make life as a DVD collector easier.

My involvement in Norwegian archive standardisation and the free software implementation of the vendor neutral Noark 5 API continued for the entire year. I've been pushing patches into both the API and the test code for the API, participated in several editorial meetings regarding the Noark 5 Tjenestegrensesnitt specification, submitted several proposals for improvements for the same. We also organised a small seminar for Noark 5 interested people, and is organising a new seminar in a month.

Part of the year was spent working on and coordinating a Norwegian Bokmål translation of the marvellous children's book «Ada and Zangemann », which focus on the right to repair and control your own property, and the value of controlling the software on the devices you own. The translation is mostly complete, and is now waiting for a transformation of the project and manuscript to use Docbook XML instead of a home made semi-text based format. Great progress is being made and the new book build process is almost complete.

I have also been looking at how to companies in Norway can use free software to report their accounting summaries to the Norwegian government. Several new regulations make it very hard for companies to do use free software for accounting, and I would like to change this. Found a few drafts for opening up the reporting process, and have read up on some of the specifications, but nothing much is working yet.

These were just the top of the iceberg, but I guess this blog post is long enough now. If you would like to help with any of these projects, please get in touch, either directly on the project mailing lists and forums, or with me via email, IRC or Signal. :)

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: debian, english, isenkram, lsdvd, noark5, standard, sysadmin, verkidetfri.

Frokostseminar om Noark 5 i Oslo fredag 2025-03-14

31st January 2025

Nikita-prosjektet, der jeg er involvert, inviterer i samarbeid med forskningsgruppen METAINFO og foreningen NUUG, til et frokostseminar om Noark 5 og Noark 5 Tjenestegrensesnitt fredag 2025-03-14. Fokus denne gangen er på bevaring og kassasjon. Seminaret finner sted ved OsloMet, Pilestredet 46. Vi håper å få til videostrømming via Internett av presentasjoner og paneldiskusjon. Oppdatert program og lenker til påmeldingsskjema finner en via arrangementets infoside. Arrangementet er gratis.

Som vanlig, hvis du bruker Bitcoin og ønsker å vise din støtte til det jeg driver med, setter jeg pris på om du sender Bitcoin-donasjoner til min adresse 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b. Merk, betaling med bitcoin er ikke anonymt. :)

Tags: noark5, norsk, nuug, offentlig innsyn, standard.

Frokostseminar om Noark 5 i Oslo tirsdag 2024-03-12

27th February 2024

Nikita-prosjektet, der jeg er involvert, inviterer i samarbeid med Oslo Byarkiv, forskningsgruppen METAINFO og foreningen NUUG, til et frokostseminar om Noark 5 og Noark 5 Tjenestegrensesnitt tirsdag 2024-03-12. Seminaret finner sted ved Oslo byarkiv. Vi håper å få til videostrømming via Internett av presentasjoner og paneldiskusjon. Oppdatert program og lenker til påmeldingsskjema er tilgjengelig fra Nikita-prosjektet. Arrangementet er gratis.

Tags: noark5, norsk, nuug, offentlig innsyn, standard.

«Når «på» blir «pÃ¥»: Et reservoar av tegn sett fra depotet» i tidsskriftet Aksess

15th November 2023

For noen uker siden skrev en kamerat og meg en artikkel om tegnsett i arkivtidsskriftet Aksess både på web og i papirutgave nr. 3 2023. Her er det som nettopp ble publisert.

Når «på» blir «pÃ¥»: Et reservoar av tegn sett fra depotet

av Thomas Sødring og Petter Reinholdtsen

De færreste av oss tenker over hva som skjer dypere i datamaskinen mens vi sitter der og skriver noe på tastaturet. Når du trykker på tasten «Å», så vises bokstaven Å. Men noen ganger blir det feil. Hvorfor det – og hva er viktig å være klar over i arkivsammenheng?

Dersom bokstaver tolkes forskjellig mellom systemer, blir det fort rot, dette kalles mojibake blant kjennere, etter det japanske uttrykket for tegnomforming. Det er en lang historie her som tidvis har vært preget av rot. Noen husker kanskje tilbake til en tid der bokstavene æ, ø og å ofte var ødelagt i e-poster – et klassisk eksempel på tegnsettproblemstilling.

«Nå» og «før»

Tid er et skjult problem for depot fordi vi danner dokumentasjon i en kontekst som er preget av å være «nå». Vår forståelse av verden og bruken av teknologi er utgangspunktet for denne konteksten. Tenk selv hvordan verden har utviklet seg de siste 20 årene, hva samfunnet er opptatt av, og hvordan vi bruker teknologi i hverdagen. Tid er et skjult problem fordi når vi trekker dokumentasjon ut av systemer og deponerer for langtidsbevaring, er konteksten til materialet «nå», men verden går videre. Ettersom teknologien og måten vi bruker den på, utvikler seg, blir «nå» til «før», og dokumentasjonen befinner seg snart i en «før»-kontekst.

Dette med «før» og «nå» i forhold til dokumentasjonens kontekst er noe vi er veldig lite bevisste på, men det er en problemstilling depotarkivene eier og forvalter. En av disse utfordringene er hvorfor «Ø» ikke nødvendigvis er det samme som «Ø», og hvorfor det i det hele tatt gir mening å si noe sånt. Vi snakker her om noe som heter tegnsett, som er en avtalt måte å representere bokstaver, tall og andre symboler på slik at vi på en feilfri måte kan utveksle tekst mellom datasystemer.

Tegnsettproblemstillingen er satt sammen av fire fasetter; repertoar, representasjon, koding og uttegning.

Repertoarer

Repertoar er en samling med tegn og symboler som kan representeres. Tenk norsk alfabet eller japanske piktogrammer, men også matematiske og elektroniske symboler. Bokstaven «stor a» kan være en oppføring i et slikt repertoar. For å kunne brukes i en datamaskin trenger hver oppføring i et slikt repertoar en representasjon, hvilket i datamaskinsammenheng betyr at det tilordnes et tall. Tallet kan lagres på ulike vis i en eller flere kodingsformater. For eksempel kan en skrive tallet ti som både 10, X og A, i henholdsvis titallssystemet, romertallssystemet og sekstentallssystemet.

Hvis en skal kunne lese inn filer og vite hvilket tall og hvilken representasjon og instans i et repertoar det er snakk om, så må en vite hvordan tallet er kodet. Sist, men ikke minst, for å kunne bruke symbolet til noe må det kunne være kjent hvordan det skal se ut eller tegnes på ark. Det finnes utallige skrifttyper med norske bokstaver, alle litt forskjellige, og skal en kunne tegne en stor A på skjermen, så må datamaskinen vite hva den skal tegne. Skrifttyper inneholder informasjon om hvordan ulike tall skal tegnes. De inneholder ikke alltid alle symbolene som er brukt i en tekst, hvilket gjør at ikke alle forståtte tegn vil kunne vises på skjerm eller ark.

Hver av disse fasettene må være avklart for å kunne ta vare på og vise frem tekst med en datamaskin. Kombinasjon av repertoar, representasjon og koding er det en kaller et tegnsett. Kombinasjonen av representasjon og uttegning kalles en skrifttype. De fleste skrifttyper har også informasjon om repertoar, men det finnes skrifttyper som kun kobler mellom tallkode og uttegning, uten å fortelle noe om hvordan tallkodene egentlig skal tolkes.

Fra ASCII til ISO-8859

Vi begynner historien med ASCII (American Standard Code for Information Interchange) som har en historie som spores tilbake til 1963. Utgangspunktet til ASCII var at det kunne kode opp til 128 forskjellige symboler i vanlig bruk i USA. De visuelle symbolene i ASCII er de små og store bokstavene (a til z og A til Z), tall (0 til 9) og tegnsettingssymboler (for eksempel semikolon, komma og punktum). ASCII har også noen usynlige symboler som ble brukt for bl.a. kommunikasjon. Før ASCII var det for eksempel teleks-tegnsett med plass til bare 32 tegn og EBCDIC med plass til 256 tegn, alle med en helt annen rekkefølge på symbolene enn ASCII, men de har vært lite brukt de siste femti årene. Et eksempel på noen utvalgte symboler i repertoaret til ASCII vises i tabell 1.

Tabell 1. Eksempel på utvalgte symboler hentet fra ASCII-tegnsettet. Kolonnen «Binær» viser symbolets verdi i totallssystemet (1 og 0 tall), mens kolonnen «Desimal» viser symbolets verdi i titallssystemet.

Grafisk Binær Desimal

A 1000001 65

M 1001101 77

Z 1011010 90

a 1100001 97

m 1101101 109

z 1111010 122

0 0110000 48

9 0111001 58

; 0111011 59

Det opprinnelige ASCII-tegnsettet ble også omtalt som ASCII-7 og brukte 7 bits (0 og 1) for å representere symboler. Datamaskiner er ofte konfigurert til å jobbe med enheter der bits er gruppert som 4 eller 8 bits . Det lå en mulighet i å ta i bruk bit åtte. En slik endring ville gjøre det mulig for datamaskiner å øke antall symboler de kunne representere, noe som ga en økning fra 128 forskjellige symboler til 256 forskjellige symboler. Det ble åpnet for å innlemme de nordiske bokstavene sammen med ASCII, og dette ble etter hvert standardisert som ISO-8859-1. Tabell 2 viser deler av ISO-8859-1 som støtter de norske bokstavene.

Det sier seg selv at muligheten til å representere inntil 256 symboler ikke holder når vi snakker om en global verden, og det ble gjort et standardiseringsløp som tok utgangspunkt i ASCII-7 med en utvidelse til å bruke den åttende biten for ulike språkgrupper. Denne standarden heter ISO-8859 og er inndelt i opptil 16 varianter, altså fra ISO-8859-1 til ISO-8859-16.

Tabell 2. Koding av de norske symbolene slik de er definert i ISO-8859-1 tegnsettet.

Grafisk Binær Desimal

Æ 11000110 198

Ø 11011000 216

Å 11000101 197

æ 11100110 230

ø 11111000 248

å 11100101 229

Norske tegn er definert i ISO-8859-1, som også omtales som Latin 1, de fleste samiske tegn er definert i ISO-8859-4 (Latin 4) mens tilgang til €-symbolet kom med ISO-8859-15 (Latin 9). ISO-8859-15 er en revisjon av ISO-8859-1 som fjerner noen lite brukte symboler og erstatter bokstaver som er mer brukt, og introduserer €-symbolet. Det er viktig å merke at alle ISO-8859-variantene har overlapp med ASCII-7, noe som ga samvirke med de engelskspråklige landene som ikke trengte å gjøre noe. Det innebærer også at de første 128 verdiene i ISO-8859-variantene representerer de samme symbolene. Det er først når du kommer til tolkningen av de resterende 128 verdiene med nummer 128 til 255, at det oppsto tolkningsutfordringer mellom ISO-8859-variantene.

ISO-8859-verdenen fungerte godt så lenge tegnsettet som ble brukt når innhold ble skapt, også ble brukt når innhold ble gjengitt og du ikke trengte å kombinere innhold fra forskjellige tegnsett i samme dokument. Utfordringen med bruken av ISO-8859-variantene ble raskt tydelig i en mer globalisert verden med utveksling av tekst på tvers av landegrenser der tekstlig innhold i dokumenter, e-poster og websider kunne bli skrevet med ett tegnsett og gjengitt med et annet tegnsett.

Tabell 3. Viser tolkning av verdiene som er tilegnet de norske symbolene i ISO-8859-1 i de andre ISO 8859-variatene. Merk ISO-8859-12 ikke finnes da arbeidet ble avsluttet.^[1]

Binærverdi 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16

11000110 Æ Ć Ĉ Æ Ц ئ Ζ Æ Æ ฦ Ę Æ Æ Æ

11011000 Ø Ř Ĝ Ø и ظ Ψ Ø Ø ุ Ų Ø Ø Ű

11000101 Å Ĺ Ċ Å Х إ Ε Å Å ล Å Å Å Ć

11100110 æ ć ĉ æ ц ن ζ ז æ æ ๆ ę æ æ v

11111000 ø ř ĝ ø ј ψ ר ø ø ๘ ų ø ø ű

11100101 å ĺ ċ å х م ε ו å å ๅ å å å ć

Denne problemstillingen er illustrert i tabell 3, der vi ser verdiene tilegnet de norske symbolene i ISO-8859-1 i kolonne «1». I de øvrige kolonnene ser vi hvilket symbol verdien får i de andre ISO-8859-variantene. Tar vi utgangspunkt i tabell 3, kan vi se at ordet lærlingspørsmål gjengitt med ISO-8859-2 (kolonne 2) blir lćrlingspřrsmĺl, mens det blir lζrlingspψrsmεl med ISO- 8859-7 (kolonne 7). Med ISO-8859-2 blir «æ» til «ć», «ø» til «ř» og «å» til «ĺ». I ISO-8859-7 blir «æ» til «ζ», «ø» til «ψ», mens «å» blir «ε».

Det er egentlig ingen utfordring med dette så lenge du vet hvilket tegnsett innholdet ditt er representert med, og det ikke har skjedd omforminger som du ikke er klar over. Det er det siste som er problematisk, spesielt de datasystemene som har vært i bruk de siste 20 årene, som ikke har noe innebygd funksjonalitet for å forvalte tegnsettproblematikken. Et godt eksempel på dette er Microsoft-tegnsettet Windows-1252, som ble forvekslet som 100 % kompatibel med ISO-8859-1, men hadde byttet ut plassene fra 127 til 159. Historisk vil det finnes en del variasjon i hvilket tegnsett som har vært i bruk, og hvor vellykket konvertering mellom tegnsett har vært.

Unicode som løsning

Tegnsettforvirring ble etter hvert et irritasjonsmoment og samvirkeproblem. Ofte fikk man en e-post der æøå var erstattet av rare symboler fordi e-posten hadde vært innom et eller annet datasystem som ikke brukte samme tegnsett.

For å løse dette samvirkeproblemet for tegnsett ble det startet et arbeid og en ny standard så dagens lys etter hvert. Denne standarden fikk navnet Unicode (ISO/ IEC 10646) og skulle resultere i et tegnsett som alle skulle være enige om. Unicode er et repertoar og en representasjon, dvs. navngivning og tilordning av tallverdi til alle symboler i bruk i verden i dag. Oppføringer i Unicode skrives gjerne U+XXXX der XXXX er tallkoden i sekstentallssystemet som oppføringen har i Unicode-katalogen. Her finner vi tegn brukt av både levende og døde språk, konstruerte språk, tekniske symboler, morsomme tegninger (såkalte emojier) og tegn ingen vet hva betyr eller skal brukes til. Et morsomt eksempel er i nettartikkelen: U+237C ⍼ RIGHT ANGLE WITH DOWNWARDS ZIGZAG ARROW, av Jonathan Chan.^[2]

Sammen med Unicode kom det tre måter å kode disse tallene på; UTF-8, UTF-16 og UTF-32. Av datatekniske årsaker er UTF-8 mye brukt, spesielt når det gjelder utveksling av tekst over Internett, mens UTF-16 er brukt en del til tekstfiler lagret på Windows. En utfordring med Unicode og UTF-variantene er at disse gir flere måter å kode samme symbol på med en kombinasjonsmekanisme. Dette kan gi utfordringer ved søk, hvis en skal søke etter et ord som har ett eller flere symboler som kan skrives på ulikt vis, så er det ikke sikkert at søkesystemet vil finne alle forekomster. For eksempel kan bokstaven U+00F8 «Latin Small Letter O with Stroke» kodes som den tradisjonelle norske tegnet ø, men også som o kombinert med skråstrek U+0338. Begge deler er gyldig bruk av Unicode, selv om det er tradisjon for å foretrekke å «normalisere» kombinasjoner som enkelttegn der det er mulig, nettopp for å forenkle søk.

Bare Unicode fremover

Forvaltningens bruk av tegnsett er regulert i Forskrift om IT-standarder i offentlig forvaltning^[3]. Her står det: «Ved all utveksling av informasjon mellom forvaltningsorganer og fra forvaltningsorgan til innbyggere og næringsliv skal tegnsettstandarden ISO/IEC 10646 representert ved UTF8 benyttes.» Det er forskjellige bruksområder til UTF-8, UTF-16 og UTF-32, men UTF-8 er kodingen vi kjenner mest til. Det er flere grunner at UTF-8 «vant» konkurransen til å bli den utvalgte. Den kanskje viktigste er at UTF-8 er fullt samvirkende med ASCII-7, slik at den engelskspråklige delen av verden kunne rulle ut UTF-8 uten å merke noe forskjell. En tekstfil med kun ASCII-tekst vil være identisk på disken hvis den lagres som UTF-8 og ASCII. UTF-16 og UTF-32 byr på noen optimaliseringer som gjør dem relevant for spesifikke problemområder, men for det meste vil vi aldri oppleve disse standardene på nært hold i hverdagen. Det er uansett kun bruken av UTF-8 som er lovregulert i Norge.

Det er ikke slik at hele verden bruker ISO/IEC 10646 og UTF-8. Kina har egne standarder for tegnsett, mye brukt er GB 18030, som er Unicode med en annen koding enn UTF-8, mens Taiwan og andre asiatiske land gjerne bruker Big5 eller andre tegnsett.

UTF-8 er dominerende i Norge, men det er tidsperioder der forskjellige datasystemer utvekslet data i henhold til ISO-8859-1, ISO-8859-15, Windows-1252, Codepage 865 og ISO-646-60 / Codepage 1016 mens overgangen til UTF-8 pågikk. Det er ikke slik at et datasystem enkelt kan tvinges til å bruke et tegnsett, da det er flere lag i et datasystem som må settes opp til å bruke riktig tegnsett, og tegnsettproblemet fort oppstår når det er et eller annet i datasystemet som bruker feil tegnsett.

Et klassisk eksempel på problemet er en utveksling av tekst mellom to systemer der teksten i utgangspunktet er kodet i UTF-8, men går gjennom noe som er ISO-8859-1 underveis. Dette kan vises med at ordet «på» i et slik scenario ender opp som «pÃ¥». Det er mulig å spore dette tilbake til verdiene symbolene er tilordnet i tegnsettene. «på» blir til «pÃ¥» fordi «å» i UTF-8 er representert med U+C3AF, og dersom vi ser på hva disse verdiene representerer, ser vi at sekstentallssystemverdien C3 er 1100 0011 i totallssystemet og symbolet med dette tallet i ISO-8859-1 er Ã.

Vi ser det samme med sekstentallssystemverdien A5, som er 1010 0101 i totallssystemet, og tilsvarende symbol i ISO-8859-1 er ¥. Slik mojibake kan lett skje hvis «på» i utgangspunktet var representert med UTF-8, men ble behandlet med et system som bruker ISO-8859-1. Det er ingen automatikk i å fange opp slike ødeleggelser mens tekstlig innhold utveksles mellom datasystemer.

En utfordring for depotarkivene er at bruken av tegnsett ikke alltid har vært regulert, og at det kan finnes flere dokumentasjonssamlinger som er opprettet med varierende tegnsett før gjeldende forskrift inntraff – uten at det er mulig å avlede fra filene hvilket tegnsett som ble brukt. Et eksempel på dette er €-symbolet, som kom først etter at ISO-8859-1 var tatt i bruk. Det kan bli en utfordring for et depotarkiv, men så lenge det er kjent hvilket tegnsett var i bruk, så bør det gå bra. Riksarkivarens forskrift^[4] formaliserer dette ved å kreve følgende:

§ 5-11. Tegnsett i arkivuttrekk

Arkivuttrekk og medfølgende struktur- og innholdsbeskrivelser skal overføres som ren tekst i ukryptert form, og benytte godkjent tegnsett.

Godkjente tegnsett er:

Unicode UTF-8
(ISO/IEC 10646-1:2000 Annex D)

ISO 8859-1:1998, Latin 1

ISO 8859-4:1998, Latin 4 for samiske tegn.

Andre tegnsett aksepteres bare etter avtale med Arkivverket.

Ditt ansvar

På mange måter burde ikke tegnsett være et problem i 2023, men sånn er det nok ikke. Land som har oppgradert til UTF-8 som primærtegnsett for utveksling av tekstlig innhold, begrenser problematikken betraktelig, men globalt sett så er tegnsettutfordringen ikke løst fordi ikke alle er enige om å bruke samme tegnsett. Det kan være geopolitiske eller kulturelle hensyn som ligger til grunn for dette.

Det er uansett verdt å merke at selv om bruken av UTF-8 skulle bli 100% utbredt, så er det et historisk perspektiv (ASCII-7, ISO-8859-variantene, UTF-8) her som gjør tegnsett til et problemområde arkivarene må forstå og håndtere. Som danningsarkivar har du et ansvar for å vite hvilket tegnsett systemene og databasene dere forvalter, er i samsvar med. Det er noe IT-avdelingen din eller programvareleverandørene enkelt skal kunne svare på, og svaret skal være UTF-8 for alle nye systemer.

1. Tegnsettkilde https://en.wikipedia.org/wiki/ISO/IEC_8859

2. https://ionathan.ch/2022/04/09/angzarr.html

3. https://lovdata.no/dokument/SF/forskrift/2013-04-05-959/%C2%A78#%C2%A78

4. https://lovdata.no/forskrift/2017-12-19-2286/§5-11

Tabell 1. Eksempel på utvalgte symboler hentet fra ASCII-tegnsettet. Kolonnen «Binær» viser symbolets verdi i totallssystemet (1 og 0 tall), mens kolonnen «Desimal» viser symbolets verdi i titallssystemet.
Grafisk	Binær	Desimal
A	1000001	65
M	1001101	77
Z	1011010	90
a	1100001	97
m	1101101	109
z	1111010	122
0	0110000	48
9	0111001	58
;	0111011	59

Tabell 2. Koding av de norske symbolene slik de er definert i ISO-8859-1 tegnsettet.
Grafisk	Binær	Desimal
Æ	11000110	198
Ø	11011000	216
Å	11000101	197
æ	11100110	230
ø	11111000	248
å	11100101	229

Tabell 3. Viser tolkning av verdiene som er tilegnet de norske symbolene i ISO-8859-1 i de andre ISO 8859-variatene. Merk ISO-8859-12 ikke finnes da arbeidet ble avsluttet.^[1]
Binærverdi	1	2	3	4	5	6	7	8	9	10	11	13	14	15	16
11000110	Æ	Ć	Ĉ	Æ	Ц	ئ	Ζ		Æ	Æ	ฦ	Ę	Æ	Æ	Æ
11011000	Ø	Ř	Ĝ	Ø	и	ظ	Ψ		Ø	Ø	ุ	Ų	Ø	Ø	Ű
11000101	Å	Ĺ	Ċ	Å	Х	إ	Ε		Å	Å	ล	Å	Å	Å	Ć
11100110	æ	ć	ĉ	æ	ц	ن	ζ	ז	æ	æ	ๆ	ę	æ	æ	v
11111000	ø	ř	ĝ	ø	ј		ψ	ר	ø	ø	๘	ų	ø	ø	ű
11100101	å	ĺ	ċ	å	х	م	ε	ו	å	å	ๅ	å	å	å	ć

For øvrig burde varsleren Edward Snowden få politisk asyl i Norge.

Oppdatering 2024-08-23: Har fått innspill om at det norske ordet for japanske mojibake er tegnsalat.

Tags: noark5, norsk, standard.

Nikita version 0.6 released - free software archive API server

10th June 2021

I am very pleased to be able to share with you the announcement of a new version of the archiving system Nikita published by its lead developer Thomas Sødring:

It is with great pleasure that we can announce a new release of nikita. Version 0.6 (https://gitlab.com/OsloMet-ABI/nikita-noark5-core). This release makes new record keeping functionality available. This really is a maturity release. Both in terms of functionality but also code. Considerable effort has gone into refactoring the codebase and simplifying the code. Notable changes for this release include:

Significantly improved OData parsing

Support for business specific metadata and national identifiers

Continued implementation of domain model and endpoints

Improved testing

Ability to export and import from arkivstruktur.xml

We are currently in the process of reaching an agreement with an archive institution to publish their picture archive using nikita with business specific metadata and we hope that we can share this with you soon. This is an interesting project as it allows the organisation to bring an older picture archive back to life while using the original metadata values stored as business specific metadata. Combined with OData means the scope and use of the archive is significantly increased and will showcase both the flexibility and power of Noark.

I really think we are approaching a version 1.0 of nikita, even though there is still a lot of work to be done. The notable work at the moment is to implement access-control and full text indexing of documents.

My sincere thanks to everyone who has contributed to this release!

- Thomas

Release 0.6 2021-06-10 (d1ba5fc7e8bad0cfdce45ac20354b19d10ebbc7b)

Refactor metadata entity search

Remove redundant security configuration

Make OpenAPI documentation work

Change database structure / inheritance model to a more sensible approach

Make it possible to move entities around the fonds structure

Implemented a number of missing endpoints

Make sure yml files are in sync

Implemented/finalised storing and use of

Business Specific Metadata

Norwegian National Identifiers

Cross Reference

Keyword

StorageLocation

Author

Screening for relevant objects

ChangeLog

EventLog

Make generation of updated docker image part of successful CI pipeline

Implement pagination for all list requests

Refactor code to support lists

Refactor code for readability

Standardise the controller/service code

Finalise File->CaseFile expansion and Record->registryEntry/recordNote expansion

Improved Continuous Integration (CI) approach via gitlab

Changed conversion approach to generate tagged PDF documents

Updated dependencies

For security reasons

Brought codebase to spring-boot version 2.5.0

Remove import of necessary dependencies

Remove non-used metrics classes

Added new analysis to CI including

Implemented storing of Keyword

Implemented storing of Screening and ScreeningMetadata

Improved OData support

Better support for inheritance in queries where applicable

Brought in more OData tests

Improved OData/hibernate understanding of queries

Implement $count, $orderby

Finalise $top and $skip

Make sure & is used between query parameters

Improved Testing in codebase

A new approach for integration tests to make test more readable

Introduce tests in parallel with code development for TDD approach

Remove test that required particular access to storage

Implement case-handling process from received email to case-handler

Develop required GUI elements (digital postroom from email)

Introduced leader, quality control and postroom roles

Make PUT requests return 200 OK not 201 CREATED

Make DELETE requests return 204 NO CONTENT not 200 OK

Replaced 'oppdatert*' with 'endret*' everywhere to match latest spec

Upgrade Gitlab CI to use python > 3 for CI scripts

Bug fixes

Fix missing ALLOW

Fix reading of objects from jar file during start-up

Reduce the number of warnings in the codebase

Fix delete problems

Make better use of cascade for "leaf" objects

Add missing annotations where relevant

Remove the use of ETAG for delete

Fix missing/wrong/broken rels discovered by runtest

Drop unofficial convertFil (konverterFil) end point

Fix regex problem for dateTime

Fix multiple static analysis issues discovered by coverity

Fix proxy problem when looking for object class names

Add many missing translated Norwegian to English (internal) attribute/entity names

Change UUID generation approach to allow code also set a value

Fix problem with Part/PartParson

Fix problem with empty OData search results

Fix metadata entity domain problem

General Improvements

Makes future refactoring easier as coupling is reduced

Allow some constant variables to be set from property file

Refactor code to make reflection work better across codebase

Reduce the number of @Service layer classes used in @Controller classes

Be more consistent on naming of similar variable types

Start printing rels/href if they are applicable

Cleaner / standardised approach to deleting objects

Avoid concatenation when using StringBuilder

Consolidate code to avoid duplication

Tidy formatting for a more consistent reading style across similar class files

Make throw a log.error message not an log.info message

Make throw print the log value rather than printing in multiple places

Add some missing pronom codes

Fix time formatting issue in Gitlab CI

Remove stale / unused code

Use only UUID datatype rather than combination String/UUID for systemID

Mark variables final and @NotNull where relevant to indicate intention

Change Date values to DateTime to maintain compliance with Noark 5 standard

Domain model improvements using Hypersistence Optimizer

Move @Transactional from class to methods to avoid borrowing the JDBC Connection unnecessarily

Fix OneToOne performance issues

Fix ManyToMany performance issues

Add missing bidirectional synchronization support

Fix ManyToMany performance issue

Make List<> and Set<> use final-keyword to avoid potential problems during update operations

Changed internal URLs, replaced "hateoas-api" with "api".

Implemented storing of Precedence.

Corrected handling of screening.

Corrected _links collection returned for list of mixed entity types to match the specific entity.

Improved several internal structures.

If free and open standardized archiving API sound interesting to you, please contact us on IRC (#nikita on irc.oftc.net) or email (nikita-noark mailing list).

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: english, noark5, nuug, offentlig innsyn, standard.

Nikita version 0.5 released - updated free software archive API server

2nd March 2020

Today, after many months of development, a new release of Nikita Noark 5 core project was finally announced on the project mailing list. The Nikita free software solution is an implementation of the Norwegian archive standard Noark 5 used by government offices in Norway. These were the changes in version 0.5 since version 0.4, see the email link above for links to a demo site:

Updated to Noark 5 versjon 5.0 API specification.
- Changed formatting of _links from [] to {} to match IETF draft on JSON HAL.
- Merged Registrering og Basisregistrering in version 4 to combined Registrering.
- DokumentObjekt is now subtype of ArkivEnhet.
- Introducing new entity Arkivnotat.
- Changed all relation keys to use /v5/ instead of /v4/.
- Corrected to use new official relation keys when possible.
- Renamed Sakspart to Part and connect it to Mappe, Registrering and Dokumentbeskrivelse instead of only Saksmappe.
- Moved Korrespondansepart connection from Journalpost to Registrering.
- Moved Part and Korrespondansepart from package sakarkiv to arkivstruktur.
- Renamed presedensstatus to presedensStatus.
- Use new JSON content-type "application/vnd.noark5+json".
- Updated prepopulated format list to use PRONOM codes.
- Implemented endpoint for system information.
- Implemented national identifiers for both file and record.
- Implemented comments.
- implemented sign off.
- implemented conversion.
Improved/implemented OData search and paging support for more entities.
No longer exposes attribute Dokumentobjekt.referanseDokumentfil, one should use the relation in _links instead.
Corrected relation keys under https://rel.arkivverket.no/noark5/v5/api/administrasjon/, replacing 'administrasjon' with 'admin'.
Fixed several security and stability issues discovered by Coverity.
Corrected handling ETag errors, now return code 409.
Improved handling of Kryssreferanse.
Changed internal database model to use UUID/SystemID as primary keys in tables.
Changed internal database table names to use package prefix.
Changed time zone handling for date and datetime attributes, to be more according to the new definition in the API specification.
Change revoke-token to only drop token on POST requests, not GET.
Updated to newer Spring version.
Changed primary key and URL component for metadata code lists to use the 'kode' value instead of a SystemID.
Corrected implementation of Part and Sakspart.
Changed instance lists with subtypes (like .../registrering/ and .../mappe/) to include the attributes and _links entries for the subtype in the supertype lists.
Adjusted _links relations to make it possible to figure out the entity of an instance using the self->href->relation key lookup method.
Fixed several end points to make sure GET, PUT, POST and DELETE match each other.
Updated DELETE endpoints to work with UUID based entity identifiers.
Restructured code to use more common URL related constants in entry point values and replace @RequestMapping with method specific annotations.
Added first unit test code.
Updated web GUI to work with the updated API.
Changed integer fields, enforce them as numeric.
Rewrote and simplify metadata handling to use common service and controller code instead of duplicating for each type.
Implemented the remaining metadata types.
Changed Country list source from Wikipedia to Debian iso-codes and updated the list of Countries.
Many many corrections and improvements.

If free and open standardized archiving API sound interesting to you, please contact us on IRC (#nikita on irc.freenode.net) or email (nikita-noark mailing list).

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: english, noark5, nuug, offentlig innsyn, standard.

Blockchain and IoT articles accepted into Records Management Journal

27th February 2020

On Tuesday, two scietific articles we have been working on for a while, was finally accepted for publication into Records Management Journal. Still waiting for the assigned DOI urls to start working, but you can have a look at the LaTeX originals here.

The first article is "A record-keeping approach to managing IoT-data for government agencies" (DOI 10.1108/RMJ-09-2019-0050 ) by Thomas Sødring, Petter Reinholdtsen and David Massey, and sketches some approaches for storing measurement data (aka Internet of Things sensor data) in a archive, thus providing a well defined mechanism for screening and deletion of the information

The second article is "Publishing and using record-keeping structural information in a blockchain" (DOI 10.1108/RMJ-09-2019-0056) by Thomas Sødring, Petter Reinholdtsen and Svein Ølnes, where we describe a way for third parties to validate authenticity and thus improve trust in the records kept in a archive.

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Update 2020-04-26: Initially managed to swap the DOI numbers. Fixed it.

Tags: english, noark5.

Redaksjon på plass for Noark 5 tjenestegrensesnitt

5th February 2020

Arbeidet med å lage et godt, fritt og åpent standardisert maskinelt grensesnitt for arkivering, med tilhørende fri programvareimplementasjon fortsetter. Jeg snakker om Noark 5 Tjenestegrensesnitt og Nikita. Siste nytt etter seminaret for noen dager siden, er vi i Nikita-prosjektet har fått beskjed fra Arkivverket at det blir satt ned en redaksjon for å videreutvikle spesifikasjonen. Redaksjonen består av Mona Danielsen og Anne Sofie Knutsen ved arkivverket, Thomas Sødring ved OsloMet, og meg selv fra NUUG. De to sistenevnte tar seg av de åpenbare forbedringene, mens hele redaksjonen diskuterer tvilstilfeller. Jeg håper dette vil bidra til at vi lykkes i å gjøre denne protokollspesifikasjonen så entydig og klar at den vil bidra til et velfungerende marked for arkivsystemer, og sikre at programmer som trenger å snakke med arkivsystemet kan snakke med enhver implementasjon av API-spesifikasjonen. Nikita er den første implementasjonen, men det bør blir flere.

Det gjenstår riktig nok endel før vi er i mål, selv om svært mye allerede er på plass. Med innspill og forslag til forbedringer fra alle som vil ha et leverandøruavhengig og fullstendig datamaskinlesbart grensesnitt til arkivet, så tror jeg vi vil lykkes.

Tags: noark5, norsk, standard.

Artikkel om Noark 5 Tjenestegrensesnitt og Nikita i Arkivråd nummer 3 for 2019

26th December 2019

Like før julaften ble en artikkel jeg har skrevet om vedlikehold av Noark 5 Tjenestegrensesnitt og Nikita publisert i tidsskriftet Arkivråd. Det er basert på min bloggpost om samme tema som ble publisert 2019-03-11. Jeg oppdaget nettopp at nettsiden til tidsskriftet Arkivråd er oppdatert med siste utgave, og artikkelen dermed er tilgjengelig for alle. Du finner den i PDF-en til nummer 2019/3 på side 30-33. Jeg håper leserne av tidsskriftet får lyst til å sjekke ut tjenestegrensesnittet og at artikkelen vil gjøre det enklere for flere å bidra til en enda bedre, klarere og mer entydig API-spesifikasjon. Det kan gjøre at arkivsystemet Nikita kan bli enda bedre når spesifikasjonen forbedres.

Tags: noark5, norsk, standard.

Artikkel om Nikita i Arkheion nummer 2019/2

9th December 2019

Jeg hadde i dag gleden av å oppdage at en artikkel om arkivsystemet Nikita som vi skrev i sommer, nå er publisert i Arkheion, fagtidsskrift for kommunial arkivsektor. Du finner artikkelen på side 30-33 i nummer 2019/2, PDF kan lastes ned fra nettstedet til tidsskriftet. Kanskje publiseringen kan føre til at noen flere får øynene opp for verdien av et åpent standardisert API for arkivering og søk i arkivet.

Tags: noark5, norsk, standard.

Oppdatert Noark 5 Tjenestegrenesnitt versjon 1.0 for Noark 5.5.0

5th July 2019

Jeg er veldig glad for å kunne fortelle at i går ble ny versjon av API-spesifikasjonen for Noark 5 Tjenestegrensesnitt gitt ut. Det så lenge mørkt ut for sjansene for å få inn nødvendige korreksjoner i spesifikasjonsteksten innen rimelig tid, men takket være intens og god innsats fra Mona og Anne Sofie hos Arkivverket de siste ukene, så ble resultatet som ble gitt ut på USAs uavhengighetsdag mye bedre enn jeg fryktet.

Spesifikasjonen er tilgjengelig som markdown-filer i Arkivverkets github-prosjekt for dette, og de aller fleste av forslagene til forbedringer fra oss som holder på med Nikita-prosjektet kom med i denne nye og oppdaterte spesifikasjonsteksten. Det er fortsatt mye som gjenstår før den er entydig, klar og sikrer samvirke på tvers av leverandører, men utgangspunktet er veldig mye bedre enn forrige versjon fra 2016. Ta gjerne en titt.

Ellers må jeg jo si at det var hyggelig å se at min forrige bloggpost om tjenestegrensesnittet fikk en lenke fra Arkivverket Beta.

Tags: noark5, norsk, standard.

Nikita og Noark 5 tjenestegrensesnittet tilbyr ny måte å tenke arkivering

21st June 2019

av Thomas Sødring (OsloMet) og Petter Reinholdtsen (foreningen NUUG)

Nikita Noark 5-kjerne er et fri programvareprosjekt som tar i bruk Arkivverkets spesifikasjonen for Noark 5 Tjenestegrensesnitt og tilbyr et maskinlesbart grensesnitt (arkiv-API) til datasystemer som trenger å arkivere dokumenter og informasjon. I tillegg tilbyr Nikita et nettleserbasert brukergrensesnitt for brukere av arkivet. Dette brukergrensesnittet benytter det maskinlesbare grensesnittet. Noark 5 Tjenestegrensesnitt er en ny måte å tenke arkivering, med fokus på automatisering og maskinell behandling av arkivmateriale, i stedet for å fokusere på brukergrensesnitt. En kan tenke på tjenestegrensesnittet som arkivet uten brukergrensesnitt, der flere aktører kan koble til ulike brukergrensesnitt, tilpasset ulike behov.

Historisk sett gjorde Noark standarden en veldig bra jobb med overgangen fra papir til digital saksbehandling, men det har kommet til kort på andre områder. Den teknologiske utviklingen har brakt oss ditt at vi kan og skal forvente langt mer fra en arkivkjerne enn før, men det offentlig er ofte konservativ når det gjelder nytenking. For lengst skulle begreper som samvirke mellom datasystemer, metadata, prosess og tjenestegrensesnitt (API) vært dominerende når systemer kjøpes inn. Dessverre er det slik at ikke alle ønsker samvirke mellom datasystemer velkommen, og det kan være trygt å kjøpe «svarte bokser» der du slipper å ta stilling til hvordan man skal få flere systemer til å virke sammen. Men IT-arkitektur er et begrep arkivfolk også begynner å ta inn over seg.

Slike systemer for å organisere metadata bør ha nettbaserte tjenestegrensesnitt der brukergrensesnitt er tydelig adskilt fra bakenforliggende system. Det finnes mange rapporter som snakker om å bryte ned siloer i forvaltningen og standardiserte tjenestegrensesnitt er det viktigste virkemiddel mot datasiloer og legger til rette for økt samvirke mellom systemer. Et standardisert tjenestegrensesnitt er et viktig middel for å få systemer til å samhandle da det sikrer at ulike produsenters systemer kan snakke sammen på tvers. Samfunnet fungerer ikke uten standardisering. Vi har alle samme strømstyrke og kontakter i veggene og kjører alle på høyre side av veien i Norge. Det er i en slik sammenheng at prosjektet «Noark 5 Tjenestegrensesnitt» er veldig viktig. Hvis alle leverandører av arkivsystemer forholdt seg til et standardisert tjenestegrensesnitt kunne kostnadene for arkivering reduseres. Tenk deg at du er en kommune som ønsker et fagsystem integrert med arkivløsningen din. I dag må fagsystemleverandøren vite og tilpasse seg den spesifikke versjonen og varianten av arkivløsningen du har. Hvis vi antar at alle leverandører av arkivkjerner har solgt inn enten SOAP eller REST-grensesnitt til kunder de siste 10 årene og det kommer endret versjon av grensesnittet innimellom, så gir det veldig mange forskjellige tjenestegrensesnitt en fagsystemleverandør må forholde seg til. Med 12 leverandører og kvartalsvise oppdateringer kan det potensielt bli 96 ulike varianter hvert eneste år. Det sier seg selv at det blir dyrt. Men det blir faktisk verre. Hvis du senere ønsker å bytte ut arkivsystemet med et annet så er du avhengig å få alle integrasjonene dine laget på nytt. Dette kan gjøre at du velger å forbli hos en dårlig leverandør framfor å skaffe nytt system, fordi det blir for vanskelig og dyrt å bytte. Dermed etableres det «små» monopolsituasjoner som er vanskelig å bryte ut av. Dårlige valg i dag kan ha uante kostander på sikt. I Nikita-prosjektet har vi kun jobbet opp mot Noark 5 Tjenestegrensesnittet. Det har tatt en god del ressurser å sette seg inn i spesifikasjonen og ta den i bruk, spesielt på grunn av uklarheter i spesifikasjonen. Hvis vi måtte gjøre det samme for alle versjoner og varianter av de forskjellige tjenestegrensesnittene ville det blitt veldig tidkrevende og kostbart.

For deg som arkivar er digitalisering og systemer som skal virke sammen en del av den nye hverdagen. Du har kanskje blitt skånet for det ved å kjøpe svarte bokser, men du risikerer at du gjør deg selv en bjørnetjeneste. Det kan oppleves som kjedelig å fortelle kolleger at du skal sette deg inn i et tjenestegrensesnitt, men dette er faktisk veldig spennende. Tjenestegrensesnittet er på en måte blitt levende og det er spesielt et begrep du bør merke deg: OData. Å trekke inn deler av OData-standarden som en måte å filtrere entitetsøk i et arkivsystem var et nyttig trekk i prosjektet. Følgende eksempel er en OData-spørring det går an å sende inn til en standardisert arkivkjerne:

.../sakarkiv/journalpost?filter=contains(tittel, 'nabovarsel')

Spørringen over vil hente en liste av alle dine journalposter der tittelen til journalposten inneholder ordet 'nabovarsel'. Alle leverandører som implementerer tjenestegrensesnittet vil måtte tilby dette. Det betyr at hvis du lærer dette språket for et system, vil det være gjeldende for alle. Dette er egentlig en ny måte å søke i arkivdatabasen på og vil være svært nyttig, for eksempel kan søk i tjenestegrensesnittet antagelig brukes til å hente ut offentlig postjournal. I arkivverden pleier vi å like teknologier som er menneskelesbart, da vet vi det er enkelt og nyttig! OData er også viktig fordi det kan bli en ny måte å svare innsynsforespørsler på i tråd med offentlighetsloven § 9, der retten til å kreve innsyn i sammenstilling fra databaser er nedfelt. I dag ser vi forvaltningsorganer som avviser slike krav fordi det «ikke kan gjøres med enkle framgangsmåter». Bruken av OData i tjenestegrensesnittet, sammen med maskinlesbar markeringsformater kan være et viktig bidrag til å åpne arkivene i tråd med prinsippene om en åpen og transparent forvaltning.

Standardisering er viktig fordi det kan sikre samvirke. Men den effekten kommer kun hvis standardiseringen sikrer at alle forstår standarden på samme måte, dvs. at den er entydig og klar. En god måte å sikre en entydig og klar spesifikasjon er ved å kreve at det finnes minst to ulike implementasjoner som følger spesifikasjonen og som kan snakke sammen, det vil si at de snakker samme språk, slik IETF krever for alle sine standarder, før spesifikasjonen anses å være ferdig. Tilbakemelding fra miljøet forteller at både leverandører og kunder har et avslappet forhold til Noark 5 Tjenestegrensesnitt og det er så langt kun Evry som har visst offentlig at de har en implementasjon av tjenestegrensesnittet. Evry, HK Data og Fredrikstad kommune er igang med et pilotprosjekt på Noark 5 Tjenestegrensesnitt. For å redusere kostnadene for samvirkende datasystemer betraktelig, er det veldig viktig at vi kommer i en situasjon der alle leverandører har sine egne implementasjoner av tjenestegrensesnittet, og at disse oppfører seg likt og i tråd med det som er beskrevet i spesifikasjonen.

Det er her fri programvare spiller en viktig rolle. Med en uklar standard blir det som en polsk riksdag, der ingenting fungerer. Nikita er en fri programvareimplementasjon av tjenestegrensesnitt og kan fungere som teknisk referanse slik at leverandører enklere kan se og forstå hvordan standarden skal tolkes. Vi har i Nikitaprosjektet erfart å ende opp med vidt forskjellige tolkninger når prosjektmedlemmene leser spesifikasjonsteksten, en effekt av en uklar spesifikasjon. Men Nikitaprosjektet har også utviklet et test-program som sjekker om et tjenestegrensesnitt er i samsvar med standarden, og prosjektet bruker det hele tiden for å sikre at endringer og forbedringer fungerer. Egenerklæringsskjemaenes dager kan være talte! Snart vil du selv kunne teste hver oppdatering av arkivsystemet med en uavhengig sjekk.

Fri programvare representerer en demokratisering av kunnskap der tolkning- og innlåsingsmakt flyttes fra leverandør til allmenheten. Med fri programvare har du en litt annerledes verdikjede, der selve produktet ikke holdes hemmelig for å tjene penger, slik en gjør med ufri programvare og skytjenester som ikke bruker fri programvare, men du kan tjene penger på andre deler av verdikjeden. Med fri programvare kan samfunnet betale for å videreutvikle nyttig fellesfunksjonalitet.

Nikita er en fri programvareimplementasjon av tjenestegrensesnittet og kan fungere som en referanseimplementasjon dersom det er ønskelig. Alle har lik tilgang til koden og det koster ingenting å ta den i bruk og utforske det. Nikitaprosjektet ønsker tjenestegrensesnittet velkommen og stiller veldig gjerne opp i diskusjoner om tolkning av tjenestegrensesnittet. Nikita er bygget på moderne programmeringsrammeverk og utviklet i full åpenhet. Men Nikita er ikke noe du kan kjøpe. Nikita er først og fremst et verktøy for forsking og utvikling laget for å fremme forskning på arkivfeltet. Systemer som virker sammen har alltid vært hovedfokus og vil være det fremover. Det brukes som undervisningsverktøy der studentene ved OsloMet lærer om administrativt oppsett, saksbehandling, uttrekk og samvirkende datasystemer. Det brukes også som forskningsobjekt der vi ser på import av dokumentsamlinger, bruk av blokkjede og andre nyskapende måter å tenke arkiv på. Det er dog helt greit om andre tar Nikita og pakker det for å selge det som produkt. Forvaltningsorganer med sterke drift- og utviklingsmiljøer kan også se på Nikita og utforske hva som er mulig. Dette kan de gjøre uten å måtte betale for bruksrettigheter eller tilgang til konsulenter. Men arkivering blir ikke gratis på grunn av Nikita. Det trengs fortsatt folk med kompetanse og tid til å ta i bruk Nikita.

Nikita har nylig kommet med en ny utgave, den sjette i rekken. Systemet er ikke ferdig, mest på grunn av at API-spesifikasjonen for Noark 5 Tjenestegrensesnitt ikke er ferdig, men allerede i dag kan en bruke Nikita som arkiv. Vi har laget eksempelsystem for å importere data fra deponi-XML og slik gjøre eksisterende arkivdata tilgjengelig via et API. Vi har også laget en testklient som importerer epost inn i arkivet med vedlegg der epostenes trådinformasjon brukes til å legge eposttråder i samme arkivmappe, og en annen testklient som henter epost ut av en arkivmappe på mbox-format slik at en vanlig epostklient kan brukes til å lese igjennom og svare på epostene i en arkivmappe. De som vil ta en titt på Nikita kan besøke https://nikita.oslomet.no og logge inn med brukernavn «admin@example.com» og passord «password». Dette gir tilgang til det forenklede brukergrensesnittet som brukes til undervisning. De som heller vil ta en titt under panseret kan besøke https://nikita.oslomet.no/browse.html og der se hvordan API-et fungerer mer i detalj. Innloggingsdetaljer her er det samme som for brukergrensesnittet.

Fremover er fokuset på forbedring av spesifikasjonen Noark 5 Tjenestegrensesnitt. De som skrev tjenestegrensesnittet gjorde et interessant og framtidsrettet grep, de skilte sak fra arkiv. Tjenestegrensesnittet består av flere "pakker", der noen er grunnleggende mens andre bygger på de grunnleggende pakkene. Pakkene som er beskrevet så langt heter «arkivstruktur», «sakarkiv», «administrasjon», «loggogsporing» og «moeter» (dessverre planlagt fjernet i første utgave). Etter hvert håper vi å utforske prosses- og metadatabeskrivelser til flere fagområder og bidra til at tjenestegrensesnittet kan legge til flere pakker som «byggarkiv», «barnevern», «personal», «barnehage», der arkivfaglig metadata- og dokumentasjonsbehov er kartlagt og standardisert.

Nikita utvikles av en liten prosjektgruppe, og vi er alltid interessert å bli flere. Hvis en åpen, fri og standardisert tilnærming til arkivering høres interessant ut, bli med oss på veien videre. Vi er tilstede på IRC-kanalen #nikita hos FreeNode (tilgjengelig via nettleser på https://webchat.freenode.net?channels=#nikita), og har en e-postliste nikita-noark@nuug.no hos NUUG (tilgjengelig for påmelding og arkiv på https://lists.nuug.no/mailman/listinfo/nikita-noark) der en kan følge med eller være med oss på den spennende veien videre. Spesifikasjonen for Noark 5 Tjenestegrensesnitt vedlikeholdes på github, https://github.com/arkivverket/noark5-tjenestegrensesnitt-standard/.

Som vanlig, hvis du bruker Bitcoin og ønsker å vise din støtte til det jeg driver med, setter jeg pris på om du sender Bitcoin-donasjoner til min adresse 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: noark5, norsk, standard.

Official MIME type "text/vnd.sosi" for SOSI map data

4th June 2019

Just 15 days ago, I mentioned my submission to IANA to register an official MIME type for the SOSI vector map format. This morning, just an hour ago, I was notified that the MIME type "text/vnd.sosi" is registered for this format. In addition to this registration, my file(1) patch for a pattern matching rule for SOSI files has been accepted into the official source of that program (pending a new release), and I've been told by the team behind PRONOM that the SOSI format will be included in the next release of PRONOM, which they plan to release this summer around July.

I am very happy to see all of this fall into place, for use by the Noark 5 Tjenestegrensesnitt implementations.

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: english, kart, noark5, standard.

Nikita version 0.4 released - free software archive API server

22nd May 2019

This morning, a new release of Nikita Noark 5 core project was announced on the project mailing list. The Nikita free software solution is an implementation of the Norwegian archive standard Noark 5 used by government offices in Norway. These were the changes in version 0.4 since version 0.3, see the email link above for links to a demo site:

Roll out OData handling to all endpoints where applicable
Changed the relation key for "ny-journalpost" to the official one.
Better link generation on outgoing links.
Tidy up code and make code and approaches more consistent throughout the codebase
Update rels to be in compliance with updated version in the interface standard
Avoid printing links on empty objects as they can't have links
Small bug fixes and improvements
Start moving generation of outgoing links to @Service layer so access control can be used when generating links
Log exception that was being swallowed so it's traceable
Fix name mapping problem
Update templated printing so templated should only be printed if it is set true. Requires more work to roll out across entire application.
Remove Record->DocumentObject as per domain model of n5v4
Add ability to delete lists filtered with OData
Return NO_CONTENT (204) on delete as per interface standard
Introduce support for ConstraintViolationException exception
Make Service classes extend NoarkService
Make code base respect X-Forwarded-Host, X-Forwarded-Proto and X-Forwarded-Port
Update CorrespondencePart* code to be more in line with Single Responsibility Principle
Make package name follow directory structure
Make sure Document number starts at 1, not 0
Fix isues discovered by FindBugs
Update from Date to ZonedDateTime
Fix wrong tablename
Introduce Service layer tests
Improvements to CorrespondencePart
Continued work on Class / Classificationsystem
Fix feature where authors were stored as storageLocations
Update HQL builder for OData
Update OData search capability from webpage

If free and open standardized archiving API sound interesting to you, please contact us on IRC (#nikita on irc.freenode.net) or email (nikita-noark mailing list).

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: english, noark5, nuug, offentlig innsyn, standard.

MIME type "text/vnd.sosi" for SOSI map data

20th May 2019

As part of my involvement in the work to standardise a REST based API for Noark 5, the Norwegian archiving standard, I spent some time the last few months to try to register a MIME type and PRONOM code for the SOSI file format. The background is that there is a set of formats approved for long term storage and archiving in Norway, and among these formats, SOSI is the only format missing a MIME type and PRONOM code.

What is SOSI, you might ask? To quote Wikipedia: SOSI is short for Samordnet Opplegg for Stedfestet Informasjon (literally "Coordinated Approach for Spatial Information", but more commonly expanded in English to Systematic Organization of Spatial Information). It is a text based file format for geo-spatial vector information used in Norway. Information about the SOSI format can be found in English from Wikipedia. The specification is available in Norwegian from the Norwegian mapping authority. The SOSI standard, which originated in the beginning of nineteen eighties, was the inspiration and formed the basis for the XML based Geography Markup Language.

I have so far written a pattern matching rule for the file(1) unix tool to recognize SOSI files, submitted a request to the PRONOM project to have a PRONOM ID assigned to the format (reference TNA1555078202S60), and today send a request to IANA to register the "text/vnd.sosi" MIME type for this format (referanse IANA #1143144). If all goes well, in a few months, anyone implementing the Noark 5 Tjenestegrensesnitt API spesification should be able to use an official MIME type and PRONOM code for SOSI files. In addition, anyone using SOSI files on Linux should be able to automatically recognise the format and web sites handing out SOSI files can begin providing a more specific MIME type. So far, SOSI files has been handed out from web sites using the "application/octet-stream" MIME type, which is just a nice way of stating "I do not know". Soon, we will know. :)

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: english, kart, noark5, standard.

PlantUML for text based UML diagram modelling - nice free software

25th March 2019

As part of my involvement with the Nikita Noark 5 core project, I have been proposing improvements to the API specification created by The National Archives of Norway and helped migrating the text from a version control system unfriendly binary format (docx) to Markdown in git. Combined with the migration to a public git repository (on github), this has made it possible for anyone to suggest improvement to the text.

The specification is filled with UML diagrams. I believe the original diagrams were modelled using Sparx Systems Enterprise Architect, and exported as EMF files for import into docx. This approach make it very hard to track changes using a version control system. To improve the situation I have been looking for a good text based UML format with associated command line free software tools on Linux and Windows, to allow anyone to send in corrections to the UML diagrams in the specification. The tool must be text based to work with git, and command line to be able to run it automatically to generate the diagram images. Finally, it must be free software to allow anyone, even those that can not accept a non-free software license, to contribute.

I did not know much about free software UML modelling tools when I started. I have used dia and inkscape for simple modelling in the past, but neither are available on Windows, as far as I could tell. I came across a nice list of text mode uml tools, and tested out a few of the tools listed there. The PlantUML tool seemed most promising. After verifying that the packages is available in Debian and found its Java source under a GPL license on github, I set out to test if it could represent the diagrams we needed, ie the ones currently in the Noark 5 Tjenestegrensesnitt specification. I am happy to report that it could represent them, even thought it have a few warts here and there.

After a few days of modelling I completed the task this weekend. A temporary link to the complete set of diagrams (original and from PlantUML) is available in the github issue discussing the need for a text based UML format, but please note I lack a sensible tool to convert EMF files to PNGs, so the "original" rendering is not as good as the original was in the publised PDF.

Here is an example UML diagram, showing the core classes for keeping metadata about archived documents:

@startuml
skinparam classAttributeIconSize 0

!include media/uml-class-arkivskaper.iuml
!include media/uml-class-arkiv.iuml
!include media/uml-class-klassifikasjonssystem.iuml
!include media/uml-class-klasse.iuml
!include media/uml-class-arkivdel.iuml
!include media/uml-class-mappe.iuml
!include media/uml-class-merknad.iuml
!include media/uml-class-registrering.iuml
!include media/uml-class-basisregistrering.iuml
!include media/uml-class-dokumentbeskrivelse.iuml
!include media/uml-class-dokumentobjekt.iuml
!include media/uml-class-konvertering.iuml
!include media/uml-datatype-elektronisksignatur.iuml

Arkivstruktur.Arkivskaper "+arkivskaper 1..*" <-o "+arkiv 0..*" Arkivstruktur.Arkiv
Arkivstruktur.Arkiv o--> "+underarkiv 0..*" Arkivstruktur.Arkiv
Arkivstruktur.Arkiv "+arkiv 1" o--> "+arkivdel 0..*" Arkivstruktur.Arkivdel
Arkivstruktur.Klassifikasjonssystem "+klassifikasjonssystem [0..1]" <--o "+arkivdel 1..*" Arkivstruktur.Arkivdel
Arkivstruktur.Klassifikasjonssystem "+klassifikasjonssystem [0..1]" o--> "+klasse 0..*" Arkivstruktur.Klasse
Arkivstruktur.Arkivdel "+arkivdel 0..1" o--> "+mappe 0..*" Arkivstruktur.Mappe
Arkivstruktur.Arkivdel "+arkivdel 0..1" o--> "+registrering 0..*" Arkivstruktur.Registrering
Arkivstruktur.Klasse "+klasse 0..1" o--> "+mappe 0..*" Arkivstruktur.Mappe
Arkivstruktur.Klasse "+klasse 0..1" o--> "+registrering 0..*" Arkivstruktur.Registrering
Arkivstruktur.Mappe --> "+undermappe 0..*" Arkivstruktur.Mappe
Arkivstruktur.Mappe "+mappe 0..1" o--> "+registrering 0..*" Arkivstruktur.Registrering
Arkivstruktur.Merknad "+merknad 0..*" <--* Arkivstruktur.Mappe
Arkivstruktur.Merknad "+merknad 0..*" <--* Arkivstruktur.Dokumentbeskrivelse
Arkivstruktur.Basisregistrering -|> Arkivstruktur.Registrering
Arkivstruktur.Merknad "+merknad 0..*" <--* Arkivstruktur.Basisregistrering
Arkivstruktur.Registrering "+registrering 1..*" o--> "+dokumentbeskrivelse 0..*" Arkivstruktur.Dokumentbeskrivelse
Arkivstruktur.Dokumentbeskrivelse "+dokumentbeskrivelse 1" o-> "+dokumentobjekt 0..*" Arkivstruktur.Dokumentobjekt
Arkivstruktur.Dokumentobjekt *-> "+konvertering 0..*" Arkivstruktur.Konvertering
Arkivstruktur.ElektroniskSignatur -[hidden]-> Arkivstruktur.Dokumentobjekt
@enduml

The format is quite compact, with little redundant information. The text expresses entities and relations, and there is little layout related fluff. One can reuse content by using include files, allowing for consistent naming across several diagrams. The include files can be standalone PlantUML too. Here is the content of media/uml-class-arkivskaper.iuml:

@startuml
class Arkivstruktur.Arkivskaper  {
  +arkivskaperID : string
  +arkivskaperNavn : string
  +beskrivelse : string [0..1]
}
@enduml

This is what the complete diagram for the PlantUML notation above look like:

A cool feature of PlantUML is that the generated PNG files include the entire original source diagram as text. The source (with include statements expanded) can be extracted using for example exiftool. Another cool feature is that parts of the entities can be hidden after inclusion. This allow to use include files with all attributes listed, even for UML diagrams that should not list any attributes.

The diagram also show some of the warts. Some times the layout engine place text labels on top of each other, and some times it place the class boxes too close to each other, not leaving room for the labels on the relationship arrows. The former can be worked around by placing extra newlines in the labes (ie "\n"). I did not do it here to be able to demonstrate the issue. I have not found a good way around the latter, so I normally try to reduce the problem by changing from vertical to horizontal links to improve the layout.

All in all, I am quite happy with PlantUML, and very impressed with how quickly its lead developer responds to questions. So far I got an answer to my questions in a few hours when I send an email. I definitely recommend looking at PlantUML if you need to make UML diagrams. Note, PlantUML can draw a lot more than class relations. Check out the documention for a complete list. :)

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: english, nice free software, noark5, nuug, standard.

Release 0.3 of free software archive API system Nikita announced

24th March 2019

Yesterday, a new release of Nikita Noark 5 core project was announced on the project mailing list. The free software solution is an implementation of the Norwegian archive standard Noark 5 used by government offices in Norway. These were the changes in version 0.3 since version 0.2.1 (from NEWS.md):

Improved ClassificationSystem and Class behaviour.
Tidied up known inconsistencies between domain model and hateaos links.
Added experimental code for blockchain integration.
Make token expiry time configurable at upstart from properties file.
Continued work on OData search syntax.
Started work on pagination for entities, partly implemented for Saksmappe.
Finalise ClassifiedCode Metadata entity.
Implement mechanism to check if authentication token is still valid. This allow the GUI to return a more sensible message to the user if the token is expired.
Reintroduce browse.html page to allow user to browse JSON API using hateoas links.
Fix bug in handling file/mappe sequence number. Year change was not properly handled.
Update application yml files to be in sync with current development.
Stop 'converting' everything to PDF using libreoffice. Only convert the file formats doc, ppt, xls, docx, pptx, xlsx, odt, odp and ods.
Continued code style fixing, making code more readable.
Minor bug fixes.

If free and open standardized archiving API sound interesting to you, please contact us on IRC (#nikita on irc.freenode.net) or email (nikita-noark mailing list).

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: english, noark5, nuug, offentlig innsyn, standard.

Åpen og gjennomsiktig vedlikehold av spesifikasjonen for Noark 5 Tjenestegrensesnitt

11th March 2019

Et virksomhetsarkiv for meg, er et arbeidsverktøy der en enkelt kan finne informasjonen en trenger når en trenger det, og der virksomhetens samlede kunnskap er tilgjengelig. Det må være greit å finne frem i, litt som en bibliotek. Men der et bibliotek gjerne tar vare på offentliggjort informasjon som er tilgjengelig flere steder, tar et arkiv vare på virksomhetsintern og til tider personlig informasjon som ofte kun er tilgjengelig fra et sted.

Jeg mistenker den eneste måten å sikre at arkivet inneholder den samlede kunnskapen i en virksomhet, er å bruke det som virksomhetens kunnskapslager. Det innebærer å automatisk kopiere (brev, epost, SMS-er etc) inn i arkivet når de sendes og mottas, og der filtrere vekk det en ikke vil ta vare på, og legge på metadata om det som er samlet inn for enkel gjenfinning. En slik bruk av arkivet innebærer at arkivet er en del av daglig virke, ikke at det er siste hvilested for informasjon ingen lenger har daglig bruk for. For å kunne være en del av det daglige virket må arkivet enkelt kunne integreres med andre systemer. I disse dager betyr det å tilby arkivet som en nett-tjeneste til hele virksomheten, tilgjengelig for både mennesker og datamaskiner. Det betyr i tur å både tilby nettsider og et maskinlesbart grensesnitt.

For noen år siden erkjente visjonære arkivarer fordelene med et standardisert maskinlesbart grensesnitt til organisasjonens arkiv. De gikk igang med å lage noe de kalte Noark 5 Tjenestegrensesnitt. Gjort riktig, så åpner slike maskinlesbare grensesnitt for samvirke på tvers av uavhengige programvaresystemer. Gjort feil, vil det blokkere for samvirke og bidra til leverandørinnlåsing. For å gjøre det riktig så må grensesnittet være klart og entydig beskrevet i en spesifikasjon som gjør at spesifikasjonen tolkes på samme måte uavhengig av hvem som leser den, og uavhengig av hvem som tar den i bruk.

For å oppnå klare og entydige beskrivelser i en spesifikasjon, som trengs for å kunne få en fri og åpen standard (se Digistan-definisjon), så trengs det en åpen og gjennomsiktig inngangsport med lav terskel, der de som forsøker å ta den i bruk enkelt kan få inn korreksjoner, etterlyse klargjøringer og rapportere uklarheter i spesifikasjonen. En trenger også automatiserte datasystemer som måler og sjekker at et gitt grensesnitt fungerer i tråd med spesifikasjonen.

For Noark 5 Tjenestegrensesnittet er det nå etablert en slik åpen og gjennomsiktig inngangsport på prosjekttjenesten github. Denne inngangsporten består først og fremst av en åpen portal som lar enhver se hva som er gjort av endringer i spesifikasjonsteksten over tid, men det hører også med et åpent "diskusjonsforum" der en kan komme med endringsforslag og forespørsler om klargjøringer. Alle registrerte brukere på github kan bidra med innspill til disse henvendelsene.

I samarbeide med Arkivverket har jeg fått opprettet et git-depot med spesifikasjonsteksten for tjenestegrensesnittet, der det er lagt inn historikk for endringer i teksten de siste årene, samt lagt inn endringsforslag og forespørsler om klargjøring av teksten. Bakgrunnen for at jeg bidro med dette er at jeg er involvert i Nikita-prosjektet, som lager en fri programvare-utgave av Noark 5 Tjenestegrensesnitt. Det er først når en forsøker å lage noe i tråd med en spesifikasjon at en oppdager hvor mange detaljer som må beskrives i spesifikasjonen for å sikre samhandling.

Spesifikasjonen vedlikeholdes i et rent tekstformat, for å ha et format egnet for versjonskontroll via versjontrollsystemet git. Dette gjør det både enkelt å se konkret hvilke endringer som er gjort når, samt gjør det praktisk mulig for enhver med github-konto å sende inn endringsforslag med formuleringer til spesifikasjonsteksten. Dette tekstformatet vises frem som nettsider på github, slik at en ikke trenger spesielle verktøy for å se på siste utgave av spesifikasjonen.

Fra dette rene tekstformatet kan det så avledes ulike formater, som HTML for websider, PDF for utskrift på papir og ePub for lesing med ebokleser. Avlednings-systemet (byggesystemet) bruker i dag verktøyene pandoc, latex, docbook-xsl og GNU make til transformasjonen. Tekstformatet som brukes dag er Markdown, men det vurderes å endre til formatet RST i fremtiden for bedre styring av utseende på PDF-utgaven.

Versjonskontrollsystemet git ble valgt da det er både fleksibelt, avansert og enkelt å ta i bruk. Github ble valgt (foran f.eks. Gitlab som vi bruker i Nikita), da Arkivverket allerede hadde tatt i bruk Github i andre sammenhenger.

Enkle endringer i teksten kan gjøres av priviligerte brukere direkte i nettsidene til Github, ved å finne aktuell fil som skal endres (f.eks. kapitler/03-konformitet.md), klikke på den lille bokstaven i høyre hjørne over teksten. Det kommer opp en nettside der en kan endre teksten slik en ønsker. Når en er fornøyd med endringen så må endringen "sjekkes inn" i historikken. Det gjøres ved å gi en kort beskrivelse av endringen (beskriv helst hvorfor endringen trengs, ikke hva som er endret), under overskriften "Commit changes". En kan og bør legge inn en lengre forklaring i det større skrivefeltet, før en velger om endringen skal sendes direkte til 'master'-grenen (dvs. autorativ utgave av spesifikasjonen) eller om en skal lage en ny gren for denne endringen og opprette en endringsforespørsel (aka "Pull Request"/PR). Når alt dette er gjort kan en velge "Commit changes" for å sende inn endringen. Hvis den er lagt inn i "master"-grenen så er den en offisiell del av spesifikasjonen med en gang. Hvis den derimot er en endringsforespørsel, så legges den inn i listen over forslag til endringer som venter på korrekturlesing og godkjenning.

Større endringer (for eksempel samtidig endringer i flere filer) gjøres enklest ved å hente ned en kopi av git-depoet lokalt og gjøre endringene der før endringsforslaget sendes inn. Denne prosessen er godt beskrivet i dokumentasjon fra github. Git-prosjektet som skal "klones" er https://github.com/arkivverket/noark5-tjenestegrensesnitt-standard/.

For å registrere nye utfordringer (issues) eller kommentere på eksisterende utfordringer benyttes nettsiden https://github.com/arkivverket/noark5-tjenestegrensesnitt-standard/issues. I skrivende stund er det 48 åpne og 11 avsluttede utfordringer. Et forslag til hva som bør være med når en beskriver en utfordring er tilgjengelig som utfordring #14.

For å bygge en PDF-utgave av spesifikasjonen så bruker jeg i dag en Debian GNU/Linux-maskin med en rekke programpakker installert. Når dette er på plass, så holder det å kjøre kommandoen 'make pdf html' på kommandolinjen, vente ca. 20 sekunder, før spesifikasjon.pdf og spesifikasjon.html ligger klar på disken. Verktøyene for bygging av PDF, HTML og ePub-utgave er også tilgjengelig på Windows og MacOSX.

Github bidrar med rammeverket. Men for at åpent vedlikehold av spesifikasjonen skal fungere, så trengs det folk som bidrar med sin tid og kunnskap. Arkivverket har sagt de skal bidra med innspill og godkjenne forslag til endringer, men det blir størst suksess hvis alle som bruker og lager systemer basert på Noark 5 Tjenestegrensesnitt bidrar med sin kunnskap og kommer med forslag til forebedringer. Jeg stiller. Blir du med?

Det er viktig å legge til rette for åpen diskusjon blant alle interesserte, som ikke krever at en må godta lange kontrakter med vilkår for deltagelse. Inntil Arkivverket dukker opp på IRC har vi laget en IRC-kanal der interesserte enkelt kan orientere seg og diskutere tjenestegrensesnittet. Alle er velkommen til å ta turen innom #nikita (f.eks. via irc.freenode.net) for å møte likesinnede.

Det holder dog ikke å ha en god spesifikasjon, hvis ikke de som tar den i bruk gjør en like god jobb. For å automatisk teste om et konkret tjenestegrensesnitt følger (min) forståelse av spesifikasjonsdokumentet, har jeg skrevet et program som kobler seg opp til et Noark 5v4 REST-tjeneste og tester alt den finner for å se om det er i henhold til min tolkning av spesifikasjonen. Dette verktøyet er tilgjengelig fra https://github.com/petterreinholdtsen/noark5-tester, og brukes daglig mens vi utvikler Nikita for å sikre at vi ikke introduserer nye feil. Hvis en skal sikre samvirke på tvers av ulike systemer er det helt essensielt å kunne raskt og automatisk sjekke at tjenestegrensesnittet oppfører seg som forventet. Jeg håper andre som lager sin utgave av tjenestegrensesnittet vi bruke dette verktøyet, slik at vi tidlig og raskt kan oppdage hvor vi har tolket spesifikasjonen ulikt, og dermed få et godt grunnlag for å gjøre spesifikasjonsteksten enda klarere og bedre.

Dagens beskrivelse av Noark 5 Tjenestegrensesnitt er et svært godt utgangspunkt for å gjøre virksomhetens arkiv til et dynamisk og sentralt arbeidsverktøy i organisasjonen. Blir du med å gjøre den enda bedre?

Tags: digistan, noark5, norsk, standard.

Time for an official MIME type for patches?

1st November 2018

As part of my involvement in the Nikita archive API project, I've been importing a fairly large lump of emails into a test instance of the archive to see how well this would go. I picked a subset of my notmuch email database, all public emails sent to me via @lists.debian.org, giving me a set of around 216 000 emails to import. In the process, I had a look at the various attachments included in these emails, to figure out what to do with attachments, and noticed that one of the most common attachment formats do not have an official MIME type registered with IANA/IETF. The output from diff, ie the input for patch, is on the top 10 list of formats included in these emails. At the moment people seem to use either text/x-patch or text/x-diff, but neither is officially registered. It would be better if one official MIME type were registered and used everywhere.

To try to get one official MIME type for these files, I've brought up the topic on the media-types mailing list. If you are interested in discussion which MIME type to use as the official for patch files, or involved in making software using a MIME type for patches, perhaps you would like to join the discussion?

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: debian, english, noark5, standard.

Release 0.2 of free software archive system Nikita announced

18th October 2018

This morning, the new release of the Nikita Noark 5 core project was announced on the project mailing list. The free software solution is an implementation of the Norwegian archive standard Noark 5 used by government offices in Norway. These were the changes in version 0.2 since version 0.1.1 (from NEWS.md):

Fix typos in REL names
Tidy up error message reporting
Fix issue where we used Integer.valueOf(), not Integer.getInteger()
Change some String handling to StringBuffer
Fix error reporting
Code tidy-up
Fix issue using static non-synchronized SimpleDateFormat to avoid race conditions
Fix problem where deserialisers were treating integers as strings
Update methods to make them null-safe
Fix many issues reported by coverity
Improve equals(), compareTo() and hash() in domain model
Improvements to the domain model for metadata classes
Fix CORS issues when downloading document
Implementation of case-handling with registryEntry and document upload
Better support in Javascript for OPTIONS
Adding concept description of mail integration
Improve setting of default values for GET on ny-journalpost
Better handling of required values during deserialisation
Changed tilknyttetDato (M620) from date to dateTime
Corrected some opprettetDato (M600) (de)serialisation errors.
Improve parse error reporting.
Started on OData search and filtering.
Added Contributor Covenant Code of Conduct to project.
Moved repository and project from Github to Gitlab.
Restructured repository, moved code into src/ and web/.
Updated code to use Spring Boot version 2.
Added support for OAuth2 authentication.
Fixed several bugs discovered by Coverity.
Corrected handling of date/datetime fields.
Improved error reporting when rejecting during deserializatoin.
Adjusted default values provided for ny-arkivdel, ny-mappe, ny-saksmappe, ny-journalpost and ny-dokumentbeskrivelse.
Several fixes for korrespondansepart*.
Updated web GUI:
- Now handle both file upload and download.
- Uses new OAuth2 authentication for login.
- Forms now fetches default values from API using GET.
- Added RFC 822 (email), TIFF and JPEG to list of possible file formats.

The changes and improvements are extensive. Running diffstat on the changes between git tab 0.1.1 and 0.2 show 1098 files changed, 108666 insertions(+), 54066 deletions(-).

If free and open standardized archiving API sound interesting to you, please contact us on IRC (#nikita on irc.freenode.net) or email (nikita-noark mailing list).

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: english, noark5, nuug, offentlig innsyn, standard.

Fetching trusted timestamps using the rfc3161ng python module

8th October 2018

I have earlier covered the basics of trusted timestamping using the 'openssl ts' client. See blog post for 2014, 2016 and 2017 for those stories. But some times I want to integrate the timestamping in other code, and recently I needed to integrate it into Python. After searching a bit, I found the rfc3161 library which seemed like a good fit, but I soon discovered it only worked for python version 2, and I needed something that work with python version 3. Luckily I next came across the rfc3161ng library, a fork of the original rfc3161 library. Not only is it working with python 3, it have fixed a few of the bugs in the original library, and it has an active maintainer. I decided to wrap it up and make it available in Debian, and a few days ago it entered Debian unstable and testing.

Using the library is fairly straight forward. The only slightly problematic step is to fetch the required certificates to verify the timestamp. For some services it is straight forward, while for others I have not yet figured out how to do it. Here is a small standalone code example based on of the integration tests in the library code:

#!/usr/bin/python3

"""

Python 3 script demonstrating how to use the rfc3161ng module to
get trusted timestamps.

The license of this code is the same as the license of the rfc3161ng
library, ie MIT/BSD.

"""

import os
import pyasn1.codec.der
import rfc3161ng
import subprocess
import tempfile
import urllib.request

def store(f, data):
    f.write(data)
    f.flush()
    f.seek(0)

def fetch(url, f=None):
    response = urllib.request.urlopen(url)
    data = response.read()
    if f:
        store(f, data)
    return data

def main():
    with tempfile.NamedTemporaryFile() as cert_f,\
    	 tempfile.NamedTemporaryFile() as ca_f,\
    	 tempfile.NamedTemporaryFile() as msg_f,\
    	 tempfile.NamedTemporaryFile() as tsr_f:

        # First fetch certificates used by service
        certificate_data = fetch('https://freetsa.org/files/tsa.crt', cert_f)
        ca_data_data = fetch('https://freetsa.org/files/cacert.pem', ca_f)

        # Then timestamp the message
        timestamper = \
            rfc3161ng.RemoteTimestamper('http://freetsa.org/tsr',
                                        certificate=certificate_data)
        data = b"Python forever!\n"
        tsr = timestamper(data=data, return_tsr=True)

        # Finally, convert message and response to something 'openssl ts' can verify
        store(msg_f, data)
        store(tsr_f, pyasn1.codec.der.encoder.encode(tsr))
        args = ["openssl", "ts", "-verify",
                "-data", msg_f.name,
	        "-in", tsr_f.name,
		"-CAfile", ca_f.name,
                "-untrusted", cert_f.name]
        subprocess.check_call(args)

if '__main__' == __name__:
   main()

The code fetches the required certificates, store them as temporary files, timestamp a simple message, store the message and timestamp to disk and ask 'openssl ts' to verify the timestamp. A timestamp is around 1.5 kiB in size, and should be fairly easy to store for future use.

As usual, if you use Bitcoin and want to show your support of my activities, please send Bitcoin donations to my address 15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b.

Tags: english, noark5, sikkerhet.

Release 0.1.1 of free software archive system Nikita announced

10th June 2017

I am very happy to report that the Nikita Noark 5 core project tagged its second release today. The free software solution is an implementation of the Norwegian archive standard Noark 5 used by government offices in Norway. These were the changes in version 0.1.1 since version 0.1.0 (from NEWS.md):

Continued work on the angularjs GUI, including document upload.
Implemented correspondencepartPerson, correspondencepartUnit and correspondencepartInternal
Applied for coverity coverage and started submitting code on regualr basis.
Started fixing bugs reported by coverity
Corrected and completed HATEOAS links to make sure entire API is available via URLs in _links.
Corrected all relation URLs to use trailing slash.
Add initial support for storing data in ElasticSearch.
Now able to receive and store uploaded files in the archive.
Changed JSON output for object lists to have relations in _links.
Improve JSON output for empty object lists.
Now uses correct MIME type application/vnd.noark5-v4+json.
Added support for docker container images.
Added simple API browser implemented in JavaScript/Angular.
Started on archive client implemented in JavaScript/Angular.
Started on prototype to show the public mail journal.
Improved performance by disabling Sprint FileWatcher.
Added support for 'arkivskaper', 'saksmappe' and 'journalpost'.
Added support for some metadata codelists.
Added support for Cross-origin resource sharing (CORS).
Changed login method from Basic Auth to JSON Web Token (RFC 7519) style.
Added support for GET-ing ny-* URLs.
Added support for modifying entities using PUT and eTag.
Added support for returning XML output on request.
Removed support for English field and class names, limiting ourself to the official names.
...

If this sound interesting to you, please contact us on IRC (#nikita on irc.freenode.net) or email (nikita-noark mailing list).

Tags: english, noark5, nuug, offentlig innsyn, standard.

Idea for storing trusted timestamps in a Noark 5 archive

7th June 2017

This is a copy of an email I posted to the nikita-noark mailing list. Please follow up there if you would like to discuss this topic. The background is that we are making a free software archive system based on the Norwegian Noark 5 standard for government archives.

I've been wondering a bit lately how trusted timestamps could be stored in Noark 5. Trusted timestamps can be used to verify that some information (document/file/checksum/metadata) have not been changed since a specific time in the past. This is useful to verify the integrity of the documents in the archive.

Then it occured to me, perhaps the trusted timestamps could be stored as dokument variants (ie dokumentobjekt referered to from dokumentbeskrivelse) with the filename set to the hash it is stamping?

Given a "dokumentbeskrivelse" with an associated "dokumentobjekt", a new dokumentobjekt is associated with "dokumentbeskrivelse" with the same attributes as the stamped dokumentobjekt except these attributes:

format -> "RFC3161"
mimeType -> "application/timestamp-reply"
formatDetaljer -> "<source URL for timestamp service>"
filenavn -> "<sjekksum>.tsr"

This assume a service following IETF RFC 3161 is used, which specifiy the given MIME type for replies and the .tsr file ending for the content of such trusted timestamp. As far as I can tell from the Noark 5 specifications, it is OK to have several variants/renderings of a dokument attached to a given dokumentbeskrivelse objekt. It might be stretching it a bit to make some of these variants represent crypto-signatures useful for verifying the document integrity instead of representing the dokument itself.

Using the source of the service in formatDetaljer allow several timestamping services to be used. This is useful to spread the risk of key compromise over several organisations. It would only be a problem to trust the timestamps if all of the organisations are compromised.

The following oneliner on Linux can be used to generate the tsr file. $input is the path to the file to checksum, and $sha256 is the SHA-256 checksum of the file (ie the ".tsr" value mentioned above).

openssl ts -query -data "$inputfile" -cert -sha256 -no_nonce \
  | curl -s -H "Content-Type: application/timestamp-query" \
      --data-binary "@-" http://zeitstempel.dfn.de > $sha256.tsr

To verify the timestamp, you first need to download the public key of the trusted timestamp service, for example using this command:

wget -O ca-cert.txt \
  https://pki.pca.dfn.de/global-services-ca/pub/cacert/chain.txt

Note, the public key should be stored alongside the timestamps in the archive to make sure it is also available 100 years from now. It is probably a good idea to standardise how and were to store such public keys, to make it easier to find for those trying to verify documents 100 or 1000 years from now. :)

The verification itself is a simple openssl command:

openssl ts -verify -data $inputfile -in $sha256.tsr \
  -CAfile ca-cert.txt -text

Is there any reason this approach would not work? Is it somehow against the Noark 5 specification?

Tags: english, noark5, offentlig innsyn, standard.

Epost inn som arkivformat i Riksarkivarens forskrift?

27th April 2017

I disse dager, med frist 1. mai, har Riksarkivaren ute en høring på sin forskrift. Som en kan se er det ikke mye tid igjen før fristen som går ut på søndag. Denne forskriften er det som lister opp hvilke formater det er greit å arkivere i Noark 5-løsninger i Norge.

Jeg fant høringsdokumentene hos Norsk Arkivråd etter å ha blitt tipset på epostlisten til fri programvareprosjektet Nikita Noark5-Core, som lager et Noark 5 Tjenestegresesnitt. Jeg er involvert i Nikita-prosjektet og takket være min interesse for tjenestegrensesnittsprosjektet har jeg lest en god del Noark 5-relaterte dokumenter, og til min overraskelse oppdaget at standard epost ikke er på listen over godkjente formater som kan arkiveres. Høringen med frist søndag er en glimrende mulighet til å forsøke å gjøre noe med det. Jeg holder på med egen høringsuttalelse, og lurer på om andre er interessert i å støtte forslaget om å tillate arkivering av epost som epost i arkivet.

Er du igang med å skrive egen høringsuttalelse allerede? I så fall kan du jo vurdere å ta med en formulering om epost-lagring. Jeg tror ikke det trengs så mye. Her et kort forslag til tekst:

Viser til høring sendt ut 2017-02-17 (Riksarkivarens referanse 2016/9840 HELHJO), og tillater oss å sende inn noen innspill om revisjon av Forskrift om utfyllende tekniske og arkivfaglige bestemmelser om behandling av offentlige arkiver (Riksarkivarens forskrift).

Svært mye av vår kommuikasjon foregår i dag på e-post. Vi foreslår derfor at Internett-e-post, slik det er beskrevet i IETF RFC 5322, https://tools.ietf.org/html/rfc5322. bør inn som godkjent dokumentformat. Vi foreslår at forskriftens oversikt over godkjente dokumentformater ved innlevering i § 5-16 endres til å ta med Internett-e-post.

Som del av arbeidet med tjenestegrensesnitt har vi testet hvordan epost kan lagres i en Noark 5-struktur, og holder på å skrive et forslag om hvordan dette kan gjøres som vil bli sendt over til arkivverket så snart det er ferdig. De som er interesserte kan følge fremdriften på web.

Oppdatering 2017-04-28: I dag ble høringuttalelsen jeg skrev sendt inn av foreningen NUUG.

Tags: noark5, norsk, offentlig innsyn, standard.

Free software archive system Nikita now able to store documents

19th March 2017

The Nikita Noark 5 core project is implementing the Norwegian standard for keeping an electronic archive of government documents. The Noark 5 standard document the requirement for data systems used by the archives in the Norwegian government, and the Noark 5 web interface specification document a REST web service for storing, searching and retrieving documents and metadata in such archive. I've been involved in the project since a few weeks before Christmas, when the Norwegian Unix User Group announced it supported the project. I believe this is an important project, and hope it can make it possible for the government archives in the future to use free software to keep the archives we citizens depend on. But as I do not hold such archive myself, personally my first use case is to store and analyse public mail journal metadata published from the government. I find it useful to have a clear use case in mind when developing, to make sure the system scratches one of my itches.

If you would like to help make sure there is a free software alternatives for the archives, please join our IRC channel (#nikita on irc.freenode.net) and the project mailing list.

When I got involved, the web service could store metadata about documents. But a few weeks ago, a new milestone was reached when it became possible to store full text documents too. Yesterday, I completed an implementation of a command line tool archive-pdf to upload a PDF file to the archive using this API. The tool is very simple at the moment, and find existing fonds, series and files while asking the user to select which one to use if more than one exist. Once a file is identified, the PDF is associated with the file and uploaded, using the title extracted from the PDF itself. The process is fairly similar to visiting the archive, opening a cabinet, locating a file and storing a piece of paper in the archive. Here is a test run directly after populating the database with test data using our API tester:

~/src//noark5-tester$ ./archive-pdf mangelmelding/mangler.pdf
using arkiv: Title of the test fonds created 2017-03-18T23:49:32.103446
using arkivdel: Title of the test series created 2017-03-18T23:49:32.103446

 0 - Title of the test case file created 2017-03-18T23:49:32.103446
 1 - Title of the test file created 2017-03-18T23:49:32.103446
Select which mappe you want (or search term): 0
Uploading mangelmelding/mangler.pdf
  PDF title: Mangler i spesifikasjonsdokumentet for NOARK 5 Tjenestegrensesnitt
  File 2017/1: Title of the test case file created 2017-03-18T23:49:32.103446
~/src//noark5-tester$

You can see here how the fonds (arkiv) and serie (arkivdel) only had one option, while the user need to choose which file (mappe) to use among the two created by the API tester. The archive-pdf tool can be found in the git repository for the API tester.

In the project, I have been mostly working on the API tester so far, while getting to know the code base. The API tester currently use the HATEOAS links to traverse the entire exposed service API and verify that the exposed operations and objects match the specification, as well as trying to create objects holding metadata and uploading a simple XML file to store. The tester has proved very useful for finding flaws in our implementation, as well as flaws in the reference site and the specification.

The test document I uploaded is a summary of all the specification defects we have collected so far while implementing the web service. There are several unclear and conflicting parts of the specification, and we have started writing down the questions we get from implementing it. We use a format inspired by how The Austin Group collect defect reports for the POSIX standard with their instructions for the MANTIS defect tracker system, in lack of an official way to structure defect reports for Noark 5 (our first submitted defect report was a request for a procedure for submitting defect reports :).

The Nikita project is implemented using Java and Spring, and is fairly easy to get up and running using Docker containers for those that want to test the current code base. The API tester is implemented in Python.

Tags: english, noark5, nuug, offentlig innsyn, standard.

Hva «mangler» i OEP - litt statistikk utledet fra saksnummer og dokumentnummer

29th January 2015

En ting jeg har lurt på når det gjelder offentlige postjournaler, er hvor stor andel av det som ligger i de interne databasene kommer ikke med i postjournalen. Dette er det mulig å finne ut basert på det som ligger i postjournalen. For å forstå hva jeg mener, trengs det litt bakgrunnsinformasjon. I henhold til NOARK-standarden for norske offentlige arkiv skal enhver sak ha et årstall og et løpenummer, og ethvert dokument i saken skal gis et dokument-løpenummer. Det vil si at en ender opp med dokument-ID som ser ut som ÅÅÅÅ/SAKNR-DOKNR, f.eks. 2014/2-1 eller 2014/12312-14. Mange oppgir kun tosifret årstall, men prinsippet er det samme. Så vidt jeg vet skal saksnummer og dokumentnummer tildeles løpende og i stigende rekkefølge. Gitt en instans med følgende dokument-ID i postjournalen, så kan en regne ut hvor mye som ikke finnes i journalen:

2014/2-1
2014/5-1
2014/5-3

Her ser en at saksnummer 2 og 5 finnes i postjournalen, mens nummerene 1, 3 og 4 mangler. En ser også at i sak 2014/5 mangler dokument 2. Ved hjelp av denne informasjonen har jeg regnet ut hvor stor andel av saksnummer og dokumentløpenummer som ikke har dukket opp i Offentlig Elektronisk Postjournal (OEP). For saksnummer har jeg tatt utgangspunkt i at en ikke trenger å starte på 1, og dermed regnet med området fra laveste til høyeste saksnummer og talt antall unike saksnummer som forekommer i OEP. I dette tilfellet betyr de at 2 av 4 saksnummer er ubrukte (50%). For dokumentløpenummer har jeg tilsvarende tatt utgangspunkt i laveste og høyeste kjente dokumentløpenummer, for å handtere databaser der jeg mangler komplett postjournal. For sak 2014/5 her betyr det at 1 av 3 dokumenter mangler (33%).

Det er flere årsaker til at det kan bli hull i nummerseriene. Feilføring der et dokument tildeles et nytt saksnummer ved en feil, og deretter flyttes inn i riktig sak vil gi et ubrukt saksnummer, da saksnummer skal tildeles i stigende rekkefølge og en ikke får opprette nye saker innimellom gamle saker. Tilsvarende kan skje med dokument-løpenummer. Det er jo heller ikke sikkert at et saksnummer i OEP er det samme som løpenummeret som brukes som saksnummeret i instansens interne datasystem. Kanskje snakker vi om ulike ontologier der en delmengde av interne saksnummer tilsvarer saksnummer i OEP. Hvis like nummer også tildeles andre ting enn saker som skal til OEP vil en tilsvarende få «hull» i saksnumrene i postjournalen.

Jeg er litt usikker på hva denne statistikken egentlig viser, og heller ikke sikker på om det er reelt sett mangler i OEP (som kanskje kunne anses å være kritikkverdig), bare er resultatet av hendelige uhell i nummertildelingen eller resultat av ulik ontologi i OEP og instansens datasystem. Men jeg syntes tallene og variasjonen var så interessant at jeg hadde lyst til å dele dem med mine lesere. Jeg har sortert listen på prosent upubliserte saksnummer for 2014.

Saksnummer						Dokumentnummer			Instans
2014			2013			2014
%	Upubl. saksnr.	Totalt	%	Upubl. saksnr	Totalt	%	Upubl. dok.nr.	Totalt
0.6	8	1282	0.2	2	861	0.0	0	6105	Vox, nasjonalt fagorgan for kompetansepolitikk
0.9	91	9863	2.7	313	11703	0.0	0	24029	Direktoratet for byggkvalitet
1.0	161	15663	3.3	558	17045	0.0	0	41954	Justervesenet
1.1	325	28515	1.2	357	29621	0.0	0	66871	Arkivverket
1.8	28	1568	1.0	17	1722	0.0	0	9259	Statistisk sentralbyrå
1.8	92	5066	75.4	3144	4169	0.0	0	17056	Arbeids- og sosialdepartementet
2.2	32	1470	2.4	36	1471	0.0	0	9757	Norsk Filminstitutt
2.3	34	1478	2.9	41	1425	0.0	0	4522	Datatilsynet
2.7	49	1795	2.8	34	1199	0.0	0	5824	Direktoratet for mineralforvaltning med Bergmesteren for Svalbard
3.1	134	4326	2.8	144	5119	0.0	0	12223	Brønnøysundregistrene
3.1	201	6571	6.1	603	9870	0.0	0	22390	Statens kartverk
3.2	228	7092	2.0	143	7032	0.1	14	24491	Lotteri- og stiftelsestilsynet
3.6	32	891	4.9	37	753	0.0	0	3055	Statens innkrevingssentral
3.8	1016	26466	2.5	716	28727	0.0	0	86951	Husbanken
3.9	52	1326	14.4	180	1247	0.0	0	4922	Sysselmannen på Svalbard
4.0	248	6250	4.6	332	7159	0.0	0	22063	Post- og teletilsynet
4.1	102	2488	2.7	62	2291	0.0	0	9707	Forbrukerombudet
4.8	51	1060	12.6	132	1046	0.0	0	3616	Statens strålevern
5.2	924	17781	6.3	1184	18665	0.0	0	59772	Fiskeridirektoratet
5.5	254	4638	6.1	315	5168	0.0	0	15470	Barne-, likestillings- og inkluderingsdepartementet
6.0	80	1336	3.7	48	1314	0.0	0	2691	Medietilsynet
6.1	91	1486	5.0	83	1651	0.2	17	7473	Petroleumstilsynet
6.2	248	3997	73.7	3459	4693	0.0	0	10963	Klima- og miljødepartementet
7.0	190	2700	10.2	207	2033	0.0	1	14299	Samferdselsdepartementet
7.1	35	492	4.5	41	909	0.0	0	2960	Konkurransetilsynet
7.1	482	6800	6.4	532	8259	0.0	0	28684	Justis- og beredskapsdepartementet
7.2	87	1204	4.2	50	1199	0.0	3	7428	Oljedirektoratet
7.2	106	1478	6.3	129	2045	0.0	2	4987	Statens jernbanetilsyn
7.2	131	1813	8.5	124	1452	0.0	2	8758	Statsministerens kontor
7.3	816	11218	6.1	655	10665	0.0	0	47160	Norges forskningsråd
7.8	1150	14712	6.7	746	11202	0.0	0	33794	Miljødirektoratet
7.9	411	5216	8.3	446	5365	0.0	0	16441	Helse- og omsorgsdepartementet
8.3	376	4514	8.2	457	5548	0.0	3	20840	Luftfartstilsynet
8.5	185	2181	9.8	175	1780	0.0	0	7669	Landbruks- og matdepartementet
8.6	10	116	0.8	1	127	0.0	0	318	Statens institutt for rusmiddelforskning
9.0	597	6648	9.7	705	7236	0.0	3	35663	Utdanningsdirektoratet
9.0	1139	12632	8.2	1100	13344	0.0	2	36987	Finanstilsynet
9.1	540	5949	13.4	769	5743	0.0	0	13908	Finansdepartementet
9.2	256	2787	6.5	203	3147	0.0	0	9487	Riksantikvaren - Direktoratet for kulturminneforvaltning
9.3	1596	17209	2.5	463	18438	0.0	0	53119	Statens legemiddelverk
9.7	299	3085	10.7	329	3072	0.1	6	7579	Forsvarsdepartementet
10.1	167	1650	4.5	65	1445	0.0	0	11157	Statens helsetilsyn
10.9	59	542	7.7	44	569	0.0	0	1283	Statens arbeidsmiljøinstitutt
11.3	46	407	96.1	2591	2695	0.0	0	1489	Landbruksdirektoratet Alta
11.4	675	5933	13.6	613	4492	0.0	0	24598	Kystverket
11.6	739	6383	12.2	748	6121	0.0	1	18605	Kunnskapsdepartementet
11.9	641	5398	9.3	432	4655	0.0	0	14438	Kulturdepartementet
11.9	934	7835	0.0	0	0	0.0	0	33448	Kommunal- og moderniseringsdepartementet
12.1	588	4860	12.2	522	4294	0.0	0	14173	Politidirektoratet
12.1	1444	11893	46.0	5212	11331	0.0	0	51438	Helsedirektoratet
12.6	220	1745	17.5	112	640	0.1	3	4184	Språkrådet
12.7	211	1664	9.7	226	2318	0.0	0	9151	Direktoratet for utviklingssamarbeid
13.9	321	2309	15.1	329	2185	0.0	0	6307	Olje- og energidepartementet
14.3	429	2996	12.5	303	2432	0.0	0	7560	Nasjonalt folkehelseinstitutt
14.4	1408	9785	0.0	0	0	0.0	0	38923	Nærings- og fiskeridepartementet
14.7	143	973	7.7	83	1084	0.0	0	4130	Utlendingsnemnda
15.8	173	1097	38.8	621	1602	0.0	0	7557	Direktoratet for forvaltning og IKT
16.7	1345	8069	8.6	703	8219	0.0	0	20834	Norges vassdrags- og energidirektorat
17.5	61	348	17.2	67	389	0.0	0	7732	Senter for internasjonalisering av utdanning
18.9	3737	19734	4.4	606	13752	0.0	0	49938	Direktoratet for samfunnssikkerhet og beredskap
19.1	1392	7269	19.1	1263	6601	0.0	0	19869	Fylkesmannen i Troms
20.4	768	3758	15.7	471	3008	0.1	9	11280	Integrerings- og mangfoldsdirektoratet
21.0	995	4737	17.8	978	5508	0.0	0	11260	Fylkesmannen i Sogn og Fjordane
21.6	16	74	97.3	2626	2698	0.0	0	155	Statens reindriftsforvaltning
22.1	96	435	17.6	81	459	0.2	3	1943	Norges geologiske undersøkelse
22.3	27	121	10.6	15	141	0.1	1	779	Kunst i offentlige rom
22.4	1939	8659	21.8	1992	9120	0.0	1	17738	Fylkesmannen i Nordland
22.5	52	231	14.7	32	217	0.0	0	896	Fredskorpset
22.5	2017	8957	95.5	40498	42425	0.0	0	14223	Statens landbruksforvaltning
22.9	116	507	15.2	81	532	0.0	0	2069	Nasjonalbiblioteket
25.5	211	829	20.8	205	987	0.0	0	3867	Direktoratet for økonomistyring
26.1	6	23	9.7	3	31	0.0	0	106	Kompetansesenter for distriktsutvikling
26.6	187	702	28.5	248	871	0.0	1	3154	Nasjonalt organ for kvalitet i utdanningen
27.1	90	332	13.2	41	311	0.0	0	2400	Norsk Akkreditering
28.3	562	1986	20.0	518	2586	0.0	0	6267	Statens lånekasse for utdanning
28.8	443	1538	41.0	688	1679	0.0	0	5556	Havforskningsinstituttet
29.8	1473	4944	24.8	1047	4230	0.0	0	9850	Utlendingsdirektoratet
29.8	1563	5249	31.0	1421	4588	0.0	0	15660	Fylkesmannen i Finnmark
30.8	314	1021	58.4	941	1610	0.3	13	3979	Direktoratet for nødkommunikasjon
31.4	463	1475	37.0	280	757	0.1	7	4797	Domstoladministrasjonen
31.8	4708	14785	25.2	2236	8879	0.0	2	39313	Utenriksdepartementet
36.1	526	1456	76.6	1364	1781	0.0	0	4472	Departementenes sikkerhets- og serviceorganisasjon
36.7	447	1217	63.8	1503	2355	1.8	92	5121	Garantiinstituttet for eksportkreditt
38.2	3341	8744	34.7	3096	8927	0.0	3	15180	Fylkesmannen i Oppland
39.3	6267	15947	37.7	6262	16606	0.1	15	29707	Fylkesmannen i Hordaland
39.6	2122	5365	41.3	2242	5428	0.0	0	12680	Fylkesmannen i Telemark
40.8	3137	7698	37.0	3059	8272	0.0	5	13848	Fylkesmannen i Nord-Trøndelag
42.1	1528	3627	19.2	529	2750	0.0	1	13524	Statsbygg
42.4	2844	6700	42.4	2913	6863	0.0	0	12090	Fylkesmannen i Vest-Agder
42.9	6	14	88.9	2398	2698	0.0	0	23	Reindriftsforvaltningen
43.3	3310	7645	42.6	3369	7908	0.0	0	15739	Fylkesmannen i Vestfold
43.4	3433	7905	40.8	3508	8594	0.0	0	12921	Fylkesmannen i Møre og Romsdal
43.4	5540	12773	40.1	5429	13534	0.0	0	22389	Fylkesmannen i Rogaland
43.6	2334	5350	39.5	2314	5861	0.0	0	9997	Fylkesmannen i Aust-Agder
43.7	2656	6079	23.1	890	3853	0.1	21	18064	Forsvarsbygg
48.9	4276	8747	48.0	4189	8734	0.0	0	16281	Fylkesmannen i Buskerud
50.9	5106	10024	45.7	4584	10022	0.0	0	15340	Fylkesmannen i Sør-Trøndelag
51.4	4477	8703	45.8	4240	9253	0.0	5	12067	Fylkesmannen i Hedmark
51.5	210	408	36.8	656	1785	0.0	0	658	Departementenes servicesenter
52.7	4663	8852	46.6	4110	8824	0.0	0	13869	Fylkesmannen i Østfold
59.7	14852	24867	56.6	14366	25404	0.0	0	38706	Fylkesmannen i Oslo og Akershus
61.1	44900	73495	95.1	40365	42462	0.0	11	63747	Landbruksdirektoratet Oslo
63.8	68121	106802	18.5	7592	41093	0.0	0	144950	Arbeidstilsynet
69.8	110225	157962	70.8	105811	149449	0.0	14	106772	Statens vegvesen Region øst
72.2	16772	23215	95.2	16409	17238	0.0	0	16705	Norsk kulturråd
78.6	124131	157956	77.6	115949	149462	0.0	0	77689	Statens vegvesen Region sør
80.7	55587	68896	71.9	36121	50269	0.0	0	42152	Sjøfartsdirektoratet
81.0	128006	157956	80.1	119743	149456	0.0	8	74195	Statens vegvesen Region vest
87.2	137798	157962	87.6	130971	149449	0.0	9	50814	Statens vegvesen Region midt
88.0	12239	13902	86.1	19158	22244	0.0	0	5492	Barne-, ungdoms- og familiedirektoratet
90.8	143453	157956	90.6	135441	149453	0.0	0	39961	Statens vegvesen Region nord
93.8	5865	6250	99.3	7093	7140	0.0	0	984	Nasjonal kommunikasjonsmyndighet
95.3	4655	4883	94.3	3819	4049	0.1	1	967	Landinfo
96.2	151935	157870	96.0	143497	149452	0.0	0	19555	Statens vegvesen Vegdirektoratet
97.5	100799	103373	96.9	119802	123636	0.0	0	7605	Toll- og avgiftsdirektoratet
97.7	24104	24666	98.2	23640	24062	0.2	5	2108	Kriminalomsorgsdirektoratet
98.3	60845	61922	98.3	58575	59605	0.0	0	2837	Statens pensjonskasse
99.5	990661	995873	99.4	953094	958529	0.0	0	18246	Skattedirektoratet

Det kunne vært interessant å se hva som skjedde hvis en ba om innsyn i en dokument-ID som ikke finnes i OEP... :) Det hadde også vært interessant å få vite hva årsaken til at noen saksnummer ikke dukker opp i OEP der det er få og mange. Jeg mistenker jo at årsaken ikke er den samme hos Skattedirektoratet og hos Landinfo, selv om andelen upubliserte nummer er ganske lik.

Tags: noark5, norsk, nuug, offentlig innsyn.

Hvordan bør RFC 822-formattert epost lagres i en NOARK5-database?

7th March 2014

For noen uker siden ble NXCs fri programvarelisenserte NOARK5-løsning presentert hos NUUG (video på youtube foreløbig), og det fikk meg til å titte litt mer på NOARK5, standarden for arkivhåndtering i det offentlige Norge. Jeg lurer på om denne kjernen kan være nyttig i et par av mine prosjekter, og for ett av dem er det mest aktuelt å lagre epost. Jeg klarte ikke finne noen anbefaling om hvordan RFC 822-formattert epost (aka Internett-epost) burde lagres i NOARK5, selv om jeg vet at noen arkiver tar PDF-utskrift av eposten med sitt epostprogram og så arkiverer PDF-en (eller enda værre, tar papirutskrift og lagrer bildet av eposten som PDF i arkivet).

Det er ikke så mange formater som er akseptert av riksarkivet til langtidsoppbevaring av offentlige arkiver, og PDF og XML er de mest aktuelle i så måte. Det slo meg at det måtte da finnes en eller annen egnet XML-representasjon og at det kanskje var enighet om hvilken som burde brukes, så jeg tok mot til meg og spurte SAMDOK, en gruppe tilknyttet arkivverket som ser ut til å jobbe med NOARK-samhandling, om de hadde noen anbefalinger:

Hei.

Usikker på om dette er riktig forum å ta opp mitt spørsmål, men jeg lurer på om det er definert en anbefaling om hvordan RFC 822-formatterte epost (aka vanlig Internet-epost) bør lages håndteres i NOARK5, slik at en bevarer all informasjon i eposten (f.eks. Received-linjer). Finnes det en anbefalt XML-mapping ala den som beskrives på <URL: https://www.informit.com/articles/article.aspx?p=32074 >? Mitt mål er at det skal være mulig å lagre eposten i en NOARK5-kjerne og kunne få ut en identisk formattert kopi av opprinnelig epost ved behov.

Postmottaker hos SAMDOK mente spørsmålet heller burde stilles direkte til riksarkivet, og jeg fikk i dag svar derfra formulert av seniorrådgiver Geir Ivar Tungesvik:

Riksarkivet har ingen anbefalinger når det gjelder konvertering fra e-post til XML. Det står arkivskaper fritt å eventuelt definere/bruke eget format. Inklusive da - som det spørres om - et format der det er mulig å re-etablere e-post format ut fra XML-en. XML (e-post) dokumenter må være referert i arkivstrukturen, og det må vedlegges et gyldig XML skjema (.xsd) for XML-filene. Arkivskaper står altså fritt til å gjøre hva de vil, bare det dokumenteres og det kan dannes et utrekk ved avlevering til depot.

De obligatoriske kravene i Noark 5 standarden må altså oppfylles - etter dialog med Riksarkivet i forbindelse med godkjenning. For offentlige arkiv er det særlig viktig med filene loependeJournal.xml og offentligJournal.xml. Private arkiv som vil forholde seg til Noark 5 standarden er selvsagt frie til å bruke det som er relevant for dem av obligatoriske krav.

Det ser dermed ut for meg som om det er et lite behov for å standardisere XML-lagring av RFC-822-formatterte meldinger. Noen som vet om god spesifikasjon i så måte? I tillegg til den omtalt over, har jeg kommet over flere aktuelle beskrivelser (søk på "rfc 822 xml", så finner du aktuelle alternativer).

XML MIME Transformation protocol (XMTP) fra OpenHealth, sist oppdatert 2001.
An XML format for mail and other messages utkast fra IETF datert 2001.
xMail: E-mail as XML en artikkel fra 2003 som beskriver python-modulen rfc822 som gir ut XML-representasjon av en RFC 822-formattert epost.

Finnes det andre og bedre spesifikasjoner for slik lagring? Send meg en epost hvis du har innspill.

Tags: noark5, norsk, offentlig innsyn.

Petter Reinholdtsen

Entries tagged "noark5".

Archive

Tags