Historisch geografisch data systeem NL GIS gelanceerd

Onlangs was ik bij de presentatie van een nieuw Geografische Informatie Systeem voor historische data: NLGIS. Het doel was om een basisviewer voor historische data te ontwikkelen en de zogenaamde Historische Databank Nederlande Gemeenten publiekelijk beschikbaar te maken. Deze was een lange tijd alleen voor onderzoekers beschikbaar.

nlgisHet was een goed idee van initiatiefnemer Richard Zijdeman om deze databank en een eenvoudige viewer daarvoor aan elkaar te koppelen. De geografische component bestaat uit de omtrekken van alle Nederlandse gemeenten van 1812-1997. Een deel daarvan is al in de jaren ’80 van de 20e eeuw gemaakt. Die omtrekken stellen je dus in staat gegevens op gemeentelijk niveau voor deze periode af te beelden.

De databank over de Nederlandse gemeenten bevat zeer diverse informatie: over bevolking, uitslagen van verkiezingen, beroepsgroepen en bedrijven. De viewer voor de kaarten is bewust simpel gehouden. Je kunt er niet veel meer mee dan data in een bepaald categorie- en kleurenschema bekijken. De makers zeggen dat de data veel beter kan worden gemanipuleerd in open source GIS programma’s als QGIS. Je kunt de data nu immers downloaden. Zeer handig voor het hergebruik is dat de data en geo-informatie via API calls en open formaten als TOPOJSON en GEOJSON kan worden aangeroepen en gedownload. Heel leuk is ook dat je zelf datasets kunt toevoegen  die je in csv of excel formaat hebt gemaakt.

Dit project bestaat naast andere geografische informatie systemen op het web voor Nederlandse data. Op landelijke niveau is er pdok.nl: “Publieke dienstverlening op de kaart”, dat door overheden geproduceerde geo-informatie geeft. Het bevat ook datasets en een viewer. Bij PDOK kan men diverse kaartlagen samenbrengen, gegevens toevoegen en ook andere kaartservices aanroepen. Als NLGIS WMS ondersteuning implementeert kan daaruit ook een geografische laag worden opgenomen. Daarnaast kun je een kaart produceren om in je eigen website op te nemen.

Een ander specifiek historisch geo-informatie project is Erfgoed en locatie. Dit project wil een soort historisch georiënteerd PDOK bouwen, met nadruk op publieksgebruik, diensten en tools. Ook hier wordt dus een geo-viewer gebouwd. Wel ligt hier ook een nadruk op bruikbare apps en wordt een inventarisatie van geo-datasets gemaakt. Men wil ook een historische geocoder bouwen, waarmee geografische data door instellingen makkelijk op de kaart kan worden gezet.

Men ziet dus dat al deze initiatieven elkaar aanvullen en soms ook overlappen. Er gebeurt veel op dit terrein en er is vooruitgang.

Ik sluit af met enige kritische opmerkingen, wetende dat het NLGIS project met slechts 10.000 euro snel moest worden gemaakt en dat de initiatiefnemer de database heeft overgeleverd gekregen van anderen.

De datasets hebben geen enkele bronvermelding. Dat maakt ze eigenlijk onbruikbaar voor echt historisch onderzoek. Hier wreekt zich het feit dat de oorspronkelijke database zo lang een intern gehouden systeem was. Ik heb vernomen dat de huidige beheerders spoedig de beschikbare documentatie zullen toevoegen.  Ook zou een soort tagging van bestanden of betere titels de bruikbaarheid sterk vergroten. De geoviewer is eenvoudig. Dat geeft niet, maar de standaard-indeling van de categorieen en kleuren naar aantal een gelijk aantal ‘cases’  maakt de uitkomsten op de kaart niet erg inzichtelijk. Misschien is een maximale breuk classificatie een betere algemene oplossing? Dat is misschien iets ingewikkelder om te construeren, maar ik hoop dat dit lukt. Onder de ‘ advanced’ optie kreeg ik niet echt iets veranderd.

Toevoeging

Sinds ik dit hierboven schreef, is er wel wat verbeterd. De datasets hebben nu een bronvermelding. Dat maakt ze ineens heel veel bruikbaarder en interessanter. De bronaanduiding is echter globaal, beschrijvingen van de bron zijn summier en als meer dan een bron genoemd wordt, is het niet duidelijk wat uit welke bron komt. Om te begrijpen welke data dit eigenlijk is, zul je naar de bron zelf toe moeten. Maar die plicht hadden historici natuurlijk al lang. Vele bronnen, zoals de Volkstellingen en Bedrijfstellingen zijn nu online beschikbaar en er zullen er meer komen.

Mijn settings in /advanced kan ik echter nog steeds niet opslaan. Hier geeft de server een foutmelding.

OCLC contactdag 2 october 2012

OCLC verandert
In de afgelopen jaren heeft OCLC (een wereldwijde coöperatie van bibliotheken) webgebaseerde bibliotheek- en catalogusdiensten gebouwd die in principe de lokale bibliotheeksystemen kunnen vervangen. Dit is het World Cat systeem.  OCLC   is bezig aan een aantal grote migratie projecten om deze algemene diensten en systemen op wereldschaal en haar eigen lokale systemen te integreren. Dit betreft in Nederland vooral de GGC (Nederlands catalogiseersysteem) en Picarta (nationale publiekscatalogus). De eerste wordt gesynchroniseerd met het World Cat platform en beide zullen binnen een aantal jaar er heen migreren, zo begrijp ik.

Dit is een lang traject en de nationale systemen blijven nog wel even bestaan, en daarnaast geven vele bibliotheken hun eigen bibliotheeksysteem niet meteen op. De mogelijkheden van een webgebaseerd centraal systeem (in de “cloud” wordt dat tegenwoordig genoemd) zijn echter groot en voordelig voor vele organisaties (geen beheer, makkelijk delen van informatie).

De applicaties die daarop worden aangeboden, komen nu ook beschikbaar (catalogiseren,uitlenen, bestellen etc.) en bieden allerlei bibliotheekdiensten en meer. Men kan daarbij kiezen uit diensten en modules. Het is opgezet als een open systeem en biedt van alle onderdelen webservices. Je kunt zelf kiezen wat je afneemt en eigen applicaties kunnen toch informatie van OCLC benutten via webservices. Zo hoef je de link server van OCLC niet te gebruiken om toch in zijn systeem te catalogiseren. OCLC noemt dit geheel van bibliografische informatie (World Cat), applicaties, en webservices het World Share platform.

In Nederland haken steeds meer bibliotheken bij World Cat aan: KB, UvA, RUG, Tilburg, ik denk omdat het zichtbaarheid op het web biedt en integratie van catalogusdiensten geeft die veel dubbel werk voorkomt.

Nederland wijkt af
Ook werden wereldwijde trends in bibliotheken besproken waaruit blijkt dat in Nederland veel meer informatie door informatieprofessionals uit sociale media wordt verkregen dan elders. Bibliothecarissen gebruiken Twitter, Facebook en Blogs veel meer dan in andere landen.
Ook in de nadruk op digitalsieringsprojecten en discovery services onderscheiden Nederlandse bibliotheken zich van hun collega’s.

Linked open data
OCLC biedt nu 1 miljoen records aan als Linked open data. Ze maakt daarbij gebruik van embedded RDFa en schema.org. Het laatste is de ontologie van alle belangrijke zoekmachines op web, waar iedereen in zijn webpagina’s gebruik van kan maken. RDFa is de methode en het format om dat in een webpagina op te nemen.
Op deze manier kunnen records beter in zoekmachines als Google etc. gevonden worden en worden de records een onderdeel van het linked data web (semantisch web).

Europeana
is de grote database van Europese culturele objecten en catalogi. Met OCLC lopen diverse onderzoeksprojecten. Een daarvan is een techniek waarbij metadata van records geclusterd wordt. Op deze manier kunnen semantische relaties tussen records gevonden worden, en ook dubbele records. Zo kan een boek en een foto van de auteur ervan worden opgespoord.  De informatie kan weer teruggeven worden om kwaliteit van de input te verbeteren (het toevoegen van records). En ook bieden de clusters mogelijk nieuwe browse methoden voor publiek.

Presentaties van het congres

Kennis in praktijk – Symposium Rotterdam 27-9-2012

Kennismanagement en conversatie
In veel benaderingen van kennisdelen staan een technische invalshoek en een over mensen en cultuur tegenover elkaar. Kennis is sociaal en het gaat over mensen concluderen de voorstanders van het laatste. In onderzoeken naar wat mensen als beste middel zien om kennis te delen is de conversatie nog steeds favoriet. In de presentatie van David Gurteen werd duidelijk dat conversatie en relaties belangrijke kennismiddelen zijn, waarin ook bedrijven moeten investeren.
Een vraag die bij mij opkwam, is waarom die focus op conversatie zo sterk naar voren komt: is er dan niets veranderd, kunnen we toe met dezelfde middelen als van voor het digitale tijdperk? Of denken mensen te nostalgisch? De opkomst van sociale media laat zien dat het gesprek heel relevant is, maar met de huidige technische middelen. Al naar de gelang de situatie/context zijn bepaalde methoden vruchtbaar in te zetten, lijkt mij. Zo kunnen bepaalde oplossingen technisch/organisatorisch zijn, maar juist tot een gesprek uitnodigen. Twitter en Facebook zijn technieken/concepten met een appeal aan basisbehoeften: je zelf tonen, roddelen, spreken, uitwisselen, kringetjes vormen etc.

Aanbevelingen
Dapne Depassé deed onderzoek naar kennisdelen en gaf een aantal aanbevelingen voor Kennismanagement projecten. Een selectie:

  • Maak het concreet, gebruik geen moeilijke begrippen, visualiseer zaken om ze te verhelderen
  • Veronderstel niet te veel van te voren over wat het probleem is, hoe het werkt
  • Focus op voor wie je het doet
  • Maak vroeg een prototype, faal liefst vroeger, dan later, dat kost minder
  • Kijk hoe het er aan toegaat op de werkvloer om inzicht te krijgen in je probleem
  • Er is geen rechtlijnige weg naar de oplossing, het is altijd trial and error

Openbare Bibliotheek Nieuwegein vernieuwt
Een nieuw gebouw en een nieuwe inhoud: hoe kan de openbare bibliotheek relevant zijn? Dat was de vraag die de ontwerpers van de nieuwe functies zich stelden. Zijn vonden het antwoord in een aantal projecten.

  • Een actief aandeel van de biblioteek in het publieke domein en in de waarborging van betrouwbare informatie. Bijvoorbeeld door de samenstelling van virtuele dossiers en het organiseren van debatten en dossiers naar aanleiding van vragen uit de samenleving.
  • De inrichting van de bibliotheek gebeurt met veel interactieve schermen, die informatie over de collectie geven, die bezoekers attenderen op wat er in hun omgeving gebeurt, die educatieve spellen bevatten, die actuele kwesties visualiseren etc.
  • Toon de bibliotheek in de stad door middel van het digitale scherm, langs wegen, in de tram etc.

Samenwerken binnen de overheid
Al een jaar bestaat pleio.nl. Een webomgeving voor alle overheidsinstellingen om samenwerkingsprojecten aan te gaan, of om hun eigen deeltsite op te zetten. Er zijn samenwerkingsverbanden waarin ambtenaren eigen besloten groepen op zetten, er zijn open sites waarin diensten en burgers kunnen participeren. De sites kunnen door beheerders zelf ingericht worden. Ze bevatten vele widgets en apps om bepaalde functionaliteit toe te voegen. Sommige gemeenten gebruiken het nu zelfs voor hun intranet, en zijn dan ook gesloten voor publiek.  Er zijn zo’n 30.000 gebruikers. Het platform is ook open source.

Presentaties van het congres
Verslag van het congres

IMPACT Congres Koninklijke Bibliotheek 26 juni 2012

IMPACT is een Europees project om tot verbetering van OCR (herkenning van tekst) in digitaliseringsprojecten te komen.

Het project is nu afgerond, maar gaat verder als Expertisecentrum: http://digitisation.eu

De resultaten van het project zijn divers en veel. Voorop stond verbetering van de tekstherkenning en herkenning van oude lettertypen. Zo kan men door toepassing van de IMPACT vernieuwingen nu 15% meer woorden vinden in de 17e eeuwse Nederlandse kranten. Een aantal zaken lijken me van belang.

1. Er zijn een hele reeks tools gemaakt die gedeeltelijk vrij beschikbaar zijn (diverse licenties voor niet-commercieel gebruik)

2. Bestaande OCR engines, waaronder de overal gebruikte ABBYY Finereader engine, zijn verbeterd met de resulaten van het project. Dat betreft dus vooral verbeteringen aan de lay out en tekst herkenning.  Daarnaast ondersteunt ABBYY nu directe export naar het ALTO lay out formaat.

3. We kunnen onze digitaliseerder ook wijzen op dit project en vragen om bepaalde vernieuwingen in hun workflow op te nemen.

4. Men kan lid worden van het Centre of Competence en bepaalde diensten afnemen voor gereduceerde prijzen

Wat betreft de tools zijn er een aantal die ik wil noemen.

  • een tool om metadata van de titelpagina te extraheren
  • een rule set om een inhoudsopgave te extraheren uit een boek
  • twee webplatforms voor correctie van ocr door gebruikers
  • historische lexica, spellingsvariaties, personen, naam en organisatie entities voor Nederlands en 8 andere talen
  • een tool om de resultaten van OCR te evalueren

Een interessant project, dat zoveel bevat dat het overzicht en de relaties tussen de onderdelen soms wat onduidelijk zijn. Daarvoor is een webplatform ontwikkeld dat ik echter nog niet gevonden heb (komt later dit jaar als open source set).

Trends in de internet app wereld

Samenvatting van  de lezingen op het congres DB update, Rotterdam 29 maart 2012  in een aantal belangrijke trends:

  • inrichting van samenleving en informatiesystemen op basis van eenrichtingsverkeer voldoet niet meer (top down)
  • interactie, netwerken, participatie zullen de trend zijn; gebruikers willen zelf bepalen hoe ze aan iets deelnemen: dus geen hierarchische controle meer
  • de inrichting van informatiesystemen wordt steeds meer gericht op de behoeften van mensen, de techniek verdwijnt naar de achtergrond (zie smartphones en tabletten)
  • de nieuwe ontwikkelingen in de informatiesector hebben enorme economische effecten, in de zin van kansen op winst en verlies voor bedrijven, sectoren, landen (informatie is de nieuwe olie)
  • ze hebben ook effecten op de levenswijze van mensen:  ons sociaal en individueel gedrag verandert sterk door moderne informatiesystemen; het gebruik van internet en mobiele telefoon voor sociale contacten en informatie vergaring is daar een voorbeeld
  • de optimisten zien een toekomst waarin bedrijven en staten door massale consumentenactie via sociale informatienetwerken (bij)gestuurd worden
  • de sceptici en critici zien echter een samenleving waarin verslaving en onderwerping van individuen aan de doelen van bedrijven dreigen; de opheffing van de privacy is dichtbij en misbruik van informatie door bedrijven en staten is een groot gevaar

Een gebrek was dat de sprekers op het congres over deze zaken niet met elkaar in debat gingen. Mij lijkt dat de optimisten en de pessimisten een punt hebben. De wereld zit ingewikkeld in elkaar. Hegel zag het ooit als these en antithese: er zijn altijd strijdende tendensen. Macht is nooit eenzijdig verdeeld.

De vraag is dan hoe de machtsbalans er uit ziet. In de jaren ’80 was er een soortgelijke opwinding als nu. Toen werden sociale bewegingen als de nieuwe drijfkracht van de maatschappij gezien. Die bewegingen bleken niet bestendig. Ook nu kunnen we ons afvragen hoe gericht en structureel de macht van de sociale media gebruikers – ik noem het maar even kort zo- is. Die discussie is natuurlijk al opgelaaid aan de hand van de “Arabische Lente”. Daar blijkt dat sociale media een mobiliserende macht hebben, maar dat die macht niet makkelijk structureel gewaarborgd kan worden. In het Westen is het gebruik van internet en sociale media natuurlijk veel groter dan in de de Arabische landen. Bedrijven en de staat hebben vaak duidelijke doelen, structuren en leiding die hen in ieder geval een voorsprong geven op de spontane organisatie van de sociale mediagebruikers. Die hebben daarentegen het voordeel van de onverwachte actie.

Ik kan hier wel wat meer regels aan wijden, maar dat gaat een beetje buiten het karakter van deze post.