Who drives the internet?

Sometimes our future seems to accelerate. That wonderful car speeds ahead, and it might even leave us behind, while we think we are  driving it. This is not just an image, the self driving car seems to be making its way. Where will we be? Gazing at it from the side of the street or being steered to an unknown destination? Autopilot has been flying us for some time now and not many have seen this as particularly threatening.  But presently there is a lot anxiety about automation, the internet and its consequences for jobs and private lives.

The internet as economic destruction


In his book “The internet is not the answer” (2015) Andrew Keen is fiercely attacking the new companies and people that propel the internet at lightning speed. Because, as he constantly, and repeatedly says, it is destroying the livelihood of millions working in the old industries, services and offices. And it is not giving them many jobs in return. By creating virtual economic networks that cater directly for consumers through the web and the internet the new companies can work with a fraction of the employees that were busy in the buildings of the old. Who needs the hotels if you have AirBNB, who wants taxi drivers if you have Uber, who needs package delivery if you have self driving cars and drones that will bring your orders at your door? And this is only a small section of the economic sectors that are or will be effected by the new ways of commerce. And it is not just the manual labourers or the shopkeepers that will lose their job: the middle class, and the office workers are also in danger: journalists, translators, copywriters, teachers, where will you go when your knowledge is used in non human apps?

Keen is also tirelessly arguing that the new internet economy is spread with a message that is obscuring the real changes. The prophets of the new services talk about liberating people, especially from the tyranny of a ruling state, bureaucracy and wage slavery: everyone can now be a publisher, a writer, a taxi driver, a hotelier and more. By showing off your pictures, video’s or tweets in the world wide networks you can easily become a world star! Indeed, some make the headlines, some startups become million dollar companies in a short time. But Keen mainly sees a huge rise in economic inequality, the new companies like Google, Apple, Amazon are becoming the new masters. Nothing new he says, the industrial revolution also created giants that dominated their time. Capitalism, it is always renewing itself, but it will always tend toward monopolies if unchecked.

Who profits?

Many of the new internet companies are making huge profits, but others like Spotify or Instagram are not (yet) doing that, although they have millions of users and are also worth a big buck. The main revolution in the internet economy is that new products are generally free to use or ridiculously cheap: Flickr, YouTube, Google search, Facebook, you pay nothing but they give you much. How is that possible? They sell adds with their products and they mainly rely on content contributed by the users themselves or on the data the users give away while using these services. Some of them have very small staff: Instagram has some 200 employees and 75 million daily users, WhatsApp has, according to their own information, 900 million users, but only 55 engineers. In comparison, an old media company like Disney has 180,000 workers worldwide.

Besides, Keen is suggesting, they use their massive power in such ways that creators and content providers that should be rewarded don’t get much out of it.  He makes this claim  especially for musicians. Spotify and YouTube don’t deliver that much for the artist that are on it: according to Keen they manage to rip off the musicians with a small fee. In the meantime publishing cd’s has gone down enormously and everybody is listening or downloading music for free. One would think it could be different: I am listening to many more groups and musical pieces than ever before. I would never have heard of these musicians or bought their cd’s. And this happens worldwide. Why aren’t musicians making more from the use of their material than before? Outside the Western world I guess there will not be much control on copyright, and in the royalty negotiations many musicians don’t seem strong enough to get more out of the use of their products. Songwriters and musicians always had a hard time in negotiating good deals with the record companies. In that respect nothing much has changed. See articles in The New Yorker and The Trichordist for a discussion of this. An article in the Rolling Stone suggest that income is generated through streaming, but there are others who are more sceptic.


Keen has been accused of being too negative and one sided. I have heard him speak at conferences and I felt this too. Of the key actors he pays least attention to the consumers, although he does write about their involvement in the narcissistic social media world and their expectation to get information, software, music and books for free through the internet. Either they are all deluded and already part of this global ideological factory of instant gratification or some of their needs are really being served (which could amount to the same thing if you are very cynical). If you believe there is also a positive side to individual involvement, then there is also real value to be found in the ways of the internet. Keen poses the original idealistic nature against its present money hijacked state. But maybe in the information sharing, the collaborative projects and the new ways of publishing there is lots to be cherished and of real value to the world that cannot washed away that easily.

The companies that rule the internet are the main culprits in Keens story. Has he taken into account other perspectives on the changes? The internet may have a huge impact but is it always the cause of the big changes that are taking place in the economic area? The global changes in economic production that bring China and India more up front certainly have to be taken into account. The decline of many western industries is also a revolution in global economic power. And when he mourns the decline of Kodak or the music industries as quality producers, one should not forget that they made huge profits and have taken the wrong path. At Kodak the digital camera was invented, but they didn’t see the potential of it, because they clung to their old profitable ways of producing. The same one can argue for the record companies. When downloading and sharing music became popular the record companies protested but let the initiative go to Apple to put a new way of selling music on the market (iTunes). Again the same happened with streaming of music. But from the above cited articles it looks like the record companies now do manage to get a lot out of their deals with the internet companies.

The nature of state involvement is another element that needs more investigation. Keen points out that the internet never would have been there without the research funded by states, it is no company invention. They let the computer and internet companies grow relatively unchecked (although remember the actions of misuse of power against Microsoft). And now states clearly use the new possibilities of information gathering for mass surveillance. Here Keen comes with some answers to his problematic, and that is to be applauded. He puts his stakes on new control measures of states against the power and privilege of the new masters. In the afterword to the Dutch edition of his book he is rather optimistic about these state actions. Especially in the measures of the European Union he sees the beginning of a real check on the ways of the big internet companies. And he also sees some realization of the issues at stake with the companies themselves.

Keen deserves credit for posing the problems so unashamedly, even crudely, although he repeats himself many times. But the problems he identifies will probably not just be solved by curtailing the power of the global companies. I would personally say that they need to be broken up, that parts of their products that have immense value need to be secured for humanities interest and these should be dispossessed (like You Tube, the search indexes, and more, they should become our new libraries). But the states themselves cannot be trusted, they have broken up the freedoms that guarantee privacy that were laid down for the nineteenth and twentieth century parliamentary democracies. These are now in serious danger and it is a question whether they can be upheld in the old form.  For the consumers privacy concerns have not been pre-eminent.  But somehow the consequences of the new power over private data that companies and states have gained, will show themselves. A world wide digital rights struggle about this could lie ahead.


Hofjes tour: nog een stukje Amsterdam

Er zijn wel een aantal sites over de Amsterdamse hofjes, maar geen enkele geeft een mogelijkheid om via de kaart en met de mobiele telefoon in de hand een wandeling te maken.  Dat is wat dit onderdeel van mijn website biedt: de hofjes tour!



Je vindt van elk hofje het adres, de datum van ontstaan en in veel gevallen foto’s en informatie die ik zelf heb toegevoegd of die op andere websites staat, en via links kan je daar meer informatie vinden.

Je kunt langs nog bestaande hofjes lopen, die toegankelijk zijn, maar je kunt ook verdwenen of gesloten hofjes zoeken.

Wat techniek betreft heb ik een aantal zaken uitgeprobeerd.

In plaats van JQuery als javascript library voor achterliggende data verzoeken (Ajax calls) en event handlers heb ik alleen pure javascript gebruikt. Dat was een beetje puzzelen, maar uiteindelijk geeft het wel genoegen dat je zelf weet wat er gebeurt. Ik deed dit ook omdat ik gemerkt heb dat updates van JQuery niet “backwards compatible” zijn, en dat ook gebruikte plugins na een update van JQuery niet meer werken. Terwijl toen moderne javascript technieken die ik in 2006 voor bepaalde sites gebruikte nu nog steeds werken! Als je relatief simpele javascript technieken gebruikt kun je ook zonder JQuery.

Om direct informatie van een aantal andere website te tonen, heb ik de Google Custom Search Engine API gebruikt.

Als fallback heb ik de gewone Google Custom Search Engine gebruikt, die je via een link op een beperkt aantal websites naar een hofje laat zoeken. Daarmee introduceer ik natuurlijk wel weer een afhankelijkheid die misschien niet lang meegaat. Ook Google is berucht om zijn veranderingen in diensten en het opheffen van bepaalde producten. Ze zijn natuurlijk gratis, dus niet zeuren, maar je moet deze afhankelijkheden wel incalculeren. De volgende stap is dus om toch maar een eigen zoekmachine op mijn server te zetten en zelf het web te scrapen en doorzoeken.

Voor meer informatie: kijk op introductie pagina van de hofjes site.

Historisch geografisch data systeem NL GIS gelanceerd

Onlangs was ik bij de presentatie van een nieuw Geografische Informatie Systeem voor historische data: NLGIS. Het doel was om een basisviewer voor historische data te ontwikkelen en de zogenaamde Historische Databank Nederlande Gemeenten publiekelijk beschikbaar te maken. Deze was een lange tijd alleen voor onderzoekers beschikbaar.

nlgisHet was een goed idee van initiatiefnemer Richard Zijdeman om deze databank en een eenvoudige viewer daarvoor aan elkaar te koppelen. De geografische component bestaat uit de omtrekken van alle Nederlandse gemeenten van 1812-1997. Een deel daarvan is al in de jaren ’80 van de 20e eeuw gemaakt. Die omtrekken stellen je dus in staat gegevens op gemeentelijk niveau voor deze periode af te beelden.

De databank over de Nederlandse gemeenten bevat zeer diverse informatie: over bevolking, uitslagen van verkiezingen, beroepsgroepen en bedrijven. De viewer voor de kaarten is bewust simpel gehouden. Je kunt er niet veel meer mee dan data in een bepaald categorie- en kleurenschema bekijken. De makers zeggen dat de data veel beter kan worden gemanipuleerd in open source GIS programma’s als QGIS. Je kunt de data nu immers downloaden. Zeer handig voor het hergebruik is dat de data en geo-informatie via API calls en open formaten als TOPOJSON en GEOJSON kan worden aangeroepen en gedownload. Heel leuk is ook dat je zelf datasets kunt toevoegen  die je in csv of excel formaat hebt gemaakt.

Dit project bestaat naast andere geografische informatie systemen op het web voor Nederlandse data. Op landelijke niveau is er pdok.nl: “Publieke dienstverlening op de kaart”, dat door overheden geproduceerde geo-informatie geeft. Het bevat ook datasets en een viewer. Bij PDOK kan men diverse kaartlagen samenbrengen, gegevens toevoegen en ook andere kaartservices aanroepen. Als NLGIS WMS ondersteuning implementeert kan daaruit ook een geografische laag worden opgenomen. Daarnaast kun je een kaart produceren om in je eigen website op te nemen.

Een ander specifiek historisch geo-informatie project is Erfgoed en locatie. Dit project wil een soort historisch georiënteerd PDOK bouwen, met nadruk op publieksgebruik, diensten en tools. Ook hier wordt dus een geo-viewer gebouwd. Wel ligt hier ook een nadruk op bruikbare apps en wordt een inventarisatie van geo-datasets gemaakt. Men wil ook een historische geocoder bouwen, waarmee geografische data door instellingen makkelijk op de kaart kan worden gezet.

Men ziet dus dat al deze initiatieven elkaar aanvullen en soms ook overlappen. Er gebeurt veel op dit terrein en er is vooruitgang.

Ik sluit af met enige kritische opmerkingen, wetende dat het NLGIS project met slechts 10.000 euro snel moest worden gemaakt en dat de initiatiefnemer de database heeft overgeleverd gekregen van anderen.

De datasets hebben geen enkele bronvermelding. Dat maakt ze eigenlijk onbruikbaar voor echt historisch onderzoek. Hier wreekt zich het feit dat de oorspronkelijke database zo lang een intern gehouden systeem was. Ik heb vernomen dat de huidige beheerders spoedig de beschikbare documentatie zullen toevoegen.  Ook zou een soort tagging van bestanden of betere titels de bruikbaarheid sterk vergroten. De geoviewer is eenvoudig. Dat geeft niet, maar de standaard-indeling van de categorieen en kleuren naar aantal een gelijk aantal ‘cases’  maakt de uitkomsten op de kaart niet erg inzichtelijk. Misschien is een maximale breuk classificatie een betere algemene oplossing? Dat is misschien iets ingewikkelder om te construeren, maar ik hoop dat dit lukt. Onder de ‘ advanced’ optie kreeg ik niet echt iets veranderd.


Sinds ik dit hierboven schreef, is er wel wat verbeterd. De datasets hebben nu een bronvermelding. Dat maakt ze ineens heel veel bruikbaarder en interessanter. De bronaanduiding is echter globaal, beschrijvingen van de bron zijn summier en als meer dan een bron genoemd wordt, is het niet duidelijk wat uit welke bron komt. Om te begrijpen welke data dit eigenlijk is, zul je naar de bron zelf toe moeten. Maar die plicht hadden historici natuurlijk al lang. Vele bronnen, zoals de Volkstellingen en Bedrijfstellingen zijn nu online beschikbaar en er zullen er meer komen.

Mijn settings in /advanced kan ik echter nog steeds niet opslaan. Hier geeft de server een foutmelding.

Het ontstaan van de Jordaan

coverimageDe Amsterdamse historicus J.Z. Kannegieter schreef een groot deel van zijn leven aan een werk over het ontstaan van de Jordaan. Van publicatie kwam het nooit, en hij deponeerde zijn manuscript in 1968 bij het Stadsarchief in Amsterdam. Een groep enthousiastelingen betrokken bij de stichting het Jordaanmuseum heeft de afgelopen jaren dit manuscript overgetypt en nu heb ik er een e-pub van gemaakt, maar ook is het nu op deze website te lezen.

Het boek gaat over de periode dat Amsterdam de Grachtengordel schiep (1609-1614), maar daarbij ook de Jordaan ontwierp, om degenen die moesten wijken voor de nieuwbouw een plek te geven. Ook de bedrijvigheid die men niet meer in de stad zelf wenste te hebben, kon hier wel uitgeoefend worden.

Over die zogenaamde “Derde uitleg” is recent meer geschreven (zie de literatuur in de tekst), maar over hoe de Jordaan toen tot stand kwam is niet veel beschikbaar. Omdat het manuscript natuurlijk niet makkelijk bereikbaar en leesbaar was, hebben de meeste historici het ook niet gebruikt. Daarom bevat het werk van Kannegieter nog steeds nieuw onderzoek waarvan het nuttig is nog kennis te nemen. Dat kan nu.

Een tweet plattegrond van Amsterdam

De vele miljarden tweets die over de wereld gaan, kunnen aan de hand van hun geografische herkomst op de kaart worden gezet. Eric Fischer van MapBox heeft dat gedaan.
Dan krijg je zeer interessante structuren te zien. De steden springen er uit. Ook de primaire verkeerswegen tonen zeer opvallend. Als je bijvoorbeeld op Amsterdam inzoomt, dan zie je dat de grote straten en de pleinen van de stad een heel hoge concentratie van tweets hebben. Het Centraal Station, de Dam en het Leidseplein zijn hotspots. Dat zijn de plekken waar veel uitgaansgelegenheden zijn, veel mensen rondlopen en waar veel foto’s worden genomen. En de belangrijkste straten leveren ook een groot aantal tweets op: er lopen en rijden daar veel mensen, en die tweeten.


Twee tabletten: Samsung Note 10.1 en Asus Transformer Pad Infinity TF700T

Onlangs had ik de mogelijkheid via mijn werk twee Android tabletten te vergelijken.

De Samsung Galaxy Note 10.1 16GB en de Asus Transformer Pad Infinity TF700T 64 GB

samsung galaxy-note-10.1


asus transformer infinity



De Asus onderscheidt zich door zijn toetsenbord en dock. Je klikt het scherm er eenvoudig in. Het toetsenbord is een aanwinst,  het werkt heel lekker. Maar je hebt er een keuzeprobleem bij: ga ik altijd het geheel meenemen of alleen het scherm? Het toetsenbord kent een aantal handige hulpmiddelen om met een scherm te werken: spring direct naar zoeken, open de instellingen van android of van de app, maak een schermafdruk, ga naar het volgende muzieknummer en toon de browser. Er is ook een muispad met cursor. Het toetsenbord bevat een extra accu.

Wel lastig dat een paar dingen niet direct werkten. Bij You Tube kon ik de full screen optie niet zien. Dat moest opgelost worden door You Tube terug te zetten naar de fabrieksversie. In de Foto gallery zag ik niet direct een overzicht van mijn Picasa foto’s, die aan mijn Google account zitten. Na deze offline beschikbaar te maken, kwamen ze langzaam tevoorschijn. Dat was bij de Samsung niet nodig.

Een andere bijzonderheid is het hoge resolutiescherm van 1920×1200 pixels. Dat maakt zeer scherpe foto’s en video’s bekijken een genot.

Ik kon een update naar Android 4.1 doen, maar heel veel verandering zag ik niet.

  • Mooi scherp beeldscherm, goede prestaties
  • Veel aansluitingen:  usb, hdmi, sd card
  • Eén luidspeaker, die is een beetje vreemd naar achter gericht
  • Prijs:  698 euro met dock
  • Toetsenbord:  maakt het wel wat zwaarder; handige functies om op het scherm te werken
  • Super degelijke bouw: aluminium
  • Gewicht: 600 gram zonder toetsenborddock, met 1 kg
  • Bevat apps die je niet nodig hebt, en niet makkelijk kan verwijderen


Ondanks lagere resolutie (1280 x 800) dan de Asus geeft het scherm een fijn helder beeld. In het begin had ik wel een beetje hoofdpijn, van het kijken, maar dat kan aan mij liggen. Dit tablet is bijzonder vanwege de mogelijkheid om met een pen te werken in speciale applicaties. Voor schetsen, tekenen en notities maken is dat een ideaal hulpmiddel. Zo’n pen werkt beter dan een vinger en is vooral nauwkeuriger. Ik vind het een tablet met handige features, zoals de app tray en het naast elkaar open kunnen hebben van twee applicaties. Alles deed ook meteen. Het tablet is snel genoeg om goed te internetten en normale applicaties te draaien. Minder te spreken ben ik over het gebrek aan connectiepoorten. Het tablet is plastic, voelt licht aan.

  • Handige app tray onderaan om snel naar een andere app te gaan; de inhoud kan je ook wijzigen
  • S-pen: schrijven en tekenen kan nu heel precies met een pen
  • Switchen tussen applicaties is een handige feature: twee schermen tegelijk open hebben naast elkaar
  • Remote control voor tv, stereo en andere apparaten. Werkt ook met niet-Samsung apparatuur.
  • Geen usb of hdmi poorten, wel sd card
  • Prijs: goedkoopste wat ik zag was 414 euro
  • Gewicht 600 gram

OCLC contactdag 2 october 2012

OCLC verandert
In de afgelopen jaren heeft OCLC (een wereldwijde coöperatie van bibliotheken) webgebaseerde bibliotheek- en catalogusdiensten gebouwd die in principe de lokale bibliotheeksystemen kunnen vervangen. Dit is het World Cat systeem.  OCLC   is bezig aan een aantal grote migratie projecten om deze algemene diensten en systemen op wereldschaal en haar eigen lokale systemen te integreren. Dit betreft in Nederland vooral de GGC (Nederlands catalogiseersysteem) en Picarta (nationale publiekscatalogus). De eerste wordt gesynchroniseerd met het World Cat platform en beide zullen binnen een aantal jaar er heen migreren, zo begrijp ik.

Dit is een lang traject en de nationale systemen blijven nog wel even bestaan, en daarnaast geven vele bibliotheken hun eigen bibliotheeksysteem niet meteen op. De mogelijkheden van een webgebaseerd centraal systeem (in de “cloud” wordt dat tegenwoordig genoemd) zijn echter groot en voordelig voor vele organisaties (geen beheer, makkelijk delen van informatie).

De applicaties die daarop worden aangeboden, komen nu ook beschikbaar (catalogiseren,uitlenen, bestellen etc.) en bieden allerlei bibliotheekdiensten en meer. Men kan daarbij kiezen uit diensten en modules. Het is opgezet als een open systeem en biedt van alle onderdelen webservices. Je kunt zelf kiezen wat je afneemt en eigen applicaties kunnen toch informatie van OCLC benutten via webservices. Zo hoef je de link server van OCLC niet te gebruiken om toch in zijn systeem te catalogiseren. OCLC noemt dit geheel van bibliografische informatie (World Cat), applicaties, en webservices het World Share platform.

In Nederland haken steeds meer bibliotheken bij World Cat aan: KB, UvA, RUG, Tilburg, ik denk omdat het zichtbaarheid op het web biedt en integratie van catalogusdiensten geeft die veel dubbel werk voorkomt.

Nederland wijkt af
Ook werden wereldwijde trends in bibliotheken besproken waaruit blijkt dat in Nederland veel meer informatie door informatieprofessionals uit sociale media wordt verkregen dan elders. Bibliothecarissen gebruiken Twitter, Facebook en Blogs veel meer dan in andere landen.
Ook in de nadruk op digitalsieringsprojecten en discovery services onderscheiden Nederlandse bibliotheken zich van hun collega’s.

Linked open data
OCLC biedt nu 1 miljoen records aan als Linked open data. Ze maakt daarbij gebruik van embedded RDFa en schema.org. Het laatste is de ontologie van alle belangrijke zoekmachines op web, waar iedereen in zijn webpagina’s gebruik van kan maken. RDFa is de methode en het format om dat in een webpagina op te nemen.
Op deze manier kunnen records beter in zoekmachines als Google etc. gevonden worden en worden de records een onderdeel van het linked data web (semantisch web).

is de grote database van Europese culturele objecten en catalogi. Met OCLC lopen diverse onderzoeksprojecten. Een daarvan is een techniek waarbij metadata van records geclusterd wordt. Op deze manier kunnen semantische relaties tussen records gevonden worden, en ook dubbele records. Zo kan een boek en een foto van de auteur ervan worden opgespoord.  De informatie kan weer teruggeven worden om kwaliteit van de input te verbeteren (het toevoegen van records). En ook bieden de clusters mogelijk nieuwe browse methoden voor publiek.

Presentaties van het congres

Kennis in praktijk – Symposium Rotterdam 27-9-2012

Kennismanagement en conversatie
In veel benaderingen van kennisdelen staan een technische invalshoek en een over mensen en cultuur tegenover elkaar. Kennis is sociaal en het gaat over mensen concluderen de voorstanders van het laatste. In onderzoeken naar wat mensen als beste middel zien om kennis te delen is de conversatie nog steeds favoriet. In de presentatie van David Gurteen werd duidelijk dat conversatie en relaties belangrijke kennismiddelen zijn, waarin ook bedrijven moeten investeren.
Een vraag die bij mij opkwam, is waarom die focus op conversatie zo sterk naar voren komt: is er dan niets veranderd, kunnen we toe met dezelfde middelen als van voor het digitale tijdperk? Of denken mensen te nostalgisch? De opkomst van sociale media laat zien dat het gesprek heel relevant is, maar met de huidige technische middelen. Al naar de gelang de situatie/context zijn bepaalde methoden vruchtbaar in te zetten, lijkt mij. Zo kunnen bepaalde oplossingen technisch/organisatorisch zijn, maar juist tot een gesprek uitnodigen. Twitter en Facebook zijn technieken/concepten met een appeal aan basisbehoeften: je zelf tonen, roddelen, spreken, uitwisselen, kringetjes vormen etc.

Dapne Depassé deed onderzoek naar kennisdelen en gaf een aantal aanbevelingen voor Kennismanagement projecten. Een selectie:

  • Maak het concreet, gebruik geen moeilijke begrippen, visualiseer zaken om ze te verhelderen
  • Veronderstel niet te veel van te voren over wat het probleem is, hoe het werkt
  • Focus op voor wie je het doet
  • Maak vroeg een prototype, faal liefst vroeger, dan later, dat kost minder
  • Kijk hoe het er aan toegaat op de werkvloer om inzicht te krijgen in je probleem
  • Er is geen rechtlijnige weg naar de oplossing, het is altijd trial and error

Openbare Bibliotheek Nieuwegein vernieuwt
Een nieuw gebouw en een nieuwe inhoud: hoe kan de openbare bibliotheek relevant zijn? Dat was de vraag die de ontwerpers van de nieuwe functies zich stelden. Zijn vonden het antwoord in een aantal projecten.

  • Een actief aandeel van de biblioteek in het publieke domein en in de waarborging van betrouwbare informatie. Bijvoorbeeld door de samenstelling van virtuele dossiers en het organiseren van debatten en dossiers naar aanleiding van vragen uit de samenleving.
  • De inrichting van de bibliotheek gebeurt met veel interactieve schermen, die informatie over de collectie geven, die bezoekers attenderen op wat er in hun omgeving gebeurt, die educatieve spellen bevatten, die actuele kwesties visualiseren etc.
  • Toon de bibliotheek in de stad door middel van het digitale scherm, langs wegen, in de tram etc.

Samenwerken binnen de overheid
Al een jaar bestaat pleio.nl. Een webomgeving voor alle overheidsinstellingen om samenwerkingsprojecten aan te gaan, of om hun eigen deeltsite op te zetten. Er zijn samenwerkingsverbanden waarin ambtenaren eigen besloten groepen op zetten, er zijn open sites waarin diensten en burgers kunnen participeren. De sites kunnen door beheerders zelf ingericht worden. Ze bevatten vele widgets en apps om bepaalde functionaliteit toe te voegen. Sommige gemeenten gebruiken het nu zelfs voor hun intranet, en zijn dan ook gesloten voor publiek.  Er zijn zo’n 30.000 gebruikers. Het platform is ook open source.

Presentaties van het congres
Verslag van het congres

IMPACT Congres Koninklijke Bibliotheek 26 juni 2012

IMPACT is een Europees project om tot verbetering van OCR (herkenning van tekst) in digitaliseringsprojecten te komen.

Het project is nu afgerond, maar gaat verder als Expertisecentrum: http://digitisation.eu

De resultaten van het project zijn divers en veel. Voorop stond verbetering van de tekstherkenning en herkenning van oude lettertypen. Zo kan men door toepassing van de IMPACT vernieuwingen nu 15% meer woorden vinden in de 17e eeuwse Nederlandse kranten. Een aantal zaken lijken me van belang.

1. Er zijn een hele reeks tools gemaakt die gedeeltelijk vrij beschikbaar zijn (diverse licenties voor niet-commercieel gebruik)

2. Bestaande OCR engines, waaronder de overal gebruikte ABBYY Finereader engine, zijn verbeterd met de resulaten van het project. Dat betreft dus vooral verbeteringen aan de lay out en tekst herkenning.  Daarnaast ondersteunt ABBYY nu directe export naar het ALTO lay out formaat.

3. We kunnen onze digitaliseerder ook wijzen op dit project en vragen om bepaalde vernieuwingen in hun workflow op te nemen.

4. Men kan lid worden van het Centre of Competence en bepaalde diensten afnemen voor gereduceerde prijzen

Wat betreft de tools zijn er een aantal die ik wil noemen.

  • een tool om metadata van de titelpagina te extraheren
  • een rule set om een inhoudsopgave te extraheren uit een boek
  • twee webplatforms voor correctie van ocr door gebruikers
  • historische lexica, spellingsvariaties, personen, naam en organisatie entities voor Nederlands en 8 andere talen
  • een tool om de resultaten van OCR te evalueren

Een interessant project, dat zoveel bevat dat het overzicht en de relaties tussen de onderdelen soms wat onduidelijk zijn. Daarvoor is een webplatform ontwikkeld dat ik echter nog niet gevonden heb (komt later dit jaar als open source set).