Googelen door de historie van Amsterdam

Het Stadsarchief Amsterdam werkt aan geautomatiseerde handschriftherkenning van oude teksten, waardoor het straks mogelijk is om te 'googelen' door de geschiedenis van Amsterdam.

Een belangrijk deel van de 50 kilometer aan historische documenten die het Stadsarchief Amsterdam beheert is handgeschreven. Het aantal onderzoekers dat dergelijke handschriften kan lezen is zeer beperkt. Er is dus geen toegang tot het volledige potentieel van informatie uit zeventiende- en achttiende-eeuws Amsterdam. Wat als dat wel zo zou zijn? Als een computer zelfstandig de miljoenen scans van eeuwenoude handgeschreven teksten kan lezen en al die informatie vervolgens online doorzoekbaar wordt? Het zal de geschiedenis van Amsterdam veranderen omdat er een reusachtige hoeveelheid nieuwe feiten, big data van het verleden, voor onderzoekers beschikbaar komt.

In het project Crowd Leert Computer Lezen realiseert het Stadsarchief met behulp van vrijwilligers de tekstherkenning van oude handschriften. Uiteindelijk wil het Stadsarchief bereiken dat iedereen kan ‘googelen’ op elk woord in oude handgeschreven documenten.

Historisch handschrift. Via Stadsarchief Amsterdam.

Razendsnel

Nergens in de wereld is er een project van vergelijkbare omvang. Het Stadsarchief heeft de handschriftherkenning technologie van het platform Transkribus gekoppeld aan het crowdsourcing platform VeleHanden. Dat geeft honderden mensen tegelijk de mogelijkheid de computer te trainen én te corrigeren. De kracht van deze combinatie is ongekend, doordat zoveel mensen tegelijk toegang tot zulke innovatieve technologie hebben ontwikkelt de handschriftherkenning binnen Crowd Leert Computer Lezen zich sneller dan alle betrokkenen voor mogelijk hielden. De technologie van Transkribus is in Europees verband ontwikkeld aan de Universiteit van Innsbrück. Nu al leest de computer de handgeschreven teksten van bijvoorbeeld de zeventiende-eeuwse notaris Hendrik Schaef met slechts 5% Character Error Rate, ofwel: voor 95% foutloos. En de crowd maakt de computer razendsnel slimmer.

World Significance

Als lesmateriaal voor de computer worden scans van documenten  van het Archief van de Amsterdamse Notarissen gebruikt. Dat heeft de UNESCO status als Memory of the World vanwege de world significance van de documenten. Het notarieel archief bevat oneindig veel prachtige, onbekende details en kent een grote verscheidenheid aan teksten en verschillende handschriften. Over bekende en onbekende Amsterdammers en passanten, internationale handel, het leven op straat,  scheepvaart, slavernij, persoonlijk bezit en erfenissen. Het is voor de crowd interessant en tegelijk de beste optie om met deze enorme hoeveelheid verschillende data de computermodellen een boost te geven.

Lex Heerma van Voss, Directeur van het Huygens Instituut voor Nederlandse Geschiedenis over het project Crowd Leert Computer Lezen:

“Het archief van de Amsterdamse notarissen is een gigantische goudmijn vol prachtige, maar nog grotendeels onbekende, historische feiten. Wij als wetenschappers staan te trappelen om gebruik te kunnen maken van deze schat aan Big Data die nu beschikbaar zullen komen door een ingenieuze combinatie van de nieuwste technologie met de inzet van honderden vrijwilligers in het project Crowd Leert Computer Lezen.”

Meer informatie

Stadsarchief Amsterdam: https://www.amsterdam.nl/stadsarchief/organisatie/projecten/crowd-leert-computer/

Crowd Leert Computer Lezen op VeleHanden: https://velehanden.nl/

Tekst: Frank Driessen (Stadsarchief Amsterdam)

Publicatiedatum: 19/03/2019