AI och arkiven 2. AI och historiska texter
Andrëa Grängsjö och Erik Lenas diskuterar hur Riksarkivet använder AI för att hantera historiska texter i det här avsnittet av Arkivpodden. Fokus ligger på Handwritten Text Recognition (HTR), en teknik för att tolka handskriven text och omvandla den till digital text. HTR gör det möjligt att söka i och förstå gammal text utan att kunna läsa handskriften själv. Riksarkivet har arbetat med HTR sedan 2019 och har genomfört flera projekt, inklusive crowdsourcing för att transkribera 1800-talstext och använda den för att träna AI-modeller. Ett viktigt projekt är HTR-publicering, där digital text blir sökbar och kopplad till originalbilderna, vilket öppnar nya möjligheter för forskning och allmänhetens tillgång till arkivmaterial. Erik nämner även att äldre handskrift inte nödvändigtvis är svårare att tolka än modern, så länge man har tillgång till träningsdata. Riksarkivet planerar att använda AI för att förbättra sökbarheten och interaktionen med historiska texter genom utveckling av historiska språkmodeller. Dessa modeller kan hjälpa till att översätta och förstå texter från olika tidsperioder. Datadriven forskning är en annan central punkt i avsnittet, där AI och stora mängder digitaliserad text möjliggör nya typer av forskningsfrågor och globala jämförelser. Arbetet med att tillgängliggöra arkiv tar aldrig slut, då det alltid finns nya horisonter och teknologiska framsteg att utforska. Avsnittet avslutas med en reflektion över vikten av att ha intressanta forskningsfrågor och hur samarbeten med forskarsamhället är avgörande för att driva utvecklingen framåt.