Dominik Sievi war auch dieses Jahr am GLAMhack im Musée d’ethnographie de Genève dabei. Thomas Kerboul und er setzten sich die Challenge ein Datenbereinigungsprojekt des MEG durchzuführen, welches auch von digital affinem Museumspersonal verstanden und reproduziert werden kann, sodass diese wichtige Grundlagenarbeit zukünftig bereits intern erledigt werden kann. Durch die erhöhte Datenqualität profitieren nicht nur die Mitarbeitenden und die Online Sammlungen der entsprechenden Institution, sondern auch das Museumsbudget. Durch verbesserte Datenqualität werden zukünftige Projekte publikumsgerichtete Projekte günstiger, da die externen Auftragnehmer die Daten nicht erst aufwändig mit Spezialisten analysieren / vereinheitlichen müssen und sich direkt auf ihre Kernkompetenzen konzentrieren können.
Eingesetzt wurden Excel und OpenRefine. Excel ist ohnehin auf jedem modernen Arbeitsplatz installiert und OpenRefine läuft bei Bedarf auch im «Portabel Mode» ohne Administratorenrechte des Users. OpenRefine wurde für die Vereinheitlichung der Personennamen und Datumsformate genutzt, sowie für den Upload der bereinigten Informationen auf Wikidata. Excel für die Verlinkung der beiden Datenquellen sowie für die Qualitätskontrolle davon. In Excel wurden dafür nur die Formeln TEXTJOIN, VLOOKUP, UNIQUE und eine IF(COUNTIF Array Formel verwendet, wobei letztere legidlich für eine einfachere Qualitätssicherung zum Einsatz kam und einfachere Alterativen existieren.
Alle Abläufe innerhalb von Excel wurden auch in OpenRefine nochmals erstellt, um zu sehen ob Excel überhaupt benötigt wird. Leider haben wir in der begrenzten Zeit keine praktische Lösung gefunden die TEXTJOIN Funktion in OpenRefine mittels GREL zu ersetzen. Ein reines OpenRefine Projekt muss entsprechend noch warten. Dennoch sind wir überzeugt davon, dass die «Einstiegshürde» für qualitativ gute und halb automatisierte Datenbereinigung um ein Vielfaches niedriger ist, als vielfach gedacht und hoffen, dies mit unserem Projekt demonstriert zu haben.
Die Ergebnispräsentation ist ab sofort auf Youtube:
Presentations from the annual Open Cultural Data Hackathon (GLAMhack) event in Geneva, Switzerland on September 29-30, 2023. Organized by Opendata.ch – Swiss chapter of Open Knowledge. Find out more information and the schedule at https://opendata.ch/events/glamhack2023/