Künstliche Intelligenz für den Datenjournalismus

TH KölnTH Köln und Science Media Center Germany entwickeln Lösung für die Informationsextraktion

Datenjournalisten sammeln und analysieren öffentlich zugängliche Daten und bereiten die darin verborgenen Informationen für ihre Medien auf. Dafür müssen sie häufig mit Daten arbeiten, die nur in unstrukturierter Form vorliegen. Dies macht eine automatisierte Auswertung schwierig. Im Forschungsprojekt „Journalistic Information Extraction“ (JoIE) möchten die TH Köln und das Science Media Center Germany daher ein Tool entwickeln, das mit solchen Datenquellen umgehen und diese journalistisch nutzbar machen kann.

„Die Daten, in denen Journalisten nach Informationen suchen, können ungemein vielfältig sein: Es handelt sich um Texte, Tabellen oder Grafiken, Dokumente unterschiedlichen Typs wie Word, PDF oder E-Mail oder um Webseiten, die zudem noch höchst unterschiedlich formatiert sein können. All das macht es sehr schwierig, zuverlässige und konsistente Regeln zu definieren, nach denen eine automatisierte Auswertung erfolgen könnte“, erläutert Prof. Dr. Philipp Schaer vom Institut für Informationswissenschaft der TH Köln die Problemstellung.

Auf Grundlage der beiden Open-Source-Werkzeuge Workbench und Fonduer soll eine Lösung entstehen, die unstrukturierte Daten in eine strukturierte und damit auswertbare Form bringt. Workbench erlaubt unter anderem die Extraktion von Webdaten. Fonduer verwendet künstliche Intelligenz, um automatisch Extraktionsmuster zum Beispiel zur Erkennung von Tabellen zu lernen.

„Kernidee unseres Projektes ist die Synthese der Nutzerfreundlichkeit von Workbench mit der hervorragenden Extraktionsleistung von Fonduer. Dabei geht es auch darum, komplexe Eingabehilfen zu entwickeln, mit denen Regeln für die Datenbearbeitung ohne Programmierkenntnisse erstellt und entwickelt werden können“, sagt Björn Engelmann, der im Rahmen von JoIE seine Doktorarbeit verfassen wird.

Um die spezifischen Anforderungen von Redaktionen und Datenjournalisten zu erfahren, sind Experteninterviews und gegebenenfalls Umfragen geplant. „Mit unserem Tool möchten wir den State of the Art der Datenverarbeitung für Redakteurinnen und Redakteure verfügbar machen, damit sie Informationen aus der Wildnis des Internets schnell und zuverlässig beschaffen können. Da diese oftmals mit begrenzten Ressourcen arbeiten müssen, wird unsere Lösung kostenlos und als Open-Source-Software verfügbar sein“, sagt Dr. Meik Bittkowski, Leiter Forschung und Entwicklung beim Science Media Center Germany.

Das Forschungsprojekt „Journalistic Information Extraction“ (JoIE) wird über drei Jahre von der Klaus Tschira Stiftung gGmbH gefördert. In dieser Zeit soll das Grundgerüst der Anwendung entstehen. Die Überführung in ein für Externe nutzbares System ist für eine optionale Projektverlängerung von zwölf Monaten angedacht.

Quelle: www.th-koeln.de

Diesen Beitrag teilen, das Unterstützt uns, DANKE !

FacebookVZJappyDeliciousMister WongXingTwitterLinkedInPinterestDiggGoogle Plus

weitere Beiträge

Musik / Film

Sido, Marsimoto oder Burna Boy – Das


summerjam lineup 08082024In weniger als zwei Monaten stehen in Köln wieder die Top-Artists aus den Genres Reggae, Dancehall und Hip Hop auf den Bühnen am Fühlinger See. Das Summerjam Festival 2024 trumpft auf mit dem Afrobeat-Weltstar Burna Boy – vor traumhafter Kulisse u...


weiterlesen...

Tag der Forschung: TH Köln verleiht


Bild Michael Bause TH KölnRäumliches Hören für Virtual- und Augmented-Reality-Anwendungen, die Stärkung der politischen Interessenvertretung in der Sozialen Arbeit, ein Social-Media-Handlungskonzept für die offene Kinder- und Jugendarbeit sowie die Erforschung neuer Wirkst...


weiterlesen...

Em Stadion zu Huss: Gaffel feiert die


240510 Luca Kilian   Davie Selke beide 1. FC Köln  Thomas Deloy von Gaffel IIKöln, 10. Mai 2024 – Ausgelassene EM-Stimmung in den Kneipen und Brauhäusern, tobender Torjubel in den Fanzones und natürlich spannende Spiele in Müngersdorf: Das verspricht die EM 2024 in Köln. Am 15. Juni geht es mit Ungarn gegen die Schweiz los...


weiterlesen...

Geißbock Hennes IX. zu Gast bei


270426 Eröffnung Wiessgarten Maybach Geißbock Hennes IX    Foto P. Brohl honorarfreiKöln, 29. April 2024 – Im Herzen von Köln eröffnete das Maybach den ersten Wiessgarten. Das Areal im Innenhof des Kultlokals gehört zu den größten Biergärten in Köln und ist eine grüne Oase mitten in der Stadt. 

Im Mittelpunkt steht das Wiess, das...


weiterlesen...

Motivierte Läufer:innen sorgen für


Firmenlauf Koln Kreativ Christian SchulzeMit strahlenden Gesichtern und voller Energie machten sich 3.440 Läufer:innen bereit und verwandelten bei der fünfzehnten Auflage des Firmenlauf Köln den Fühlinger See in ein farbenfrohes Sportgelände. Gut gelaunt begaben sie sich auf die 5 km-Lau...


weiterlesen...

Die c/o pop 2024 war mit popkultureller


c chiara BaluchAusverkauftes unplugged Konzert von MAJAN zum Auftakt des c/o pop Festivals +++ Über 1.400 Teilnehmende bei der c/o pop Convention +++ Zahlreiche Überraschungen über die fünf Tage hinweg, u.a. kostenlose Konzerte von Crazy Frog & Leoniden und 24x7...


weiterlesen...
@2022 lebeART / MC-proMedia
toTop