3. Juni 2020
Die Elektrokardiographie (EKG) ist ein weit verbreitetes, nicht-invasives Diagnoseverfahren, dessen Interpretation zunehmend durch automatische Interpretations- algorithmen unterstützt wird. Fortschritte auf diesem Gebiet wurden bisher jedoch durch fehlende Daten zum Training der Algorithmen sowie einen Mangel an geeigneten Bewertungsverfahren zur Gewährleistung der Vergleichbarkeit verschiedener Algorithmen eingeschränkt. Um diese Probleme anzugehen, haben Forschende des Fraunhofer Heinrich-Hertz-Institut HHI in Zusammenarbeit mit der Physikalisch-Technischen Bundesanstalt (PTB) den aktuell größten öffentlichen klinischen EKG-Datensatz aufbereitet und legten zugehörige erste Benchmarking-Resultate vor.
Herz-Kreislauf-Erkrankungen (HKE) zählen weltweit zu den Krankheiten mit der höchsten Mortalität. Als nicht-invasives Instrument zur Beurteilung des allgemeinen Herzzustandes von Patientinnen und Patienten dient die Elektrokardiographie (EKG) als Erstuntersuchung zur Diagnose einer HKE. Ein zweites großes Anwendungsgebiet von EKGs, das in Zukunft noch an Bedeutung gewinnen wird, ist die Telemedizin, insbesondere die Überwachung von Langzeit-EKGs. EKGs werden jedoch zumeist von häufig noch unerfahrenen Ärztinnen und Ärzten mit keiner oder nur minimaler algorithmischer Entscheidungsunterstützung ausgewertet. Deep Learning Algorithmen können Muster in großen Datenmengen erkennen, wie es sonst vielleicht nur erfahrene Kardiologinnen und Kardiologen können. Durch die Unterstützung automatischer EKG-Interpretationsalgorithmen, die auf Deep Learning beruhen, könnte das medizinische Fachpersonal erheblich entlastet werden.
Aktuell wird die Forschung auf dem Gebiet der automatischen EKG-Befundung jedoch durch einige Herausforderungen erschwert: Existierende Algorithmen mit exzellenter Performance wurden dazu typischerweise auf nicht-öffentlichen Datensätzen trainiert und entziehen sich damit der Nutzung der breiteren wissenschaftlichen Community, während öffentliche Datensätze bis dato zu klein zum Training und insbesondere für eine verlässliche Evaluation maschineller Lernalgorithmen waren. Zudem ist die Evaluierungsmethodik nicht standardisiert, was für eine mangelnde Vergleichbarkeit der Ergebnisse sorgt.
Das Scientific-Data-Paper der Fraunhofer HHI-Forschenden adressiert den Mangel an Trainings- datensätzen, indem es einen Datensatz zur Verfügung stellt, der in Zusammenarbeit mit der Physikalisch-Technischen Bundesanstalt aufbereitet wurde. Dieser beinhaltet 21.837 12-Ableitungs EKGs von 18.885 Patientinnen und Patienten und ist somit der bis dato größte öffentliche klinische Datensatz dieser Art (etwa 40mal größer als die PTB Diagnostic Database, die bis jetzt verwendet wurde). Er liefert maschinenlesbare Befunde und über 70 verschiedene EKG Annotationen von bis zu zwei Kardiologinnen und Kardiologen. Dieser diverse Datensatz beinhaltet zudem viele Komorbiditäten, gesunde Patientinnen und Patienten, die in klinischen Datensätzen oft unterrepräsentiert sind sowie unterschiedliche Signalqualitäten. Er ist somit optimal dazu geeignet, maschinelle Lernalgorithmen auf einem Real-World-Datensatz zu trainieren und zu evaluieren. Der Datensatz ist öffentlich verfügbar bei PhysioNet und als Data Descriptor bei Scientific Data erschienen. Eine gemeinsame Presseerklärung von PTB und HHI ist über den IDW verfügbar.
Ein korrespondierender Benchmarking-Artikel adressiert das Problem der Evaluierungsmethodik, indem er verschiedene Benchmarking Tasks mit klar definierten Evaluierungsprozeduren definiert; von der Vorhersage von EKG Annotationen über Alter- und Geschlechtsvorhersage bis zur Einschätzung der Signalqualität. Zusätzlich evaluiert es neuste Algorithmen auf diesen Tasks und liefert damit erste Benchmarking Ergebnisse auf dem neuen PTB-XL Datensatz, an dem sich andere Forschungsteams/Untersuchungen messen können. Für den klinischen Einsatz sind weitere Qualitätskriterien über die quantitative Genauigkeit hinaus von großer Bedeutung. Hier seien beispielhaft die Quantifizierung der Vorhersagesicherheit und die Interpretierbarkeit genannt, welche in obigem Artikel nur explorativ untersucht wurden, in folgenden Arbeiten aber detailliert analysiert werden müssen.
Der Benchmarking-Artikel ist als Preprint bei arXiv erschienen.