Der Fachbereich Forensische Sprecherkennung des deutschen Bundeskriminalamtes (BKA) kann seit seiner Gründung in den 1980er Jahren auf viele Erfolge zurückblicken: Phonetiker im Dienste der Polizei konnten helfen, zahlreiche Rechtsfälle aufzuklären: Entführungen, Erpressungen, unter ihnen auch bekannte Fälle wie den des Kaufhauserpressers Dagobert, die Reemtsma-Entführung, Identifizierung eines RAF-Mitglieds, des Kannibalen von Rotenburg oder des flüchtenden Immobilienspekulanten Jürgen Schneider.
Mit solchen Spektrogrammen wird die menschliche Stimme analysiert
Zum Aufgabenbereich der Phonetikexperten gehören Auswertungen von Tonaufzeichnungen jeder Art: Anrufe, Videos, Voicerekorder von abgestürzten Flugzeugen, Mitschnitte von Telefonüberwachungen, kurzum Auswertung von akustischen Spuren. Im Schnitt bearbeiten sie 100 Fälle im Jahr.
Doch nicht immer sind die akustischen Spuren eindeutig: Allein der Umstand, dass die menschliche Stimme sich je nach Umständen wandelt, und der technische Stand der Aufnahme so gut wie niemals optimal ist, muss bei den Auswertungen mit einer 6-stufigen Wahrscheinlichkeitsskala gearbeitet werden.
Um die Wahrscheinlichkeit der Spracherkennung zu erhöhen, wurde eine repräsentative Datenbank mit Stimmen von 100 Polizeibeamten angelegt. Aufgenommen wurde nicht nur ihre reine Stimme, sondern die Beamten mussten auch einen Text vor einer starken Geräuschkulisse und nach Alkoholgenuss vorlesen. Zum Letzteren wurde festgestellt, dass mit zunehmenden Promille die Sprechgeschwindigkeit abnahm, die Zahl der Pausen dagegen zulegte. Ab 0,4 Promille war niemand mehr imstande, den Text fehlerfrei vorzulesen.
Eine zweite Datenbank besteht bereits seit mehreren Jahren, sie ist zur Erkennung der Sprecherherkunft aus dem deutschsprachigen Raum bestimmt. Zusätzlich zu vorliegenden älteren – und veralteten – Aufnahmen des Deutschen Sprachatlas in Marburg wurden Mitschnitte von 321 Polizisten aus Notrufzentralen angefertigt, in Segmente unterteilt und im Computer gespeichert. Sie können in dieser Form mit Segmenten der untersuchten Erpresseranrufe verglichen werden, um die Stimme des Gegenübers geografisch zu lokalisieren. Eine Verstellung der Stimme nützt da wenig – kaum jemand ist imstande, im Stress langfristig einen fremden Akzent nachzuahmen.
Die letzte Entwicklung sind sog. Total-Voice-Systeme, die Resonanzkoeffizienten im Mund-Nasen-Rachenraum untersuchen. Dieses System stammt aus Spanien und wurde zur Identifizierung von ETA-Terroristen entwickelt. Damit können auch Personen identifiziert werden, die eine fremde Sprache sprechen. Und das wesentlich zuverlässiger als die traditionelle Analyse der Stimmproduktion im Kehlkopf.
Foto: Elke Philburn: VOWEL_I.JPG/Wikipedia, Lizenz: GNU FDL