KI ist ein großes Forschungsthema – und wir von ExB beteiligen uns daran mit hohem Aufwand: Fast ein Drittel unseres Budgets geht in die Forschung. Fokus bildet dabei die angewandte Wissenschaft, also die Frage, wie NLP, Machine Learning und insbesondere Deep Learning in ihrer praktischen Anwendung einen möglichst hohen wirtschaftlichen Nutzen liefern können. Hier leisten wir nicht selten Pionierarbeit.
Bei der Künstlichen Intelligenz ist vieles denkbar. Unsere Forschung macht vor allem: machbar.
Unsere Forschung in Zahlen
-
9
Doktorarbeiten
-
30+
Patente
-
50+
Veröffentlichungen
Nehmen Sie zum Beispiel das Natural Language Processing, kurz NLP. Während sich akademisches NLP fast ausschließlich auf reine Texte wie Nachrichtenartikel konzentriert, sieht die Realität oft anders aus: Da geht es vor allem um Dokumente wie Rechnungen, Beschwerden, Gutachten, Excel-Tabellen, PowerPoint-Folien usw. mit wenig Linguistik und viel räumlicher Anordnung. Der häufigste Anwendungsfall ist die Extraktion von Informationen aus einer Tabelle, einer Schlüsselwertliste oder ähnlichen nicht-textuellen Daten. Dagegen ist das Extrahieren von Daten aus reinem Text, mit Sätzen, Phrasen und anderen linguistischen Strukturen, ein eher seltener Fall.
Daher haben viele an sich sehr fortschrittliche NLP-Algorithmen (wie etwa das High-End-Parsing) oft wenig bis gar keinen Einfluss. Dafür hat eine selbst einfache Einbezugnahme der räumlichen Anordnung der Textblöcke einen sehr großen Einfluss. Für uns bedeutet das, uns nicht allein auf hochmoderne NLP-Funktionen zu verlassen, sondern diese sinnvoll zu kombinieren, etwa mit einer visuellen Dokumentenanalyse.
Angewandte Forschung als Arbeitsprozess
Konkret bedeutet das: Daten sind zu analysieren, Literatur über die derzeit bekanntesten besten Lösungen zu lesen, die vielversprechendsten Experimente aus der Wissenschaft auszuwählen und zu reproduzieren, sie auf die vorliegenden Daten anzuwenden und sie schließlich gemeinsam mit unseren Softwareentwicklern so zu überarbeiten, dass bestimmte Rechenzeit- und Raumgrenzen einhalten werden.
Das Ergebnis ist eine hochwertige Softwarelösung, mit einem gut dokumentierten Ansatz und Messungen dieses Ansatzes an Dutzenden von verschiedenen Datensätzen, eingebettet in das Produkt von ExB, der Cognitive Workbench.
Saubere Vergleichbarkeit und Transparenz
Jedes Training wird standardmäßig nach dem Five-fold-crossvalidation Verfahren vermessen. Dabei werden vier Fünftel der verfügbaren Daten zum Training verwendet, und ein Fünftel dem Training vorenthalten, damit anschließend verifiziert werden kann, dass das Training auch auf vorher unbekannten Daten gute Ergebnisse liefert. Jedes Training wird insgesamt 6 Mal durchgeführt. 5 Mal für jede der 5 möglichen Einteilungen der Daten, und ein sechstes Mal für das finale Produktivtraining auf allen Daten.
Jedes Training resultiert in einem trainierten Modell. Dieses ist inklusive der nötigen Run-time Komponenten als Paket exportierbar, so dass es auf einem kleinen Server unendlich oft auf neuen Daten verwendet werden kann (z.B. in Form einer REST-Schnittstelle). Das Modell beinhaltet aber auch sämtliche Informationen, die während dem Training angefallen sind. Dazu gehören unter anderem die erzielten Messwerte wie gut das Modell in der Crossfoldvalidation abgeschnitten hat. Dazu gehören auch Angaben darüber, welche Trainingsdaten verwendet wurden, wie groß die waren, wer das Training durchgeführt hat, usw.
Dadurch kann jedes einzelne Training jederzeit auch nachträglich überprüft werden, verschiedene Versionen des gleichen Trainings miteinander verglichen werden, und anhand klarer Kriterien entschieden werden, ob ein Modell in den Produktivbetrieb gehen kann.


Unbeaufsichtigtes Training mit großen Datenmengen
Das unbeaufsichtigte Training ließen wir gegen einen vollständigen Web-Crawl mit Hunderten von Millionen Sätzen laufen. Daraus ergab sich ein Sprachmodell. Eines, das den allgemeinen Gebrauch von Wörtern, Sätzen usw. der betreffenden Sprache kodiert und zugleich unabhängig davon ist, wofür es später verwendet werden soll. Es sammelte dazu viel sprachliches Wissen, wie etwa Wortähnlichkeiten („Haus“ und „Gebäude“ sind semantisch ähnlich), Syntax der Wörter („Laufen“ und „Aufräumen“ haben eine ähnliche Satzfunktion), Mehrdeutigkeiten etc. Der unbeaufsichtigte Trainingsprozess leitet alle diese Informationen ganz von selbst aus den Daten ab – ähnlich wie ein lernender Mensch das machen würde: Stellen Sie sich vor, Sie sehen viele Sätze mit Kontexten wie „das Haus wurde eingebaut“ oder „das Gebäude wurde eingebaut“. Auch ohne Kenntnisse im allgemeinen Englisch können Sie daraus schließen, dass „Haus“ und „Gebäude“ austauschbar erscheinen.
Unüberwachtes Lernen hat sich in den letzten zehn Jahren stark weiterentwickelt. Anfangs waren es vor allem (aus heutiger Sicht) komplizierte, auf der Zählung gemeinsamer Vorkommen von Wörtern basierende Methoden. Diese unterschieden explizit semantische von syntaktischen unbeaufsichtigten Modellen. Heute handelt es sich in der Regel um ein neuronales Netzwerk, das auf der Grundlage von vollständig kontextualisierten, zeichenbasierten Sprachmodellen auf Zeichenebene arbeitet, die jedem Wort einen Vektor zuweisen.

Ein solcher Vektor hat viele Eigenschaften. Zum Beispiel ist der Vektor eines Wortes dem Vektor eines anderen Wortes ähnlich, wenn die Wörter semantisch ähnlich sind. D.h. in einigen Dimensionen werden gleiche oder ähnliche Werte stehen. Handelt es sich dagegen um das gleiche Wort in einem völlig anderen Kontext, ist auch der Vektor anders. Der zeichenbasierte Ansatz ermöglicht es, auch Wörtern, die im unbeaufsichtigten Training nicht erkannt wurden – sogenannten Out-Of-Vocabulary Words – gute Vektoren zuzuordnen. Auf dieselbe Weise können auch Wörter mit OCR-Fehlern vernünftige Vektoren erhalten.
Diese modernen Methoden sind vom Design her einfacher, aber deutlich anspruchsvoller in Bezug auf die erforderliche Rechenleistung. Ab 2019 erfordert das Training eines guten Sprachmodells mindestens einen kleinen Supercomputer mit vier Tesla-GPUs.
Überwachtes Training zur gezielten Qualitätsverbesserung
Überwachtes Training hat die Aufgabe, ein Modell zu finden, das von bestimmten, möglichst kleinen Satz von explizit markierten Trainingsbeispielen lernt, diese Markierungen auf anderen Daten ähnlich anzuwenden. Dazwischen wird häufig noch ein weiterer Validierungsdatensatz verwendet, um die Hyperparameter des überwachten Trainings zu optimieren.
Traditionell wurden für das überwachte Training Algorithmen wie Support Vector Machine (SVM) oder Conditional Random Field (CRF) verwendet. In jüngster Zeit kommen jedoch meist neuronalen Netzwerklösungen mit Komponenten wie Convolutional Neuronal Networks (CNN) oder Long-Short-Term-Memory (LSTM) zum Einsatz, gerne aber auch in Kombination mit den herkömmlichen Verfahren. Die Neuronalen Netzwerke lernen dabei die Features, und das CRF fällt dann die finale Entscheidung, zum Beispiel.

ExB hat eine eigene Architektur zur Trennung der (selbstgelernten oder von Hand vorgegeben) Featuregenerierung vom tatsächlichen maschinellen Lernen, so dass der Algorithmus des maschinellen Lernens ohne großen Aufwand ausgetauscht werden kann. Gleichzeitig kann die Featuregenerierung einfach erweitert werden, ohne die maschinelle Lernebene in irgendeiner Weise (negativ) zu beeinflussen.
ISBI 2016
Erster Platz bei der „Automatisierten Hautläsionsanalyse und Melanomerkennung“ (ISIC Challenge).
ISBI 2016
Bestes Unternehmen mit dem „Automatisierten Nachweis von Metatasen bei Hämatoxylin und Eosin (H&E) gefärbten Ganzkörperaufnahmen von Lymphknotenabschnitten“ (Camelyon Challenge).
MICCAI 2015
Bestes Unternehmen für die Identifizierung von Krebszellen in Bildern von histologischen Schnitten (GlaS Challenge).
SemEval 2015
Semantische Textähnlichkeit: Zweiter Gesamtrang in Englisch (bestes teilnehmendes Unternehmen), erster Gesamtrang in Spanisch.
MultiLing 2015
Bestes „Multi Document Text Summarisation“ Unternehmen in 38 Sprachen, dritter Gesamtrang.
BioCreative 2015
Zweitbestes Unternehmen im „Medical Text Mining“ für Wirkstoffe, Krankheiten und deren Interaktion.
GermEval 2014
Erster und zweiter Gesamtrang, bester „Named Entity Recogniser“ für Deutsch.
Wir nehmen uns Zeit für Ihre Fragen. Und zeigen Ihnen gerne eine Produktdemo.
Die Cognitive Workbench in Versicherungen.
Geschäftspost zuverlässiger verarbeiten.
Bis heute kann bei Versicherungen oft nicht einmal die Hälfte der eingehenden Geschäftspost zuverlässig automatisiert verarbeitet werden. Mit dem Text-Mining der Cognitive Workbench können Sie die Trendwende einleiten. Dank einer signifikant höheren Erkennungsqualität – etwa bei Schadengutachten, Arbeitsunfähigkeitsbescheinigungen, Ärzteschreiben und Kundenbriefen – entlasten Sie Ihre Sachbearbeiter und senken Ihre operativen Kosten.
-
Anwendungen im Bereich Mobilität
Fahrerfragen verstehen, Werkstätten unterstützen, Patente recherchieren: Die Cognitive Workbench kann Sie an essenziellen Stellen unterstützen.
Mehr zu Mobilität -
Lösungen für den Gesundheitsbereich
Patientenakten, Laborberichte, Abrechnungen, medizinische Veröffentlichungen: Die Cognitive Workbench behält den Durchblick.
Mehr zu Gesundheit -
Einsatz in anderen Branchen
Medienarchive durchforsten, Umzugsmeldungen verarbeiten: Unsere Lösung eignet sich für ein breites Einsatzspektrum – auch in Ihrer Branche.
Mehr zu anderen Branchen