• search hit 1 of 1
Back to Result List

Continual Learning with Deep Learning Methods in an Application-Oriented Context

  • Abstract knowledge is deeply grounded in many computer-based applications. An important research area of Artificial Intelligence (AI) deals with the automatic derivation of knowledge from data. Machine learning offers the according algorithms. One area of research focuses on the development of biologically inspired learning algorithms. The respective machine learning methods are based on neurological concepts so that they can systematically derive knowledge from data and store it. One type of machine learning algorithms that can be categorized as "deep learning" model is referred to as Deep Neural Networks (DNNs). DNNs consist of multiple artificial neurons arranged in layers that are trained by using the backpropagation algorithm. These deep learning methods exhibit amazing capabilities for inferring and storing complex knowledge from high-dimensional data. However, DNNs are affected by a problem that prevents new knowledge from being added to an existing base. The ability to continuously accumulate knowledge is an important factor that contributed to evolution and is therefore a prerequisite for the development of strong AIs. The so-called "catastrophic forgetting" (CF) effect causes DNNs to immediately loose already derived knowledge after a few training iterations on a new data distribution. Only an energetically expensive retraining with the joint data distribution of past and new data enables the abstraction of the entire new set of knowledge. In order to counteract the effect, various techniques have been and are still being developed with the goal to mitigate or even solve the CF problem. These published CF avoidance studies usually imply the effectiveness of their approaches for various continual learning tasks. This dissertation is set in the context of continual machine learning with deep learning methods. The first part deals with the development of an application-oriented real-world evaluation protocol which can be used to investigate different machine learning models with regard to the suppression of the CF effect. In the second part, a comprehensive study indicates that under the application-oriented requirements none of the investigated models can exhibit satisfactory continual learning results. In the third part, a novel deep learning model is presented which is referred to as Deep Convolutional Gaussian Mixture Models (DCGMMs). DCGMMs build upon the unsupervised approach of Gaussian Mixture Models (GMMs). GMMs cannot be considered as deep learning method and they have to be initialized in a data-driven manner before training. These aspects limit the use of GMMs in continual learning scenarios. The training procedure proposed in this work enables the training of GMMs by using Stochastic Gradient Descent (SGD) (as applied to DNNs). The integrated annealing scheme solves the problem of a data-driven initialization, which has been a prerequisite for GMM training. It is experimentally proven that the novel training method enables equivalent results compared to conventional methods without iterating their disadvantages. Another innovation is the arrangement of GMMs in form of layers, which is similar to DNNs. The transformation of GMMs into layers enables the combination with existing layer types and thus the construction of deep architectures, which can derive more complex knowledge with less resources. In the final part of this work, the DCGMM model is examined with regard to its continual learning capabilities. In this context, a replay approach referred to as Gaussian Mixture Replay (GMR) is introduced. GMR describes the generation and replay of data samples by utilizing the DCGMM functionalities. Comparisons with existing CF avoidance models show that similar continual learning results can be achieved by using GMR under application-oriented conditions. All in all, the presented work implies that the identified application-oriented requirements are still an open issue with respect to "applied" continual learning research approaches. In addition, the novel deep learning model provides an interesting starting point for many other research areas.
  • Abstraktes Wissen ist in vielen computergestützten Anwendungen fest verankert. Ein wichtiger Forschungsbereich der Künstlichen Intelligenz (KI) beschäftigt sich mit dem automatischen Ableiten von Wissen aus Daten. Maschinelle Lernverfahren bieten diesbezüglich die grundlegenden Algorithmen an. Ein Forschungsbereich befasst sich mit der Entwicklung von biologisch inspirierten Lernverfahren. Derartige maschinelle Lernverfahren basieren auf neurologischen Konzepten, um Wissen aus Daten systematisch ableiten und speichern zu können. Eine Art davon, die unter die Kategorie der deep learning Modelle fällt, wird als Künstliches Neuronales Netz (KNN) bezeichnet. KNNs bestehen aus mehreren künstlichen Neuronen, die in Schichten angeordnet sind und mit Hilfe des Backpropagation Algorithmus trainiert werden. Derartige deep learning Verfahren weisen erstaunliche Fähigkeiten auf, um komplexes Wissen aus hochdimensionalen Daten ableiten und speichern zu können. Nichtsdestotrotz sind KNNs von einem Problem betroffen, welches das Hinzufügen von neuem Wissen zu bestehendem verhindert. Die Fähigkeit, kontinuierlich Wissen anhäufen zu können, war ein wichtiger Faktor für die menschliche Evolution und demnach eine Voraussetzung für die Entwicklung starker KIs. Der sogenannte "catastrophic forgetting" (CF) Effekt führt bei KNNs dazu, dass bereits abgeleitetes Wissen nach wenigen Trainingsiterationen auf einer neuen Datenverteilung unmittelbar verloren geht. Lediglich das energetisch aufwendige erneute Training mit der vereinten Datenverteilung von vergangenen und neuen Daten ermöglicht die Abstraktion des gesamten Wissens. Um dem Effekt des Vergessens entgegenzuwirken, wurden und werden verschiedeneartige Ansätze vorgeschlagen, die das katastrophale Vergessen abmildern oder sogar lösen sollen. Veröffentlichte Studien derartiger Modelle bestärken die Wirksamkeit der Lernverfahren für unterschiedliche kontinuierliche Lernaufgaben. Diese Dissertation steht im Kontext des kontinuierlichen maschinellen Lernens mit deep learning Verfahren. Der erste Teil befasst sich mit der Entwicklung eines anwendungsorientierten Evaluationsprotokolls, mit dessen Hilfe verschiedene Modelle auf die Unterdrückung des CF Effekt untersucht werden können. Im zweiten Teil folgt eine umfassende Untersuchung, die zeigt, dass unter den anwendungsorientierten Anforderungen keines der untersuchten Modelle zufriedenstellende kontinuierliche Lernergebnisse vorweisen kann. Im dritten Teil wird ein neuartiges deep learning Modell vorgestellt, was als Deep Convolutional Gaussian Mixture Models (DCGMMs) bezeichnet wird. Grundsätzlich bauen DCGMMs auf dem unüberwachten Ansatz der Gaussian Mixture Models (GMMs) auf. GMMs zählen nicht zu den deep learning Modellen und müssen für das Training zunächst datengetrieben initialisiert werden. Diese Nachteile erschweren den Einsatz von GMMs in kontinuierlichen Lernszenarien. Das vorgeschlagene Trainingsverfahren ermöglicht das Training von GMMs mittels Stochastic Gradient Descent (SGD) (wie bei KNNs). Zudem löst die annealing-Methode das Problem der datengetriebenen Initialisierung, welche bisher für das Training von GMMs vorausgesetzt wird. Es wird explorativ gezeigt, dass das neuartige Trainingsverfahren im Vergleich zu herkömmlichen Methoden gleichwertige Ergebnisse ermöglicht, ohne dessen Nachteile. Ein weiteres Novum besteht in der Anordnung von GMMs in Schichten, ähnlich wie sie bei KNNs aufzufinden sind. Die Transformation von GMMs in Schichten ermöglicht die Kombination mit existierenden Schichtarten und somit die Konstruktion von tiefen Modellen, welche komplexeres Wissen mit weniger Ressourcen ableiten können. Im abschließenden Teil der Arbeit wird das DCGMM Modell auf die kontinuierlichen Lernfähigkeiten hin untersucht. Hierfür wird ein replay-Ansatz vorgeschlagen, der als Gaussian Mixture Replay (GMR) bezeichnet wird. GMR beschreibt das Generieren und Wiedereinspielen von Datenpunkten durch die Nutzung der DCGMM Funktionalitäten. Vergleiche mit existierenden CF Unterdrückungsmodellen zeigen, dass mittels GMR ähnliche kontinuierliche Lernergebnisse unter anwendungsorientierten Bedingungen erzielt werden können. Die vorliegende Dissertation verweist abschließend darauf, dass die identifizierten anwendungsorientierten Anforderungen noch ein offenes Thema in Bezug auf Forschungsansätze zum kontinuierlichen Lernen darstellen. Darüber hinaus bietet das neuartige Modell einen wesentlichen Ansatzpunkt für weitere Anwendungsbereiche und zukünftige Forschungsfragen.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Benedikt Pfülb
URN:urn:nbn:de:hebis:66-opus4-9554
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2022/07/04
Date of first Publication:2022/07/04
Publishing Institution:Hochschule Fulda
Granting Institution:Hochschule Fulda
Date of final exam:2022/06/02
Release Date:2022/07/04
Pagenumber:195
Institutes:Hochschulübergreifendes Promotionszentrum Angewandte Informatik (PZAI)
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 000 Informatik, Informationswissenschaft, allgemeine Werke
Licence (German):License LogoEinfaches Nutzungsrecht

$Rev: 13159 $