Meine fachlichen Schwerpunkte:
1. KI (Künstliche Intelligenz) / AI (Artificial Intelligence): Studienschwerpunkt und fast 30 Jahre Erfahrung in allen Feldern, insbesondere im Deep Learning (TensorFlow etc.), Machine Learning, NLP (Natural Language Processing)/Computerlinguistik.
2. Big Data (Spark, Hadoop, Kafka, Cassandra) / Data Science / BI: Fraud Detection, Advertising, Smart Functionalities
3. Cloud: Docker, Kubernetes, Kubeless, Google Cloud Platform (GCP), vmWare, Citrix, Amazon EC2, AWS, OpenStack, OpenShift, Cloud Foundry, MS Azure
4. Microservices/APIs/Serverless: DDD, Evolutionary Architecture, Versionierung, Schnittstellen- und Protokoll-Design, EAI.
5. Enterprise Application Integration (EAI): WebServices, Messaging, Batch, In-Memory Frameworks, ESBs, Async Frameworks, Business Rules/BPM(N), Integration verschiedener Technologien wie Unix, Host, Windows, Mobile Platforms.
6. Mobile Apps / Mobile First Architecture: HTML5, Ionic / Angular, Cross-Platform und Native Frameworks in Java, Scala, C++, C# oder Objective C/Swift.
7. Hochverfügbarkeit: Business Continuity Management (BCM), Reliability Engineering, Desaster Recovery (DR).
8. Business-Process-Optimierungskonzepte
9. Effizientes Beenden von Problemprojekten (mit eigenem Tracing & Analyse-Toolset) sowie Neu-Strukturierung von Problemprojekten.
Meine Projekt-Rollen – am liebsten möglichst innovativ/kreativ:
1. Architektur: Enterprise IT, Big Data, Cloud, Messaging, APIs, Proofs of Concept (PoC)
2. IT Sicherheit, eigene IT-Security-Datenbank: Konzepte, Rechte & Rollen, Pen-testing, Logging/Monitoring/IDS/IPS, Entwicklung, Reviews, Incident Response aber KEINE Administration
3. Projektleitung/Testleitung, Product Owner: meist im Anschluss an Architektur
4. Agile: Coaching / Risiko-minimierende Einführung/Verbesserung / Product Owner: Design Thinking, Work Hacks, Scrum, ScrumOfScrums, Kanban, DAD, Crystal, Cynefin, Scrum@Scale, SAFe, LESS, Nexus, Use Case 2.0, Learn Startup, Serverless, Holacracy/Pitching Framework und klassische Prozesse: V-Modell XT, RUP/EUP, PRINCE2, ITPM, PMI, IPMA
5. Schulungen: Big Data und IT Sicherheit
Nur gelegentlich Entwicklung (20%): Java, Scala, Python, C/C++/C#, PHP, Visual Basic/VBA, SQL/HQL in PoCs – GUI-Entwicklung hat den geringsten Anteil (Backend / Fachlichkeit bevorzugt).
Branchen: Übergreifend, Schwerpunkte: Banken, Versicherungen, Gesundheitswesen, Telko, Elektronik/Technologie, Luftfahrt/Transport/Automotive, Energieversorgung, Verlage.
Erfolge/Referenzen:
Architekt in den wohl 4 wichtigsten deutschen IT-Projekten der letzten Jahre: Elektronische Gesundheitskarte (Gematik), elektronischer neuer Personalausweis nPA (Bundesdruckerei), De-Mail (sichere vertrauliche E-Mail mit gesetzlicher Signaturfunktion und Gleichstellung zum eingeschriebenen Brief, Dt. Telekom) und das Mobile-Security-Projekt SIMKO/Merkel-Phone der Bundesregierung. Dadurch, dass ich häufig für die IT-Security-Aspekte von Architekturen hinzugezogen werde, habe ich mit ein Vielfaches von Real-World-Architekturen gesehen im Vergleich zu normalen Architekten.
Referenzen: Deutsche Bundesregierung, 12 DAX30-Unternehmen (Dt. Bank, Commerzbank, Dt. Börse, Dt. Telekom, Dt. Post/DHL, Daimler, BMW, VW, TUI, ThyssenKrupp, Allianz, Siemens), über 30 internationale Großkonzerne (Vattenfall, Thales, Airbus, stryker, B. Braun, Walgreens Boots Alliance (WGA)/Omnicare (ex: MegaPharm), Generali, HSBC, Sparda Bank, Norisbank, Citigroup, Lloyds Banking Group, PostFinance, Bank Julius Bär, Fiducia, BNP Paribas, Credit Suisse, Schwäbisch-Hall, GE, Nordex Acciona, Lidl, Kaufland, Douglas, ParfumDreams, Deloitte, Visteon, TecAlliance, Avira, Deutsche Bahn, European Patent Office, BG Phoenics, AOK, Vodafone, Trost, Aptiv, GfK, Verlagshäuser: Holtzbrinck, Rentrop und Haufe/Lexware).
8 erteilte Software-Patente im Security-Bereich (sichere unscheinbare Kommunikation/Textbasierte Wasserzeichen, z.B. für eBooks). Die Patente wurden in allen wichtigen Industriestaaten erteilt (USA, Kanada, Europa) und von IBM, SAP/Sybase, Amazon, Intel, Microsoft, Nuance, Fuji Xerox, AT&T, Certicom (wichtigster NSA-Crypto-Lieferant z.B. in der „NSA Suite B Cryptography“) und vielen anderen als wichtiges Basispatent referenziert/lizenziert: US-Patent US7167825 (Abschnitt „Cited By“); zahlreiche Auszeichnungen für Geschäftsideen und Innovationen.
Zusätzlich: 20 Jahre Berufserfahrung, 2 CeBIT Messe-Highlights, zahlreiche Auszeichnungen für Geschäftsideen und Innovationen und ich habe jedes professionell finanzierte Projekt zum Erfolg gebracht. Weitere Referenzen können Sie auf meinem LinkedIn-Profil finden.
Fast 30 Jahre KI-Erfahrung (Künstliche Intelligenz/ AI – Artificial Intelligence):
Letzte Jahre (2010 – heute): Deep Learning, Data Science, Big Data
Key Skills: Deep Learning (CNN, RNN, TensorFlow, PyTorch, etc.), Deep NLP (Natural Language Processing: BERT, ULM-FiT, ELMo, Transfer Learning, OpenNMT, OpenAI Transformer, AllenNLP, Stanford CoreNLP), Data Science (Apache Spark MlLib, Mahout, R, spaCy, Anaconda), hybride Modelle (vorgegebene Strukturen + neuronale Netze + Gewichte/Stochastik, z.B. LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Attention, Feast AI), PMML, ONNX, OpenScoring.io, Speicherung von Deep Learning Zwischenständen + Modellen, Wissensrepräsentation und Inferenz (Schlußfolgerungen ziehen), Semantik, Virtualisierung, Management mit Docker, Kubernetes, Airflow, etc
KI-Projekte:
1. Großer Autokonzern, Autonomous Driving Programm, 2018-heute: Deep Learning für selbstfahrende Autos: Logisch/zeitlich konsistente virtuelle 3D-Stadtgenerierung, Deep Labelling für semantische Bildsegmentierung mit Keras/TensorFlow, Design Patterns für Deep Learning Architekturen, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning Agents), Horovod (verteilte Trainingslibrary für TensorFlow, Keras, PyTorch), Sparse Blocks Network (SBNet, TensorFlow Algorithmus), Google Dopamine Reinforcement Learning Framework auf Basis von TensorFlow, OpenAI GPT-2, Facebook XLM + PyText, Google BERT.
2. HSBC Trinkaus & Burkhard AG: Größte Europäische Bank, World’s Best Bank 2017 nach EuroMoney, 12/2017 – 11/2018: Security- und SOC-Architekt (Security Operations Center), SOC der 5. Generation: Erweiterung der SOC-Features um KI und Data Science: Ca. 60 kommerzielle Security-Tools. Data Science/KI zur Erkennung von Sicherheitsvorfällen: Neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Gradient Boosting (GBM, xgboost), Cubist (Erweiterung von Quinlan’s M5 model tree), Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke.
3. Schwarz-Gruppe (Lidl & Kaufland): Machine-Learning zum Einkaufsverhalten der Kunden: Wirkungsanalyse & Optimierung von Marketingaktionen, Optimierung der Supply-Chain: Gradient Boosting (GBM, xgboost), Cubist.
4. Avira, 2017: Machine-Learning zur Optimierung der Konversionsraten von Freemium zu Paid, Abhängigkeitsanalysen auch zur Optimierung der Boot-Zeiten.
5. BNP Paribas Personal Investors, 2017: Consorsbank + DAB, World’s Best Bank 2016 nach EuroMoney: Konzeption eines Customer Intelligence (CI) Systems mit CDP (Customer Data Platform) und MAP (Marketing Automation Platform) für Hadoop/Spark: Kunden-Segmentierung z.B. nach Personas mit KNIME, Chatbot mit IBM Watson und Open Source Chatbot-Architektur mit DLNLP Tools (Deep Learning Natural Language Processing); DynaMine, Gradient Boosting (xgboost).
6. Credit Suisse, 2017: Business Transaction Store zur Analyse jeglicher Finanz-Transaktionen: Rekonstruktion aller Transaktionsbäume mit allen Zweigen, Zeitreihenanalyse, Anomalie-Erkennung, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung.
7. Cisco Systems mit AOK als Endkunde, 2016−2017: Microservice Blueprints für Data Science Anwendungen wie Maximierung des Erfolgs von Gesundheits-Förderprogrammen.
8. GE (General Electric), 2016: Digital Windfarm Projekt: Make vs Buy vs Improve Analysen mit Machine Learning und ca. 50 Einfluss-Faktoren.
9. Deloitte Consulting für Daimler Financial Services (DFS), 2016: Erstellung einer Architektur für ein Corporate Memory, insbesondere die möglichst schnelle Erkennung von negativen Bonitätsveränderungen, Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention mit Machine Learning).
10. GfK Marktforschungsunternehmen, 2015: BI-Analysen; Werbe-Effizienz-Analysen, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf.
11. KPT/CPT Krankenversicherung, Schweiz, 2015: Analyse der medizin. Leistungsdaten und daraus Ableitung von Fragebögen und Aufschlägen für Vorerkrankungen und Analyse/Optimierung der Marketing-Aufwendungen, Betrugserkennung z.B. bzgl. der Begünstigten und der Korrektheit der zu erstattenden medizinischen Rechnungen.
12. Smartclip, Cross-Platform-Video-Werbung (Teil der Mediengruppe RTL, Teil von Bertelsmann), 2015: Vorschläge erstellt für Auswertungen im Data Science Bereich für das Targeting, das zielgruppen-abhängige Schalten von Online-/Internet-Video-Clips; Integration mit DMPs / DSPs, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse.
13. Havas Media Gruppe (Medienagentur Nr. 7 in Europa) in Kooperation mit TheAdex, 2015: a) Semantic Ad Targeting mit Real-time DMP, b) Betrugserkennung in Web-Werbungs-Tags /-Pixels; c) Analyse der Kunden-Reisen (Customer Journey) durch Web-Sites / in der verfügbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen.
14. Siemens Corporate Technology/Healthineers (ex: Healthcare) IT, 2014−2015: Konzeption einer vorausschauenden Instandhaltungs-Lösung (Predictive Maintenance) für die Siemens-Medizinprodukte: GMM (Gaussian Mixture Models); Überwachtes Lernen / Supervised Machine Learning, Association Rule Learning.
15. Dermalog / FingerPayment, 2014: Bekämpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identitätsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenmaßnahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verhältnis, beispielsweise Verschlüsselung, Signierung, sicherer Schlüsselaustausch,etc.
16. Allianz, 2014: Intelligente Data Center Migrationen mit Millionen von Abhängigkeiten ohne Betriebsunterbrechung.
17. Klingel / KMO-Gruppe: 2014−2015: Verbesserung der Erkennung von betrügerischen Fällen; Erstellung von Vorschlägen für Cross- und Up-Selling; Erweiterung der Analyse zur Optimierung der Online-Werbe-Ausgaben; Betrugserkennung.
18. BG-Phoenics (IT-Tochter der Dt. gesetzl. Unfallversicherungen (DGUV)/Berufsgenossenschaften), 2013: Vorschlagen von Textbausteinen zur rechtssicheren Erstellung von berufsgenossenschaftlichen Bescheiden und der rechtssicheren Beantwortung von Briefen auf Basis von OCR + ICR (Optical Character Recognition + Intelligent Content Recognition).
19. Gematik (deutsche elektronische Gesundheitskarte und ihrer Infrastruktur): 2012 & 2013: Konzeption eines Statistik-Moduls zur Identifizierung verschiedener Arten von Angriffen / Betrug mit der Gesundheitskarte oder auf dem Konnektor oder der Backend-Infrastruktur, Anomalie-Erkennung.
20. Parfumdreams.de (Akzente Parfums), von 2012 bis 2013: Konzeption und Implementierung der Erkennung von betrügerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verdächtiges Verhalten; Erstellung von Vorschläge für Cross- und Up-Selling; Betrugserkennung.
21. Lloyds Banking Group / Heidelberger Leben, 2010−2011: Betrugserkennung / AML (Anti Money Laundering) / KYC (Know Your Customer) in Bezug auf Zahler, Begünstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zusätzlich gezahlten Prämien und zu zahlender Beträge; Datenaustausch über problematische oder betrugs-verdächtige Kunden mit anderen (Lebens-)Versicherungen, Machine-Learning auf dieser Basis.
22. Deutsche Bundesdruckerei, 2010: Konzeption / Implementierung einer Softwarekomponente für die Überprüfung der Echtheit der deutschen und internationalen Pässe / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / Fälschungen zu verhindern.
Frühe Berufstätigkeit (1998 – 2010) während der KI-Flaute: Semantic Search, Web Scraping und Inhaltsanalyse, unscheinbare sichere Kommunikation, Text-Wasserzeichen, Competitive Intelligence
Key Skills: Stochastik-, Statistik- und Data-Science-Libraries, Semantic Web, semantische Suche mit Ontologien/Thesauri/strukturierten lexikalischen Daten mit stochastischen Ähnlichkeitsmaßen über Begriffe/Inhalte, OWL, DAML+OIL, NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Data Mining, Business Intelligence (BI) mit relationalen und objektorientierten DBs, Helpdesk-Automatisierung, Büroautomatisierung (OCR + ICR: Z.B. Prüfung von medizinischen Abrechnungen, Versicherungsfällen, Vorschlagen von Textbausteinen zur Beantwortung von Briefen).
Projekte mit KI-Anteilen:
1. Deutsche Telekom / T-Systems, 2007−2008: Aufbau eines Tracking & Tracing-Systems für Inventar und verschickte Waren mit statistischer Analyse der verschickten / erhaltenen Warenmengen wenn sie mit LKW / Bahn / Flugzeuge verschickt werden, der Defekt-Quoten; Analyse aller Warenflüsse in und aus ganzen Fabriken und Betrugserkennung auf dieser Grundlage.
2. Thales Gruppe / Thales Defence, 2001−2003: Data Science / Statistische Auswertung von Manöver-Daten von Flugzeugen und Schiffen auf Treff- und Ortungsgenauigkeit sowie untergeordnet der Qualität von IT Komponenten und der menschlichen Befehle/Aktionen.
3. Fraunhofer IESE + Startup: Konzeption eines Semantic Search Systems basierend auf Ontologie-Distanz semantischer Konzepte sowie deren Umschreibungen.
DS-Ansatz: Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG-)Parsing.
4. Fraunhofer IESE + Startup: Konzeption von teilweise vorgegebenen, teilweise selbstlernenden deep semantic Web/Text/Data Mining Algorithmen mit Extraktion aus Tabellen, Beschriftungen, etc. sowie entsprechender Lernalgorithmen basierend auf (HTML-)Strukturen und bereits bekanntem Wissen.
Data Science (DS)-Ansatz: Die Tiefe / DOM-Pfad-Ähnlichkeit der HTML-Tags von Daten aus HTML-Tabellen extrahieren. Minimax-Ansatz: Das Minimieren der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der Tabelleninhalte wird gelernt, Gewinnung einer minimaler-Spannbaum-Segmentierung mit optimal hybrid gewichteten Punktzahlen für Tabelleninhalte.
5. Fraunhofer IESE + Startup: Konzeption der Algorithmen/Wahrscheinlichkeitsformeln für die Berechnung der Wahrscheinlichkeit, dass ein Text plagiiert ist.
DS-Ansatz: Head-driven Phrase-Structure Grammar Parsing (HPSG) von Texten. Die Bestimmung der statistischen Verteilungen aller Kopf-Tochter-Selektionen, in denen mehrere Möglichkeiten bestehen, z.B. Gauss, Student, Bernoulli und andere Distributionen, Maximum-Likelihood-Schätzer. Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG) Parsing.
6. Fraunhofer IESE + Startup: Extrahieren der statist. Charakteristika persönlicher Schreibstile aus Mustertexten und Anwenden dieser Schreibstile für Text Watermarking und Steganographie.
DS-Ansatz: Head-driven-Parsing (HPSG) von Texten mit Wahrscheinlichkeiten für die Kopf-Tochter Selektionen. Speichern für jeden Autor: a), in welchem grammatikalischen Konstrukt er welche Wort Stellungen / Paraphrasen bevorzugt und b) welche Synonyme er bevorzugt (Häufigkeiten) aus den bekannten Synonym-Sätzen basierend auf Zusammenhänge (HPSG Selektions- und Kontext-Constraints), Maximum-Likelihood-Schätzer.
7. Diplomarbeit/DFKI + Startup: Entwicklung von Lernalgorithmen für das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/Übergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse für zusammengesetzte Wörter (Komposita) und Präpositionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Präpositionen, die logisch die Teile des Kompositums verbinden können (führte zu einem internationalen Konferenz-Papier (GAL) + Veröffentlichung im Wissenschaftsmagazin International Journal for Language Data Processing).
DS-Ansatz: Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des künftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erhält mit optimalen hybrid gewichtetem Score für die mögliche Bedeutung aller Datenelemente.
Studium (1992 – 1998): Abgeschlossenes Studium mit KI- und NLP-Schwerpunkt am DFKI (Dt. Forschungszentrum für Künstliche Intelligenz, einzige Dt. KI-Spitzenorganisation und größtes KI-Forschungszentrum der Welt, TU Kaiserslautern + Saarbrücken), Semantische Suche, NLP, Büroautomatisierung (OCR + ICR), Information Retrieval, KDD (Knowledge Discovery in Databases), BI.
Key Skills: NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Business Intelligence (BI) mit relationalen und objektorientierten DBs, Büroautomatisierung (OCR + ICR), KDD (Knowledge Discovery in Databases).
Arbeiten:
1. Diplomarbeit/DFKI + Startup: Entwicklung von Lernalgorithmen für das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/Übergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse für zusammengesetzte Wörter (Komposita) und Präpositionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Präpositionen, die logisch die Teile des Kompositums verbinden können (führte zu einem internationalen Konferenz-Papier (GAL) + Veröffentlichung im Wissenschaftsmagazin International Journal for Language Data Processing).
2. DFKI (Dt. Forschungszentrum für KI), Projektarbeit: Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Geschäftsbrief-)Struktur-, Lage- und Segmentierungs-Daten für ICR (Intelligent Content Recognition) mit Student- und Gauß-Verteilung. Dies wurde von der DFKI-Ausgründung Insiders-Technologies in deren kommerzielle Produkte eingebaut.
DS-Ansatz: Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unteren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gauß-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fläche unter den Gauß-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der zukünftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid gewichteter Punktzahl/Score für die Dokumenten-Segmentierung.
3. DFKI, Seminararbeit: Nichtlineare Planer, Score-Berechnung für Situationen und heuristische/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.).
DS-Ansatz: Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.
Themen meines KI/NLP-Studiums: Konnektionismus/Neuronale Netzwerke (CNN, Perzeptron, Kohonen-Karten,…), Einschränkungen/Constraints, Expertensysteme, Computerlinguistik/NLP (HPSG, LFG, MRS, Syntax, Semantik, Pragmatik, generatives Lexikon, lexikalische Regeln, Chart Parsing), Ontologien, Rahmenlogik/Frame Logic, DAML+OIL, Information Retrieval, semantische Suche, phonetische Suche, Spracherkennung (gehalten durch IBM ViaVoice Forscher), Planung, intelligentes Konfigurationsmanagement (mit Constraints), Robotik, Computer Vision, intelligentes Workflow-Management (mit Constraints), deduktive Logik, induktive Logik, deduktive/induktive/semantische Datenbanken, fallbasierte Logik, visuelle Krebserkennung mit CNN/RNNN/Kohonen-Karten, Statistik/stochastische/Ähnlichkeitsmaße, Aktivierungsfunktionen, Wissensrepräsentation und Inferenz (Schlußfolgerungen ziehen).
Weitere Key Skills + Tools:
Data Science Tools: Revolution R mit RHadoop/RHIPE/Shiny, H2O.ai/Sparkling Water/Deep Water, SAS, KNIME, Talend Open Studio for Big Data, Intelligent Miner, RapidMiner, Tableau, Pentaho Data Suite mit Kettle, Jena OWL Framework, PyData Tools (IPython, Anaconda, Blaze, Bokeh, Canopy, matplotlib, Nose, Numba, NumPy, SciPy, Statsmodels, SymPy, pandas, SciKit-Image, SciKit-Learn), Gephi (Open Graph Viz Platform), nur kurz evaluiert: Waterline Data Science, Datameer, Paxata, platfora, Trillium, SAP Business Objects, Zoomdata.
Data Science Libraries: Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, Giraph, Spark mit Streaming, MLlib, GraphX, Alluxio, Kernel und Apache Ignite, PredictionIO, ScalaNLP (Breeze, Epic, Puck, Chalk), Apache Tika / Gora / Nutch / Solr / Elasticsearch / Lucene (Java), LIBSVM, Oryx 2, ELKI, Deeplearning4j (alle Java), MLPACK (C++), Armadillo (C++), Torch with dp (deep learning library) (Lua,C/C++, CUDA), Berkeley Caffe (C++, Python), CaffeeOnSpark, SparkNet, Microsoft Computational Network Toolkit (CNTK in C++) und Distributed Machine Learning Toolkit (DMTK in C++), Google TensorFlow (C/C++, Python) (alle Deep-Learning).
Wichtige Data Science / AI Algorithmen: Alle gängigen Stochastik-, Predictive Analytics- und KI-Algorithmen (Schwerpunkt meines Studiums), z.B. k-d Tree, k-means, Clustering, Classification (Naive-Bayes, …), Multi-Linear Regression, Bloom Filter, Model Cross Validation, Machine Learning, Statistical Analysis, Large-Scale Predictive Modeling, Hypothesis Testing, SVD++ (Singular Value Decomposition = Dimensions-Reduktion), SVM (Support Vector Machine), Entscheidungsbäume, C4.5, CART, Nearest-neighbour methods, Fitting, Neuronale Netze, Differential Privacy, Feature Learning/Representation Learning, Hierarchical Dynamic Models (HDMs).
NLP libraries: Apache OpenNLP (Natural Language Processing), Stanford CoreNLP, TensorFlow SyntaxNet, NLTK (Natural Language Toolkit: tagging/chunk parsing), WordNet, GATE (General Architecture for Text Engineering), Apache UIMA (Unstructured Information Management architecture/applications), LKB (Lexical Knowledge Base/Builder), CSLI Stanford Parser, DELPH-IN Pet Parser, Apache Stanbol, spaCy, Spark MlLib, Spark-NLP, AllenNLP, Eigener Parser und Knowledge Management System.