Data Science: Die besten Programmiersprachen und Plattformen im Finanzsektor

eFC logo
Data Science: Die besten Programmiersprachen und Plattformen im Finanzsektor

Graham Giller war Head of Data Science Research bei JP Morgan und Head of Primary Research bei der Deutschen Bank. Mittlerweile hat er sich mit Giller Investments selbstständig gemacht und ein Buch mit dem Titel Adventures in Financial Data Science geschrieben, das Ende des Monats erscheint.

Hier Gillers Tipps für alle, die eine Karriere im Bereich Financial Data anstreben:

Auf welche Programmiersprachen setzen Sie für Data Science?

Im Hinblick auf Programmiersprachen spielt sich meine Tätigkeit mittlerweile fast nur noch auf drei bis vier Plattformen ab:

Ich verwende Python3 für die Datenerfassung, -vorbereitung und -verwaltung sowie einige Rechenoperationen, die sich nicht ohne weiteres in andere Systeme einfügen lassen. Ich verwende keine „Notebook“-Schnittstellen, ich schreibe meinen Code in einer IDE, der automatisch gescheduled oder manuell von der Command Line aus ausgeführt werden kann.

Ich nutze eine Kombination aus R und spezialisierter kommerzieller Zeitreihenanalysesoftware für Inferenzzwecke. Gut zurecht komme ich mit der T-S-Software (RATS), einem Minority Interest Program, das aber bis zu einem gewissen Grad eine Legacy-Anwendung ist. Hätte ich meine Karriere nicht in den 1990ern begonnen, würde ich es wohl kaum nutzen. Ich bin ein Fan von Mathematica, in meiner Tätigkeit spielt es aber keine grosse Rolle.

SQL-Datenbanken sowie recht komplexe SQL-Abfragen und -Operationen nutze ich intensiv. Ich bin ausserdem ein grosser Fan von benutzerdefinierten Aggregatfunktionen, die ich in C++ geschrieben habe, um maschinelle Lernoperationen im Massstab innerhalb der SQL-Datenbank einzusetzen. Ich verwende die Datenbank, um die Organisation und Planung von Berechnungen zu verwalten – denn das tut sie sehr viel effizienter macht, als ich es selbst könnte...

Hat Hadoop eine Zukunft im Finanzwesen (oder sonst irgendwo)?

Ich gehe davon aus, dass die beinharten NoSQL-Plattformen wie Hadoop und ähnliche aus dem Blickfeld verschwinden werden. Die meisten ihrer technischen Innovationen – schemafreie Speicherung, spaltenorientierte Speicherung, massive Parallelisierung, georäumliche Operationen, Freitextoperationen usw. – werden jetzt in kommerziellen RDBMS bereitgestellt, und diese Plattformen können nicht nur skalierbar sein, sondern bei Bedarf auch eine starke Datenverwaltung bieten. Ich könnte mir vorstellen, dass sich diese Funktionen in den nächsten Jahren weiter in Open-Source-Plattformen wie MySQL und Postgres verlagern werden. Für das, was ich tue, ist MySQL meine Datenmanagement-Plattform der Wahl.

Welche Programmiersprachen werden Ihrer Meinung nach im Bereich Data Science in der Finanzwelt immer beliebter?

Meinem Eindruck nach wird Python3 sich weiter durchsetzen. Einige klammern sich wahrscheinlich immer noch an Python2, doch das ist ein Fehler. Ich fordere die Leute immer dazu auf, „es jetzt zu fixen“ und nicht „es erst dann zu fixen, wenn Sie Geld verloren haben“. R gerät zunehmend aus dem Blickfeld, worüber ich persönlich unglücklich bin, weil es meiner Meinung nach eher in die Kategorie „rigorous inference“ als in „coding“ fällt.

Wie verändert sich die Rolle des Data Scientisten im Finanzwesen?

Data Scientisten sind nicht mehr Vordenker der Organisationen, sondern werden immer mehr zu IT-Fachleuten. Ich persönlich bin der Meinung, dass dies in die falsche Richtung geht, aber die IT fühlt sich damit wohler und alle anderen begreifen nicht, dass dies ein Problem ist.

Was raten Sie Berufseinsteigern?

Berufsanfänger, die Analysen in einem finanziellen Kontext durchführen wollen, rate ich, sich in Zeitreihenanalyse und Ökonometrie reinzuknien. Daten im Finanzbereich haben Eigenschaften, die es recht schwierig machen, konventionelle Tools einzusetzen. Auf Seiten wie Medium sehe ich viele Praxisberichte von Leuten, die sehr komplexe Algorithmen verwenden – der aktuelle Favorit sind LSTM-Netzwerke. Im Wesentlichen kommen diese zum Schluss, dass der beste Prädiktor für den Preis von morgen der Preis von heute ist – oder sogar noch schlechter.

Ein Grossteil meiner Arbeit ist sehr rechenintensiv (der Computer rechnet Stunden, manchmal sogar mehrere Tage), daher ist es wichtig zu verstehen, wie die von Ihnen verwendeten Algorithmen mit der Datengrösse skalieren. Sie sollten nicht annehmen, dass Sie einen besseren Optimizer oder ein System der linearen Algebra schreiben können als jemand, der sein gesamtes Berufsleben in diesem Bereich zugebracht hat. Haben Sie auch keine Angst davor, wieder von vorne anzufangen, wenn Sie einen Fehler finden. Wenn Sie wissen, dass etwas kaputt ist, ist es besser, es „gleich zu fixen“, als technische Altlasten mit sich herumzuschleppen – denn diese führen immer zum technischen Bankrott.

Have a confidential story, tip, or comment you’d like to share? Contact: sbutcher@efinancialcareers.com

Bear with us if you leave a comment at the bottom of this article: all our comments are moderated by human beings. Sometimes these humans might be asleep, or away from their desks, so it may take a while for your comment to appear.

Beliebte Berufsfelder

Loading...

Jobs suchen

Artikel suchen

Close
Loading...
Loading...