Les meilleurs langages de programmation et plateformes pour la data science en finance

eFC logo
Les meilleurs langages de programmation et plateformes pour la data science en finance

Nous avons fait le point avec Graham Giller, l’ancien responsable de la recherche en data science de JPMorgan et ex-responsable primary research de Deutsche Bank. Il est aujourd’hui CEO de sa propre entreprise – Giller Investments – et vient d’écrire un livre, Adventures in Financial Data Science, à paraître ce mois-ci.

Si vous visez une carrière dans la data en finance, voici ses conseils.

Quels sont vos langages de programmation favoris pour la science des données ? Pourquoi ?

En ce qui concerne les langages de programmation, je me concentre aujourd’hui dans la pratique sur trois ou quatre plateformes :

J’utilise Python3 pour l’acquisition, la préparation et la gestion des données, plus quelques opérations informatiques difficilement compatibles avec d’autres systèmes. Je n’utilise aucune interface « bloc-notes », j’écris le code dans un IDE qui peut être programmé automatiquement ou exécuté manuellement à partir de la ligne de commande.

J’utilise un mix de R et de logiciel d’analyse plus spécifique aux séries chronologiques pour le travail inférentiel. Le logiciel T-S que j’utilise (RATS) est un programme spécialisé que j’aime bien, mais c’est en quelque sorte un héritage. Ce n’est sans doute pas celui que j’aurais pris pour commencer si je n’avais débuté ma carrière dans les années 1990. Je suis fan de Mathematica, mais je m’en sers assez peu.

J’utilise beaucoup les bases de données SQL et des requêtes et opérations SQL assez complexes. Je suis un grand consommateur de fonctions User Defined Aggregate, que j’écris d’abord en C++, pour déployer des opérations de machine learning à l’échelle réelle au sein de la base de données SQL. J’utilise la base de données pour gérer l’organisation et la planification des calculs, qu’elle effectue bien plus efficacement que je ne pourrais le faire moi-même…

Hadoop a-t-il un avenir dans la finance (ou ailleurs) ?

Je pense que les grandes plateformes NoSQL, comme Hadoop et apparentées, sont en passe de disparaître. La plupart de leurs innovations techniques, comme le stockage sans schéma, le stockage orienté colonnes, la parallélisation massive, les opérations géospatiales, les opérations sans texte, etc. se retrouvent maintenant dans les SGBDR et ces plateformes fournissent non seulement une échelle, mais aussi une solide gestion des données si nécessaire. J’imagine que ces fonctions resteront présentes sur les plateformes open source comme MySQL et Postgres dans les années à venir. Pour ce que je fais, MySQL est la plateforme que je préfère pour la gestion des données.

Selon vous, quels sont les langages qui gagnent en popularité en data science pour la finance ?

Par expérience, je pense que Python3 continue de progresser. Certains en sont sûrement toujours à Python2, mais c’est une erreur. Je conseille toujours aux gens de « régler le problème tout de suite » plutôt que « d’attendre d’avoir perdu de l’argent ». R n’a plus la cote et personnellement, je le regrette parce qu’il est plus ancré dans l’inférence rigoureuse que dans le « codage ».

Comment le rôle du data scientist en finance évolue-t-il ? 

Le rôle du data scientist devient de plus en plus celui d’un professionnel de l’informatique que celui d’un leader visionnaire pour les entreprises. Personnellement, j’ai l’impression qu’il évolue dans la mauvaise direction, mais cela facilite la vie des directions informatiques et les directions non techniques n’ont pas conscience que c’est un réel problème.

Quel est votre conseil aux débutants ?

A ceux qui commencent et veulent faire de l’analytique dans un contexte financier, je suggèrerais de passer du temps à apprendre correctement l’analyse de séries chronologiques et l’économétrie. La financial data a des propriétés qui rendent assez difficile de l’associer au déploiement d’outils conventionnels, et je vois beaucoup de travaux publiés sur des sites comme Medium, etc. où les gens utilisent des algorithmes très complexes – avec actuellement une préférence pour les réseaux LSTM, pour conclure que le meilleur indicateur du prix de demain est le prix d’aujourd’hui, ou bien pire que ça.

La plus grosse partie de mon travail est très marquée par l’informatique – de quelques heures à parfois des journées entières, il est donc important de comprendre comment les algorithmes que vous utilisez évoluent en fonction de la taille des données ; mais ne vous faites pas d’illusions en pensant que vous pouvez écrire une meilleure optimisation ou un meilleur système d’algèbre linéaire que quelqu’un qui fait carrière dans ce domaine. Aussi, n’ayez pas peur de repartir de zéro quand vous trouvez une erreur. Si vous savez qu’il y a un problème, il vaut mieux le « réparer maintenant » que de traîner une galère technique parce que cela finit toujours en faillite technique.

Crédit photo : Dennis Kummer  sur Unsplash

Have a confidential story, tip, or comment you’d like to share? Contact: sbutcher@efinancialcareers.com in the first instance. Whatsapp/Signal/Telegram also available.

Bear with us if you leave a comment at the bottom of this article: all our comments are moderated by human beings. Sometimes these humans might be asleep, or away from their desks, so it may take a while for your comment to appear. Eventually it will – unless it’s offensive or libelous (in which case it won’t.)

A lire aussi…

Secteurs les plus recherchés

Loading...

Recherche emploi

Rechercher articles

Close
Loading...
Loading...