Mais oui, IA de la DATA à Devoxx France 2024 !

Eric Terrien - May 23 - - Dev Community

Ah, Devoxx France, le rendez-vous incontournable pour profiter de nombreuses conférence Tech ! Grâce à mes collègues speakers qui m'ont obtenu une place, je suis de retour pour cette édition 2024. Imaginez 10 bordelais (de Onepoint) déchaînés, dont 4 speakers, affamés de connaissances. Et moi, le seul estampillé DATA, à suivre tel un loup solitaire les conférences liées à mon domaine de prédilection.

TLDR : Devoxx France 2024, un millésime à déguster sans modération !

Qui note ?

Vraiment rien à redire sur les Keynotes ! Elles ont toutes été intéressantes sur des sujets assez variés :

Les intervenants ont réussi à présenter leurs sujets en alternant entre humour et gravité.

Youpi, de la data analyse et des bases de données (BDD)

Je me suis réjoui de la présence de conférences liées à mon domaine d'expertise.

Pour commencer, le talk sur APACHE SUPERSET permet de fournir les clés de compréhension d'un outil de Data Vizualisation opensource. Il s'agit d'une alternative sérieuse aux leaders (éditeurs comme POWER BI, Qlik ou encore TABLEAU) du marché pour la fourniture de dashboard. La solutions se base sur le SQL pour la construction des datasets, et possède un large éventail de représentation graphique. Même si l'outil a du retard à rattraper sur les outils éditeurs, APACHE SUPERSET semble plus simple d'accès et intégrable dans une approche industrialisée (SSOT, pipelines...). A tester !

De nombreuses conférences concernant les bases de données ont retenu mon attention :

  • Dépannage DBA : Présenté par un DBA, cela m'aura permis d'avoir certaines clés de l'administration d'une base de données Postgres (et pour ma part, de faire la corrélation avec mes connaissances en administration Oracle). Cela m'a même donnée envie d'en refaire !
  • Index : Cela m'a permis d'appronfondir mes connaissances sur les index (fonctionnement, astuces) notamment une idée reçue que j'avais sur le fonctionnement des index avec la clause "LIKE"
  • Fonctionnement BDD : Contrairement aux premières conférences cités qui conviennent à tout les publics, celles-ci nécessite d'avoir des bases en système et administration de bases de données. En rentrant dans le cœur du fonctionnement d'une BDD et surtout des index B-TREE et SML-TREE, on peut parfois se perdre dans les explications, mais on en ressort avec les concepts des arbres de décisions.
  • SQLite : Le sujet concernant SQLite (prononcé à la française) permet de débunker un certains nombres d'idées reçues (manque de fonctionnalités par rapport à d'autre SGBD, performance, utilisation en production... ) et m'a donné une autre vision de cette base de données, mais qui demande d'éprouver ce que j'ai entendu durant la conférence

IA ou y'a pas ?

Sujet du moment oblige, je ne peux que regretter l'omniprésence des sujets LLM et notamment sur LangChain4J. Il ne faut cependant pas oublié que c'est cohérent pour un salon plutôt orienté Java. La conférence LangChain4J permet de comprendre les possibilités offertes par la librairie d'origine pythonienne LangChain mais adapté au monde Java.
En parlant de python, j'ai été intrigué de la conférence proposant de faire de la datascience en Kotlin, il aura été démontré que les fonctions pandas et de dataviz ont bien été implémentées, mais il manquait une partie concernant la création et l'exécution de modèle de ML. Cela aurait fini de me convaincre de tenter l'aventure de l'IA avec un autre language, surtout du fait de la non-sobriété numérique du Python.
Que serait un Devoxx sans un REX, celui fait par les équipes de Backmarket m'ont convaincu. En présentant les différentes étapes de leur projet de mise en place d'un LLM interne et les features mises en place pour entrainer les chatbots, j'ai pu retirer de bonnes idées comme l'implémentation de feedback et l'hyperspécialisation des modèles à partir du RAG.

Temps ℝ

J'aurai finalement vu de nombreuses conférences liés à des outils de la fondation APACHE, car en plus de SUPERSET, j'ai pu étendre mes connaissances sur les outils FLINK et PULSAR. Alors que le premier a permis de comprendre l'intérêt pour des systèmes nécessitant la latence la plus faible possible, avec un bon comparatif sur les produits similaires (Spark, Kafka Stream...), le second permet dans un premier temps de remettre à plat les notions de datastreaming et queue messaging qui sont souvent confondu (ou assimilé à la même chose) et dans un second temps de comprendre comment PULSAR permet d'être utiliser dans ces deux mondes

Et alors ?

Bien qu'il y avait trop de sujets autour des LLM, j'ai pris beaucoup de plaisir à voir des sujets diversifiés autour du traitement de la donnée.
Attention tout de même à ne pas trop surestimer les uses cases de l'IA dans la data, cela reste une partie infime de l'activité et doit le rester surtout dans un monde aux ressources limités.

C'est cool de se retrouver entre collègues de différentes agences !

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .