La sortie de SAS© à l’Insee

Retour d’expérience
Enseignements
Perspectives

2025-06-23

Insee

  • Insee : environ 5 000 agents (répartis entre plusieurs directions, ainsi qu’en région)
  • Direction du Système d’Information : 425 agents (essentiellement Java et SQL)
  • Directions métiers (le self) : 1 000 agents environ (SAS©, SQL, mais aussi et un peu )

Motivation

Pourquoi abandonner le langage SAS© ? Au départ…

  • Coût de la licence
  • Un écosystème data dynamique : l’ere du big data avec du compute open source distribué, en fait non
  • Nouvelle formule SAS Viya impose de repenser l’infrastructure, trop tard mon vieil ami
  • Quid du partage de code dans un langage propriétaire ?

Pas d’intérêt à rester en SAS

Les initiatives communautaires

  • Documentation communautaire portée par l’Insee sous licence ouverte : Utilitr
  • Logiciel opensource pour créer des plateformes de traitement de données onyxia
  • Plateforme d’innovation ouverte SSPCloud
  • Un mouvement plus global de science ouverte : portail HAL insee

Historique

L’hypothèse d’un abandon de SAS© a été envisagée il y a 15 ans :

  • Mise en place progressive des conditions de cet abandon
    • Offre initiale de formation
    • Construction d’une infrastructure de self service à destination des statisticiens pour
  • En contrepartie : pas d’engagement sur la date de sortie
    • Sensibilisation et acculturation

Stratégie de sortie ferme

À l’été 2022

  • Annonce de l’abandon du langage SAS© pour l’ensemble des chaînes développées et maintenues par les statisticiens à l’horizon fin 2025
  • Effort de conversion du patrimoine de code entre 2023 et 2025 :
    • Montée en compétences des agents
    • Effort d’accompagnement
    • Nécessité d’un pilotage serré sur l’ensemble de l’institut

Volume de l’effort à produire

Un effort conséquent : estimation à environ 16 700 jours ETP

  • Inégalement réparti selon les directions métiers
  • L’essentiel se concentre à parts égales entre DSDS, DSE et DDAR

À ce stade, environ 86 % de la conversion a été réalisée

Opportunités en termes de bonnes pratiques (versionnage, automatisation, etc.)

Une annonce qui tombe bien

SAS sort progressivement du quotidien

Oups

Suivi des charges et réalisations

La gouvernance

Organisation de projet classique :

  • Comité de pilotage (qui se réunit une fois tous les 2 mois environ) et comité de suivi
  • Équipe projet : un directeur de projet ainsi que des experts techniques
  • Instances transversales :
    • Relais directionnels du projet : pour chaque direction, un agent en charge du recensement et du suivi de la conversion
    • Référents régionaux : ils jouent le même rôle à l’échelle de la direction régionale

Des réponses différentes, pour des besoins différents

L’essentiel de l’effort est réalisé par les statisticiens

Contribution de la DSI selon les axes suivants :

  • (Petite) partie de la conversion réalisée en sous-traitance par des développeurs de la DSI (4 ETP en 2024)
  • Accompagnement des selfeurs (conseils, revues de codes, etc.)
  • Pilotage réalisé à la DSI

La modernisation, dépassement du sujet de la conversion

  • L’effort conséquent est une opportunité de réappropriation des chaînes historiquement en SAS©
  • La bascule vers ou prend tout son sens si on adopte des pratiques à l’état de l’art sur le traitement de la donnée
  • Former les agents non seulement au(x) langage(s), mais également aux bonnes pratiques et sensibiliser aux problématiques d’un monde sans SAS©
  • Constituer un patrimoine de processus à l’état de l’art, qui constitue une “vitrine” en interne pour propager les bonnes pratiques

Le progrès technique

Des développements dans le domaine de la data toujours plus favorable

  • Une émergence ces dernières années de nouvelles solutions plus frugales et efficientes :
  • La volonté de saisir les opportunités en matière de ML et d’IA :

⇒ bascule vers l’open source toujours plus nécessaire

La question de l’infrastructure

  • L’Insee a fait le choix des technologies cloud native pour le traitement de la donnée
  • D’où le développement d’une UX à destination du statisticien (Onyxia)
  • L’adoption de cette solution s’accompagne de nouvelles opportunités (la modernisation) :
    • automatisation des processus, pipelines de données ;
    • création de dataviz (Rshiny souvent)
    • intégration des techniques à l’état de l’art (MLOps) ;
    • reproductibilité, traçabilité, versionage.

Principe Onyxia

  • Juste une UX : pas de lock-in
  • Juste une UX : pas une solution data tout en un

Une forte adoption

Une autonomie du statisticien qui interroge

  • R, Python plus connus coté métier (voire kubernetes)
  • Des capacités à déployer en autonomie ( kubernetes via Onyxia et S3)
  • Un métier plus prompt à se saisir de l’opportunité IA Gen