Je développe le pipeline de données ouvertes de l'Observatoire de l'ESS Numérique
Publié par Jeanne B. de l'Association Social Good Accelerator

Mission à distance
Réalisez cette mission de bénévolat
depuis chez vous
Pré-requis pour réaliser cette mission
- Python (pandas, RapidFuzz, BeautifulSoup, Requests,...)
- Maîtrise du traitement de données structurées et semi-structurées (CSV, Parquet, JSON)
- Expérience des API REST publiques (données ouvertes françaises)
Présentation de la mission
Développer, déployer et maintenir le pipeline de traitement des données SOGA : ingestion des sources publiques (SIRENE, INPI), filtrage, enrichissement, jointures et publication. Garantir la reproductibilité et la traçabilité de l'ensemble du flux.
Exemple de tâche :
- Ajouter la source de données publique xxx
- Développer le pipeline de tri des données basée sur les règles de experts techniques
- Faire évoluer les model de données
- Industrialiser les méthodes d'enrichissement et scoring proposées par les data scientist.
Autres compétences attendues :
- Connaissance des bonnes pratiques de développement
- Connaissance des bonnes pratiques de versionnage (Git/GitHub)
- Sensibilité aux principes open source et open data
Goût pour la documentation des décisions techniques (ADR) et la traçabilité.
Capacité à pousser une solution simple et auditable plutôt qu'une solution sophistiquée. La reproductibilité est non négociable : chaque entrée de la base doit avoir une justification vérifiable.
Adhésion aux 5 principes OBSESS, avec un accent particulier sur la reproductibilité et la séparation des responsabilités (la méthodologie doit pouvoir être appliquée indépendamment du pipeline technique).
Précisions
Social Good Accelerator (SOGA) porte le projet d’Observatoire de l'ESS Numérique. Le projet, débuté en septembre 2025, a pour objectif une application qui mettra à disposition un référencement national des ESS numériques.
L’Observatoire de l’ESS Numérique vise à produire la première cartographie structurée, empirique et continue des organisations engagées dans la transition numérique de l’économie sociale en France et en Belgique.
Le projet combine analyse qualitative, données ouvertes, une plateforme web interactive et une médiation grand public.
Objectifs stratégiques :
- Produire une vision consolidée, fiable et réutilisable de l’écosystème ESS numérique.
- Soutenir l’élaboration de politiques publiques fondées sur la donnée.
- Renforcer les capacités des réseaux, opérateurs et financeurs publics/privés.
- Ouvrir un espace européen de connaissances et de dialogue via un média public mensuel.
Dans ce projet la “brique data” est fondamentale (Phase C1) : Il s’agit d’une pipeline de données qui récupère les données publiques, les agrège, les filtre, les fait valider par des expert et enfin les mets à disposition.
Cette phase C1 du projet a pour objectif de fournir pour Juin 2026 une pipeline de données automatique et autonome qui permettra de l’alimenter une base de données humainement vérifiable.
Le pipeline OBSESSNUM suit une logique de séparation des responsabilités en 5 couches :
- Data Layer : ingestion brute des sources publiques (SIRENE, INPI, ESS France, SCOP/SCIC, Mednum, France Tiers-Lieux,…)
- Change Capture : détection des nouveautés/modifications/suppressions par hashage SHA256, sortie Parquet (new/updated/deleted)
- Aggregation & Filtre métier : Filtre technique et agrégation pour constituer un dataset unique
- Enrichissement de données : Pipeline d’enrichissement
- Module d’annotation des données
- Stockage : SQLite pour les intermédiaires de pipeline, Parquet pour la sortie API
Un outil d’annotation par les expert·es ESS est porté par Label Studio CE (self-hosted sur Debian + Docker + Nginx), avec un overlap de 2 annotateurs et un calcul d'accord Cohen's κ externe.
Toutes les décisions techniques sont documentées dans un ADR (Architecture Decision Records), et suivent les 5 principes : Simplicité, Reproductibilité, Open By Default, Séparation des responsabilités, Interopérabilité.
Le(s) bénévole(s) auront un accès au github de l’organisation SOGA, les différentes tâches seront définies dans des issues. Chaque bénévole pourra prendre une issue disponible en fonction de ces disponibilités et compétences. Nous organiserons une réunion d’onboarding et nous proposerons des réunions d’échanges régulières.
Aujourd’hui nous cherchons du soutien pour mener à bien cette phase “Brique de données”. Nous avons détecté 3 types de profils qui seront d’une grande aide :
- Data Engineer : Pour industrialiser les traitement de données
- Data Scientist : Pour proposer des méthodes d’enrichissements
- DevOps : Pour mettre en place une infrastructure simple et rigoureuse.
Le tout sans créer de dettes techniques ni de complexité outre mesure, nous avons pour objectif de créer une solution robuste.
Compétences liées
Faire preuve de rigueur et de précision
Analyser, exploiter, structurer des données
Social Good Accelerator valorise ces compétences pour cette mission. C’est l’occasion de les pratiquer sur le terrain, de progresser ou d'ajouter une nouvelle corde à votre arc.
Découvrez l'Association Social Good Accelerator
Le Social Good Accelerator (SOGA) est une association franco-européenne créée en 2018. Notre mission : accélérer la transition et les modèles numérique éthiques, durables et inclusifs de l'ESS en France et en Europe. Nous sommes reconnus comme interlocuteur de référence auprès des institutions françaises et européennes sur les questions d'innovation sociale et technologique. Nos leviers d'action VOICE Plaidoyer et affaires publiques (AI Act, Data Act, Code de conduite ESS) pour influencer les politiques publiques. LEARN Formations, recherche, projets collectifs en France et en Europe (Erasmus+, COSME, Horizon Europe) pour renforcer les compétences numériques des organisations de l'ESS et favoriser leurs coopérations. CONNECT Animation de communautés et événements (NEC ESS, Social Tech Community) pour créer des synergies et de l'interconnaissances. Notre objet statutaire : exercer toutes activités d'intérêt général à caractère éducatif, scientifique et culturel, pour accélérer l'ESS numérique en France et en Europe ; elle organise l'action collective de ses membres pour lutter contre la fracture numérique en favorisant la transition numérique de l'ESS par le financement, l'acculturation et le développement des compétences numériques, en rendant accessible les nouvelles technologies aux acteurs de l'utilité sociale et contribue au développement des activités sociales ; cette association poursuit un but non lucratif ; l'association inscrit son projet dans une dimension d'intérêt général, en s'ouvrant à tous les publics, notamment les plus fragiles ; en toutes circonstances, l'association garantit un fonctionnement démocratique et transparent et préserve le caractère désintéressé de sa gestion ; l'association s'inscrit dans les valeurs de la République française en respectant les principes de liberté, d'égalité, de fraternité et de dignité de la personne humaine, les symboles de la République, ainsi que le caractère laïque de la République.

La mission est désormais complète
1 personne déjà inscrite