Je développe des méthodes de filtrage de données pour l'économie sociale

Publié par Jeanne B. de l'Association Social Good Accelerator 

Activité

Public aidé

  • Tous publics

Mission ouverte

  • Aux bénévoles majeurs

Mission à distance

Réalisez cette mission de bénévolat
depuis chez vous

Pré-requis pour réaliser cette mission

  1. Python, NLP (classification de texte, embeddings, éventuellement fine-tuning léger)
  2. Expérience en filtrage semi-supervisé ou scoring de pertinence
  3. À l'aise avec un LLM local via Ollama (pas d'API externe — principe open by default)

Présentation de la mission

Rejoignez-nous pour relever un défi technique au cœur du projet OBSESS : améliorer la détection automatique des organisations de l'économie sociale et solidaire (ESS) numérique.

Votre mission :

Vous travaillerez sur un enjeu méthodologique clé : le traitement du code NAF 94.99Z (~520 000 organisations non filtrables par NAF seul). À partir d'un dataset fourni par le data engineer et accompagné par une experte ESS, vous proposerez des méthodes de filtrage automatisées, que vous validerez en respectant les guidelines techniques et fonctionnelles du projet.

Exemples de tâches :

  • Cadrer la méthode de filtrage pour le 94.99Z avec une experte ESS
  • Explorer des approches NLP sur l'objet social INPI et les méta descriptions web
  • Évaluer la faisabilité d'une classification assistée par LLM local (Ollama)
  • Produire un document de règles de filtres et d'enrichissement reproductibles
  • Tester et documenter les métriques de précision/rappel sur un échantillon annoté

Compétences recherchées :

  • Python, NLP (classification de texte, embeddings, éventuellement fine-tuning léger)
  • Expérience en filtrage semi-supervisé ou scoring de pertinence
  • À l'aise avec un LLM local via Ollama (pas d'API externe — principe open by default)
  • Capacité à dialoguer avec un expert métier pour traduire une typologie qualitative en règles opérationnelles

Principes du projet :

Toute complexité du modèle doit être justifiée par un gain réel. Une solution simple et auditable prime sur une solution sophistiquée. Adhésion aux 5 principes directeurs du projet OBSESS, avec un accent sur la simplicité et la reproductibilité.

Précisions

Social Good Accelerator (SOGA) porte le projet d’Observatoire de l'ESS Numérique. Le projet, débuté en septembre 2025, a pour objectif une application qui mettra à disposition un référencement national des ESS numériques

L’Observatoire de l’ESS Numérique vise à produire la première cartographie structurée, empirique et continue des organisations engagées dans la transition numérique de l’économie sociale en France et en Belgique.

Le projet combine analyse qualitative, données ouvertes, une plateforme web interactive et une médiation grand public.

Objectifs stratégiques :

  • Produire une vision consolidée, fiable et réutilisable de l’écosystème ESS numérique.
  • Soutenir l’élaboration de politiques publiques fondées sur la donnée.
  • Renforcer les capacités des réseaux, opérateurs et financeurs publics/privés.
  • Ouvrir un espace européen de connaissances et de dialogue via un média public mensuel.

Dans ce projet la “brique data” est fondamentale (Phase C1) : Il s’agit d’une pipeline de données qui récupère les données publiques, les agrège, les filtre, les fait valider par des expert et enfin les mets à disposition

Cette phase C1 du projet a pour objectif de fournir pour Juin 2026 une pipeline de données automatique et autonome qui permettra de l’alimenter une base de données humainement vérifiable. 

Le pipeline OBSESSNUM suit une logique de séparation des responsabilités en 5 couches :

  • Data Layer : ingestion brute des sources publiques (SIRENE, INPI, ESS France, SCOP/SCIC, Mednum, France Tiers-Lieux,…)
  • Change Capture : détection des nouveautés/modifications/suppressions par hashage SHA256, sortie Parquet (new/updated/deleted)
  • Aggregation & Filtre métier : Filtre technique et agrégation pour constituer un dataset unique
  • Enrichissement de données : Pipeline d’enrichissement 
  • Module d’annotation des données
  • Stockage : SQLite pour les intermédiaires de pipeline, Parquet pour la sortie API

Un outil d’annotation par les expert·es ESS est porté par Label Studio CE (self-hosted sur Debian + Docker + Nginx), avec un overlap de 2 annotateurs et un calcul d'accord Cohen's κ externe.

Toutes les décisions techniques sont documentées dans un ADR (Architecture Decision Records), et suivent les 5 principes : Simplicité, Reproductibilité, Open By Default, Séparation des responsabilités, Interopérabilité. 

Le(s) bénévole(s) auront un accès au github de l’organisation SOGA, les différentes tâches seront définies dans des issues. Chaque bénévole pourra prendre une issue disponible en fonction de ces disponibilités et compétences. Nous organiserons une réunion d’onboarding et nous proposerons des réunions d’échanges régulières

Aujourd’hui nous cherchons du soutien pour mener à bien cette phase “Brique de données”. Nous avons détecté 3 types de profils qui seront d’une grande aide : 

  • Data Engineer : Pour industrialiser les traitement de données
  • Data Analyst : Pour explorer les données et les analyser
  • Data Scientist : Pour proposer des méthodes d’enrichissements

Le tout sans créer de dettes techniques ni de complexité outre mesure, nous avons pour objectif de créer une solution robuste. 

Compétences liées

  • Faire preuve de rigueur et de précision

  • Analyser et traiter l'information à des fins d'anticipation

  • Utiliser des logiciels spécifiques

Social Good Accelerator valorise ces compétences pour cette mission. C’est l’occasion de les pratiquer sur le terrain, de progresser ou d'ajouter une nouvelle corde à votre arc.

Découvrez l'Association Social Good Accelerator

Le Social Good Accelerator (SOGA) est une association franco-européenne créée en 2018. Notre mission : accélérer la transition et les modèles numérique éthiques, durables et inclusifs de l'ESS en France et en Europe. Nous sommes reconnus comme interlocuteur de référence auprès des institutions françaises et européennes sur les questions d'innovation sociale et technologique. Nos leviers d'action VOICE Plaidoyer et affaires publiques (AI Act, Data Act, Code de conduite ESS) pour influencer les politiques publiques. LEARN Formations, recherche, projets collectifs en France et en Europe (Erasmus+, COSME, Horizon Europe) pour renforcer les compétences numériques des organisations de l'ESS et favoriser leurs coopérations. CONNECT Animation de communautés et événements (NEC ESS, Social Tech Community) pour créer des synergies et de l'interconnaissances. Notre objet statutaire : exercer toutes activités d'intérêt général à caractère éducatif, scientifique et culturel, pour accélérer l'ESS numérique en France et en Europe ; elle organise l'action collective de ses membres pour lutter contre la fracture numérique en favorisant la transition numérique de l'ESS par le financement, l'acculturation et le développement des compétences numériques, en rendant accessible les nouvelles technologies aux acteurs de l'utilité sociale et contribue au développement des activités sociales ; cette association poursuit un but non lucratif ; l'association inscrit son projet dans une dimension d'intérêt général, en s'ouvrant à tous les publics, notamment les plus fragiles ; en toutes circonstances, l'association garantit un fonctionnement démocratique et transparent et préserve le caractère désintéressé de sa gestion ; l'association s'inscrit dans les valeurs de la République française en respectant les principes de liberté, d'égalité, de fraternité et de dignité de la personne humaine, les symboles de la République, ainsi que le caractère laïque de la République.

En savoir plus

La mission est désormais complète

2 personnes déjà inscrites

Chargement...
Chargement...