Code · Données · Modèles

Open Source & Code

Projets GitHub, datasets HuggingFace et notebooks interactifs. Des outils concrets pour les langues africaines, le deep learning et l'IA inclusive.

4 Repos GitHub
3 Datasets HF
2645+ Télécharg. ce mois
github.com/papasega 🤗 huggingface.co/papasega @mathsPSW
01

GitHub

Projets open source couvrant le deep learning, les chatbots IA en langues africaines, la visualisation NLP et la bibliothèque Python publiée sur PyPI.

GitHub Wolof culture chatbot screenshot

Wolof culture chatbot

Chatbot IA conversationnel en langue wolof, proof-of-concept fonctionnel d'un agent dialogue dans une langue nationale africaine à faibles ressources numériques.

Python Wolof NLP Low-resource
GitHub Fondations DeepLearning PSW screenshot

Fondations DeepLearning PSW

Collection de notebooks Jupyter pour l'apprentissage du Deep Learning, CNNs, RNNs, Transformers, MNIST, CIFAR-10. Ressource pédagogique partagée avec la communauté.

Jupyter Python Deep Learning PyTorch Éducation
GitHub Claude Code Best Practice Playbook — checklist preview

Claude Code Best Practice Playbook

Guide de meilleures pratiques pour optimiser l'utilisation de Claude Code : structuration des hooks, gestion du contexte, patterns de sous-agents parallèles et réduction drastique des coûts en tokens.

Python Claude Code Hooks LLM Productivity
GitHub Claude Code Token Optimization — token budget analysis preview

Claude Code Token Optimization

Système de hooks Claude Code qui réduit la consommation de tokens de 285M à 50M (-82%) par session : rejet des lectures de fichiers volumineux, interception intelligente des outils et monitoring du budget en temps réel.

Python Claude Code Token Budget Cost Optimization Hooks
GitHub + PyPI

text2mapviewer

Bibliothèque Python publiée sur PyPI permettant de visualiser des textes géolocalisés sur des cartes interactives. Idéal pour l'analyse géospatiale de corpus NLP.

Python NLP Cartographie PyPI
GitHub

ollama_chatpdf_llama3

Système RAG local avec Ollama + LLaMA 3 pour interroger des documents PDF en langage naturel, entièrement offline, sans API cloud.

Python LLM RAG Ollama LLaMA 3
02

HuggingFace 🤗

Datasets et espaces publics sur huggingface.co/papasega , ressources pour la langue wolof, l'évaluation automatique de la fluence et la reconnaissance vocale en langues à faibles ressources.
Dataset

Waxal_Multiling_4_SER-Wolof

Dataset multilingue pour la reconnaissance des émotions (SER) en wolof. Premier corpus annoté dédié à cette langue nationale sénégalaise pour les tâches d'IA affective.

2 645 télécharg. (dernier mois)
Wolof Speech Emotion SER Multilingue
🤗 Voir sur HuggingFace →
Dataset

speechocean762_fluency_4_training

Adaptation du dataset SpeechOcean762 pour l'entraînement de modèles d'évaluation automatique de la fluence, annotations de prononciation, aisance et prosodie.

Speech Fluence ASR SpeechOcean762
🤗 Voir sur HuggingFace →
Dataset

Avalinguo-Audio-Dataset-splitted

Dataset audio Avalinguo découpé en splits train/validation/test pour l'évaluation automatique de la fluence orale. Prêt à l'emploi pour les pipelines HuggingFace.

Audio Fluence Avalinguo Train/Val/Test
🤗 Voir sur HuggingFace →
03

Google Colab

Notebooks interactifs accompagnant les articles du blog et les webinaires. Prêts à exécuter dans Google Colab , aucune installation requise.
🧮

TP Webinaire EUREKA : IA & Maths sur MNIST

Notebook interactif accompagnant le webinaire « De la Terminale à la Révolution IA ». Classification MNIST avec un réseau de neurones from scratch, expliqué par les maths du lycée.

MNIST Deep Learning Neural Network Éducation
Ouvrir Colab
🤖

TP Article GPT OSS 20B : LLM Open Source

Notebook pratique accompagnant l'article sur les LLM open source 20B. Inférence, fine-tuning léger et comparaison de modèles de génération de texte.

LLM Open Source Fine-tuning 20B
Ouvrir Colab
🚦

TP Computer Vision : Classification GRSRB (panneaux routiers)

Reconnaissance de panneaux de signalisation routière avec un CNN sur le dataset GTSRB. Transfer learning, data augmentation et optimisation des performances.

Computer Vision CNN GTSRB Transfer Learning
Ouvrir Colab