LocalForge AI - Dataset Generator
LocalForge AI est une application desktop cross-platform permettant de générer des datasets d'entraînement de haute qualité pour le fine-tuning de modèles d'IA. L'application se distingue par son architecture 100% locale garantissant la confidentialité totale des données.
Le workflow en 3 étapes permet d'importer des documents multi-formats (PDF, DOCX, TXT, Markdown, HTML), de générer automatiquement des paires instruction/réponse via LLMs locaux (Ollama), et d'exporter au format JSONL standard.
L'application a été conçue pour les développeurs et chercheurs en IA qui ont besoin de créer des datasets de qualité tout en gardant un contrôle total sur leurs données sensibles. Le traitement parallèle et le chunking intelligent assurent des performances optimales même sur de grands corpus de documents.

Technologies Utilisées
Fonctionnalités Principales
Import multi-formats (PDF, DOCX, TXT, Markdown, HTML)
Génération automatique via LLMs locaux (Ollama)
Chunking intelligent avec overlapping contextuel
Traitement parallèle pour performances optimales
Export JSONL compatible Hugging Face
Interface drag & drop intuitive
Suivi de progression en temps réel
Architecture 100% locale (confidentialité)
Support multilingue (EN/FR)
Cross-platform (macOS, Windows, Linux)
Défis Rencontrés
Solution Apportée
J'ai développé une architecture hybride exploitant les forces de chaque technologie : React/TypeScript pour l'UI moderne et Rust/Tauri pour les performances système. Le backend Rust utilise Tokio pour l'asynchrone et Rayon pour le traitement parallèle. Un système de chunking intelligent découpe les documents avec overlapping pour maintenir le contexte. L'intégration avec Ollama permet l'inférence LLM locale sans dépendance cloud. Le state management avec Zustand assure une UI réactive avec des mises à jour en temps réel du workflow de génération.
Intéressé par un projet similaire ?
Je serais ravi de discuter de votre projet et de voir comment je peux vous aider