Retour aux projets

LocalForge AI - Dataset Generator

2025
Projet Open Source

LocalForge AI est une application desktop cross-platform permettant de générer des datasets d'entraînement de haute qualité pour le fine-tuning de modèles d'IA. L'application se distingue par son architecture 100% locale garantissant la confidentialité totale des données.

Le workflow en 3 étapes permet d'importer des documents multi-formats (PDF, DOCX, TXT, Markdown, HTML), de générer automatiquement des paires instruction/réponse via LLMs locaux (Ollama), et d'exporter au format JSONL standard.

L'application a été conçue pour les développeurs et chercheurs en IA qui ont besoin de créer des datasets de qualité tout en gardant un contrôle total sur leurs données sensibles. Le traitement parallèle et le chunking intelligent assurent des performances optimales même sur de grands corpus de documents.

LocalForge AI - Dataset Generator

Technologies Utilisées

React 19TypeScriptRustTauri 2.0ViteTailwind CSS 4ZustandTokioOllama APIi18nextFramer Motion

Fonctionnalités Principales

Import multi-formats (PDF, DOCX, TXT, Markdown, HTML)

Génération automatique via LLMs locaux (Ollama)

Chunking intelligent avec overlapping contextuel

Traitement parallèle pour performances optimales

Export JSONL compatible Hugging Face

Interface drag & drop intuitive

Suivi de progression en temps réel

Architecture 100% locale (confidentialité)

Support multilingue (EN/FR)

Cross-platform (macOS, Windows, Linux)

Défis Rencontrés

Solution Apportée

J'ai développé une architecture hybride exploitant les forces de chaque technologie : React/TypeScript pour l'UI moderne et Rust/Tauri pour les performances système. Le backend Rust utilise Tokio pour l'asynchrone et Rayon pour le traitement parallèle. Un système de chunking intelligent découpe les documents avec overlapping pour maintenir le contexte. L'intégration avec Ollama permet l'inférence LLM locale sans dépendance cloud. Le state management avec Zustand assure une UI réactive avec des mises à jour en temps réel du workflow de génération.

Intéressé par un projet similaire ?

Je serais ravi de discuter de votre projet et de voir comment je peux vous aider