Problème
Envoyer des retours clients à une API d'IA hébergée dans le nuage crée une exposition à la vie privée — les données quittent l'organisation et sont traitées par un tiers. Pour les organisations ayant des contraintes strictes en matière de résidence des données, de confidentialité ou de coûts, cela limite l'utilisation de l'analyse assistée par IA.
La question : l'analyse IA structurée des retours clients peut-elle fonctionner entièrement sur l'appareil, sans appel à un modèle externe lors de l'inférence ?
Concept produit
Un flux d'IA en périphérie locale qui traite les retours clients entièrement sur l'appareil lors de l'inférence. Le système prend des enregistrements de retours bruts, exécute un modèle local géré par le SDK QVAC, et produit une sortie structurée couvrant les thèmes, points de douleur, signaux de risque, recommandations et une note exécutive.
Aucune API d'IA externe n'est appelée lors de l'exécution de l'inférence. L'analyse reste sur la machine où l'outil s'exécute.
Fonctionnement du système
- Prend des enregistrements de retours clients en entrée (15 enregistrements lors de l'exécution locale de preuve)
- Invoque un modèle géré localement via le runtime @qvac/sdk (LLAMA_3_2_1B_INST_Q4_0)
- Effectue l'inférence entièrement sur l'appareil — aucun appel API externe n'est fait à cette étape
- Produit un rapport d'analyse structuré couvrant : Thèmes, Points de douleur, Signaux de risque, Recommandations, Note exécutive
- Exécuté sur un HP ProBook 455 G9 sous Windows 11 (CPU uniquement, pas de GPU requis)
Flux conceptuel principal
Le diagramme ci-dessous est une illustration conceptuelle du flux système. Il ne reproduit pas de documentation interne.
Ma contribution
- Conception du concept produit et du cadrage de confidentialité pour l'analyse IA en périphérie locale
- Sélection et configuration du modèle local et du runtime SDK QVAC
- Structuration du flux d'entrée/sortie pour l'analyse des retours clients
- Validation de la qualité des sorties et de la structure du rapport sur l'ensemble de test de 15 enregistrements
- Préparation des matériaux de soumission ; soumis au commit gelé b26663b
Implémentation technique
- @qvac/sdk — runtime de modèle local
- LLAMA_3_2_1B_INST_Q4_0 — modèle de langage quantifié exécuté localement
- HP ProBook 455 G9 / Windows 11 — matériel d'exécution (CPU uniquement)
Preuves et validation
Labels de preuve
- Preuve d'exécution locale disponible : le flux a fonctionné entièrement sur l'appareil lors de la capture de preuve
- Les 15 enregistrements de retours ont été analysés sans appel API externe lors de l'inférence
- Une démonstration enregistrée existe (URL non disponible dans les sources vérifiées — non reproduite ici)
- Dépôt public disponible au commit gelé b26663b pour inspection du code
- Soumission gelée : aucune modification n'a été apportée au dépôt depuis le commit de soumission
Limites et transparence
- Preuve de concept locale : il ne s'agit pas d'une plateforme de données clients en production
- Petit ensemble de test : l'exécution de preuve sur 15 enregistrements reflète un scénario de validation, pas un déploiement à grande échelle
- Capacités du modèle : LLAMA_3_2_1B_INST_Q4_0 est un modèle quantifié compact ; la qualité des sorties diffère des grands modèles hébergés dans le nuage
- Aucune certification de confidentialité en production : cette page ne revendique pas de conformité de confidentialité de niveau production ni de certification de résidence des données
- Soumis / gelé : aucun développement supplémentaire n'est prévu après la soumission
Liens publics
- Dépôt GitHub (gelé au commit b26663b)
Code source d'EdgeVoC, gelé au commit de soumission b26663b
https://github.com/Faadil1/edgevoc-qvac ↗