Méthodologie

BELA Fragrance

Une lecture sémiotique à grande échelle de la catégorie fine fragrance.

v0.5 · pipeline DD v2-260530-ancrage · build 2026-06-03

Version pilote · plusieurs surfaces en construction

Cette version v0.5 est un MVP destiné à valider la grille méthodologique et les surfaces d'analyse en équipe avant industrialisation. Les chantiers suivants sont des premières versions exploratoires, susceptibles d'évoluer significativement après itération avec l'équipe sémio et les utilisateurs :

Panorama — vues d'analyse multi-axes (Carte, Matrice paramétrable, Sémantique, Constellation) : premières versions, en construction. Les pivots et lentilles disponibles peuvent évoluer, certaines combinaisons sont encore inégales en qualité de rendu.
Contrast — comparateur multi-entités sémio (refs / marques / segments / familles) : première version, en construction. La sélection des dimensions affichées et l'agencement narratif seront retravaillés.
Sémio DD (synthèse corpus, widgets distributionnels, grille d'ambassadrices canoniques, onglet fiche ref) : pilote 2026-05-30 livré sur la catégorie Rouges (618 références significatives+ après re-score). Comportement potentiellement instable, sélection des refs susceptible de changer après revue Isabelle, synthèse corpus à re-valider sur les patches de prompt à venir.

Lecture recommandée : matériau de travail à discuter en équipe, pas livrable client figé.

01Introduction

BELA Fragrance applique le module BELA (Brand Expression & Language Architecture) du système DECODia de h2\ au déploiement Fine Fragrance. Notre matière première : ≈23 000 références scrapées sur Fragrantica, enrichies en données natives — pyramide olfactive, accords, marque, segment, image flacon, gender, année. Notre livrable : une lecture sémiotique à grande échelle de ce que les marques expriment dans cette catégorie.

La grille de lecture est constante : les quatre dimensions BELA — sensoriel (qualités perceptibles), émotionnel (émotions pures mobilisées), imaginaire (référents culturels, archétypes), discursif (stratégie rhétorique, codes de marque). Chaque référence du corpus est lue selon ces quatre axes ; les patterns qui en émergent à l'échelle constituent la matière analytique livrée via Arcade.

Cette plateforme n'est ni un outil de scoring quantitatif, ni un classifieur automatique. C'est un dispositif d'intrication humain–modèle : la méthodologie reste pilotée par les analystes h2\, l'IA permet de scaler la lecture sémio sur un corpus que la sémiotique classique ne pourrait pas couvrir manuellement. Le terme exact dans DECODia est systématique, jamais automatique — chaque passe est lancée sur un périmètre défini, avec supervision experte.

02Notre lecture d'une référence en trois couches

Une référence devient lisible quand trois couches d'enrichissement s'y accumulent.

On part de ce que la marque dit et montre. La donnée native — titre, description, pyramide olfactive, accords votés, image du flacon — vient telle quelle de Fragrantica. C'est le matériau brut, hétérogène, parfois mince (une description peut se réduire à « features Big Strawberry »), parfois copieux. Nous l'assumons comme tel : pas de complétion automatique, pas d'embellissement compensatoire.

On en dérive ce qui est mesurable sans interprétation. Une couche de calculs déterministes Python extrait de cette matière les éléments structurels reproductibles — époque, type de référence, pilier ou flanker d'une lignée, segment de marché, héros social (accord dominant des votes communauté), score de présence par catégorie fruit. Aucune IA n'intervient ici ; les algorithmes sont publics et calibrés en réunion équipe.

On lit enfin ce que ça signifie. Quatre passes IA Sonnet, isolées les unes des autres, produisent les lectures verbale B1, olfactive B2, visuelle B3, puis intégrative C. Une cinquième passe Haiku, multimodale, attribue la référence à une catégorie projet et identifie son héros marketing. Chaque passe est encadrée par des règles d'ancrage observable — toute affirmation doit pouvoir être tracée à un élément concret de l'input. L'IA n'invente pas ; elle structure et propose. Le sémioticien lit et arbitre.

Ces trois couches se cumulent dans le panneau de référence que tu consultes via Arcade : onglet Natif pour la couche scrape, Héros pour le déterministe, Sémio DD pour les passes intégratives, Focus pour les passes projet.

03Les sources — ce que voit la plateforme

La donnée brute provient d'un scrape systématique de Fragrantica, calibré sur un périmètre de marques validé avec Lana (≈230 maisons retenues, du luxe historique aux pure players DTC). Pour chaque référence, nous récupérons : le titre, la description marque (texte rédactionnel libre), la pyramide olfactive (notes top / cœur / fond), les accords (votes de la communauté en pourcentages), l'image du flacon (cache S3), le genre annoncé, la marque, l'année de lancement.

Cette matière première est hétérogène. Certaines fiches Fragrantica sont denses — un récit de marque, un nez signé, une pyramide complète, une description fouillée. D'autres se réduisent à trois lignes pyramidales et une mention de famille olfactive. La plateforme ne cherche pas à uniformiser : la richesse de l'input conditionne la profondeur de la lecture. Les passes IA reconnaissent explicitement la mincesse de l'input quand elle se présente, plutôt que de compenser par extrapolation décorative.

Ce qui n'est pas dans notre matière : les notes formulatoires (compositions chimiques), les volumes commerciaux, les niveaux de prix observés en retail (cf. backlog observatoire prix), les avis utilisateurs en texte libre, les vidéos publicitaires. Toute lecture qui dépend de ces sources externes nécessite une couche d'enrichissement complémentaire — pas dans le périmètre actuel.

04Couche déterministe — les calculs sans IA

Avant toute lecture IA, une passe Python pure extrait les éléments structurels A1 qui ne demandent aucune interprétation : l'époque de lancement (décennie), le type de référence (eau de parfum, eau de toilette, extrait, élixir…), le statut pilier ou flanker au sein de la collection (heuristique : le pilier est le plus ancien d'une lignée), le segment de marché de la marque parmi 8 buckets de référence (luxe historique, designer, haute parfumerie indépendante, alternatives/pionniers niche, DTC, mass-prestige, specialty, fast fragrance) et son identité nationale, la ligne / gamme dont elle relève. Ces dix champs sont nos coordonnées de base.

Deuxième calcul : le héros social. Un algorithme déterministe lit les accords votés par la communauté Fragrantica et identifie, quand il existe, un accord franchement dominant — saillant (au-dessus de 60% des votes) et nettement détaché du suivant (≥20 points d'écart). Une blacklist filtre les accords purement grammaticaux (sweet, soft, powdery) qui ne portent pas d'identité ingrédient. Couverture actuelle : ≈41% du corpus. Le reste a un profil trop balancé pour qu'un héros se détache.

Troisième calcul : le scoring fruits v3, propre au projet Fruits. Pour chaque référence et chacune des 7 catégories BELA (acidulés, rouges, foncés, charnels-lactés, frais-aqueux, secs, noix-amande), l'axe Composition agrège deux indices : un indice compositionnel (notes top/cœur/fond pondérées + accords) et un indice social (accords Fragrantica modulés par la proximité de chaque catégorie au descripteur « fruity »). Depuis juin 2026, cet agrégat est pur : il ne replie plus le discours marque, afin que l'axe Composition (ce que le jus contient) reste indépendant de l'axe Représentation. Le discours marque reste mesuré séparément par la passe Haiku (catégorie de représentation + vecteur de coloration sémio). Le résultat : un score 0-1 par catégorie, une catégorie dominante, et un niveau de pertinence (négligeable / marginale / significative / dominante).

05Couche IA — Sémio Deep Dive

La couche IA générique produit la lecture sémiotique structurée selon les quatre dimensions BELA. Cinq appels modèle s'enchaînent par référence, encadrés par une discipline méthodologique précise : isoler avant d'articuler.

Statut marché A2

Court appel préliminaire qui juge le cycle de vie produit — actif, dormant (toujours listé mais sans nouveauté ni campagne depuis 15+ ans), reformulé (même nom, formule ajustée, typiquement post-IFRA), remplacé (rare). Distingue strictement le flanker (sister ref d'une même lignée, ex. Intense) de la reformulation (même référence ré-éditée). Sous-flag préféré à l'hallucination quand l'incertitude est réelle.

Trois lectures isolées : verbale B1, olfactive B2, visuelle B3

Trois passes successives lisent chacune un seul objet sémiotique sans accès aux autres.

La lecture verbale B1 lit le nom et la description native uniquement. Elle analyse la structure du nom (langue, composition morphologique, archétype symbolique, effet sonore), sa stratégie de dénomination (sous-marque ingrédient, gamme thématique…), puis dans la description : la promesse imaginaire, les émotions mobilisées, la construction de genre, le registre rhétorique, les références culturelles, la cible implicite. Le modèle n'a accès ni à la composition olfactive ni au flacon — il lit le verbal pour lui-même.

La lecture olfactive B2 lit la pyramide top/cœur/fond et les accords Fragrantica, sans voir le nom, la description ni le flacon. Elle décrit l'architecture pyramidale, l'accord dominant, la tension olfactive, la texture, puis sémiotise la mixture — signature sensorielle, effet émotionnel, territoire imaginaire, positionnement discursif, contexte marché — toujours évaluée intra-segment (un floral fruité de niche n'a pas la même originalité qu'un floral fruité mass-prestige).

La lecture visuelle B3 lit l'image du flacon seule. Le modèle est aveugle au nom, à la description et à la composition. Il décrit la morphologie (forme, matière, couleurs verre/jus/bouchon, palette, décoration, étiquette, typographie), puis sémiotise le flacon — cohérence de marque, densité ornementale, impression sensorielle, effet émotionnel, territoire imaginaire, stratégie discursive.

Synthèse intégrative C

La cinquième passe articule enfin les trois lectures isolées. Elle reçoit les sorties complètes de B1, B2, B3 et produit la synthèse — d'abord une vue par dimension BELA (un paragraphe sensoriel, un émotionnel, un imaginaire, un discursif), puis une lecture globale : axe sémiotique dominant, score de cohérence (les trois objets construisent-ils la même proposition ?), score de distinctivité intra-segment, et surtout — la détection de dissonances.

Pourquoi cet aveuglement volontaire ?

L'isolation des trois lectures est le geste méthodologique central. Si une seule passe voyait nom + composition + flacon, le modèle rationaliserait spontanément — il harmoniserait les trois objets dans une lecture cohérente même quand ils se contredisent. En les lisant séparément, chaque objet livre ses signes propres ; la synthèse a alors la matière pour nommer les dissonances quand elles existent, et trancher entre tension stratégique (transgression voulue, subversion d'un code) et incohérence accidentelle.

Dans cet exemple, la synthèse C note une cohérence sémiotique maximale (5/5) entre les trois lectures : nom Blooming Bouquet, composition rose/peach/White Musk, flacon rose poudré au nœud argenté — les trois objets construisent rigoureusement la même proposition de douceur lumineuse, féminité printanière, luxe accessible. Pas de dissonance à articuler. Mais l'analyse va plus loin et lit cette cohérence comme une stratégie — la normalisation du flanker comme outil de démocratisation contrôlée dans le luxe historique français, la distinctivité olfactive sacrifiée volontairement sur l'autel de l'accessibilité.

06Couche IA — Lectures focus projet

La couche DD générique est projet-indépendante — elle s'applique à n'importe quelle référence du corpus quel que soit le contexte d'usage. Par-dessus, nous greffons des lectures focus : des passes spécifiques calibrées sur un angle métier précis. Aujourd'hui, le focus actif est Fruits (livrable Sofia / Firmenich). D'autres focus suivront (Intensité, Layering, Couleurs…).

Pour le focus Fruits, une passe Haiku 4.5 multimodale attribue à chaque référence trois éléments dans un seul appel : sa catégorie de représentation parmi les 7 catégories BELA (avec score de confiance), son héros marketing narratif — l'ingrédient effectivement mis en avant dans le discours marque — et un vecteur de coloration sémio par catégorie (à quel point chaque catégorie est évoquée par le discours marque, indépendamment de la composition).

Composition vs Représentation — deux lectures de la catégorie

Chaque référence du focus Fruits porte deux lectures de catégorie, indépendantes et complémentaires. La distinction est nommée et matérialisée partout dans le produit (panneau filtres, drawer ref, cards, pages catégorie).

Catégorie - Composition (déterministe) — calculée par scoring multi-catégorie sur la pyramide olfactive pondérée (top × 1.0 / cœur × 1.3 / base × 0.9) et les accords sociaux Fragrantica. Lecture matérielle : ce que le jus contient. Inscrite dans la colonne fruit_dominant_family.
Catégorie - Représentation (Haiku 4.5 multimodale) — inférée à partir de la description marque, du naming, du packaging visuel et du segment marque. Lecture sémio : ce que le discours marque met en scène. Inscrite dans la colonne fruit_haiku_category.

L'écart entre les deux n'est pas une incohérence mais un signal sémio précieux. Une référence dont la composition est Rouges (fraise canonique) mais dont la Représentation est Charnels (Velvet, Bourbon Vanilla, registre tactile) révèle un geste de marque : reprendre un ingrédient canonique d'une catégorie et le re-contextualiser dans le registre d'une autre. C'est exactement ce type de divergence que la grille sémio cherche à isoler. Quand les deux convergent, la marque assume le registre de sa composition.

Inputs de la passe Haiku Fruits

Pour produire cette catégorie de Représentation + le héros marketing + le vecteur de coloration sémio, la passe reçoit en entrée :

Le titre de la référence (nom commercial complet).
La marque et son segment marché (luxe historique / designer / niche / mass-prestige / fast fragrance / etc.) — pour calibrer l'attente sémio segment par segment.
La description native Fragrantica (texte officiel, intercale storytelling et indications techniques).
La composition pyramidée structurée — top / cœur / fond, dans cet ordre, sous forme note (niveau).
Les accords sociaux Fragrantica (votes communauté, pondérés en pourcentage).
Le packshot (image du flacon) en pièce jointe multimodale — pour intégrer la signature visuelle (palette, forme, étiquetage).

L'ordre de raisonnement de la passe est imposé : d'abord identifier le héros narratif dans les signaux marketing, puis en déduire la famille sémio, puis — si la composition pointe ailleurs — expliciter l'écart plutôt que de l'ignorer. Plusieurs règles calibrées avec l'équipe encadrent le geste : pour les marques niche (haute parfumerie indépendante, alternatives, specialty), le storytelling marque prime sur le comptage compo brut ; le packaging compte seulement s'il porte un marqueur fruité observable ; les agrumes en composition sont reconnus comme exhausteurs olfactifs et ne déclassent pas un fruit non-agrume porté par le storytelling.

07Principes

Ancrage observable

Toute affirmation de la prose IA doit pouvoir être tracée à un élément effectivement présent dans l'input. Les connotations culturelles d'un ingrédient ou d'un mot — fraise → été et enfance, cap doré → luxe, verre épais → solidité bourgeoise — ne sont admissibles que si l'élément concret est présent. La connotation universelle ne suffit pas. Quand l'input est mince, le modèle doit l'expliciter plutôt que combler le silence par extrapolation décorative.

Cas d'illustration · id 18608 · input lacunaire

Strawberry — The Body Shop, 2012

Description Fragrantica : « Strawberry by The Body Shop is a Aromatic Fruity fragrance for women. Strawberry was launched in 2012. The fragrance features Big Strawberry. » Pyramide olfactive vide.

« La description native est squelettique : elle se réduit à la mention d'un accord Big Strawberry, sans récit, sans territoire imaginaire construit. La promesse est purement hédoniste et directe — une évocation fruitée immédiate, sans métaphore ni élévation symbolique. L'adjectif Big (présent dans l'input) suggère une amplification quantitative de l'ingrédient plutôt qu'une transformation qualitative. »

— sortie B1 promesse imaginaire (la prose nomme la mincesse au lieu d'inventer été, enfance ou jardin)

Intrication, pas automation

Aucune passe n'est lancée sans validation experte. Le sémioticien définit les périmètres de scale (Rouges dominantes, fruits ≥ marginale, corpus complet…), les calibrations sont arbitrées en réunion équipe et tracées dans les prompts, les sorties sont relues avant d'être consolidées. L'IA explore et structure ; l'humain conçoit, interprète, arbitre. C'est le principe DECODia de référence : l'intrication est systématique mais elle n'est jamais automatique.

Traçabilité des appels

Chaque appel modèle est journalisé dans une table dédiée (bedrock_calls) : référence concernée, passe (A2, B1, B2, B3, C, Haiku), version du pipeline, modèle exact, hash du prompt système (déterministe sur la version courante), hash du payload utilisateur, réponse brute, retry, coût USD, latence. Cette traçabilité permet de re-jouer une analyse, d'auditer un drift de calibration, ou de mesurer le coût d'un scale avant d'engager la dépense.

Calibrations itératives

Chaque réunion équipe peut produire une calibration. Quand une règle émerge — les agrumes peuvent être des exhausteurs, le naming métaphorique seul ne suffit pas comme support de héros, l'ancrage observable interdit l'extrapolation décorative — elle est ajoutée au prompt concerné, la version de pipeline est incrémentée, un petit pilote valide l'effet, et le scale peut reprendre. L'historique des calibrations est lisible dans le code des prompts ; l'effet sur les sorties est mesurable en comparant les pipelines.

08Lexique

Catégorie (focus projet): Bucket de classification propre à un focus projet. Pour le focus Fruits, 7 catégories BELA : acidulés (agrumes), rouges, foncés (noirs), charnels-lactés, frais-aqueux, secs, noix-amande. Distincte de la famille olfactive racine (taxonomie générale, voir plus bas). Chaque référence porte deux lectures de catégorie indépendantes (Composition et Représentation, ci-dessous).
Catégorie - Composition (déterministe): Lecture matérielle de la catégorie — calculée par scoring multi-catégorie sur la pyramide olfactive pondérée (top × 1.0 / cœur × 1.3 / base × 0.9) + accords sociaux Fragrantica. Répond à : de quoi est fait le jus. Colonne fruit_dominant_family.
Catégorie - Représentation (Haiku 4.5 multimodale): Lecture sémio de la catégorie — inférée à partir de la description marque + naming + packaging visuel + segment marque. Répond à : quel registre la marque met-elle en scène. Colonne fruit_haiku_category. L'écart avec la Composition est un signal sémio à analyser.
Coloration sémio par catégorie: Vecteur de 7 scores 0–100 % produit par Haiku, mesurant pour chaque catégorie sa trace dans le discours marque. La catégorie de représentation est celle au score dominant. Les autres scores donnent la complexité sémio de la référence (ex : 85 % Charnels + 35 % Rouges + 15 % Foncés = registre charnel principal avec coloration rouges secondaire). À ne pas confondre avec une attribution de catégories multiples.
Sub-focus · sub-fruits (instance Fruits): Granularité inférieure à la catégorie. Pour Fruits, les sub-fruits sont les ingrédients canoniques (54 entrées au registre fruit_taxonomy.py) : fraise, cerise, etc. Chaque sub-fruit appartient à une catégorie.
Segment de marché: Taxonomie 8 buckets (Lana → Isabelle) : luxe historique · designer · haute parfumerie indépendante (niche) · alternatives / pionniers (niche) · DTC pure player · mass-prestige · specialty (niche) · fast fragrance.
Héros marketing (Haiku): Ingrédient narratif identifié dans le discours marque (description + naming + packaging). Sortie de la passe Haiku Fruits.
Héros social (déterministe): Accord dominant des votes communauté Fragrantica. Calcul algorithmique. À ne pas confondre avec le héros marketing IA.
Statut discours: Intensité du signal marque produit par Haiku : héros déclaré (clair), présent (signal sans héros principal), silencieux (pas de signal exploitable).
Pertinence (niveau): Score fruit agrégé bandé en négligeable < 0.30 · marginale < 0.45 · significative < 0.60 · dominante ≥ 0.60. Depuis la v0.5.2, le périmètre par défaut du Focus Fruits est significative + dominante — les marginales (entrées au scope par un simple accord social fruity sans fruit canonique en composition) sont exclues par défaut car elles concentraient l'essentiel du bruit fallback Haiku. Elles restent accessibles en cochant explicitement « Marginale » dans le filtre Pertinence du panneau.
Pilier / Flanker: Le pilier est la référence-racine d'une collection (le 1 de la lignée). Les flankers sont les déclinaisons ultérieures sous le même nom de gamme.
Famille olfactive racine: 8 familles validées avec Lana (2026-05-04) : Floral · Citrus · Woody · Ambré · Chypre · Aromatic · Fougère · Leather. Sous-jacent : 28 sous-familles BELA au niveau 2 (Fragrantica modifiée / augmentée). À ne pas confondre avec la catégorie du focus projet (Fruits a 7 catégories propres).