C

Chunking

Comment les machines découpent votre contenu, et donc pourquoi ce découpage décide de votre citabilité.

Définition

Le chunking (découpage) est l'opération par laquelle un système IA fragmente un contenu en morceaux (chunks) avant de les traiter : chaque fragment est converti en embedding, stocké, puis récupéré individuellement quand une question s'en approche. Un moteur génératif ne manipule jamais votre page entière : il manipule ses chunks. C'est le mécanisme concret qui fait que l'unité de compétition est le passage, pas la page.

Pourquoi ça compte

Le chunking est le chaînon qui relie vos choix éditoriaux à la mécanique des IA. Quand on dit qu'un contenu doit être fait de blocs extractibles, c'est parce qu'en aval, un système va le découper - souvent mécaniquement, par tailles ou par sections - et que la qualité de vos fragments après découpage décide de tout. Un contenu bien structuré (titres nets, une idée par bloc, réponses autonomes) produit des chunks cohérents, au sens net, facilement récupérés. Un contenu diffus produit des chunks qui coupent les idées en deux, mélangent les sujets, et dont aucun n'est assez net pour matcher une question. Vous ne contrôlez pas le découpeur - mais vous contrôlez ce qu'il y a à découper. Écrire « chunkable », c'est s'assurer que n'importe quel découpage raisonnable de votre page produise des fragments qui se suffisent.

Exemple concret

Deux pages traitent « les délais de préavis de démission ». La première est structurée : un titre par cas (CDI, CDD, cadres), et sous chaque titre une réponse complète et autonome. Découpée, elle donne des chunks propres : chacun répond entièrement à une sous-question, et sera récupéré tel quel. La seconde traite tout en un long texte continu, où chaque information dépend de la phrase précédente. Découpée mécaniquement, elle donne des fragments amputés : des débuts sans fin, des « comme vu plus haut » orphelins. Même information, mais après chunking, seule la première existe encore de façon exploitable.

Comment écrire « chunkable »

  • Une idée complète par bloc : chaque section doit survivre au découpage sans perdre son sens.
  • Réponse en tête de section : si le découpage tombe à la frontière d'un titre, le fragment commence par l'essentiel.
  • Bannir les renvois internes (« comme vu plus haut ») : un chunk n'emporte pas le reste de la page avec lui.
  • Structurer avec des titres nets : beaucoup de systèmes découpent aux frontières de sections — des titres clairs font des chunks cohérents.

Erreurs fréquentes

  • Écrire en texte continu et interdépendant, que tout découpage mutile.
  • Étaler une idée sur plusieurs sections : aucun chunk ne la porte en entier.
  • Multiplier les renvois et anaphores qui rendent les fragments orphelins hors contexte.
  • Croire que la page sera lue en entier : les systèmes traitent des fragments, jamais le tout.

Termes liés

FAQ

Qui fait le chunking : moi ou la machine ? La machine - chaque système découpe selon ses propres règles (par taille, par section). Vous ne contrôlez pas le découpage, mais vous contrôlez la matière : un contenu bien structuré produit de bons chunks quel que soit le découpeur.

Quelle taille fait un chunk ? Variable selon les systèmes - souvent de l'ordre d'un paragraphe à une section. C'est pourquoi la bonne unité éditoriale est la section autonome : assez courte pour tenir dans un fragment, assez complète pour se suffire.

Chunking et bloc extractible, est-ce pareil ? Ce sont les deux faces d'une même logique : le bloc extractible est ce que vous écrivez (un passage autonome) ; le chunking est ce que la machine fait (découper et récupérer des fragments). Écrire en blocs extractibles, c'est anticiper le chunking.