« Ma qualité de lyrics est quantifiable », chantait le rappeur Médine en 2018. Le chercheur Benoît de Courson l’a pris au pied de la lettre : après avoir constitué un corpus de 37 307 textes de rap francophone, il lui a appliqué une série d’outils statistiques permettant de mesurer l’usage de certains lexiques (verlan ou argot, par exemple), la longueur des mots employés ou la diversité lexicale des rappeurs – celle de Médine est supérieure à celle de Rohff d’environ 10 %.
Surtout, il a appliqué à ce corpus une méthode d’apprentissage automatique permettant de classer les morceaux de rap selon leurs proximités langagières. Sept sous-genres se distinguent, parmi lesquels le « gangsta rap » (avec des mots comme « beuh », « poto », « Audi », « billets »), le « rap conscient » (« peuple », « système », « justice », « racisme ») ou le « rap coquin » (« baby », « soir », « danse »). L’analyse sur le temps long montre que leur part relative dans la production évolue : de 1990 à 2014, les textes sont sombres, agressifs, vulgaires, avant de devenir plus légers et moins politiques dans un mouvement de « variétisation » du rap. Intéressée par cette nouvelle catégorisation, la doctorante en musicologie et littérature Juliette Hubert s’est portée volontaire pour approfondir avec l’auteur le travail entamé. Une manière originale d’aborder la recherche, qui favorise l’interdisciplinarité.
Source
• Benoît de Courson, « LRFAF : une exploration numérique du rap français depuis les années 1990 », travail en cours, février 2024.