Introduction
L’agriculture est un secteur clé de l’économie, mais il expose les travailleurs à divers risques professionnels, notamment des expositions prolongées aux pesticides, aux poussières et aux agents biologiques. Ces expositions sont suspectées d’augmenter le risque de certains cancers, rendant essentielle l’étude des liens entre agriculture et santé. Les métiers agricoles sont variés, allant des grandes cultures à l’élevage, avec des niveaux d’exposition différenciés selon les pratiques et les produits utilisés. À l’aide de méthodes factorielles, notamment l’Analyse en Composantes Principales (ACP), nous identifions les corrélations entre pratiques agricoles et expositions. Ensuite, le clustering par la méthode des K-means permet de regrouper les individus en profils homogènes, facilitant l’analyse des risques sanitaires spécifiques à chaque groupe.
Description population
L’étude s’appuie sur la cohorte AGRICAN, qui vise à évaluer l’impact des expositions professionnelles agricoles sur le risque de développer un cancer. Cette cohorte comprend environ 180 000 affiliés à la Mutualité Sociale Agricole (MSA) ayant accepté de participer à l’étude, parmi les 567 000 personnes initialement éligibles. Elle regroupe des agriculteurs, des exploitants et des salariés, ainsi que des travailleurs de secteurs liés à l’agriculture. Tous étaient affiliés à la MSA depuis au moins trois ans et résidaient dans l’un des 11 départements français disposant d’un registre des cancers.
Notre étude se concentre sur la Cohorte 1975, qui rassemble 10 463 agriculteurs ayant débuté leur carrière entre 1965 et 1985. À travers un questionnaire, ils ont fourni des informations détaillées sur leur parcours professionnel, incluant leur type d’exploitation (élevage et/ou culture), l’utilisation de produits phytosanitaires (fongicides, insecticides, herbicides), le matériel employé, ainsi que des éléments sur leur santé et leur mode de vie.
Afin d’explorer ces données plus en profondeur, nous avons appliqué une Analyse en Composantes Principales (ACP) sur un tableau regroupant des ratios d’activité. Le ratio de pratique de l’activité mesure l’intensité d’une tâche en rapportant sa durée de pratique à la durée totale de l’activité professionnelle.
Exploration des données - Analyse en Composantes Principales
Pour commencer, nous avons décidé de réaliser une Analyse en Composantes Principales (ACP) sur les 8 cultures et les 5 types d’élevages les plus représentés dans notre jeu de données.
Cultures les plus représentées
Les 8 cultures sélectionnées sont :
- Prairies
- Blé ou orge
- Maïs
- Vignes
- Colza
- Tournesol
- Betteraves
- Pois fourragers
Élevages les plus représentés
Les 5 types d’élevages retenus sont :
- Bovins
- Moutons/Chèvres
- Cochons
- Chevaux
- Volailles
Cette analyse nous permettra d’identifier les principales tendances et similitudes entre ces cultures et élevages, facilitant ainsi l’interprétation des données.
Sélection des Axes
Pour choisir nos axes, nous avons cherché à conserver 80 % de l’inertie cumulée. Comme le montre le tableau ci-dessous, nous atteignons cet objectif en conservant nos 8 premières composantes principales.
Tableau des valeurs propres
| % d’inertie | % d’inertie cumulé | |
|---|---|---|
| comp 1 | 23.94 | 23.94 |
| comp 2 | 12.89 | 36.83 |
| comp 3 | 10.16 | 46.98 |
| comp 4 | 9.00 | 55.98 |
| comp 5 | 7.55 | 63.53 |
| comp 6 | 7.02 | 70.55 |
| comp 7 | 6.66 | 77.21 |
| comp 8 | 5.55 | 82.77 |
| comp 9 | 4.77 | 87.54 |
| comp 10 | 4.00 | 91.53 |
| comp 11 | 3.82 | 95.35 |
| comp 12 | 2.73 | 98.08 |
| comp 13 | 1.92 | 100.00 |
Analyse du Nuage des Variables
Après avoir identifiés nos 8 composantes principales, nous réalisons la représentation du nuages des variables avec les deux premières composantes principales (CP1 et CP2).
Sur ce dernier, on peut observer que les variables “Blé ou Orge”, “Maïs”, “Prairies” et “Bovins” sont corrélées positivement avec le premier axe.
La variable “Vignes” est, quant à elle, corrélée négativement avec ce dernier.
Les variables “Pois Fourragers” et “Colza” sont corrélées positivement avec le second axe.
Toutes ces variables évoquées sont globalement bien représentées sur le plan factoriel.
En revanche, les autres variables sont mal représentées dans ce plan, notamment “Cochons”, “Volailles” et “Chevaux”. Par conséquent, elles ne seront pas pertinentes pour notre analyse.
Nuages des variables
Analyse des Corrélations et Identification des Axes Principaux
Pour obtenir une vue d’ensemble plus globale, nous nous sommes appuyés sur la matrice des corrélations et avons choisi de nous concentrer sur les quatre premiers axes.
Dans ce tableau, les variables mises en évidence en rouge sont celles qui présentent la plus forte corrélation (> 60 %) avec leur axe respectif. Celles en orange sont corrélées à au moins 40 %, et celles en jaune à au moins 20 %.
Concernant le premier axe, la variable “Blé ou Orge” est la mieux représentée, avec un coefficient de corrélation de 0,83, indiquant une très forte association.
Pour le deuxième axe, c’est la variable “Pois Fourragers” qui est la plus corrélée, avec un coefficient de 0,65.
En ce qui concerne le troisième axe factoriel, la variable la mieux représentée est “Chevaux”, avec un coefficient de 0,48.
Enfin, pour le quatrième axe, la variable la plus corrélée est “Betterave”, avec un coefficient de -0,52.
Matrice des corélation entre les variables et les composantes principales
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | |
|---|---|---|---|---|
| Prairies | 0.74 | -0.44 | -0.02 | -0.05 |
| Blé ou orge | 0.83 | 0.08 | -0.1 | -0.03 |
| Mais | 0.65 | -0.09 | -0.29 | 0.02 |
| Vignes | -0.59 | 0.21 | -0.22 | -0.02 |
| Colza | 0.43 | 0.64 | -0.14 | 0.23 |
| Tournesol | 0.36 | 0.42 | -0.42 | 0.51 |
| Bettraves | 0.35 | 0.39 | 0.46 | -0.52 |
| Pois fourragers | 0.37 | 0.65 | 0.24 | -0.28 |
| Bovins | 0.69 | -0.51 | -0.07 | -0.15 |
| Moutons/Chèvres | 0.09 | -0.04 | 0.4 | 0.4 |
| Cochons | 0.15 | -0.01 | 0.43 | 0.21 |
| Chevaux | 0.03 | -0.1 | 0.48 | 0.23 |
| Volailles | 0.13 | -0.05 | 0.36 | 0.48 |
Classification automatique - K-means
Après avoir réalisé l’ACP, nous cherchons à constituer des classes d’individues afin de comprendre leur caractéristique principales. Pour ce faire nous allons utiliser les k-means. Les k-means sont un algorithme de classification non supervisée qui partitionne un ensemble de données en k groupes en minimisant la variance intra-cluster.
Détermination du nombre optimal de clusters
Pour déterminer le nombre optimal de clusters, nous avons utilisé la méthode du coude. Cette technique consiste à tracer la courbe de l’inertie intra-cluster en fonction du nombre de clusters (k). Le point où la diminution de l’inertie ralentit brusquement correspond généralement au nombre optimal de clusters.
Sur notre graphique , une cassure est observable à partir de huit clusters. Nous retenons donc huit comme nombre optimal de clusters, car au-delà de ce seuil, la réduction de l’inertie devient moins significative.
Variance intra-classe
Sélection des clusters les plus représentatifs
En choisissant huit clusters, nous observons une répartition inégale des effectifs. Pour notre étude, nous nous concentrerons uniquement sur les quatre clusters les plus représentés :
- Cluster 1 : 857 individus
- Cluster 2 : 3 497 individus
- Cluster 5 : 710 individus
- Cluster 6 : 3 405 individus
Cette sélection permet d’analyser les groupes ayant le plus d’impact tout en évitant ceux dont l’effectif est trop faible pour être significatif.
Tableau des effectifs par cluster
| Cluster | Effectif |
|---|---|
| 1 | 857 |
| 2 | 3497 |
| 3 | 655 |
| 4 | 508 |
| 5 | 710 |
| 6 | 3405 |
| 7 | 361 |
| 8 | 470 |
Tableau des cultures les plus fréquentes
| Fréquence | |
|---|---|
| Prairies | 6538 |
| Blé ou orge | 5914 |
| Maïs | 5503 |
| Vigne | 3253 |
| Colza | 1602 |
| Tournesol | 1478 |
| Betteraves | 1277 |
| Pois fourragers | 1024 |
Analyse des quatre clusters les plus représentés
Après avoir identifié les quatre clusters les plus représentés, nous analysons ces groupes en nous basant sur cinq variables clés : l’effectif, l’âge moyen au début de la carrière, la proportion de fumeurs, le nombre moyen de paquets consommés annuellement et la durée moyenne d’activité. Ces indicateurs révèlent des différences notables en termes d’âge d’entrée en activité, de tabagisme et de stabilité professionnelle.
Cluster 1 :
Les individus commencent en moyenne leur carrière à 20
ans. La majorité ne fume pas (moins d’un sur deux), et parmi
les fumeurs, la consommation atteint environ 14 paquets
par an. Ce groupe a également de la durée d’activité la plus
longue.
Cluster 2 :
Ce cluster se caractérise par un début de carrière très précoce
(19 ans en moyenne) et la plus faible
proportion de fumeurs, dont la consommation est d’environ
12 paquets par an. La durée d’activité y est élevée,
avoisinant les 28 ans en moyenne.
Cluster 5 :
Les individus entament leur carrière autour de 19,85
ans. La proportion de fumeurs est importante (51,83
%), avec une consommation d’environ 15,6
paquets par an.
Cluster 6 :
Ce groupe présente le début de carrière le plus tardif, la plus
forte proportion de fumeurs et une consommation moyenne de
16 paquets par an, bien que sa durée d’activité soit la
plus courte.
Ces observations mettent en lumière des profils distincts : certains groupes présentent une exposition plus marquée au tabagisme, tandis que d’autres affichent des caractéristiques propres à un début de carrière plus précoce ou tardif. Ces résultats offrent des pistes concrètes pour adapter les politiques de prévention aux spécificités de chaque cluster (cf.Description des clusteurs).
Description des clusteurs
| Cluster | Cluster1 | Cluster2 | Cluster5 | Cluster6 |
|---|---|---|---|---|
| Effectif | 857 | 3497 | 710 | 3405 |
| Âge moyen au début de la carrière (écart-type) | 20.07 (6.07) | 19.35 (6.28) | 19.85 (5.45) | 22.18 (7.99) |
| Proportion de fumeurs | 47.84 | 47.24 | 51.83 | 59.06 |
| Nombre moyen de paquets de tabac consommés annuellement | 14.17 | 12.47 | 15.6 | 15.99 |
| Durée moyenne d’activité (écart-type) | 27.88 (7.68) | 27.84 (9.04) | 27.47 (8.86) | 25.29 (9.68) |
Analyse des Clusters Agricoles
Cluster 1 : Grandes Cultures Céréalières et Oléagineuses
Ce cluster se distingue par des V-tests très élevés (>10) pour plusieurs cultures.
- Surreprésentés :
- Tournesol (0.678, V-test=77.391)
- Colza (0.515, V-test=55.533)
- Blé/orge (0.922, V-test=30.598)
- Maïs (0.887, V-test=23.014)
- Volailles (0.076, V-test=15.066)
- Pois fourragers (0.159, V-test=13.814)
- Moutons/chèvres (0.037, V-test=10.270)
- Tournesol (0.678, V-test=77.391)
- Sous-représentés :
- Vignes (0.147, V-test=-11.395)
Ce cluster représente des exploitations spécialisées dans les grandes cultures céréalières et oléagineuses.
Cluster 2 : Élevage Bovin avec Polyculture
- Surreprésentés :
- Prairies (0.891, V-test=62.759)
- Bovins (0.879, V-test=60.507)
- Blé/orge (0.67, V-test=33.810)
- Maïs (0.677, V-test=30.247)
- Prairies (0.891, V-test=62.759)
- Sous-représentés :
- Tournesol (0.028, V-test=-18.369)
- Colza (0.023, V-test=-19.992)
- Pois fourragers (0.01, V-test=-19.337)
- Betteraves (0.031, V-test=-16.689)
- Vignes (0.107, V-test=-35.422)
- Tournesol (0.028, V-test=-18.369)
Ce cluster correspond à un système d’élevage bovin avec prairies et cultures céréalières complémentaires.
Cluster 5 : Cultures Industrielles et Grandes Cultures
- Surreprésentés :
- Betteraves (0.832, V-test=80.055)
- Pois fourragers (0.506, V-test=57.453)
- Blé/orge (0.928, V-test=27.936)
- Colza (0.258, V-test=20.090)
- Élevage porcin (0.064, V-test=15.688)
- Betteraves (0.832, V-test=80.055)
- Sous-représentés :
- Vignes (0.057, V-test=-15.864)
Ce cluster est principalement orienté vers les cultures industrielles et les grandes cultures.
Cluster 6 : Viticulture Spécialisée
- Surreprésentés :
- Vignes (0.615, V-test=51.546)
- Vignes (0.615, V-test=51.546)
- Sous-représentés :
- Tournesol (0.006, V-test=-24.824)
- Colza (0.004, V-test=-25.438)
- Blé/orge (0.055, V-test=-68.561)
- Maïs (0.066, V-test=-48.166)
- Volailles (0.008, V-test=-10.862)
- Pois fourragers (0.002, V-test=-21.554)
- Prairies (0.074, V-test=-71.576)
- Bovins (0.132, V-test=-64.021)
- Betteraves (0.007, V-test=-23.373)
- Tournesol (0.006, V-test=-24.824)
Ce cluster est clairement spécialisé dans la viticulture.
Synthèse Comparative
L’analyse des quatre clusters les plus représentatifs met en évidence
des systèmes agricoles distincts en fonction des cultures et élevages
dominants.
Ces valeurs, statistiquement très significatives (V-test > 10 en
valeur absolue), montrent quatre systèmes agricoles bien définis :
- Grandes cultures céréalières et oléagineuses (C1)
- Élevage bovin avec polyculture (C2)
- Cultures industrielles et grandes cultures (C5)
- Viticulture spécialisée (C6)
Tableau des résultats
| Variable | Moy c1 | v-test c1 | Moy c2 | v-test c2 | Moy c5 | v-test c5 | Moy c6 | v-test c6 | Moyenne |
|---|---|---|---|---|---|---|---|---|---|
| Tournesol | 0.678 | 77.391 | 0.028 | -18.369 | 0.019 | -7.665 | 0.006 | -24.824 | 0.754 |
| Colza | 0.515 | 55.533 | 0.023 | -19.992 | 0.258 | 20.090 | 0.004 | -25.438 | 0.476 |
| Blé.ou.orge | 0.922 | 30.598 | 0.67 | 33.810 | 0.928 | 27.936 | 0.055 | -68.561 | 0.631 |
| Mais | 0.887 | 23.014 | 0.677 | 30.247 | 0.582 | 6.436 | 0.066 | -48.166 | 0.457 |
| Volailles | 0.076 | 15.066 | 0.019 | -3.067 | 0.056 | 8.271 | 0.008 | -10.862 | 0.038 |
| Pois.fourragers | 0.159 | 13.814 | 0.01 | -19.337 | 0.506 | 57.453 | 0.002 | -21.554 | 0.052 |
| Moutons/Chèvres | 0.037 | 10.270 | 0.006 | -4.960 | 0.036 | 8.946 | 0.005 | -6.393 | 0.030 |
| Prairies | 0.627 | 7.547 | 0.891 | 62.759 | 0.629 | 6.924 | 0.074 | -71.576 | 0.317 |
| Cochons | 0.032 | 5.723 | 0.013 | -2.883 | 0.064 | 15.688 | 0.005 | -9.493 | 0.162 |
| Bovins | 0.55 | 1.958 | 0.879 | 60.507 | 0.58 | 3.640 | 0.132 | -64.021 | 0.164 |
| Chevaux | 0.006 | 0.549 | 0.004 | -1.353 | 0.014 | 6.230 | 0.004 | -2.501 | 0.182 |
| Bettraves | 0.017 | -8.320 | 0.031 | -16.689 | 0.832 | 80.055 | 0.007 | -23.373 | 0.029 |
| Vignes | 0.147 | -11.395 | 0.107 | -35.422 | 0.057 | -15.864 | 0.615 | 51.546 | 0.096 |
Conclusion
Tout au long de leur activité quotidienne et de leur parcours professionnel, les agriculteurs sont exposés à de nombreux facteurs susceptibles d’affecter leur santé. Ces expositions, multiples et complexes, peuvent être envisagées comme la combinaison d’agents physiques, chimiques, biologiques et comportementaux. Notre étude s’est appuyée sur les données de la cohorte AGRICAN, visant à évaluer l’impact des expositions professionnelles agricoles sur le risque de développer un cancer.
L’analyse de ces données a permis d’identifier des profils distincts d’agriculteurs, apportant une meilleure compréhension des pratiques agricoles, des caractéristiques socio-démographiques et des expositions associées. L’Analyse en Composantes Principales (ACP) a mis en évidence des corrélations significatives entre certaines cultures. Les variables « Blé ou Orge », « Maïs », « Prairies » et « Bovins » sont fortement liées au premier axe, tandis que la variable « Vignes » présente une corrélation négative avec ce même axe. Le second axe est principalement structuré autour des cultures de « Pois fourragers » et de « Colza », révélant une organisation cohérente des activités agricoles.
La classification par K-means a révélé quatre clusters principaux représentatifs de la population agricole étudiée. Le Cluster 1 regroupe les exploitants de grandes cultures céréalières et oléagineuses, avec une forte présence de tournesol et colza, débutant leur carrière vers 20 ans et présentant la durée d’activité la plus longue malgré un tabagisme modéré. Le Cluster 2 rassemble les éleveurs bovins pratiquant la polyculture, caractérisés par un début de carrière précoce à 19 ans, un faible taux de tabagisme et une longue durée d’activité d’environ 28 ans. Le Cluster 5 se compose d’agriculteurs spécialisés dans les cultures industrielles comme les betteraves et pois fourragers, avec une proportion élevée de fumeurs (51,83%) consommant en moyenne 15,6 paquets par an. Enfin, le Cluster 6 regroupe les viticulteurs qui se distinguent par un début de carrière plus tardif, le plus fort taux de tabagisme et la durée d’activité la plus courte, suggérant des profils d’exposition professionnelle spécifiques.
Ces résultats mettent en évidence l’hétérogénéité des profils d’exposition professionnelle dans le secteur agricole. La combinaison de facteurs tels que le type d’exploitation, les habitudes tabagiques et la durée d’activité génère des profils de risque distincts, nécessitant des stratégies préventives spécifiques. Ces éléments contribuent également à orienter les futures recherches épidémiologiques, en ciblant des populations précises et en affinant les approches de prévention.