INTELLIGENCE ARTIFICIELLE
Prédire les prix des maisons grâce à la magie de l’apprentissage automatique
Rôle : | Spécialiste IA |
Outils : | RapidMiner |
Version PDF : | Rapport IA - PDF |
Présentation du projet
Dans le cadre de ce projet académique, j'ai collaboré avec Karina Diana Templer pour développer un modèle prédictif en intelligence artificielle visant à estimer les prix des propriétés. Construit dans un contexte fictif d’agence immobilière, l’objectif était d’améliorer la précision des évaluations grâce à l’apprentissage supervisé. Nous avons utilisé un jeu de données provenant de Melbourne, Australie (trouvé sur Kaggle), afin de simuler la complexité du marché réel et d’explorer les possibilités d'application à plus grande échelle.
Méthodologie
Nous avons exploré deux modèles d’apprentissage supervisé :
- Régression linéaire multiple : Utilisé pour sa simplicité et son interprétabilité, ce modèle a permis d’analyser l’impact de plusieurs caractéristiques d’un bien immobilier sur son prix de vente.
- Forêt aléatoire : Un modèle d’ensemble combinant plusieurs arbres de décision, qui a offert une meilleure performance en termes de score R² et de RMSE, en faisant une option plus fiable pour nos objectifs prédictifs.
Préparation des données
Le jeu de données nécessitait un important travail de prétraitement pour assurer la fiabilité du modèle. Nous avons commencé par identifier et retirer les valeurs manquantes ou incohérentes susceptibles de fausser les prédictions. Ensuite, nous avons filtré les valeurs aberrantes extrêmes qui ne reflétaient pas le comportement typique du marché, afin d’assurer une bonne généralisation. Enfin, nous avons exclu les variables non essentielles qui apportaient plus de bruit que d'information, afin de conserver un jeu de données ciblé et efficace.
Considérations éthiques
Nous avons appliqué des principes d’IA responsable :
- Équité : Réduction des biais dans les données et les prédictions.
- Transparence : Rendre compréhensibles la logique du modèle et ses résultats.
- Responsabilité : Prendre en compte les répercussions plus larges des décisions de tarification automatisées.
Résultats & performance du modèle
Pour évaluer la performance du modèle, nous avons divisé le jeu de données en 70% pour l’entraînement et 30% pour les tests. Le modèle Forêt aléatoire a surpassé la régression linéaire en précision et en capacité de généralisation.
Forêt aléatoire a atteint une précision de 86% sur l’ensemble d'entraînement et de 71% sur l’ensemble de test, indiquant une forte capacité prédictive avec une variance acceptable.
Régression linéaire a obtenu une précision de 77% à l'entraînement et de 73% aux tests, démontrant une performance plus constante mais légèrement inférieure.
Ces résultats suggèrent que bien que le modèle Forêt aléatoire soit plus performant pour apprendre des schémas complexes, la régression linéaire offrait un meilleur équilibre entre précision à l'entraînement et aux tests, rendant les deux modèles utiles selon le cas d’usage.
Pistes d’application
Ce modèle prédictif peut être utilisé dans plusieurs contextes réels pour soutenir la prise de décision stratégique dans le secteur immobilier. Il peut aider les investisseurs à évaluer le potentiel d’un bien, fournir des références de prix précises aux évaluateurs, orienter les urbanistes dans leurs stratégies de développement, et offrir des insights précieux aux analystes du marché. Avec un entraînement continu sur des jeux de données variés, le modèle pourrait être adapté à différents marchés et devenir un outil polyvalent à l’échelle mondiale.