Analyse de survie sur des projets Kickstarter.
Notre objectif est de modéliser la durée avant qu'un projet Kickstarter soit financé (ou son échec de financement dans le temps imparti).
Kickstarter est un site Internet qui permet le crowd-funding, autrement dit le financement participatif. Des créateurs proposent leur idée de projet, un objectif de financement à atteindre.
Si l'objectif de financement est atteint, les créateurs obtiennent le financement et peuvent réaliser le projet. Si l'objectif n'est pas atteint, les financeurs sont remboursés et le projet est annulé.
Soit
La fonction de survie correspond ici à la probabilité que le succès intervienne après un temps t.
On cherche à modéliser la fonction de survie
La fonction de vitesse de défaillance (ici, de survie) du modèle est définie par
À un moment donné
$$ H : \begin{cases} \mathbb{R}^+* & \rightarrow \mathbb{R}^+ \ t & \rightarrow \displaystyle \int{0}^{t} h(x)dx = -\ln(S(t)) \end{cases} $$
La censure correspond au fait que certains projets n'ont pas atteint le succès dans le temps imparti pour leur récolte de fonds.
Le jeu de données contient une liste de 18 143 projets Kickstarter menés entre le 15 décembre 2013 et le 15 juin 2014.
Pour chaque projet, nous disposons notamment de :
- sa date de départ
- sa date de fin prévue
- quand son objectif a été atteint
- si l'objectif a été atteint
- l'objectif financier
- le nombre de financeurs
- la catégorie du projet (art, cuisine, technologie, ...)
- informations sur le projet
- Déterminer dans un premier temps
$E(T)$ , puis$E(T | Z)$ où$Z$ est un vecteur aléatoire de$\mathbb{R}^d$ qui contient$d$ variables explicatives. - Déterminer
$P(T > t)$ et$P(T > t | Z = z)$ pour tout$t \in \mathbb{R}^+_*$
Voici l'organisation des différents dossiers du projet :
Contient des ressources liées au projet, telles que des images.
Contient les données du projet Kickstarter.
Contient la documentation du projet, ainsi que des notebooks d'exemples.
Contient le code source du projet.