Petit up.
Pour ce qui est des perfs, c'est bon. Il ne me reste plus qu'a trouver quel algo utiliser pour le calcul de similarité.
- Jaccard me semble trop "sévère" étant donné que 2 texte parlant du même sujet auront très probablement un taux de similarité minimum (j'ai testé avec 2 textes fait main bien différents et j'obtiens >65% de similarité....).
- Levenshtein ne me semble pas très pertinent
Du coup que faire...? Je pensais tester avec jaccard et une distance custom inférieure à 65% mais bon ça va vraiment être au feeling et attente des pénalité ou non de google derrière ce qui est pas top :/
Quelqu'un à une idée?