Bonjour,

Voila je rencontre un petit problème.

Je chercher un système pour envoyé un PDF lié au compte utilisateur sur le site ( je vais utilisé active storage )
jusque la pas de problème.

Le PDF contient un tableau d'employé avec des notations par exemple : John Doe / A1 / CR4 / ARF6 / etc... jusqu'a la fin du mois.
qui corresponde à des horaires. A1 = 9h -19h - Atelier , CR4 = 4H - 14H - Accueil service client ( c'est un exemple ... )

Je doit récupéré dans le PDF la ligne de l'utilisateur enregistré sur le site avec son nom prenom et l'affiché dans son espace simplement sous forme de tableau dans une show avec un peu de css.
j'ai un CRUD qui fonctionne pour ajouter une piece ou modifier une fiche ou supprimer.

ma question est :
vous connaisser une gem peu être pour allez fouillé dans le pdf et extraire la ligne ?
Je dois absolument prendre que la ligne utilisateur.
limite je pense même que le bonne ordre serais anonimisé tout sauf la ligne de l'utilisateur du site, puis extraire sa ligne et crée un tabeau avec son planning et autorisé la modification en cas de changement de d'horaire ou de poste si jamais il y a par exemple une absence.
Je peu autorisé aussi la modification/suppression d'une categorie (CR4 - 4H - 14H devient DV5 - 2H - 10H)

voilà j'attend avec impatience vos retour, car je tourne en rond depuis quelque jours.

5 réponses


Bonjour,

Là où je suis perdu, c'est pourquoi extraire ces informations (la ligne correspondante) depuis un fichier PDF au lieu que de les récupérer depuis une autre source (ex. la base de données).
Si votre application crée le PDF et que les données existent sous une forme autre que juste ce fichier, alors il vous suffit d'accéder à cette source là.

Qu'est-ce qui justifie l'extraction de données à partir d'un PDF ?

esbo
Auteur

Bonjour et merci deja.
alors le fichier arrive par mail, pas d´api en face. faut le voir comme un fichier créer par un utilisateur via un logiciel type excel et qui sort le pdf et l´envoi à tout le monde.

je ne doit prendre que la ligne concernant l´utiliseur le reste je dois anonimisé les noms mais bon cette partie ne m´interresse pas pour le moment.
j´ai trouver une piste avec docsplit
il faut que je trouve comment le faire fonctionner avec rails 6.
sinon je regarde une autre piste en javascript pour sortir en json.

Voici Tabula, un outil qui se veut dans l'extraction de données tabulaires contenues dans un PDF.

Je ne l'ai jamais utilisé, je ne le connais donc pas et ne sais pas s'il peut résoudre votre problème.

Néanmoins son créateur mentionne:

Si vous avez déjà essayé de faire quoi que ce soit avec les données qui vous sont fournies en PDF, vous savez combien c'est douloureux - il n'y a pas de moyen facile de copier-coller des rangées de données à partir de fichiers PDF. Tabula vous permet d'extraire ces données dans une feuille de calcul CSV ou Microsoft Excel à l'aide d'une interface simple et conviviale. Tabula fonctionne sur Mac, Windows et Linux.

Sa version Java pour une utilisation en ligne de commande.
Une version Ruby existe également, mais ne fonctionne qu'avec jRuby 1.7 ou supérieur.

esbo
Auteur

merci, je regarde comment je peu mettre en place tabula.
pour le moment rien ne fonctionne, mais je pense surtout que c'est moi qui ne sait pas intégré comme il faut.... j'ai voulu testé pdf-reader.
j'enchaine les erreurs.