Introducing G2.ai, the future of software buying.Try now

Comment extraire la position du paragraphe ? De la même manière que nous extrayons les positions dans les documents Word.

1 commentaire
On dirait que vous n'êtes pas connecté.
Les utilisateurs doivent être connectés pour répondre aux questions
Se connecter
KH
0
Bonjour Praveen, La manière la plus puissante d'extraire la position d'un paragraphe et d'autres données d'un document PDF est l'add-on pdf2Data d'iText 7, qui dispose également d'une démo en ligne : https://pdf2data.online/ Peut-être que cette réponse sur Stack Overflow par Alexey Subach d'iText peut vous aider : https://stackoverflow.com/questions/55807256/how-can-i-get-the-position-of-the-specified-keyword-in-itext7 Bien que pdf2data soit l'approche optimale, vous pouvez effectuer des extractions basiques avec iText 7 Core en utilisant une expression régulière : PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile)); ILocationExtractionStrategy strategy = new RegexBasedLocationExtractionStrategy("expression régulière"); PdfCanvasProcessor canvasProcessor = new PdfCanvasProcessor(strategy); canvasProcessor.processPageContent(pdfDocument.getPage(1)); pdfDocument.close(); strategy.getResultantLocations(); // contient maintenant tous les emplacements du texte correspondant Si vous avez une licence commerciale, vous aurez également accès au support client d'iText via Jira. Cordialement, Kenneth Holvoet iText Software
On dirait que vous n'êtes pas connecté.
Les utilisateurs doivent être connectés pour écrire des commentaires
Se connecter
Répondre