Power BI – extraction de données à partir d’un PDF (PDF connector)

Dernièrement, un collègue (au sein d’une compagnie d’assurance) m’a informé qu’il devait recopier un document PDF en entier sur Excel ou autre afin d’analyser les données que ce document contient. Il s’agit du rapport du secteur des assurances qui est publié sur le site web de l’union algérienne des assureurs et réassureurs, un rapport qui contient différents indicateurs de toutes les compagnies d’assurance et réassurance algériennes (chiffres d’affaires, indemnisations,frais de gestion, résultat financier …), toutes les données sont affichées dans des tableaux.

Ma réponse était qu’il pouvait le faire en une demi-heure, voire moins, grâce à Power BI.

Dans ce qui suit,je vous montre un exemple en extrayant que 2 tableaux. Le document pour l’année2017 est consultable ou téléchargeable ICI. Les 2 tableaux qui m’intéressent se trouvent sur les pages 8 et 19 comme indiqué sur les photos ci-dessous.

Le PDF connector de Power BI fonctionne sur un fichier PDF quelque soit son emplacement, sur le PC ou sur le web

Dans Power BI, vous devez d’abord activer le PDF Connector, car il est toujours en version« preview ». Pour cela, allez dans File → Options and settings → Options → Preview features → et cochez « Get data from PDF files »

Dans Get Data vous pouvez soit choisir comme source à partir du web ou à partir d’un fichier PDF, dans les 2 cas vous aurez le même résultat (image 2). Comme vous le voyez, Power BI vous propose soit de choisir directement les tables(par exemple sur la page 3, il propose 5 tables), soit la page entière (car parfois des données sont affichées directement dans le texte ou pour extraire le nom des tables …). Dans notre exemple nous choisissons les tables des pages 34(placements financiers) et 37 (produits financiers).

Dans Power Query, j’apporte les modifications suivantes à la table 46 (placements) :

     
  → Je ne garde que les colonnes 1 (compagnies) et 4 (valeurs en 2017).
  → Je filtre les totaux et le mot « Algérie Vie »
  → Je corrige le nom des 2 AXA
  → Je renomme le nom des deux colonnes
  → J’apporte les mêmes modifications à l’autre table
  → Et enfin,je joins les 2 tables de manière à n’avoir qu’une seule avec toutes les colonnes

C’était un exemple réalisé avec 2 tables, vous pouvez en rajouter d’autres à partir du document PDF (y en à plusieurs) puis faire vos propres analyses sur PBI ou en copiant la table finale dans un classeur Excel.
J’espère que ce tutoriel vous aura servi. Vous pouvez télécharger le fichier de cette démonstration ICI. Si vous avez des questions, n’hésitez pas à communiquer avec moi. A la prochaine 😊

Publicités

4 commentaires sur “Power BI – extraction de données à partir d’un PDF (PDF connector)

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s