Extrait que le texte d'une page web

  Information

Cette fonction lit une page HTML sur un site web, et supprime toutes les balises inutiles (et au besoin leur contenu).

Elle retourne uniquement le texte lisible. Bien sur, l'essentiel de la mise en page, et les nouvelles lignes sont préservées. Auteur : Damien Seguy (Nexen)

  code source classé dans  SEO - Référencement

 
 01    
 02    
 03    
 04    
 05    
 06    
 07    
 08    
 09    
 10    
 11    
 12    
 13    
 14    
 15    
 16    
 17    
 18    
 19    
 20    
 21    
 22    
 23    
 24    
 25    
 26    
 27    
 28    
 29    
 30    
 31    
 32    
 33    
 34    
 35    
 36    
 37    
 38    
 39    
 40    
 41    
 42    
 43    
 44    
 45    
 46    
 47    
 48    
 49    
 50    
 51    
                               
<?php
/*---------------------------------------------------------------*/
/*
    Titre : Extrait que le texte d'une page web                                                                           
                                                                                                                          
    URL   : https://phpsources.net/code_s.php?id=841
    Date édition     : 14 Fév 2019                                                                                        
    Date mise à jour : 01 Sept 2019                                                                                      
    Rapport de la maj:                                                                                                    
    - fonctionnement du code vérifié                                                                                    
*/
/*---------------------------------------------------------------*/

    function gettextfromurl($url){ 
     $texte join(""file($url)); 
       
       // suppression des commentaires HTML 
       $texte preg_replace("/<!--.*?-->/is"""$texte); 
      
       // suppression des lignes modes windows et Mac. Tout en UNIX 
       $texte preg_replace("/\r/is""\n"$texte); 
       
       // quelques balises spéciales 
       $texte preg_replace("/<SCRIPT[^>]*>.*?<\/script>/is"""$texte);
       $texte preg_replace("/<noSCRIPT[^>]*>.*?<\/noscript>/is"""$texte);
       $texte preg_replace("/<style[^>]*>.*?<\/style>/is"""$texte);
       $texte preg_replace("/<textarea[^>]*>.*?<\/textarea>/is"""$texte);
      
       // suppression des points multiples 
       $texte preg_replace("/\.+/is""."$texte); 
      
       //remplacement des entites HTML 
       $texte preg_replace("/&(.)[^;]*;/is""$1"$texte); 
       
       $texte preg_replace("/<(br|P)/is""\n"$texte); 
      
       // suppression de TOUTES les balises restantes 
       $texte strip_tags($texte); 
      
       // Les caractères multiples sont en trop 
       $texte preg_replace("/[ \t]+/is"" "$texte); 
       $texte preg_replace("/ +\n/is""\n"$texte); 
       $texte preg_replace("/\n +/is""\n"$texte); 
       $texte preg_replace("/\n+/is""\n"$texte); 
      

       return $texte
    }
?>

Exemple :

 
 01    
 02    
 03    
 04    
 05    
 06    
                                
<?php

     echo gettextfromurl('https://exemple.fr/');
?>

          Fonctions du code - Doc officielle PHP

   php.net   Description Versions PHP OUTIL
   echo Affiche une chaîne de caractères PHP 4, PHP 5, PHP 7, PHP 8
   file Lit le fichier et renvoie le résultat dans un tableau PHP 4, PHP 5, PHP 7, PHP 8
   join Alias de implode() PHP 4, PHP 5, PHP 7, PHP 8
   preg_replace Rechercher et remplacer par expression rationnelle standard PHP 4, PHP 5, PHP 7, PHP 8
   return Retourne le controle du programme au module appelant. PHP 4, PHP 5, PHP 7, PHP 8
   strip_tags Supprime les balises HTML et PHP d'une chaîne PHP 4, PHP 5, PHP 7, PHP 8

   Dites merci aux auteurs pour leurs travail, ça ne coûte rien et ça fait toujours plaisir wink

Présentation de PHP

PHP débutant et initié 50 Tutoriel

Présentation de MySQL

  14 Fév 2019

Information sur les mises à jour

Dernière mise à jour :

    01 Sept 2019
    fonctionnement du code vérifié

1 547 Vues
Compatibilité
PHP 5, 7 et 8+