Extrait que le texte d'une page web

  Information

Cette fonction lit une page HTML sur un site web, et supprime toutes les balises inutiles (et au besoin leur contenu).

Elle retourne uniquement le texte lisible. Bien sur, l'essentiel de la mise en page, et les nouvelles lignes sont préservées. Auteur : Damien Seguy (Nexen)

  code source classé dans  SEO - Référencement

 
 01    
 02    
 03    
 04    
 05    
 06    
 07    
 08    
 09    
 10    
 11    
 12    
 13    
 14    
 15    
 16    
 17    
 18    
 19    
 20    
 21    
 22    
 23    
 24    
 25    
 26    
 27    
 28    
 29    
 30    
 31    
 32    
 33    
 34    
 35    
 36    
 37    
 38    
 39    
 40    
 41    
 42    
 43    
 44    
 45    
 46    
 47    
 48    
 49    
                               
/*---------------------------------------------------------------*/
/*
Titre : Extrait que le texte d'une page web

URL : https://phpsources.net/code_s.php?id=841
Date édition : 14 Fév 2019
Date mise a jour : 01 Sept 2019

Rapport de la maj:
- fonctionnement du code vérifié
*/
/*---------------------------------------------------------------*/

function gettextfromurl($url){
$texte = join("", file($url));

// suppression des commentaires HTML
$texte = preg_replace("/<!--.*?-->/is", "", $texte);

// suppression des lignes modes windows et Mac. Tout en UNIX
$texte = preg_replace("/\r/is", "\n", $texte);

// quelques balises spéciales
$texte = preg_replace("/<SCRIPT[^>]*>.*?<\/script>/is", "", $texte);
$texte = preg_replace("/<noSCRIPT[^>]*>.*?<\/noscript>/is", "", $texte);
$texte = preg_replace("/<style[^>]*>.*?<\/style>/is", "", $texte);
$texte = preg_replace("/<textarea[^>]*>.*?<\/textarea>/is", "", $texte);

// suppression des points multiples
$texte = preg_replace("/\.+/is", ".", $texte);

//remplacement des entites HTML
$texte = preg_replace("/&(.)[^;]*;/is", "$1", $texte);

$texte = preg_replace("/<(br|P)/is", "\n", $texte);

// suppression de TOUTES les balises restantes
$texte = strip_tags($texte);

// Les caractères multiples sont en trop
$texte = preg_replace("/[ \t]+/is", " ", $texte);
$texte = preg_replace("/ +\n/is", "\n", $texte);
$texte = preg_replace("/\n +/is", "\n", $texte);
$texte = preg_replace("/\n+/is", "\n", $texte);


return $texte;
}
?>

Exemple :

 
 01    
 02    
 03    
                                

echo gettextfromurl('https://exemple.fr/');
?>

      Fonctions du code - Doc officielle PHP

Détail    php.net  
Description
Versions PHP
   echo
Affiche une chaîne de caractères
PHP 4, 5, 7 et 8
   file
Lit le fichier et renvoie le résultat dans un tableau
PHP 4, 5, 7 et 8
   join
Alias de implode()
PHP 4, 5, 7 et 8
   preg_replace
Rechercher et remplacer par expression rationnelle standard
PHP 4, 5, 7 et 8
   return
Retourne le controle du programme au module appelant.
PHP 4, 5, 7 et 8
   strip_tags
Supprime les balises HTML et PHP d'une chaîne
PHP 4, 5, 7 et 8

   Dites merci aux auteurs pour leurs travail, ça ne coûte rien et ça fait toujours plaisir wink

 Autres snippets qui pourraient vous intéressez

Extrait les adresses emails d'un fichier texte avec PHP

Compatibilité : PHP 5, PHP 7, PHP 8

Extrait les adresses mails d'un fichier texte (html ou pas). Les adresses sont retournées sous forme de tableau.

En PHP extrait et filtre les comptes hashtags d'une chaine

Compatibilité : PHP 5, PHP 7, PHP 8

Fonctions pour extraire, nettoyer, filtrer des comptes hashtags venu d'une chaine de caractère ou de n'importe quel texte. Pratique pour remonter des comptes.

Extrait des adresses emails dans un texte

Compatibilité : PHP 5, PHP 7, PHP 8

Cherche et trouve toute les adresses mails contenus dans le texte de votre choix et les place dans une tableau.

Extrait des adresses e-mails entre des balises html dans un texte

Compatibilité : PHP 5, PHP 7, PHP 8

Cet extrait de code a pour principe de supprimer le contexte HTML et ensuite de récupérer les e-mails

Extrait un canal de couleur d'une image - PHP Sources

Compatibilité : PHP 5, PHP 7, PHP 8

Cette fonction extrait un canal de couleur d'une image : par défaut, elle extrait le canal rouge, mais vous pouvez lui passer n'importe quelle autre

* Requêtes exécutées avec Recherche Contextuelle

  14 Fév 2019

Information sur les mises à jour

Dernière mise à jour :

    01 Sept 2019
    fonctionnement du code vérifié

2 242 Vues
Compatibilité du code
PHP 5, 7 et 8+