Trouve la langue d'un texte

  Information

Cette fonction trouve la langue d'un texte (texte pur, y compris la ponctuation), parmi 10 langues européennes : Français, anglais, allemand, espagnol, portugais, italien, hollandais, norvégien, danois, suédois.

Attention le texte doit etre conséquant, avec 10 mots cela fonctionnera beaucoup moins bien qu'avec 100 mots.

Auteur : Damien Seguy (Nexen)


Information sur les mises à jour

Dernière mise à jour :

    12 Aout 2019
    fonctionnement du code vérifié
    amélioration du code

2 112  vues
Compatibilité du code
PHP 5, PHP 7 et PHP 8
  code source classé dans   Divers

 
 01    
 02    
 03    
 04    
 05    
 06    
 07    
 08    
 09    
 10    
 11    
 12    
 13    
 14    
 15    
 16    
 17    
 18    
 19    
 20    
 21    
 22    
 23    
 24    
 25    
 26    
 27    
 28    
 29    
 30    
 31    
 32    
 33    
 34    
 35    
 36    
 37    
 38    
 39    
 40    
 41    
 42    
 43    
 44    
 45    
 46    
 47    
 48    
 49    
 50    
 51    
 52    
 53    
 54    
 55    
 56    
 57    
 58    
 59    
 60    
 61    
                               
/*------------------------------*/
/*
Titre : Trouve la langue d'un texte

Date édition : 15 Fev 2019
Date mise a jour : 12 Aout 2019

Rapport de la maj:
- fonctionnement du code vérifié
- amélioration du code
*/
/*------------------------------*/

function guess_lg_trig($text){
$text = strtolower($text);

//Utilise la méthode des trigrammes
// note : bien sur, ce n'est pas sur à  100%.!
$trigramme['dk'] = array('er\b', 'en\b', 'for', 'et\b', 'ing', '\bfo', '\baf',
'\bde', 'nde', 'els', 'les', 'ret', '\bsa', 'de', '\bi\b');
$trigramme['nl'] = array('en\b', 'de\b', '\bde', 'et\b', 'an\b', 'n\bd', '\bhe'
, 'er\b', '\bva', 'van', 'een', 'ver', 'aar', '\bee', 'het');
$trigramme['en'] = array('\bth', 'he\b', 'the', '\b, \b', 'nd\b', 'ed\b',
'\ban', 'and', '\b.\b', '\bto', 'ing', 'to\b', 'ng\b', 'er\b', '\bof');
$trigramme['fr'] = array('\bde', 'es\b', 'de\b', 'ent', 'nt\b', '\ble',
'e\b.\bd', 'le\b', 'ion', 's\b.\bd', 'e\b.\bl', '\bla', 'la\b', 're\b', 'on\b');
$trigramme['de'] = array('en\b', 'er\b', '\bde', 'der', 'ie\b', 'ich', 'sch',
'ein', 'che', 'die', 'ch\b', 'den', 'nd\b', '\bdi', 'ung');
$trigramme['it'] = array('\bdi', 'to\b', '\bde', 'di\b', '\bco', 'la\b', 're\b'
, 'ion', 'ent', 'e\b.\bd', 'le\b', 'o\b.\bd', 'ne\b', 'no\b', '\bin');
$trigramme['no'] = array('et\b', '\b.\b', 'en\b', 'er\b', '\bde', '\bha',
'an\b', 'de\b', '\b, \b', 'det', 'ar\b', '\bog', 'og\b', 'te\b', 'han');
$trigramme['pt'] = array('\bde', 'de\b', 'os\b', 'do\b', 'que', '\bqu', '\bco',
'as\b', 'ent', 'o\b', 'ue\b', '\ba\b', 'o\b.\bd', '\bse', '\bo\b');
$trigramme['es'] = array('\bde', 'de\b', 'os\b', '\bla', 'el\b', 'la\b', 'que',
'as\b', 'ue\b', '\bqu', '\bco', '\ben', 'en\b', 'ent', 'es\b');
$trigramme['se'] = array('en\b', '\b.\b', 'er\b', 'et\b', 'tt\b', '\bde',
'ar\b', '\b, \b', 'fr', 'om\b', '\boc', 'ch\b', 'de\b', 'och', 'an_');
$nb = 15;

$resultat = array();
foreach($trigramme as $langue => $trigs) {
$resultat[$langue] = 0;
for($i = 0; $i< $nb; $i++){
$trouve = preg_match_all("/$trigs[$i]/", $text, $x);
if ($trouve > 0){
$resultat[$langue]++;
}
}
}

$max = max($resultat);
$retour = array();
foreach($resultat as $langue => $valeur) {
if ($valeur == $max) {
$retour[] = $langue;
}
}
return $retour;
}
?>

Exemple :

 
 01    
 02    
 03    
 04    
 05    
 06    
 07    
 08    
 09    
 10    
 11    
 12    
 13    
 14    
 15    
 16    
 17    
 18    
 19    
                                            
$out = guess_lg_trig("On appelle fonction programmative la
notamment du titre d’une œuvre, qui" .
" ouvre des
de lecture, ou encore la fonction de la sc?ne
d’exposition qui lance des orientations.");
print_r($out);

// AFFICHE
// Array ( [0] => fr )

$out = guess_lg_trig("The function is called programmatic function,
particular of the title of a work, which opens
reading tracks, or the function of the exhibition
scene that launches orientations.");
print_r($out);

// AFFICHE
// Array ( [0] => en )
?>

      Fonctions du code - Doc officielle PHP

Détail    php.net  
Description
Versions PHP
    array
Crée un tableau
PHP 4, 5, 7 et 8
    max
La plus grande valeur
PHP 4, 5, 7 et 8
    preg_match_all
Expression rationnelle globale
PHP 4, 5, 7 et 8
    print_r
Affiche des informations lisibles pour une variable
PHP 4, 5, 7 et 8
    return
Retourne le controle du programme au module appelant
PHP 4, 5, 7 et 8
    strtolower
Renvoie une chaîne en minuscules
PHP 4, 5, 7 et 8


 Autres snippets qui pourraient vous intéresser

Trouve le spam dans un texte avec PHP

Compatibilité : PHP 5, PHP 7, PHP 8

Trouve le spam en regardant si il y trop de voyelles ou de consonnes qui se suivent. La fonction retourne un tableau des éléments trouvés.

Cherche et trouve les mots trop long d'1 texte

Compatibilité : PHP 5, PHP 7, PHP 8

Si dans votre texte il existe un mot qui dépasse une longueur que vous définissez, la fonction retourne FALSE.

Code langue en français - BDD PHP

Compatibilité : PHP 5, PHP 7, PHP 8

Toutes les langues avec le code langue listés dans un tableau PHP. Utile pour exploiter HTTP_ACCEPT_LANGUAGE

* Requêtes exécutées avec Recherche Contextuelle

  Les derniers scripts PHP / MySQL

WebCalendar 1.2.7

Script PHP / MySQL
Langue langue fr
Date  aujourd'hui
Taille 2 Mo
Catégorie Calendriers

Web ERP Accounting 5.0.1

Script PHP / MySQL
Langue langue us
Date  aujourd'hui
Taille 69 Mo
Catégorie Logiciels

Dolibarr ERP 23.0.0

Script PHP / MySQL
Langue langue fr
Date  aujourd'hui
Taille 88 Mo
Catégorie Logiciels

Simple Machines Forum 2-1-7

Script PHP / MySQL
Langue langue fr
Date  aujourd'hui
Taille 4 Mo
Catégorie Forums

Forms Tools 3.1.1

Script PHP / MySQL
Langue langue en
Date  aujourd'hui
Taille 11 Mo
Catégorie Formulaires

ProcessWire 3.0.255

logo ProcessWire
Langue langue fr
Date  aujourd'hui
Taille 14 Mo
Catégorie CMS

  15 Fév 2019

Information sur les mises à jour

Dernière mise à jour :

    12 Aout 2019
    fonctionnement du code vérifié
    amélioration du code

2 112 Vues
Compatibilité du code
PHP 5, PHP 7, PHP 8