Metallurgeek le blog Metal et Geek: RegEx

Affichage des articles dont le libellé est RegEx. Afficher tous les articles

Chaussettes et Batraciens

Imaginez la situation suivante : vous disposez d'une liste de mots dans un fichier LIST. Vous disposez également d'un dictionnaire dans un fichier DICT. Et vous voulez savoir si tous les mots de LIST apparaissent bien dans DICT.

C'est un problème fréquent en informatique. LIST contient par exemple tous les batraciens et DICT contient tous les animaux. Demander si LIST est incluse dans DICT revient à demander si tous les batraciens sont des animaux.

Dans ce billet je montre deux méthodes en ligne de commande. La première méthode n'est pas efficace mais elle est compacte et facile à mémoriser. La seconde méthode est beaucoup plus efficace.

Méthode 1: grep me, grep me my friend

La première méthode utilise grep(*) dans sa variante fgrep qui cherche les termes littéraux plutôt que les regex. Voici la ligne de commande :

fgrep -vxf DICT LIST

Il faut un peu de temps - et sans doute quelques essais - pour se convaincre que ça réalise bien un test d'inclusion. Cette commande prend tous les mots de DICT et les retranche de LIST. Si au moins un mot est affiché c'est qu'il n'a pas été retranché. Donc il n'était pas dans DICT. Donc LIST n'est pas incluse dans DICT.

Cette solution est très compacte : une seule commande. En revanche la complexité est multiplicative. Je vous passe les détails de calcul, mais c'est mauvais.

Méthode 2: tri et décompte

L'idée est d'amalgamer DICT + DICT + LIST et de conserver seulement les termes uniques. Trois cas sont possibles. Cas 1 : un terme est dans DICT et dans LIST alors il se retrouve trois fois dans l'amalgame et on ne le conserve pas. Cas 2 : un terme est dans DICT mais pas dans LIST alors il se retrouve deux fois dans l'amalgame et on ne le conserve pas. Cas 3 : un terme est dans LIST mais pas dans DICT alors il se retrouve une fois dans l'amalgame et on le conserve. Voici la ligne de commande :

sort <(sed p DICT) <(sort -u LIST) | uniq -u

Il y a des petites astuces. Le sed p DICT c'est pour dupliquer chaque ligne de DICT. Le sort -u LIST c'est pour éliminer d'éventuels doublons dans LIST (qui sinon fausseraient le cas 3). Le uniq -u à la fin c'est pour conserver seulement les termes uniques.

Concernant la complexité : dupliquer les lignes de DICT c'est linéaire, amalgamer c'est linéaire, compter et garder seulement les termes uniques à la fin c'est linéaire. La seule partie non-linéaire c'est le tri de l'amalgame. Cette partie est quasi-linéaire c'est-à-dire en (2m+n).log(2m+n). En pratique c'est bien, même s'il existe encore mieux avec des tables de hachage.

Exemple : un dictionnaire d'animaux, une liste de batraciens et une chaussette

$ cat DICT | column

girafe singe serpent
crapaud panthère kangourou
éléphant crocodile anaconda
zèbre triton gnou
grenouille autruche mangouste
lion hippopotame ornithorynque
tigre salamandre gazelle

$ cat LIST

triton
crapaud
chaussette
salamandre
grenouille

$ fgrep -vxf DICT LIST

chaussette

$ sort <(sed p DICT) <(sort -u LIST) | uniq -u

chaussette

Les deux commandes ont correctement détecté l'intrus. Un seul intrus suffit à déduire que LIST n'est pas incluse dans DICT. Si maintenant on enlève la chaussette de la liste, les deux commandes ne détectent plus rien, leur sortie est vide, et on en déduit que LIST est incluse dans DICT :

$ fgrep -vxf DICT LIST

$ sort <(sed p DICT) <(sort -u LIST) | uniq -u

Test booléen

Pour transformer la première commande en un pur test booléen, j'utilise l'option quiet de fgrep et des portes logiques && et ||. C'est une façon de faire parmi d'autres mais j'aime le côté one-liner(**) :

fgrep -vxqf DICT LIST && echo KO || echo OK

Pour la seconde commande, uniq n'offre pas d'option quiet, alors j'utilise une vielle ruse indienne :

sort <(sed p DICT) <(sort -u LIST) | uniq -u |
read _ && echo KO || echo OK

Epilogue

J'espère que ce billet vous aura intéressé. Parce que sinon vous venez de perdre un temps précieux à le lire jusqu'ici. Moche. Nan, vraiment. Moche.

Au fait, si on n'est pas joueur/bricoleur on peut aussi utiliser la merveilleuse commande "comm" qui est typiquement faite pour les comparaisons de liste.

comm -13 <(sort -u DICT) <(sort -u LIST) | read _ && echo KO || echo OK

La complexité est meilleure m.log(m) + n.log(n) quoique toujours quasi-linéaire, et c'est assez compact.

(*) Les personnes qui me connaissent savent que je suis obsessionnel de grep et plus généralement des regex. Je me lève grep, me mange des grep au sarrasin, je me couche grep et je recommence le lendemain. Quant aux personnes qui ne me connaissent pas, elles ignorent la chance qu'elles ont.

(**) Quel est le terme français correct pour one-liner ? "Un-lignard" ? Ou "Solicode" "Solocode" "Monocode" ? Un "codounet" une "Codette" ? Pfffff....

TOP 10 sur Regex Crossword

À tous les coups il n'y a que moi que ça intéresse (*) mais ça y est : je suis dans le TOP 10 sur Regex Crossword.

Plus précisément c'est 10e sur 92600. Pas certain que je puisse un jour améliorer ce score... ou alors il faudrait que je me mette à réfléchir, mais flemme.

En tout cas n'hésitez pas à essayer, c'est vraiment *LE* moyen sympa et ludeek d'apprendre les RegEx pour de bon.

(*) Et encore...

L'élégante simplicité des RegEx

Allez, petite publicité pour le jeu en ligne RegEx Crossword. Ça permet de bien comprendre les Expressions Régulières tout en s'amusant comme un fou. Un fou furieux, ça va sans dire.

À tout hasard, je rappelle que les Expressions Régulières c'est absolument trivial. Mais bon quand même, j'ai dû taffer un peu pour me tailler ma place dans le top 20.

À propos de trivial, une petite histoire me revient en tête.

Un professeur de mathémateek écrit un théorème au tableau et précise que la preuve est triviale. Un élève curieux, il y en a, demande quand même à voir la preuve. Le professeur s'énerve en martelant que c'est absolument trivial. Mais l'élève insiste. Alors le professeur regarde le tableau, se gratte la tête, et quitte l'amphi précipitamment. Il revient une heure plus tard en hurlant : "c'est bien ce que je disais, c'est trivial !"

Bon, ça reste une histoire hein, quels élèves restent une heure en amphi après le départ du prof...

Jolie astuce en RegEx (merci ChatGPT)

J'utilise régulièrement des IA, avec plus ou moins de bonheur. Et, de temps en temps, ça m'enseigne une astuce que j'aurais eu du mal à trouver autrement. Par exemple si j'avais utilisé un moteur de recherche. Ou pire, mon cerveau(*).

Dernièrement, je cherchais un moyen simple de mettre en valeur un motif dans un texte. Classiquement, si je cherche le mot "Metal" dans mes fichiers "*.txt", j'utilise

grep --color "Metal" *.txt

Mais là je voulais en plus afficher les lignes qui ne contiennent pas le motif. Je ne savais pas comment faire ça de manière simple. Et ChatGPT m'a proposé cette astuce (après simplification), que je trouve super élégante

grep --color "^|Metal" *.txt

Toute l'astuce réside dans l'utilisation du '^' (pour début de ligne) combiné avec un ou (|). Le '^' match tout mais sans rien mettre en couleur.

Comme toujours, une fois qu'on a la réponse il est facile de voir que :

C'était évident.
Ça n'était pas si difficile à trouver.
Heu... nan... mais en fait j'le savais déjà...

Ouaip. Mais ça c'est quand on a la réponse. Sans ChatGPT je pense qu'il m'aurait fallu 3 à 4 itérations sur un moteur de recherche. Là, en une question c'était plié, je vous mets l'image.

Étrangement, Google Gemini répond un peu à côté de la plaque sur la même question. La réponse fausse de Gémini est celle-ci (après simplification)

grep --color -e 'Metal' *.txt

Une réponse correcte dans le même esprit serait (toujours après simplification)

grep --color -e 'Metal' -e '^' *.txt

Cette construction est quasi-équivalente à celle de ChatGPT. Et peut être même plus jolie car elle évite l'usage explicite du ou (|).

Là aussi, une fois la réponse sous les yeux on s'aperçoit que c'était parfaitement évident. Bien entendu.

(*) Ce foutoir là-dedans, on dirait mon garage !

Attaquer la falaise

Récemment je vous parlais des mots-croisés RegEx.

Je m'étais mis en tête de grimper jusqu'au Top 50 et puis de passer à autre chose. Ouaip. C'était compter sans l'empire d'addiction que ce jeu exerce sur moi.

Dans mon billet précédent je vous conseillais d'y jouer. N'EN FAITES RIEN ! C'est de la demer! Pire qu'une drogue. Pire que le combo fentanyl / crack / viagra / vitamine C / gelée de framboise(*).

La difficulté devient exponentielle, chaque niveau nécessitant de résoudre des puzzles de plus en plus difficiles (et intéressants !). Pire, là où j'en suis maintenant il y a une véritable falaise à gravir.

Je vous ai fait un graphique basé sur le classement du jour. En abscisse vous avez le rang. En ordonnée le nombre de puzzles à résoudre. La ligne pointillée c'est moi. Et la falaise ce sont les 50 p*t'1n de puzzles à résoudre pour passer de 29e à 28e.

Jusqu'à maintenant j'arrivais à progresser sans trop trop de douleur... Mais là je deviens dingue avec ce truc... J'ai bien peur qu'il faille mettre le cerveau en route... Je vais tenter le coup vite vite... avant que les mecs en blanc ne reviennent m'attacher les mains dans le dos... et me refaire des piqûres qui rendent nigaud.... vite... vite...

Classement sur RegEx crosswords et falaise à gravir pour passer de 29 à 28.

(*) Pour le goût.

Mots-Croisés RegEx

Si vous aimez vous gratter la tête pendant les vacances, visitez d'urgence le site https://regexcrossword.com.

Il s'agit de résoudre des mots-croisés dont les définitions sont des expressions régulières (des RegEx pour les intimes). Les mots-croisés proposés sont progressifs, ludeeks et crowdsourcés(*). Pour moi c'est juste hyper-addictif. En bonus ça permet d'apprendre les RegEx et de progresser par la prateek.

Ces derniers temps je m'y suis mis un peu sérieusement. Avec la ferme intention de me classer dans le top 50 parmi les 89889 joueurs. Dont deux ou trois qui semblent franchement connaître leur affaire. Alors, pour le Top 50 l'objectif est atteint. Aujourd’hui je suis n° 42. Un nombre qui vous parle, hein, mes petites retro-geeks.

Par contre pour aller plus loin, mettons dans le Top 20, ça risque de se compliquer un peu. La difficulté croit genre exponentiellement. À un moment, je crains même d'être contraint de réfléchir... Ou de tricher ;)

(*) Qui saurait me traduire "crowdsourcé" en bon français ?