Jouer au golf avec Dict

Le code golf est généralement axé sur la brièveté du code. Ce code golf sera un peu différent : il portera sur la taille du code, sa vitesse et son efficacité.

Coin des développeurs

Équipe Dev Spiria

2020-04-21 16:09

•

5 min. de lecture

<p>La question que nous allons explorer est la suivante : <i><b>quelle est la vitesse d’accès maximale à un dictionnaire ?</b></i></p><p>Oui, c’est un peu bizarre comme code golf, mais soyez patient. Vous verrez, on va arriver quelque part d’intéressant. Pas nécessairement l’endroit où vous aviez prévu d’aller… mais nous y arriverons ensemble, en équipe ! Non, je plaisante. Pas besoin de travailler en équipe. Je ferai tout le travail et vous pourrez vous asseoir et me regarder.</p><p>L’ensemble du code dont nous allons parler est <a href="https://github.com/pierrebai/FastDict">disponible sur GitHub</a>.</p><p>(Notez qu’il y a plusieurs branches, “master” pour le point de départ, “fast-dict” pour le résultat final).</p><h2>Les règles</h2><p>Comme vous le verrez à la fin, les lois de l’univers seront bafouées. Mais cela ne veut pas dire que nous ne pouvons pas inventer nos propres lois. C’est pourquoi je vais établir des règles, la forme de base de ce à quoi le dictionnaire doit ressembler et la fonctionnalité qu’il fournira.</p><p>Je commencerai par donner une description générale de la fonctionnalité, puis je fournirai une brève déclaration en C++ de l’interface. Pour une vue complète de l’API C++, reportez-vous à la branche “master” sur GitHub. Passons maintenant à la description !</p><h3>Description de haut niveau</h3><table style="width:100%"> <tbody> <tr> <th>Classe C++</th> <th>But</th> <th>API</th> </tr> <tr> <td style="vertical-align: top;"><code>element</code></td> <td style="vertical-align: top;">L’élément du dictionnaire. Contient une valeur de n’importe quel type. Par exemple : un entier, un double, du texte ou un autre dictionnaire.</td> <td style="vertical-align: top;">Définir des valeurs, lire la valeur, réinitialiser l’élément, comparer des éléments, etc.</td> </tr> <tr> <td style="vertical-align: top;"><code>name</code></td> <td style="vertical-align: top;">Une étiquette utilisé pour accéder aux éléments du dictionnaire.</td> <td style="vertical-align: top;">Construire de nouveaux noms, comparer les noms.</td> </tr> <tr> <td style="vertical-align: top;"><code>dict</code></td> <td style="vertical-align: top;">Le dictionnaire, indexé par noms, contenant des éléments.</td> <td style="vertical-align: top;">Construction, ajout, suppression et accès.</td> </tr> </tbody></table><h3>Code C++</h3><p>Je ne donnerai qu’une courte description. Vous pouvez consulter le code sur GitHub pour les détails. Le point principal qui nous intéresse est l’accès au dictionnaire, c’est donc tout ce que je vais montrer :</p><pre><code> // Element retrieval. element & operator [](const name &); const element & operator [](const name &) const;</code></pre><p>Très simple, très standard. La fonction d’accès reçoit un <code>nom</code> et renvoie un <code>élément</code>. Pour aider à comprendre ce que sont les noms, voyons comment ils sont créés :</p><pre><code> // You need to derive from name to create a concrete name. // All instances of a given concrete name are equal. struct name { // Invalid-name, default constructor. name() : _name(nullptr) {} protected: // The text passed for the name by its sub-classes must be static // so that each address is unique. name(strptr n) : _name(n) {} };</code></pre><p>Alors que le <code>nom</code> a un constructeur public par défaut, son autre constructeur est protégé. Pourquoi ? Vous verrez la raison profonde plus loin… mais cela signifie donc que toutes les instances doivent provenir de sous-classes ? Oui ! Chaque <code>nom</code> sera une instance d’une sous-classe de <code>nom</code> ! Mais quelle sous-classe ? Eh bien… <b>toutes</b>, bien sûr !</p><p>En fait, si vous regardez dans le repo GitHub, vous verrez que je fournis un en-tête <code>voc.h</code>. Cet en-tête déclare… un vocabulaire de noms. Comme il a été suggéré plus tôt, chaque <code>nom</code> réel est une sous-classe… une sous-classe différente pour chaque <code>nom</code> distinct ! Le fichier se présente comme ceci :</p><pre><code> namespace voc { #define MAKE_NAME(n) struct n ## _n : dak::name { n ## _n() : name(L ## #n) {} }; MAKE_NAME(apple); MAKE_NAME(person); // etc… const apple_n apple; const person_n person; }</code></pre><p>La classe d’<code>éléments</code> elle-même est une classe simple qui peut contenir une valeur de n’importe quel type commun. Elle n’a rien de particulier. Il serait bon que vous réfléchissiez à la vitesse à laquelle vous pourriez réaliser une telle interface de dictionnaire. Vous pouvez prendre comme point de départ la branche “master” de GitHub. S’agira-t-il de N log N ? N ?, log N ? Temps constant ? Plus rapide ? Attendez, plus rapide que le temps constant ? Qu’est-ce que cela signifierait ?</p><h2>Les plis</h2><p>Maintenant que nous avons établi les règles, il est temps de les plier à notre avantage. Bien sûr, comme avec tout bon arnaqueur, les règles ont été soigneusement pensées pour donner l’avantage à la maison.</p><p>Il y a notamment une bonne raison derrière la conception de la classe de <code>noms</code>. Vous voyez, le fait d’avoir différents types pour différents noms nous permet de subvertir le système de types C++ à notre avantage. En particulier… nous pouvons subvertir le mécanisme de surcharge des fonctions !</p><p>Souvenez-vous des fonctions d’accès aux <code>éléments</code> ? Que se passerait-il s’ils étaient surchargés ?</p><pre><code> // Element retrieval. element & operator [](const name &); const element & operator [](const name &) const; // Overload!!! inline element& operator [](const voc::rock_n&) inline const element& operator [](const voc::rock_n&) const</code></pre><p>Cela signifie que nous pouvons retourner l’<code>élément</code> sans avoir à le chercher ! Une tricherie totale ! Mais comment retrouver l’élément si le <code>voc::rock</code> est accessible par la version prenant un <code>nom</code> simple et non un <code>voc::rock</code> ? Comment les éléments du <code>dict</code> pourraient-ils être trouvés lors d’une itération normale ? Facile ! Nous créons des éléments proxy dans la <code>map</code> du dictionnaire, chaque proxy reporte tout son comportement sur la copie à accès direct. En gros, nous ajoutons quelques fonctions à la classe d’éléments pour enregistrer s’il s’agit d’un proxy. Nous ajoutons également une fonction à la classe <code>dict</code> pour enregistrer chaque <code>élément</code> proxy et l’<code>élément</code> d’accès direct auquel il se réfère.</p><pre><code> struct dict { protected: std::map<name element=""> _elements; // Sub-classes call this during construction // to add the permanent proxy elements. void add_permanent_proxy(const name& n, element &); }; struct element { bool is_proxy() const; bool is_permanent() const; };</name></code></pre><p>Le résultat est que nous pouvons accéder aux éléments de notre choix au moment de la compilation ! Il suffit de sous-classer la classe <code>dict</code> et d’ajouter les éléments proxy qui seront accessibles sous les noms de votre choix. La classe résultante agit comme un <code>dict</code>, et peut être utilisée partout où un <code>dict</code> peut se trouver, mais si vous connaissez le véritable type de <code>dict</code> et le véritable nom auquel vous voulez accéder, vous obtenez un accès à la compilation grâce à l’inlining et à la surcharge des fonctions.</p><h2>La torsion</h2><p>Dans le domaine de la folie, nous ne nous satisferions pas de cette médiocre ruse. Cette subversion ne va pas assez loin. Nous voulons plus de vitesse ! Nous avons un accès en temps réel à notre élément, mais nous voulons un accès en temps réel à la <b>valeur</b> contenue dans l’élément. Est-ce même possible ? Mais oui, c’est possible !</p><p>Le tour de passe-passe que nous utiliserons consiste à sous-classer la classe d’<code>éléments</code>, où réside la valeur. Si nous connaissons à l’avance le type de la valeur que nous voulons conserver sous un <code>nom</code>, nous pouvons l’obliger à toujours avoir ce type, à être connu au moment de la compilation. Connaître le type de la valeur que nous voulons conserver sous un <code>nom</code> spécifique n’est pas inhabituel, c’est même typique ! C’est ainsi que nous concevons les classes, les schémas et les bases de données après tout.</p><p>Voici donc un exemple typique de cette sous-classification. (Voir la branche “fast-dict” sur GitHub pour toutes les variations fournies) :</p><pre><code> struct eint64 : element { operator int64&() { return _i; } // etc... };</code></pre><p>Comme on peut le voir, elle peut <code>inliner</code> l’accès à la valeur réelle contenue dans l’<code>élément</code>. Notre sous-classe <code>dict</code> peut maintenant renvoyer un tel <code>eint64</code> dans sa fonction surchargée d’accès à l’<code>élément</code>, et offrir un accès complet à la valeur directe en temps de compilation ! Comme ceci :</p><pre><code> inline eint64& operator [](const voc::rock_n&) { return _rock; } inline const eint64& operator [](const voc::rock_n&) const { return _rock; }</code></pre><p>Pour supporter les sous-classes de l’élément, une fonction supplémentaire est ajoutée à l’<code>élément</code> pour lui faire savoir que le type de <code>valeur</code> est désormais fixe :</p><pre><code> bool is_fixed() const { return _fixed == fixedtype::fixed; }</code></pre><h2>La preuve</h2><p>Mais je ne me contente pas de prétendre qu’il s’agit d’un accès en temps de compilation, je le prouve ! Pas seulement le prouver, mais le comparer à un accès à une structure pure. C’est exact ! Alors que la sous-classe du dictionnaire avec ses fonctions surchargées peut être utilisée comme un <code>dict</code> normal, et que tous ses éléments, y compris les éléments permanents, proxy, typés peuvent être trouvés par recherche normale ou par itération, elle est tout aussi rapide qu’une <b>structure brute</b> ! Tout aussi rapide que ceci :</p><pre><code> struct rock_struct { int64 rock = 42; };</code></pre><p>Dans la branche “fast-dict”, il existe des tests unitaires, et parmi eux deux tests fictifs qui ont été utilisés uniquement pour comparer la génération du code du sous-dict et de la structure. J’ai capturé le code assembleur des deux, et voici le résultat et comme nous l’avons prétendu, chacun est aussi rapide que l’autre !</p><pre><code> d1.rock = rand();call qword ptr [rand] movsxd rcx,eax mov qword ptr [rsp+38h],rcx use_rock(d1);lea rcx,[d1] call dak::use_rock std::wcout << d1.rock;mov rbx,qword ptr [d1] mov rcx,qword ptr [std::wcout] mov rdx,rbx call qword ptr [operator<<] d1.rock += rand();call qword ptr [rand] movsxd rcx,eax add rbx,rcx use_rock(d1);lea rcx,[d1] mov qword ptr [d1],rbx call dak::use_rock std::wcout << d1.rock;mov rdx,qword ptr [d1] mov rcx,qword ptr [std::wcout] call qword ptr [operator<<] use_rock(d1);lea rcx,[d1] call dak::use_rock</code></pre><pre><code> d1[voc::rock] = rand();call qword ptr [rand] movsxd rcx,eax mov qword ptr [rsp+38h],rcx use_rock(d1);lea rcx,[d1] call dak::use_rock std::wcout << d1[voc::rock];lea rdx,[rsp+38h] mov rcx,qword ptr [std::wcout] call dak::operator<< d1[voc::rock] += rand();call qword ptr [rand] add eax,dword ptr [rsp+38h] movsxd rcx,eax mov qword ptr [rsp+38h],rcx use_rock(d1);lea rcx,[d1] call dak::use_rock std::wcout << d1[voc::rock];lea rdx,[rsp+38h] mov rcx,qword ptr [std::wcout] call dak::operator<< use_rock(d1);lea rcx,[d1] call dak::use_rock</code></pre><h2>Conclusion</h2><p>Nous nous sommes mis en route sur le terrain de golf, en explorant l’accès au dictionnaire et en essayant de voir jusqu’où nous pourrions descendre sur le parcours. Et là, nous sommes allés très bas !</p><p>Mais je vous sens tendu, confus et choqué.</p><p>C’est une parodie de design, une abomination ! Dériver d’une classe <code>dict</code> ? Dériveriez-vous d’un <code>std::vector</code>, d’une <code>std::map</code>, d’une <code>std::pair</code> ? Quel genre de programmeur respectable ferait cela ? Et je serais d’accord ! (Attendez, quoi ? Qui a dit ça ?) Non, non, non, non, je serais vraiment d’accord ! Je le serais, je le serais, je le serais, sauf que…</p><p>… voyez-vous, tout dans la vie est une question de perspective. Tout tient dans la façon de percevoir le monde. Et dans la programmation, la perception est souvent une question de noms. Les noms de types, les noms de fonctions, les noms de variables. Qu’est donc qu’un nom ? Les noms façonnent notre vision du monde et, à une échelle plus humble, nos designs. Alors… et si je vous disais que <code>dict</code> n’est pas le vrai nom de la classe ? Que se passerait-il si nous le renommions… <code>objet</code> ?</p><p>Ah, l’illumination finale ! Oui, maintenant il est logique de dériver d’<code>objet</code>. Maintenant, il est logique que nous ajoutions des éléments permanents fixes à un <code>objet</code> pour qu’il contienne des valeurs de type fixe ! Ce n’est même plus un design surprenant. C’est essentiellement la façon dont un langage comme Python fonctionne sous les couvertures. En Python, chaque objet de chaque classe n’est en fait qu’un dictionnaire de valeurs indexées par des noms. Et maintenant, vous pouvez le faire directement en C++.</p><p>C’est aussi très utile. Vous n’avez plus besoin d’écrire et de réécrire du code passe-partout pour chaque <code>structure</code> et chaque <code>classe</code>. Vous pouvez avoir une seule implémentation pour tous les types, pour des choses comme la sérialisation, l’annulation/rétablissement, la recherche de données, la connexion à des éléments de l’interface utilisateur et diverses autres activités que vous pouvez sûrement imaginer. Vous l’écrivez une fois pour la classe <del><code>objet</code></del> <code>dict</code>. Chaque sous-classe hérite de l’implémentation de l’objet et toutes les données sont toujours accessibles par simple itération sur des éléments ou par recherche de nom.</p><p>N’est-ce pas fantastique ? Alors, sommes-nous arrivés à un endroit qui méritait d’être vu ?</p>

Travaillons ensemble

Communiquez avec nous

Illustration de deux personnes se serrant la main