PROCEDE POUR LA SECURISATION DES SYSTEMES INFORMATIQUES INCORPORANT UN MODULE D'INTERPRETATION DE CODE.METHOD FOR SECURING COMPUTER SYSTEMS INCORPORATING A CODE INTERPRETATION MODULE.
La présente invention concerne la sécurisation des systèmes informatiques comportant au moins un module d'interprétation de code et des capacités mémoire de stockage du code à interpréter.The present invention relates to securing computer systems comprising at least one code interpretation module and memory storage capacities for the code to be interpreted.
Elle a plus particulièrement pour objet de résoudre les problèmes de sécurisation des systèmes informatiques comportant au moins un module d'interprétation de code (un code étant défini comme un ensemble structuré d'instructions) qu'on appellera simplement "interpréteur" par la suite (interpréteur matériel : micro-contrôleur, micro-processeur ou logiciel : machine virtuelle) et des capacités mémoire de stockage du code à interpréter (ou "code interprété").Its purpose is more particularly to solve the problems of securing computer systems comprising at least one code interpretation module (a code being defined as a structured set of instructions) which will be called simply "interpreter" thereafter ( hardware interpreter: microcontroller, microprocessor or software: virtual machine) and memory storage capacities of the code to be interpreted (or "interpreted code").
Ledit code peut être écrit directement par un programmeur, être obtenu de manière automatique (ce qu'on appellera la "génération de code") à partir d'un "code source" dans un langage qui est généralement de plus haut niveau ou encore résulter d'une combinaison de production automatique et d'interventions manuelles.Said code can be written directly by a programmer, be obtained automatically (what will be called "code generation") from a "source code" in a language which is generally of a higher level or even result a combination of automatic production and manual intervention.
D'une façon générale, on sait que la plupart des attaques recensées contre de tels systèmes informatiques reposent sur des mesures physiques (émission électromagnétique, etc.) lors de l'exécution et nécessitent la synchronisation avec le code interprété. En d'autres termes, il est nécessaire à l'intrus de
déterminer à quel moment l'interpréteur se trouve en train d'exécuter certaines fonctionnalités du code. Parmi ces techniques les plus connues, on peut citer celles développées pour retrouver une clé dans des algorithmes cryptographiques par espionnage passif de l'émission physique d'un circuit : les attaques de type SPA ("Simple Power Analysis") et DPA ("Differential Power Analysis") en particulier ont été utilisées avec succès pour découvrir des clés DES ("Data Encryption Standard"). A titre d'exemple, sur une plateforme Java embarquée ("Java Card", "JEFF", "J2ME", ... ), ces attaques peuvent être utilisées afin d'essayer d'obtenir des informations sur des secrets manipulés par la machine virtuelle Java. Ces secrets peuvent concerner aussi bien les données confidentielles que le code Java lui-même.In general, we know that most of the attacks recorded against such computer systems are based on physical measures (electromagnetic emission, etc.) during execution and require synchronization with the interpreted code. In other words, it is necessary for the intruder to determine when the interpreter is executing certain features of the code. Among these best known techniques, we can cite those developed to find a key in cryptographic algorithms by passive spying on the physical emission of a circuit: attacks of SPA type ("Simple Power Analysis") and DPA ("Differential Power Analysis ") in particular have been successfully used to discover DES (" Data Encryption Standard ") keys. For example, on an embedded Java platform ("Java Card", "JEFF", "J2ME", ...), these attacks can be used in an attempt to obtain information on secrets manipulated by the Java virtual machine. These secrets can concern confidential data as well as the Java code itself.
L'invention a donc plus particulièrement pour but de supprimer ces inconvénients.The invention therefore more particularly aims to eliminate these drawbacks.
Elle propose, à cet effet, de rendre plus difficiles les attaques reposant sur des mesures physiques et/ou nécessitant une synchronisation avec le code interprété en introduisant des variantes dans les temps d'exécution des codes interprétés et les empreintes physiques (par exemple, et de manière non exclusive, émission électromagnétique, etc.) mesurables.It proposes, to this end, to make more difficult attacks based on physical measures and / or requiring synchronization with the interpreted code by introducing variants in the execution times of the interpreted codes and physical fingerprints (for example, and non-exclusive, electromagnetic emission, etc.) measurable.
Selon l'invention, ce procédé fait intervenir essentiellement deux types de variantes dans les temps d'exécution des codes interprétés, de la manière suivante :According to the invention, this method essentially involves two types of variants in the execution times of the interpreted codes, in the following manner:
- en provoquant à certains endroits d'un code interprété des dérivations vers de nouvelles portions de code (qui n'appartiennent pas au code d'origine) destinées à compliquer la synchronisation et l'empreinte physique de l'exécution, ou - en proposant une pluralité de mises en oeuvre de certaines instructions, chacune réclamant un temps d'exécution différent et/ou présentant une
empreinte physique différente et fournissant un résultat identique, en faisant en sorte que deux exécutions de cette instruction au sein d'un même code puissent être réalisées par deux mises en oeuvre différentes.- by causing in certain places of an interpreted code derivations towards new portions of code (which do not belong to the original code) intended to complicate the synchronization and the physical imprint of the execution, or - by proposing a plurality of implementations of certain instructions, each requiring a different execution time and / or presenting a different physical fingerprint and providing an identical result, ensuring that two executions of this instruction within the same code can be carried out by two different implementations.
Ainsi, en introduisant des distorsions dans les temps d'exécution et en modifiant l'effet physique de l'exécution, les deux types de variantes ci-dessus rendront plus difficile toute tentative de corrélation entre les manifestations physiques observées d'un code interprété et ses fonctionnalités.Thus, by introducing distortions in execution times and by modifying the physical effect of execution, the two types of variants above will make any attempt to correlate between the observed physical manifestations of an interpreted code and more difficult. its functionality.
Avantageusement, ce procédé permettra de rendre le code apparemment exécuté différent à chaque exécution, et rendra donc plus difficile la découverte du code réel de l'application.Advantageously, this method will make the apparently executed code different on each execution, and will therefore make it more difficult to discover the actual code of the application.
Ce procédé pourra faire intervenir : • pour la première variante :This process may involve: • for the first variant:
- deux modes d'introduction de "codes de dérivation",- two methods of introducing "derivation codes",
- quatre modes de réalisation de "codes de dérivation", • pour la deuxième variante :- four embodiments of "derivation codes", • for the second variant:
- deux modes d'introduction de "mises en œuvre multiples" de certaines instructions,- two methods of introducing "multiple implementations" of certain instructions,
- trois modes de réalisation de "codes alternatifs" à empreinte physique et durée variable.- three embodiments of "alternative codes" with physical footprint and variable duration.
Concernant la première variante, le premier mode d'introduction de "codes de dérivation" consiste à introduire une (ou des) instruction(s) spécifιque(s), dite(s) "de dérivation" à certains endroits particuliers du code. Cette introduction peut être réalisée soit manuellement, soit automatiquement lors de la génération de code. Dans le dernier cas, le générateur de code peut être guidé, pour produire ces instructions, par des annotations insérées par le programmeur dans le code source et permettant de désigner des portions de code sensibles (par exemple, et de manière non limitative, des procédures de
chiffrement ou de vérification de droits d'accès). L'exécution d'une instruction de dérivation par l'interpréteur provoque un branchement vers un code de dérivation associé. Ce premier procédé peut également être amélioré en attachant différents niveaux de sécurité aux instructions de dérivation et en leur associant des codes de dérivation d'autant plus complexes (ou défensifs vis à vis d'attaques de sécurité décrites ci-dessus) que leur niveau de sécurité est élevé.Concerning the first variant, the first mode of introducing "derivation codes" consists of introducing a specific instruction (s), called "derivation" (s) in certain particular places of the code. This introduction can be done either manually or automatically during code generation. In the latter case, the code generator can be guided, to produce these instructions, by annotations inserted by the programmer in the source code and making it possible to designate sensitive portions of code (for example, and in a nonlimiting manner, procedures of encryption or verification of access rights). The execution of a derivation instruction by the interpreter causes a connection to an associated derivation code. This first method can also be improved by attaching different levels of security to the bypass instructions and by associating them with bypass codes that are all the more complex (or defensive against security attacks described above) as their level of security is high.
Concernant la première variante, le deuxième mode d'introduction de "codes de dérivation" consiste à introduire le code de dérivation dans la mise en oeuvre de l'interpréteur lui-même: entre l'exécution de deux instructions consécutives du code, l'interpréteur exécute le code de dérivation, soit de manière systématique, soit de manière sélective, soit de manière aléatoire. Il peut par exemple exécuter ce code seulement lors de l'appel de certaines méthodes (typiquement de bibliothèques, dites API "Application Program Interface") sensibles.Concerning the first variant, the second mode of introducing "derivation codes" consists in introducing the derivation code into the implementation of the interpreter itself: between the execution of two consecutive instructions of the code, the interpreter executes the derivation code, either systematically, selectively or randomly. It can for example execute this code only when calling certain sensitive methods (typically from libraries, called API "Application Program Interface").
L'avantage du premier mode est de permettre d'introduire les exécutions de code de dérivation de manière sélective, ce qui conduit à une moindre pénalisation en terme de temps d'exécution si le nombre de telles dérivations est faible. Il permet également la mise en oeuvre de politiques de sécurité dites "discrétionnaires", c'est à dire à la discrétion des applications.The advantage of the first mode is that it makes it possible to selectively introduce derivative code executions, which leads to less penalty in terms of execution time if the number of such derivations is small. It also allows the implementation of so-called "discretionary" security policies, that is to say at the discretion of the applications.
En revanche, le second mode sera plus avantageux si le nombre de dérivations souhaitées est important car la mise en oeuvre du procédé dans l'interpréteur lui-même pourra alors être optimisée. Par ailleurs, il permet la mise en oeuvre de politiques de sécurité dites "mandataires" où les contrôles sont imposés de manière uniforme à toutes les applications.On the other hand, the second mode will be more advantageous if the number of derivations desired is significant since the implementation of the method in the interpreter itself can then be optimized. Furthermore, it allows the implementation of security policies called "proxies" where controls are imposed uniformly on all applications.
Les deux précédents susdits modes d'introduction nécessitent l'introduction d'un code de dérivation. L'invention propose quatre modes pour réaliser ces
codes de dérivation de manière à ce qu'ils introduisent des variantes dans les temps d'exécution et les empreintes physiques mesurables.The two preceding methods of introduction require the introduction of a derivation code. The invention provides four modes for achieving these bypass codes so that they introduce variations in execution times and measurable physical footprints.
Concernant la première variante, le premier mode de réalisation de "codes de dérivation" à empreinte physique et durée variable consiste à effectuer un calcul dit "superflu" dépendant de données connues à l'exécution (qui peuvent donc différer à chaque exécution). Ce calcul superflu doit être sans effet sur le résultat final de l'exécution de l'interpréteur. Un exemple simple de tel calcul est un test de parité d'une donnée dynamique (connue à l'exécution) qui peut conduire soit à une action vide, soit à l'ajout d'un élément d'une pile suivi de son retrait immédiat. Il est à noter que le nombre d'actions possibles n'est pas forcément limité à deux. Un nombre d'actions possible important conduira à une variabilité importante dans le temps d'exécution et l'empreinte physique du code de dérivation.Concerning the first variant, the first embodiment of "derivation codes" with physical footprint and variable duration consists in performing a so-called "superfluous" calculation depending on data known at runtime (which can therefore differ on each runtime). This superfluous calculation must have no effect on the final result of the execution of the interpreter. A simple example of such a calculation is a parity test of dynamic data (known at runtime) which can lead either to an empty action, or to the addition of an element from a stack followed by its immediate removal . It should be noted that the number of possible actions is not necessarily limited to two. A large number of possible actions will lead to significant variability in the execution time and the physical footprint of the derivation code.
Le deuxième mode de réalisation de "codes de dérivation" améliore le premier mode en le dotant d'un tirage aléatoire d'une donnée supplémentaire lors de l'exécution du calcul superflu, ladite donnée supplémentaire étant utilisée dans le calcul effectué par le code de dérivation (par exemple dans un test dudit code). Ce tirage aléatoire ajoute un nouvel élément variable et rend encore moins prévisible le temps d'exécution et l'empreinte physique du code de dérivation.The second embodiment of "derivation codes" improves the first mode by providing it with a random drawing of additional data during the execution of the superfluous calculation, said additional data being used in the calculation carried out by the code of derivation (for example in a test of said code). This random draw adds a new variable element and makes the execution time and the physical footprint of the derivation code even less predictable.
Le troisième mode de réalisation de "codes de dérivation" améliore l'efficacité des deux précédents en remplaçant le test permettant de décider de l'action suivante par un branchement dans un tableau dit d'indirection, c'est-à-dire contenant les adresses des actions possibles, à un indice calculé à partir des éléments variables (donnée dynamique et/ou résultat d'un tirage aléatoire).The third embodiment of "derivation codes" improves the efficiency of the two previous ones by replacing the test allowing the decision of the next action by a connection in a so-called indirection table, that is to say containing the addresses of possible actions, to an index calculated from variable elements (dynamic data and / or result of a random draw).
Le quatrième mode de réalisation de "codes de dérivation" améliore le premier mode (et par conséquent les trois autres) en considérant un calcul superflu qui,
tout en restant sans effet sur le résultat final, présente les caractéristiques externes (empreinte physique) d'un calcul sensible particulier (par exemple chiffrage ou déchiffrage) sans rapport avec le code effectif de l'application. Un tel calcul superflu permet de tromper un attaquant qui tenterait de déduire des secrets en mesurant l'effet physique de l'exécution de l'application. Un tel procédé peut être qualifié de "leurre logiciel" puisqu'il a pour objet d'induire en erreur les attaquants en leur faisant croire à la présence dudit calcul sensible dans le code effectif de l'application. Ce mode peut être réalisé simplement en mettant en œuvre le calcul sensible en question sans retenir son résultat.The fourth embodiment of "derivation codes" improves the first mode (and therefore the other three) by considering a superfluous calculation which, while remaining without effect on the final result, presents the external characteristics (physical imprint) of a particular sensitive calculation (for example encryption or decryption) unrelated to the actual code of the application. Such a superfluous calculation makes it possible to deceive an attacker who would try to deduce secrets by measuring the physical effect of the execution of the application. Such a process can be qualified as "software decoy" since its purpose is to mislead attackers by making them believe in the presence of said sensitive calculation in the effective code of the application. This mode can be carried out simply by implementing the sensitive calculation in question without retaining its result.
Concernant la deuxième variante, le premier mode d'introduction de "mises en œuvre multiples" de certaines instructions consiste à enrichir l'ensemble des instructions reconnues par l'interpréteur avec une pluralité de mises en oeuvre pour une instruction donnée. Ces mises en oeuvre seront réalisées de façon à avoir des empreintes physiques et des temps d'exécution différents tout en produisant un résultat identique. N'importe laquelle de ces mises en oeuvre peut être utilisée indifféremment dans le code. Cette utilisation peut être effectuée soit manuellement, par programmation, soit automatiquement lors de la génération de code. Dans ce dernier cas, le générateur de code peut être guidé, pour produire ces instructions, par des annotations insérées par le programmeur dans le code source et permettant de désigner des portions de code sensibles (par exemple, et de manière non limitative, des procédures de chiffrement ou de vérification de droits d'accès). Ce premier mode peut également être amélioré en attachant différents niveaux de sécurité aux mises en oeuvre d'instructions et en leur associant des mises en oeuvre d'autant plus complexes (ou défensives vis à vis d'attaques de sécurité) que leur niveau de sécurité est élevé.With regard to the second variant, the first mode of introducing "multiple implementations" of certain instructions consists in enriching all of the instructions recognized by the interpreter with a plurality of implementations for a given instruction. These implementations will be carried out so as to have different physical fingerprints and execution times while producing an identical result. Any of these implementations can be used interchangeably in the code. This use can be done either manually, by programming, or automatically during code generation. In the latter case, the code generator can be guided, to produce these instructions, by annotations inserted by the programmer in the source code and making it possible to designate sensitive portions of code (for example, and without limitation, procedures encryption or verification of access rights). This first mode can also be improved by attaching different levels of security to the implementations of instructions and by associating them with implementations which are all the more complex (or defensive with respect to security attacks) as their level of security. is high.
Concernant la deuxième variante, le deuxième mode d'introduction de "mises en œuvre multiples" de certaines instructions consiste à inclure dans la mise en
œuvre elle-même de l'instruction un branchement à une portion de code alternatif qui déterminera dynamiquement la mise en oeuvre à exécuter.Concerning the second variant, the second method of introducing "multiple implementations" of certain instructions consists in including in the implementation the instruction itself implements a connection to a portion of alternative code which will dynamically determine the implementation to be executed.
L'avantage du premier mode est de minimiser le surcoût en terme de temps d'exécution puisque le choix de la mise en oeuvre d'instruction à appliquer est déterminé préalablement à l'exécution. Il permet également la mise en oeuvre de politiques de sécurité dites "discrétionnaires", c'est à dire à la discrétion des applications.The advantage of the first mode is to minimize the additional cost in terms of execution time since the choice of the implementation of the instruction to be applied is determined before execution. It also allows the implementation of so-called "discretionary" security policies, that is to say at the discretion of the applications.
L'avantage du second mode est de compliquer encore les attaques nécessitant une synchronisation avec le code puisque deux exécutions consécutives de la même instruction (au même emplacement dans le code) seront susceptibles de prendre des temps d'exécution différents et d'offrir des empreintes physiques différentes. Par ailleurs, ce second mode permet la mise en oeuvre de politiques de sécurité dites "mandataires" où les contrôles sont imposés de manière uniforme à toutes les applications.The advantage of the second mode is to further complicate attacks requiring synchronization with the code since two consecutive executions of the same instruction (at the same location in the code) will be likely to take different execution times and offer fingerprints different physical. Furthermore, this second mode allows the implementation of security policies called "proxies" where controls are imposed uniformly on all applications.
Les deux modes ne s'excluent pas mutuellement : une réalisation peut inclure une multiplicité de mises en oeuvre pour une instruction donnée, certaines d'entre elles (ou toutes) étant mises en oeuvre par un branchement à une portion de code alternatif déterminant dynamiquement la mise en oeuvre à exécuter.The two modes are not mutually exclusive: an implementation can include a multiplicity of implementations for a given instruction, some of them (or all) being implemented by connecting to a portion of alternative code dynamically determining the implementation to execute.
Le susdit deuxième mode de la deuxième variante nécessite l'introduction d'un code alternatif associé à une instruction. L'invention propose trois modes pour réaliser ce code alternatif de manière à ce qu'il introduise des mises en œuvre différentes dans les temps d'exécution et l'empreinte physique mesurée.The above second mode of the second variant requires the introduction of an alternative code associated with an instruction. The invention proposes three modes for producing this alternative code so that it introduces different implementations into the execution times and the physical footprint measured.
Concernant la deuxième variante, le premier mode de réalisation de "codes alternatifs" à empreinte physique et durée variable consiste à proposer une pluralité de mises en oeuvre différentes de l'instruction et de conditionner le
choix de la version exécutée à un test dynamique, c'est à dire dépendant de données connues à l'exécution. Un exemple simple de tel calcul est un test de parité d'une donnée dynamique (connue à l'exécution). Un nombre de mises en oeuvre important conduira à une variabilité importante dans le temps d'exécution et dans l'empreinte physique du code alternatif.Concerning the second variant, the first embodiment of "alternative codes" with physical footprint and variable duration consists in proposing a plurality of different implementations of the instruction and in conditioning the choice of the version executed in a dynamic test, that is to say dependent on data known at runtime. A simple example of such a calculation is a parity test of dynamic data (known at runtime). A large number of implementations will lead to significant variability in the execution time and in the physical footprint of the alternative code.
Le deuxième mode de réalisation de "codes alternatifs" améliore le premier mode en le dotant d'un tirage aléatoire d'une donnée qui est ensuite utilisée pour la réalisation du test conduisant au choix dynamique de la version exécutée. Ce tirage aléatoire ajoute un nouvel élément variable et rend encore moins prévisibles le temps d'exécution et l'empreinte physique du code alternatif.The second embodiment of "alternative codes" improves the first mode by providing it with a random drawing of a data item which is then used for carrying out the test leading to the dynamic choice of the version executed. This random draw adds a new variable element and makes the execution time and the physical footprint of the alternative code even less predictable.
Le troisième mode de réalisation de "codes alternatifs" améliore l'efficacité des deux précédents en remplaçant le test permettant de décider de la version choisie par un branchement dans un tableau d'indirection (contenant les adresses des versions disponibles) à un indice calculé à partir des éléments variables (donnée dynamique et/ou résultat d'un tirage aléatoire).The third embodiment of "alternative codes" improves the efficiency of the two preceding ones by replacing the test making it possible to decide on the version chosen by a connection in an indirection table (containing the addresses of the versions available) to an index calculated at from variable elements (dynamic data and / or result of a random draw).
Ainsi, l'introduction de variantes dans les temps d'exécution des codes interprétés et donc les empreintes physiques permet de rendre plus difficiles les attaques reposant sur les dites empreintes physiques, en faisant en sorte qu'une action codée dans l'implémentation de l'application puisse avoir des signatures électroniques différentes et se produisant à des temps d'exécution variables.Thus, the introduction of variants in the execution times of the interpreted codes and therefore the physical fingerprints makes it more difficult to attack based on said physical fingerprints, by ensuring that a coded action in the implementation of the the application can have different electronic signatures and occur at variable execution times.
L'implémentation des susdits codes interprétés sera effectuée sur des modules d'interprétation de code logiciel comme des machines virtuelles de la famille JAVA, et sur des modules d'interprétation de code physique du type micro- contrôleur ou micro-processeur.
The implementation of the above interpreted codes will be carried out on software code interpretation modules such as virtual machines of the JAVA family, and on physical code interpretation modules of the microcontroller or microprocessor type.