Auparavant, lorsque nous devions stocker davantage d’informations ou augmenter notre puissance de préparation, l’alternative normale était de procéder à une répartition verticale proportionnelle (obtenir toutes les machines les plus dominantes) ou d’améliorer encore la base de code actuelle. Dans tous les cas, avec les progrès du traitement parallèle et des cadres diffusés, il est progressivement régulier d’étendre uniformément ou d’avoir plus de machines pour effectuer une tâche similaire en parallèle. Nous pourrions déjà voir beaucoup d’appareils de contrôle de l’information dans l’entreprise Apache comme Flash, Hadoop, Kafka, Zookeeper et Tempest. Quoi qu’il en soit, afin de choisir de manière viable l’appareil de décision, il est important de penser à Top Hypothesis. L’hypothèse de base est une idée selon laquelle un cadre de base de données dispersé peut n’avoir que deux des trois éléments suivants : cohérence, accessibilité et résistance aux colis.

L’hypothèse de départ est importante dans le monde de l’énorme information, en particulier lorsque nous devons faire des échanges entre les trois, compte tenu de notre nouveau cas d’utilisation. Sur ce blog, je vais tenter de clarifier chacune de ces idées et les explications qui se cachent derrière l’échange de. Je m’abstiendrai d’utiliser des modèles explicites car les SGBD progressent rapidement.

Tolérance de partition

Cette condition exprime que le cadre continue à fonctionner, quel que soit le nombre de messages différés par le système entre les hubs. Un cadre tolérant par segments peut supporter toute mesure de déception du système qui n’entraîne pas une déception de l’ensemble organisé. Les enregistrements d’informations sont répétés de manière adéquate dans les mélanges de hubs et de systèmes afin de maintenir le cadre en place en cas de coupures irrégulières. Dans la gestion des cadres dispersés actuels, la résilience des colis n’est pas une alternative. C’est un besoin. Désormais, nous devons échanger entre Cohérence et Accessibilité.

Une grande cohérence

Cette condition exprime que tous les hubs voient simultanément des informations similaires. Fondamentalement, la lecture d’une activité de lecture rétablit l’estimation de la dernière activité de composition, ce qui fait que tous les centres renvoient des informations similaires. Un cadre a une cohérence si un échange commence avec le cadre dans un état fiable et se termine avec le cadre dans un état stable. Dans ce modèle, un cadre peut passer (et passe effectivement) dans un état conflictuel pendant un échange, mais l’ensemble de l’échange est ramené à l’état antérieur s’il y a une erreur pendant une phase quelconque. Sur la photo, nous avons deux enregistrements distincts (“Bulbasaur” et “Pikachu”) à des heures différentes. Le rendement sur le troisième segment est “Pikachu”, l’information la plus récente. Quoi qu’il en soit, les hubs auront besoin de temps pour se rafraîchir et ne seront pas accessibles sur le système aussi fréquemment.

Haute disponibilité

Cette condition exprime que chaque sollicitation obtient une réaction sur les progrès/déceptions. La réalisation de l’accessibilité dans un cadre diffusé nécessite que le cadre reste opérationnel 100% du temps. Chaque client reçoit une réaction, en faisant peu de cas de l’état de chaque centre du cadre. Cette mesure n’est pas importante à évaluer : il est possible que vous puissiez soumettre des instructions de lecture/composition, ou que vous ne le puissiez pas. Ainsi, les bases de données sont autonomes dans le temps car les hubs doivent être accessibles en ligne de manière cohérente. Cela implique que, contrairement au modèle précédent, nous n’avons pas la moindre idée de savoir si “Pikachu” ou “Bulbasaur” a été inclus en premier. Il est possible que le rendement soit celui-là. Par conséquent, pourquoi une accessibilité élevée n’est pas possible lorsque l’on décompose des informations jaillissantes à forte récurrence.