Catégorie variable - Boîte de carte carrée

157 0 0 0

Cet article met en évidence la catégorie variable case carrée de la carte. S'il vous plaît trouver plus de détails que vous lisez plus bas.


Lorsqu'une variable de classe est rencontrée dans la modélisation, elle est souvent convertie en une variable factice pour le traitement.


Cependant, si l'attribut d'une variable de catégorie est trop grand, trop de variables muettes seront générées, ce qui entraînera une augmentation de la dimension. Dans de nombreux cas, seules certaines variables muettes entrent dans le modèle et certaines informations relatives à la variable de catégorie peuvent être perdues.


En plus de la conversion en variables muettes, vous pouvez également diviser les variables de classe en zones pour réduire le nombre d'attributs.


Algorithme de binning


La variable de catégorie n'a pas de taille de valeur. Par conséquent, la relation de taille entre les cases adjacentes n'a pas besoin d'être garantie en tant que variable continue. Calculez le taux d'échantillonnage incorrect de chaque attribut de la variable de catégorie avant le regroupement, triez les attributs en fonction du taux d'échantillonnage incorrect, puis combinez les attributs adjacents jusqu'à ce que la condition de terminaison soit atteinte.


L'algorithme est le suivant:


(1) Calculez le nombre total d'échantillons, le nombre de bons échantillons, le nombre de mauvais échantillons, le taux d'échantillonnage et le taux d'échantillonnage incorrect de chaque attribut de la variable de catégorie, puis triez les échantillons en fonction du taux d'échantillonnage incorrect. Dans ce cas, chaque attribut est divisé en un groupe.


(2) Calculez les deux groupes adjacents de valeurs de carrés de cartes et combinez les deux groupes adjacents avec la plus petite valeur de carrés de cartes.


(3) Répétez l'étape (2) jusqu'à ce que le nombre de groupes soit <= BinMax.


(4) Vérifiez si chaque groupe contient de mauvais échantillons et de bons échantillons. Si un groupe ne contient que de mauvais échantillons ou de bons échantillons, combinez le groupe avec la plus petite valeur.


(5) Répétez l'étape (4) jusqu'à ce que chaque groupe contienne de mauvais échantillons et de bons échantillons en même temps.


(6) Vérifiez si la proportion d'échantillons dans chaque groupe est> = BinPcntMin. Si la proportion d'échantillons dans un groupe est <BinPcntMin, combinez le groupe avec la plus petite valeur.


(7) Répétez l'étape (6) jusqu'à ce que les échantillons de chaque groupe représentent> = BinPcntMin.


Section de code:


1. Chargement


103237gkdgd9x4z9ydwwp0.png? Image.png


2. Calculez l'échantillon total, le bon échantillon, le mauvais échantillon et le mauvais taux d'échantillonnage.


104223uq6riqfqghb4rp1q.png? Image.png


3. Calculez la valeur du carré de la carte.


104241p5wcwmpnffyhc554.png? Image.png


4. Ce qui suit est une fonction de binning à une variable. Les deux fonctions précédentes sont appelées pour renvoyer le résultat du binning à variable unique.


Selon l'algorithme précédent, la fonction de binning est divisée en trois parties, combinant deux bin adjacents. Vérifiez si chaque case contient à la fois des bonnes et des mauvaises et si la proportion de chaque case est supérieure ou égale à BinPcntMin. Dans les informations précédentes, spe_attri est une valeur d'attribut spéciale et est utilisée en tant que groupe séparé.


104319hncj5t45tsst90zg.png? Image.png104412qf6i0c8p2cfprclt.png? Image.png104519ug08df8ziib972f3.png? Image.png104544u7464z647ewchcw7.png? Image.png


  • x
  • Standard:

Responder

envoyer
Connectez-vous pour répondre. Se connecter | Enregistrer

Remarque Remarque : Afin de protéger vos droits et intérêts légitimes, ceux de la communauté et des tiers, ne divulguez aucun contenu qui pourrait présenter des risques juridiques pour toutes les parties. Le contenu interdit comprend, sans toutefois s'y limiter, le contenu politiquement sensible, le contenu lié à la pornographie, aux jeux d'argent, à l'abus et au trafic de drogues, le contenu qui peut divulguer ou enfreindre la propriété intellectuelle d'autrui, y compris les secrets professionnels, les marques commerciales, les droits d'auteur et les brevets, ainsi que la vie privée personnelle. Ne partagez pas votre nom d'utilisateur ou votre mot de passe avec d'autres personnes. Toutes les opérations effectuées à partir de votre compte seront considérées comme vos propres actions, et toutes les conséquences en découlant vous seront imputées. Pour plus de détails, voir « Politique de confidentialité ».
Si le bouton de la pièce-jointe n'est pas disponible, mettez à jour Adobe Flash Player à la dernière version.
Connectez-vous pour participer à la communication et au partage

Connectez-vous pour participer à la communication et au partage

S'identifier