some image

Noticias &Posts

¿Cómo crear filtros para detener el spam, los Bots y otros tipos de tráfico no deseado en Google Analytics? (II)

, Sin categoría Escribir un comentario

Filtros en Analytics

Continuando el artículo anterior donde explicamos ¿cuáles son las amenazas más comunes presentes en Google Analitycs? Te traemos este artículo donde te explicaremos como crear filtros para detener estas amenazas como spam, robots y el olvidado tráfico interno.

Así que no perdamos más tiempo y comencemos:

Estos son los pasos estándar que debes seguir para crear filtros y detener el spam, robots y tráfico interno:

  1. Ve a la sección de administración en su Google Analytics (el icono de ajustes en la esquina inferior izquierda).
  2. En la columna Vista (vista maestra), haz clic en el botón “Filtros” (no hagas clic en “Todos los filtros” en la columna Cuenta)
  3. Haz clic en el botón rojo “+ Agregar filtro” (si no lo ves o solo puedes aplicar / eliminar filtros ya creados, entonces no tienes permisos de edición en el nivel de la cuenta. Pídele a tu administrador que los cree o te dé los permisos.):
  4. Luego, sigue la configuración específica para cada uno de los filtros a continuación.

Crear filtros en Google Analytics

 

La ventana de filtro es tu mejor socio para mejorar la calidad de tus datos de Analytics, por lo que será una buena idea familiarizarse con ella.

Filtro de nombre de host válido (spam fantasma, entornos dev)

Evita el tráfico desde:

  • Spam fantasma
  • Nombres de host de desarrollo
  • Sitios de raspado
  • Sitios de caché y archivo

Este filtro puede ser la solución más efectiva contra el correo no deseado. A diferencia de otras soluciones comunes, el filtro de nombre de host es preventivo y raramente necesita ser actualizado.

El Spam fantasma gana su nombre porque nunca visita tu web. Se envía directamente a los servidores de Google Analytics utilizando una función llamada Measurement Protocol, una herramienta que, en circunstancias normales, permite rastrear desde dispositivos que no imaginarías que pudieran rastrearse.

El spammer abusa de esta característica para simular visitas a su sitio. Dado que estos hits son aleatorios, los spammers no saben a quién golpean; por esa razón, el spam fantasma siempre dejará un host falso o (no establecido). Usando esa lógica, al crear un filtro que solo incluye nombres de host válidos, se omitirá todo el spam fantasma.

Dónde encontrar tus nombres de host

Ahora viene la parte “engañosa”. Para crear este filtro, necesitarás hacer una lista de tus nombres de host válidos .

Basicamente, un nombre de host es cualquier lugar donde tu código de seguimiento de GA está presente. Puedes obtener esta información del informe de nombre de host:

  • Ve a Público> Seleccionar red> En la parte superior de la tabla, cambia la dimensión principal a Nombre de host.

Si tu Analytics está activo, deberías ver al menos uno: tu nombre de dominio. Si ves más, escanea a través de ellos y haz una lista de todos los que sean válidos para ti.

A continuación te muestro un ejemplo de mi informe de nombre de host. Desde la vista sin filtro, por supuesto, la vista maestra está muy limpia.

Ahora con la lista de sus buenos nombres de host, haz una expresión regular. Si solo tienes tu dominio, esa es tu expresión; si tienes más, crea una expresión con todos ellos.

Nombre de host REGEX (ejemplo) 
yourdomain.com | hostname2 | hostname3 | hostname4

¡Importante! No puedes crear más de un “Incluir filtro de nombre de host”; si lo haces, excluirás todos los datos. Intenta encajar todos tus nombres de host en una expresión (tienes 255 caracteres).

La configuración del “filtro de nombre de host válido”:

  • Nombre del filtro: incluir nombres de host válidos
  • Tipo de filtro: personalizado> Incluir
  • Campo de filtro: nombre de host
  • Patrón de filtro: [nombre de host REGEX que ha creado]

Filtrar por fuente de campaña (spam de rastreo, fuentes internas)

Evita el tráfico desde:

  • Correo basura
  • Herramientas internas de terceros (Trello, Asana, Pingdom)

Filtro para spam de rastreo

El segundo tipo de spam más común es el rastreador. También pretenden ser una visita válida al dejar una URL de una fuente falsa, pero a diferencia del spam fantasma, estos acceden a tu web. Por lo tanto, dejan un nombre de host correcto.

Tendrás que crear una expresión de la misma manera que el filtro de nombre de host, pero esta vez, reunirá las fuentes / URL del tráfico de spam. La diferencia es que puedes crear múltiples filtros de exclusión.

Crawler REGEX (ejemplo) 
spam1 | spam2 | spam3 | spam4

Crawler REGEX (preconstruido) 
Últimas expresiones de crawlerpreconstruidas que solo necesitas copiar / pegar.

La configuración del “filtro de spam de rastreo”:

  • Nombre del filtro: excluye spam de rastreo 1
  • Tipo de filtro: personalizado> Excluir
  • Campo de filtro: fuente de campaña
  • Patrón de filtro: [REGIONAL de rastreo]

Filtro para herramientas internas de terceros

Aunque puedes combinar tu filtro de spam de rastreo con herramientas internas de terceros, me gusta separarlos para mantenerlos organizados y accesibles para las actualizaciones.

La configuración del “filtro de herramientas internas”:

  • Nombre del filtro: Excluir fuentes de herramientas internas
  • Patrón de filtro: [fuente de la herramienta REGEX]

Herramientas internas REGEX (ejemplo) 
trello | asana | redmine

En caso de que una de las herramientas que usas internamente también te envíe tráfico de visitantes reales, no las filtres. En su lugar, usa “Excluir consulta de URL interna” a continuación.

Por ejemplo, uso Trello, pero como comparto guías de análisis en mi web, algunas personas las vinculan desde sus cuentas de Trello.

Filtros de spam de lenguaje y otros tipos de spam

Los dos filtros anteriores detendrán la mayor parte del spam; Sin embargo, algunos remitentes de correo no deseado utilizan métodos diferentes para eludir las soluciones anteriores.

Por ejemplo, intentan confundirte mostrando uno de tus nombres de host válidos combinados con una fuente conocida como Apple o Google.

Sin embargo, incluso si la fuente y el host se ven bien, el spammer inyecta su mensaje en otra parte de sus informes, como la palabra clave, el título de la página e incluso como un idioma.

En esos casos, deberás tomar la dimensión / informe donde encuentres el correo no deseado y elige ese nombre en el filtro.

La configuración “filtro de spam / bot de idioma”:

  • Nombre del filtro: excluye el spam de idioma
  • Tipo de filtro: personalizado> Excluir
  • Campo de filtro: configuración de idioma
  • Patrón de filtro: [Idioma REGEX]

Lenguaje no deseado REGEX (Preconstruido) 
\ s [^ \ s] * \ s |. {15,} | \. |, | ^ C $

La expresión anterior excluye los idiomas falsos que no cumplen con el formato requerido.

Filtros para el tráfico de bots directos

El tráfico de bot es un poco más complicado de filtrar porque no deja una fuente como spam, pero aún se puede filtrar con un poco de paciencia.

Lo primero que debes hacer es habilitar el filtrado de bots . En mi opinión, debería estar habilitado por defecto.

Ve a la sección Admin de tu Analytics y haz clic en Ver configuración. Encontrarás la opción “Excluir todas las visitas de bots y arañas conocidas” debajo del selector de monedas. Hay muchos bots “desconocidos” por lo que tendrás que jugar al detective y buscar patrones de tráfico de bot directos a través de diferentes informes hasta que encuentres algo que pueda filtrarse de manera segura sin arriesgar tus datos reales del usuario.

Para iniciar su búsqueda de rastreo de bot, haz clic en el cuadro Segmento en la parte superior de cualquier informe y seleccione el segmento “Tráfico directo”.

Luego navega por diferentes informes para ver si encuentra algo sospechoso.

Algunos informes para comenzar:

  • Proveedor de servicio
  • Versión del navegador
  • Dominio de Red
  • Resolución de la pantalla
  • Versión flash
  • País Ciudad

Señales de tráfico bot

Aunque los robots son difíciles de detectar, hay algunas señales que puedes seguir:

  • Un aumento antinatural del tráfico directo
  • Versiones anteriores (navegadores, sistema operativo, Flash)
  • Visitan solo la página de inicio (generalmente representada por una barra inclinada “/” en GA)
  • Métrica extrema:
  • Porcentaje de rebote cercano al 100%
  • Tiempo de sesión cercano a 0 segundos,
  • 1 página por sesión,
  • 100% nuevos usuarios.

Quizás el informe más útil que me ayudó a identificar el tráfico de bot es el informe “Proveedor de servicios”. Las grandes corporaciones frecuentemente usan su propio nombre de proveedor de servicios de Internet.

También tengo una expresión precompilada para los bots de ISP, similar a las expresiones del rastreador.

La configuración del filtro del ISP del bot:

  • Nombre del filtro: Excluir bots por ISP
  • Tipo de filtro: personalizado> Excluir
  • Campo de filtro: organización del ISP
  • Patrón de filtro: [Proveedor de ISP REGEX]

Proveedor de ISP bots REGEX (preconstruido) 
hubspot | ^ google \ sllc $ | ^ google \ sinc \. $ | Alibaba \ .com \ sllc | ovh \ shosting \ sinc \.
La última expresión de bot de ISP

Filtro IP para tráfico interno

Ya cubrimos diferentes tipos de tráfico interno, el de los sitios de prueba (con el filtro de nombre de host) y el de las herramientas de terceros (con el filtro de fuente de la campaña).

Ahora es el momento de mirar el más común y dañino de todos: el tráfico generado directamente por ti o cualquier miembro de su equipo mientras trabajas en cualquier tarea para tu web.

Para hacer frente a esto, la solución estándar es crear un filtro que excluya la IP pública (no privada) de todas las ubicaciones utilizadas para trabajar en el sitio.

Ejemplos de lugares / personas que deben ser filtrados

  • Oficina
  • Apoyo
  • Casa
  • Desarrolladores
  • Hotel
  • Cafetería
  • Bar
  • Centro comercial
  • Cualquier lugar que se use regularmente para trabajar en su sitio

Para encontrar la IP pública de la ubicación en la que estás trabajando, simplemente busca “mi IP” en Google.

Haz una lista con la IP de cada lugar y compártala con un REGEX, de la misma forma que lo hicimos con otros filtros.

  • Expresión de dirección IP: IP1 | IP2 | IP3 | IP4, etc.

La configuración del filtro IP estático:

  • Nombre del filtro: Excluir el tráfico interno (IP)
  • Tipo de filtro: personalizado> Excluir
  • Campo de filtro: dirección IP
  • Patrón de filtro: [La expresión IP]

Filtro de consulta URL para tráfico interno

Si hay docenas o cientos de empleados en la empresa, es extremadamente difícil excluirlos cuando están de viaje, accediendo al sitio desde sus ubicaciones personales o redes móviles.

Aquí es donde la consulta URL viene al rescate. Para usar este filtro solo necesita agregar un parámetro de consulta. Agrego “?Internal” a cualquier enlace que su equipo use para acceder a su sitio:

  • Boletines internos
  • Herramientas de gestión (Trello, Redmine)
  • Correos electrónicos a colegas
  • También funciona agregándolo directamente en la barra de direcciones del navegador

Filtro de consulta URL interno básico

La versión básica de esta solución es crear un filtro para excluir cualquier URL que contenga la consulta “?Internal”.

  • Nombre del filtro: Excluir tráfico interno (consulta de URL)
  • Tipo de filtro: personalizado> Excluir
  • Campo de filtro: URI de solicitud
  • Patrón de filtro:\? Interno

Esta solución es perfecta para casos en los que el usuario probablemente permanezca en la página de destino, por ejemplo, al enviar un boletín informativo a todos los empleados para verificar una nueva publicación.

Si el usuario probablemente visita más la página de destino, entonces se registrarán las páginas siguientes.

Filtro avanzado de consulta de URL interna

¡Esta solución es la campeona de todos los filtros de tráfico internos!

Es una versión más completa de la solución anterior y funciona filtrando el tráfico interno de forma dinámica mediante Google Tag Manager , una dimensión personalizada de GA y cookies.

Aunque esta solución es un poco más complicada de configurar, una vez que está en su lugar:

  • No necesita mantenimiento
  • Cualquier miembro del equipo puede usarlo, sin necesidad de explicar las cosas de Techy
  • Se puede usar desde cualquier ubicación
  • Se puede usar desde cualquier dispositivo y cualquier navegador

Para activar el filtro, solo tienes que agregar el texto “?Internal” a cualquier URL del sitio web.

Eso insertará una pequeña cookie en el navegador que le indicará a GA que no registre las visitas de ese navegador.

Y lo mejor de todo es que la cookie permanecerá allí durante un año (a menos que se elimine manualmente).

Conclusión

Tener datos reales y precisos es esencial para que Google Analytics genere informes como es de esperar.

Pero si no lo has filtrado correctamente, es casi seguro que estará lleno de todo tipo de información chatarra y artificial.

Y lo peor es que si no te das cuenta de que tus informes contienen información falsa, es probable que tomes decisiones equivocadas o deficientes al decidir los próximos pasos para tu sitio o negocio.

Los filtros que comparto arriba lo ayudarán a evitar las tres amenazas más dañinas que están contaminando su Google Analytics y no le permiten tener una visión clara del rendimiento real de su sitio: correo basura, bots y tráfico interno.

Una vez que estos filtros estén en su lugar, puedes estar seguro de que sus esfuerzos (¡y dinero!) no se desperdiciarán en el análisis de datos engañosos de Google Analytics, y sus decisiones se basarán en información sólida.

Y los beneficios no se detienen allí. Si está utilizando otras herramientas que importan datos de GA, por ejemplo, complementos de WordPress como GADWP o complementos de excel como AnalyticsEdge, los beneficios también llegarán a todos ellos.

Recuerde, los filtros no solo le permiten guardar basura, también puedes usarlos para reordenar tu información real de usuario.

 

 

 

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Acepto la política de privacidad y las condiciones generales

eighteen + 17 =