¿Qué es la codificación de caracteres?
Para que las páginas web se muestren correctamente, el texto dentro de ellas debe ser codificado de una manera específica. La codificación de caracteres es el método utilizado para representar caracteres como números que las computadoras pueden entender.
¿Por qué números? Porque las computadoras procesan y almacenan información utilizando señales electrónicas, y las señales están representadas por dígitos binarios, también conocidos como bits, que sólo puede tener dos estados posibles: "encendido" o "apagado" (representado por 1 o 0). Estos dígitos binarios se utilizan para representar toda la información que procesan y almacenan las computadoras, como imágenes, sonido, vídeo y texto.
Entonces, cuando miras una página web, el texto que contiene debe ser cambiado a un código especial que las computadoras pueden entender para que se muestre correctamente. Esto se llama codificación de caracteres. Pero antes de profundizar en varios estándares de codificación de caracteres, comprendamos primero los conceptos básicos de los dígitos binarios y el sistema binario.

El sistema binario
Dígitos binarios, también conocidos como bits, son los componentes básicos de la información digital.
En el sistema binario, Cada bit puede tener solo uno de dos valores: 0 o 1. Esto puede parecer limitado, pero al combinar bits de varias maneras, podemos representar y procesar datos complejos como texto, imágenes, vídeo y sonido.
El sistema binario se utiliza en una variedad de dispositivos y tecnologías digitales, incluidas computadoras, dispositivos móviles, Internet, sistemas de comunicación y electrónica. Por ejemplo, un solo bit puede representar el estado de un interruptor de luz: 0 para "apagado" y 1 para "encendido".

Decimal versus binario
Para entender cómo funciona el sistema binario, comencemos por observar el sistema numérico decimal que estamos acostumbrados a utilizar en la vida cotidiana.
En el sistema decimal, se utilizan diez dígitos (0-9) para representar todos los números. El valor de cada dígito depende de su posición en el número, donde cada posición es diez veces el valor de la posición a su derecha. Por ejemplo, en el número 123, el dígito 1 representa ciento, el dígito 2 representa veinte (dos decenas), y el dígito 3 representa tres unidades.
En el sistema binario, se utilizan sólo dos números, 0 y 1, para representar todos los números. Al igual que se utilizan los números del 0 al 9 en el sistema decimal, se utilizan estos dos números para formar todos los números diferentes en el sistema binario.
El valor de cada número depende de su posición en el número. Cada número en un número binario representa una potencia de 2. Por ejemplo, el primer número de la derecha representa 20 (que es 1), el segundo número de la derecha representa 21 (que es 2), el tercer número de la derecha representa 22 (que es 4), y así sucesivamente.
(1×20)+(1×21)+(0×22)+(1×23) = 1 + 2 + 0 + 8 = 11
Entonces el número binario 1011 es equivalente al número decimal 11.

Práctica
Convierta los siguientes números binarios a números decimales:
110110010111111111
El sistema hexadecimal
Además de los sistemas decimales y binarios, también existe otro sistema numérico comúnmente utilizado conocido como hexadecimal (hex). Aunque no se utiliza directamente en la codificación de caracteres, el hexadecimal se utiliza a menudo para representar valores binarios de una forma más cómoda y compacta. Es más, comprender el hexadecimal es importante cuando se trabaja con colores y entidades de caracteres, algo que abordaremos más adelante en el curso. Por lo tanto, te recomendamos aprenderlo como parte de tu viaje en HTML.
En el sistema hexadecimal, se utiliza 16 dígitos y letras (0-9 y AF) para representar todos los números. El valor de cada dígito depende de su posición en el número, donde cada posición es 16 veces el valor de la posición a su derecha.
Por ejemplo, el número 2F en hexadecimal representa (2 × 161)+(15×160) en decimal. El dígito 2 representa dos dieciséis, y el dígito F representa quince unos. La carta A representa 10, B representa 11, y así sucesivamente, hasta F que representa 15.
En el sistema hexadecimal, al igual que en el sistema binario, cada dígito representa una potencia de 16. El primer dígito de la derecha representa 160 (que es 1), el segundo dígito de la derecha representa 161 (que es 16), el tercer dígito de la derecha representa 162 (que es 256), y así sucesivamente.

(2 × 161)+(15×160) = 32 + 15 = 47

Práctica
Convierta los siguientes números hexadecimales a números decimales:
4AFF1B7
Estándares de codificación de caracteres
Ahora sabes que la codificación de caracteres implica Asignar caracteres a números que puedan ser entendidos por computadoras (donde a cada personaje se le asigna un único punto de código, que está representado por un número específico), y que los dígitos binarios y el sistema binario juegan un papel fundamental en este proceso. Para comprender mejor la codificación de caracteres y su conexión con HTML, echemos un vistazo más de cerca a los estándares de codificación más populares.
Hay varios estándares de codificación de caracteres disponibles, cada uno con sus propios beneficios y limitaciones.
- ASCII, o el Código Estándar Americano para el Intercambio de Información, es el estándar de codificación de caracteres más básico. Utiliza 7 bits para representar 128 caracteres, que incluyen letras, números y símbolos comúnmente utilizados en el idioma inglés. Sin embargo, la codificación ASCII no es adecuada para representar caracteres de otros idiomas.
- Unicode es un estándar de codificación de caracteres más completo que admite una cantidad mucho mayor de caracteres de diferentes idiomas y scripts. Puede utilizar hasta 32 bits para representar más de un millón de caracteres, incluidos aquellos de escrituras no latinas como el chino, el árabe y el cirílico. Unicode incluye varias codificaciones diferentes, incluidas UTF-8, UTF-16 y UTF-32.
- UTF-8 es un estándar de codificación de caracteres ampliamente utilizado compatible con ASCII. Utiliza una codificación de longitud variable que puede representar caracteres utilizando entre 1 y 4 bytes, dependiendo del carácter que se esté codificando. UTF-8 puede representar todos los caracteres del estándar Unicode, lo que lo convierte en una opción ideal para el desarrollo web.

Especificación del estándar de codificación de caracteres
UTF-8 es el estándar de codificación de caracteres más utilizado para el desarrollo web en la actualidad. Es el Estándar de codificación predeterminado utilizado por HTML5, y se recomienda su uso en todas las aplicaciones web modernas.
Para especificar el estándar de codificación de caracteres como UTF-8 en un documento HTML, puede utilizar el siguiente código en cabeza sección de su documento: <meta charset="UTF-8">.
Esto le dice al navegador web que el documento está codificado usando UTF-8 y que el navegador puede usar el algoritmo de decodificación apropiado para renderlos personajes correctamente.
Si aún no está familiarizado con los términos o cómo usarlos, no se preocupe: los cubriremos con más detalle más adelante en el curso. Por ahora, recuerde que es fundamental utilizar el estándar de codificación de caracteres correcto para sus páginas web para garantizar que todos los caracteres se muestren con precisión, y que UTF-8 es una opción recomendada para la mayoría de las aplicaciones web modernas, ya que puede manejar una amplia gama de caracteres y es ampliamente compatible con navegadores y otras herramientas web.

Si está interesado en obtener más información sobre la codificación UTF-8 y el conjunto de caracteres Unicode, visite Página wiki de UTF-8 para más información y ejemplos.
No hay comentarios:
Publicar un comentario