35. Afinamiento Básico de PostgreSQL¶

PostgreSQL es un sistema de base de datos muy versátil, capaz de funcionar de manera eficiente en entornos con muy pocos recursos y en entornos compartidos con una variedad de otras aplicaciones. Para garantizar su correcto funcionamiento en muchos entornos diferentes, la configuración predeterminada es muy conservadora y no resulta muy adecuada para una base de datos de producción de alto rendimiento. Si a esto le sumamos que las bases de datos geoespaciales tienen patrones de uso diferentes y que los datos suelen consistir en registros menos numerosos, pero mucho más grandes que los de las bases de datos no geoespaciales, es evidente que la configuración predeterminada no es totalmente adecuada para nuestros fines.

Todos estos parámetros de configuración pueden editarse en el archivo de configuración de la base de datos postgresql.conf. Este es un archivo de texto normal y puede editarse con cualquier editor de texto. Los cambios no tendrán efecto hasta que se reinicie el servidor.

Esta sección describe algunos de los parámetros de configuración que pueden ajustarse para una base de datos geoespacial más preparada para producción.

Nota

Estos valores son solo recomendaciones; cada entorno será diferente y se requiere hacer pruebas para determinar la configuración óptima. Pero esta sección debería servirte como un buen punto de partida.

35.1. shared_buffers¶

Define la cantidad de memoria que el servidor de base de datos utiliza para los búferes de memoria compartida. Estos se comparten entre los procesos de back-end, como su nombre lo indica. Los valores predeterminados suelen ser totalmente inadecuados para bases de datos en producción.

Default value: típicamente 32MB

Recommended value: alrededor del 75% de la memoria de la base de datos hasta un máximo de aproximadamente 2GB

35.2. effective_cache_size¶

Además de la memoria que PostgreSQL reserva para shared_buffers, el planificador de consultas también tiene en cuenta cuántos bloques de disco puede haber almacenado en caché el sistema operativo como parte de su sistema de archivos virtual. En sistemas con grandes cantidades de memoria, esto puede ser bastante elevado. El effective_cache_size es aproximadamente la cantidad de memoria de la máquina, menos shared_buffers, menos work_mem multiplicado por el número esperado de conexiones, menos cualquier memoria requerida para otros procesos que se estén ejecutando en la máquina, menos alrededor de 1GB para otras necesidades aleatorias del sistema operativo. La base de datos no usará directamente esta memoria adicional como caché, pero calculará planes suponiendo que el sistema operativo ha almacenado en caché datos del sistema de archivos en aproximadamente esa cantidad de memoria.

Default value: típicamente 4GB

Recommended value: cualquier cantidad de memoria “libre” que se espere tener bajo condiciones normales de operación

35.3. work_mem¶

Define la cantidad de memoria que las operaciones internas de ordenamiento, operaciones de indexación y tablas hash pueden consumir antes de que la base de datos cambie a usar archivos en disco. Este valor define la memoria disponible para cada operación; las consultas complejas pueden tener varias operaciones de ordenamiento o hash ejecutándose en paralelo, y cada sesión conectada puede estar ejecutando una consulta.

Por lo tanto, debes considerar cuántas conexiones habrá y la complejidad de las consultas esperadas antes de aumentar este valor. El beneficio de aumentarlo es el procesamiento de más operaciones —incluyendo cláusulas ORDER BY y DISTINCT, uniones merge y hash, agregaciones basadas en hash y procesamiento de subconsultas con hash— puede realizarse sin incurrir en escrituras a disco. El costo de aumentarlo es que la memoria que se usará por conexión, lo que puede ser bastante elevado en niveles de producción con muchas conexiones.

Valor predeterminado: 1MB

Valor Recomendado: 32MB

35.4. maintenance_work_mem¶

Define la cantidad de memoria utilizada para operaciones de mantenimiento, incluyendo vaciado (vacuum), creación de índices y de claves foráneas. Como estas operaciones no son muy comunes, un valor más alto solo tendrá un costo ocasional y puede acelerar sustancialmente las actividades de mantenimiento. Este parámetro también puede aumentarse para una sola sesión antes de ejecutar varios :command:CREATE INDEX o :command:VACUUM, como se muestra a continuación.

SET maintenance_work_mem TO '128MB';
VACUUM ANALYZE;
SET maintenance_work_mem TO '16MB';
Valor predeterminado: 16MB

Valor recomendado: 128MB

35.5. wal_buffers¶

Define la cantidad de memoria utilizada para los registros de escritura anticipada (WAL, write-ahead log). Los WAL proporcionan un mecanismo de alto rendimiento para garantizar la integridad de los datos. Durante cada comando de modificación, los efectos de los cambios se escriben primero en los archivos WAL y se vacían en el disco. Solo una vez que los archivos WAL se han vaciado, los cambios se escriben en los archivos de datos. Esto permite que los archivos de datos se escriban en el disco de manera óptima y asíncrona, asegurando que, en caso de un fallo, todos los cambios de datos puedan recuperarse a partir del WAL.

El tamaño de este búfer solo necesita ser lo suficientemente grande para contener los datos WAL de una transacción típica. Aunque el valor predeterminado suele ser suficiente para la mayoría de los datos, los datos geoespaciales tienden a ser mucho más grandes. Por lo tanto, se recomienda aumentar el tamaño de este parámetro.

Valor predeterminado: 64kB

Valor recomendado: 1MB

35.6. checkpoint_segments¶

Este valor define el número máximo de segmentos de archivo de registro (típicamente 16MB) que pueden llenarse entre puntos de control automáticos de WAL (checkpoints). Un punto de control es un punto en la secuencia de transacciones WAL en el que se garantiza que los archivos de datos se han actualizado con toda la información anterior al punto de control. En ese momento, todas las páginas de datos sucias se vacían al disco y se escribe un registro de punto de control en el archivo de log. Esto permite que el proceso de recuperación tras un fallo encuentre el último registro de punto de control y aplique todos los segmentos posteriores para completar la recuperación de datos.

Como el proceso de punto de control requiere vaciar todas las páginas de datos sucias al disco, crea una carga de E/S significativa. El mismo argumento anterior aplica aquí: los datos geoespaciales son lo bastante grandes para desequilibrar las optimizaciones no geoespaciales. Aumentar este valor evitará puntos de control excesivos, aunque puede hacer que el servidor tarde más en reiniciarse en caso de fallo.

Valor predeterminado: 3

Valor recomendado: 6

35.7. random_page_cost¶

Este es un valor sin unidades que representa el costo de un acceso aleatorio a una página en disco. Este valor es relativo a otros parámetros de costo, incluyendo el acceso secuencial a páginas y los costos de operación de CPU. Aunque no existe un valor único perfecto, el valor predeterminado suele ser conservador y está pensado para bases de datos que funcionan sobre discos mecánicos (spinning media). Para SSD, el costo de acceso aleatorio debería configurarse aún más bajo.

Este valor puede establecerse por sesión usando el comando SET random_page_cost TO 2.0, lo cual puede ser útil para probar cómo afecta a los planes de consulta.

Valor predeterminado: 4.0

Valor recomendado: 2.0 para discos mecánicos, 1.0 para SSD

35.8. seq_page_cost¶

Este parámetro controla el costo de un acceso secuencial a páginas. Generalmente no requiere ajustes, pero la diferencia entre este valor y random_page_cost afecta en gran medida a las decisiones tomadas por el planificador de consultas. Este valor también puede configurarse por sesión.

Valor predeterminado: 1.0

Valor recomendado: 1.0

35.9. Recargar configuración¶

Después de realizar estos cambios, guarda y recarga la configuración. La forma más sencilla de hacerlo es reiniciando el servicio de PostgreSQL.

En pgAdmin, haz clic derecho en el servidor PostGIS (localhost:5432) y selecciona Disconnect.
En Servicios de Windows (services.msc), haz clic derecho en PostgreSQL y selecciona Restart.
De vuelta en pgAdmin, haz clic nuevamente en el servidor y selecciona Disconnect.

Introduction to PostGIS

35. Afinamiento Básico de PostgreSQL¶

35.1. shared_buffers¶

35.2. effective_cache_size¶

35.3. work_mem¶

35.4. maintenance_work_mem¶

35.5. wal_buffers¶

35.6. checkpoint_segments¶

35.7. random_page_cost¶

35.8. seq_page_cost¶

35.9. Recargar configuración¶

Navegación