Orígenes de datos en inteligencia de negocios

La inteligencia de negocios (Business Intelligence, BI) se ha convertido en una herramienta fundamental para las empresas en la toma de decisiones estratégicas. Pero, ¿de dónde provienen los datos que se utilizan en la inteligencia de negocios? En este artículo, exploraremos los diferentes orígenes de datos en la inteligencia de negocios y cómo se utilizan para obtener información valiosa.

Índice
  1. Fuentes de datos en inteligencia empresarial
  2. Nomenclatura de las fuentes de datos
  3. Tipos de fuentes de datos
    1. Fuentes de datos de máquina
    2. Fuentes de datos de archivo
  4. Funcionamiento de las fuentes de datos
  5. Propósito de una fuente de datos
  6. Comenzar con las fuentes de datos e integración

Fuentes de datos en inteligencia empresarial

Una fuente de datos es el lugar donde se origina la información que se utiliza en la inteligencia de negocios. Puede ser el lugar de nacimiento de los datos o donde se digitaliza la información física. Incluso los datos más refinados pueden servir como fuente, siempre y cuando otro proceso los acceda y los utilice. Concretamente, una fuente de datos puede ser una base de datos, un archivo plano, mediciones en tiempo real de dispositivos físicos, datos web raspados o cualquiera de los numerosos servicios de datos estáticos y en streaming que existen en Internet.

Por ejemplo, imaginemos una marca de moda que vende productos en línea. Para mostrar si un artículo está agotado, el sitio web obtiene información de una base de datos de inventario. En este caso, las tablas de inventario son una fuente de datos, a la que accede la aplicación web que sirve el sitio web a los clientes.

Para comprender qué tipos de fuentes de datos existen, cómo funcionan y cuándo son útiles, es importante centrarse en cómo se utiliza el término en el contexto de la gestión de bases de datos.

Nomenclatura de las fuentes de datos

Las bases de datos siguen siendo las fuentes de datos más comunes, ya que son los principales almacenes de datos en los sistemas de gestión de bases de datos relacionales. En este contexto, un concepto importante es el Nombre de la Fuente de Datos (DSN, por sus siglas en inglés). El DSN se define dentro de las bases de datos o aplicaciones de destino como un puntero a los datos reales, ya sea que existan localmente o se encuentren en un servidor remoto (ya sea en una ubicación física única o virtualizada). El DSN no necesariamente es el mismo que el nombre de la base de datos o el nombre del archivo relevante, sino que es una dirección o etiqueta utilizada para acceder fácilmente a los datos en su origen.

Los sistemas que realizan la ingestión de datos determinan el contexto de cualquier discusión sobre fuentes de datos, por lo que las definiciones y la terminología varían ampliamente y pueden resultar confusas. Esto es especialmente cierto en la documentación técnica. Por ejemplo, en la plataforma de software Java, un 'Datasource' se refiere específicamente a un objeto que representa una conexión a una base de datos (como un DSN empaquetado de manera programable y extensible). Mientras tanto, algunas plataformas más nuevas utilizan 'DataSource' de manera más amplia para referirse a cualquier colección de datos que proporciona un medio estandarizado de acceso.

Tipos de fuentes de datos

Aunque la diversidad de contenido, formato y ubicación de los datos solo aumenta con las contribuciones de tecnologías como IoT y la adopción de metodologías de big data, sigue siendo posible clasificar la mayoría de las fuentes de datos en dos categorías amplias: fuentes de datos de máquina y fuentes de datos de archivo.

Ambas comparten el mismo propósito básico: señalar la ubicación de los datos y describir características de conexión similares. Sin embargo, las fuentes de datos de máquina y de archivo se almacenan, acceden y utilizan de diferentes maneras.

Fuentes de datos de máquina

Las fuentes de datos de máquina tienen nombres definidos por los usuarios, deben residir en la máquina que está ingiriendo los datos y no se pueden compartir fácilmente. Al igual que otras fuentes de datos, las fuentes de datos de máquina proporcionan toda la información necesaria para conectarse a los datos, como controladores de software relevantes y un administrador de controladores, pero los usuarios solo necesitan referirse al DSN como una forma abreviada de invocar la conexión o consultar los datos.

La información de conexión se almacena en variables de entorno, opciones de configuración de la base de datos o en una ubicación interna de la máquina o aplicación que se utiliza. Por ejemplo, una fuente de datos de Oracle contendrá una ubicación del servidor para acceder al DBMS remoto, información sobre qué controladores utilizar, el motor de controladores y cualquier otra parte relevante de una cadena de conexión típica, como identificadores de sistema y de usuario y autenticación.

Fuentes de datos de archivo

Las fuentes de datos de archivo contienen toda la información de conexión dentro de un solo archivo de computadora compartible (normalmente con la extensión .dsn). Los usuarios no deciden qué nombre se asigna a las fuentes de datos de archivo, ya que estas fuentes no están registradas en aplicaciones, sistemas o usuarios individuales, y de hecho no tienen un DSN como el de las fuentes de datos de máquina. Cada archivo almacena una cadena de conexión para una sola fuente de datos.

A diferencia de las fuentes de máquina, las fuentes de datos de archivo son editables y copiables como cualquier otro archivo de computadora. Esto permite a los usuarios y sistemas compartir una conexión común (moviendo la fuente de datos entre máquinas o servidores individuales) y simplificar los procesos de conexión de datos (por ejemplo, manteniendo un archivo de origen en un recurso compartido para que pueda ser utilizado simultáneamente por múltiples aplicaciones y usuarios).

Tener en cuenta que también existen archivos .dsn no compartibles. Estos son del mismo tipo de archivo descrito anteriormente, pero existen en una sola máquina y no se pueden mover ni copiar. Estos archivos apuntan directamente a fuentes de datos de máquina. Esto significa que las fuentes de datos de archivo no compartibles son envoltorios para fuentes de datos de máquina, que sirven como un proxy para aplicaciones que esperan solo archivos pero también necesitan conectarse a fuentes de datos de máquina.

Funcionamiento de las fuentes de datos

Las fuentes de datos se utilizan de diversas formas. Los datos se pueden transportar gracias a diversos protocolos de red, como el conocido Protocolo de Transferencia de Archivos (FTP) y el Protocolo de Transferencia de Hipertexto (HTTP), o cualquiera de las numerosas Interfaces de Programación de Aplicaciones (API) proporcionadas por sitios web, aplicaciones en red y otros servicios.

Muchas plataformas utilizan fuentes de datos con direcciones FTP para especificar la ubicación de los datos que se deben importar. Por ejemplo, en la plataforma Adobe Analytics, se carga una fuente de datos de archivo en un servidor utilizando un cliente FTP, y luego un servicio utiliza esta fuente para mover y procesar los datos relevantes automáticamente.

Se utiliza SFTP (el s significa seguro o SSH) cuando es necesario ocultar los nombres de usuario y las contraseñas y cifrar el contenido, o se puede utilizar FTPS agregando Seguridad de la Capa de Transporte (TLS) a FTP, logrando el mismo objetivo.

Por otro lado, ahora se ofrecen muchas y diversas API para gestionar fuentes de datos y cómo se utilizan en las aplicaciones. Las API se utilizan para vincular de forma programática las aplicaciones a las fuentes de datos y suelen proporcionar más personalización y una colección más versátil de métodos de acceso. Por ejemplo, Spark proporciona una API con implementaciones abstractas para representar y conectar fuentes de datos, desde clases básicas pero extensibles para fuentes de datos relacionales genéricas, hasta implementaciones detalladas para conexiones JDBC codificadas.

Otros protocolos para mover datos desde fuentes a destinos, especialmente en la web, incluyen NFS, SMB, SOAP, REST y WebDAV. Estos protocolos se utilizan a menudo dentro de las API (y algunas API en sí utilizan otras API internamente), en aplicaciones de datos completas o como procesos de transferencia independientes. Cada uno tiene características y preocupaciones de seguridad características que deben tenerse en cuenta para cualquier transferencia de datos.

Propósito de una fuente de datos

Las fuentes de datos tienen como objetivo ayudar a los usuarios y aplicaciones a conectarse y mover datos hacia donde se necesitan. Recopilan información técnica relevante en un solo lugar y la ocultan para que los consumidores de datos puedan centrarse en el procesamiento e identificar la mejor manera de utilizar sus datos.

El propósito aquí es empaquetar la información de conexión de una manera más fácil de entender y amigable para el usuario. Esto hace que las fuentes de datos sean fundamentales para integrar de manera más sencilla sistemas dispares, ya que evitan que los accionistas tengan que lidiar con y solucionar problemas de información de conexión compleja pero de bajo nivel.

Aunque esta información de conexión está oculta, siempre está accesible cuando es necesario. Además, esta información se almacena en ubicaciones y formatos consistentes que pueden facilitar otros procesos, como migraciones o cambios estructurales planificados del sistema.

Comenzar con las fuentes de datos e integración

Una vez que los datos han llegado a su destino final, preferiblemente un repositorio centralizado como un almacén de datos en la nube, las diferencias de formato o estructura basadas en la fuente deben ser suavizadas. El primer paso hacia este objetivo de integración de datos implica abstraer las conexiones iniciales de datos en sí, una tarea compleja al tener en cuenta la cantidad de fuentes de datos accesibles a través de la nube.

Talend ayuda a los clientes a integrar datos de miles de fuentes internas y basadas en la nube, acelerando el viaje desde sistemas dispares e ingobernables hasta una vista unificada de datos empresariales confiables. Utilizando una única suite de aplicaciones enfocadas en la integridad y la integración de datos, Talend Data Fabric mejora y asegura su cadena de valor de datos, desde la conexión inicial a una fuente de datos hasta el análisis efectivo e inteligencia de negocios.

Pruebe Talend Data Fabric hoy mismo para integrarse sin problemas con sus fuentes de datos y obtener información confiable de sus datos.

Si quieres conocer otras notas parecidas a Orígenes de datos en inteligencia de negocios puedes visitar la categoría Inteligencia.

Subir