Uso de SPARQL UPDATE LOAD para importar datos a Neptune

La sintaxis del comando UPDATE LOAD de SPARQL se especifica en la recomendación de actualización de SPARQL 1.1:


LOAD SILENT (URL of data to be loaded) INTO GRAPH (named graph into which to load the data)

SILENT: (opcional) hace que la operación se realice correctamente aunque se haya producido un error durante el procesamiento.

Puede resultar útil cuando una sola transacción contiene varias instrucciones, como "LOAD ...; LOAD ...; UNLOAD ...; LOAD ...;", y si desea que la transacción se complete aunque algunos de los datos remotos no se hayan podido procesar.
URL of data to be loaded— (Obligatorio) Especifica un archivo de datos remoto que contiene los datos que se van a cargar en un gráfico.

El archivo remoto debe tener una de las siguientes extensiones:
- .nt para NTriples.
- .nq para NQuads.
- .trig para Trig.
- .rdfpara RDF/XML.
- .ttl para Turtle.
- .n3 para N3.
- .jsonldpara JSON-LD.
INTO GRAPH(named graph into which to load the data)— (Opcional) Especifica el gráfico en el que se deben cargar los datos.

Neptune asocia cada triple con un gráfico con nombre. Puede especificar el gráfico con nombre predeterminado utilizando el URI de gráfico con nombre de reserva, http://aws.amazon.com/neptune/vocab/v01/DefaultNamedGraph, de la siguiente manera:
```
INTO GRAPH <http://aws.amazon.com/neptune/vocab/v01/DefaultNamedGraph>
```

nota

Cuando necesite cargar muchos datos, le recomendamos que utilice el programa de carga masiva de Neptune en lugar de UPDATE LOAD. Para obtener más información acerca del programa de carga masiva, consulte Uso del programa de carga masiva de Amazon Neptune para adquirir datos.

Puede utilizar SPARQL UPDATE LOAD para cargar datos directamente desde Amazon S3 o desde archivos obtenidos de un servidor web con alojamiento propio. Los recursos que se cargarán deben residir en la misma región que el servidor de Neptune y el punto de conexión de los recursos debe estar permitido en la VPC. Para obtener información sobre cómo crear un punto de conexión de Amazon S3, consulte Creación de un punto de conexión de VPC de Amazon S3.

Todos los URI de SPARQL UPDATE LOAD deben empezar por https://. Esto incluye URL de Amazon S3.

En contraste con el programa de carga masiva de Neptune, una llamada a SPARQL UPDATE LOAD es completamente transaccional.

Carga de archivos directamente desde Amazon S3 en Neptune con SPARQL UPDATE LOAD

Dado que Neptune no le permite pasar un rol de IAM a Amazon S3 al usar SPARQL UPDATE LOAD, el bucket de Amazon S3 en cuestión debe ser público o debe usar una URL prefirmada de Amazon S3 en la consulta LOAD.

Para generar una URL prefirmada para un archivo de Amazon S3, puede utilizar un AWS CLI comando como este:


aws s3 presign --expires-in (number of seconds) s3://(bucket name)/(path to file of data to load)

A continuación, puede utilizar la URL prefirmada resultante en su comando de la LOAD:


curl https://(a Neptune endpoint URL):8182/sparql \
  --data-urlencode 'update=load (pre-signed URL of the remote Amazon S3 file of data to be loaded) \
                           into graph (named graph)'

Para obtener más información, consulte la sección sobre autenticación de solicitudes: uso de parámetros de consulta. La documentación de Boto3 muestra cómo usar un script de Python para generar una URL prefirmada.

además, el tipo de contenido de los archivos se cargarán se debe configurar correctamente.

Establezca el tipo de contenido de los archivos cuando los cargue en Amazon S3 con el parámetro -metadata de esta manera:


aws s3 cp test.nt s3://bucket-name/my-plain-text-input/test.nt --metadata Content-Type=text/plain
aws s3 cp test.rdf s3://bucket-name/my-rdf-input/test.rdf --metadata Content-Type=application/rdf+xml

Confirme que la información del tipo de medios está presente. Ejecuta:
```
curl -v bucket-name/folder-name
```
El resultado de este comando debería mostrar la información del tipo de medios que configura cuando carga los archivos.

A continuación puede utilizar el comando de la SPARQL UPDATE LOAD para importar estos archivos a Neptune:


curl https://your-neptune-endpoint:port/sparql \
  -d "update=LOAD <https://s3.amazonaws.com/bucket-name/my-rdf-input/test.rdf>"

Los pasos anteriores solo funcionan para un bucket de Amazon S3 público o para un bucket al que se accede mediante una URL de Amazon S3 prefirmada en la consulta LOAD.

También puede configurar un servidor proxy web para cargarlo desde un bucket de Amazon S3 privado, como se muestra a continuación:

Uso de un servidor web para cargar archivos en Neptune con SPARQL UPDATE LOAD

Instale un servidor web en una maquina que se ejecute en la VPC que hospeda Neptune y los archivos que se cargarán. Por ejemplo, si utiliza Amazon Linux, puede instalar Apache de la siguiente manera:
```
sudo yum install httpd mod_ssl
sudo /usr/sbin/apachectl start
```
Defina los tipos MIME del contenido del archivo de RDF que va a cargar. SPARQL utiliza el encabezado Content-type que envía el servidor web para determinar el formato de entrada del contenido, por lo tanto debe definir los tipos MIME relevantes para el servidor web.

Por ejemplo, suponga que utiliza las siguientes extensiones de archivo para identificar formatos de archivo:
- .nt para NTriples.
- .nq para NQuads.
- .trig para Trig.
- .rdfpara. RDF/XML
- .ttl para Turtle.
- .n3 para N3.
- .jsonldpara JSON-LD.
Si utiliza Apache 2 como servidor web, editaría el archivo /etc/mime.types y agregaría los siguientes tipos:
```
 text/plain nt
 application/n-quads nq
 application/trig trig
 application/rdf+xml rdf
 application/x-turtle ttl
 text/rdf+n3 n3
 application/ld+json jsonld
```
Confirme que el MIME-type mapeo funciona. Una vez que tenga su servidor web en funcionamiento y hospede archivos RDF con el formato de su elección, puede probar la configuración enviando una solicitud al servidor web desde su host local.

Por ejemplo, podría enviar una solicitud como esta:
```
curl -v http://localhost:80/test.rdf
```
Después, en la salida detallada de curl, debería ver una línea como:
```
Content-Type: application/rdf+xml
```
Esto muestra que la asignación del tipo de contenido se definió con éxito.

Ahora está listo para cargar datos utilizando el comando SPARQL UDPATE:


curl https://your-neptune-endpoint:port/sparql \
    -d "update=LOAD <http://web_server_private_ip:80/test.rdf>"

nota

El uso de SPARQL UPDATE LOAD puede desencadenar un tiempo de espera en el servidor web cuando el archivo de origen que se está cargando es grande. Neptune procesa los datos del archivo a medida que se transmiten y para un archivo grande puede tardar un tiempo superior al tiempo de espera configurado en el servidor. Esto, a su vez, puede hacer que el servidor cierre la conexión, lo que puede dar lugar al siguiente mensaje de error cuando Neptune encuentra un EOF inesperado en la secuencia:


{
  "detailedMessage":"Invalid syntax in the specified file",
  "code":"InvalidParameterException"
}

Si recibe este mensaje y no cree que el archivo de origen contenga sintaxis no válida, pruebe a aumentar la configuración de tiempo de espera en el servidor web. También puede diagnosticar el problema habilitando los registros de depuración en el servidor y buscando los tiempos de espera.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Soporte de tipo de medios de RDF

SPARQL UPDATE UNLOAD