Más

¿Cómo convertir características de capa de POLYGON a MULTIPOLYGON?

¿Cómo convertir características de capa de POLYGON a MULTIPOLYGON?


¿Cómo puedo convertir características de una capa de POLYGON a MULTIPOLYGON? Sé cómo hacer eso usando la función postgis ST_Multi, pero ¿cómo podría hacer lo mismo para una capa en QGIS?


Si desea hacerlo en base a un campo, puede hacerlo en QGIS desde el menú: Vector -> Herramientas de geometría -> Partes individuales a multiparte (requiere al menos dos poylgons para compartir un atributo que usted especifique).

Hay un equivalente más directo a ST_Multi en OGR. No encontré una manera de acceder a esta funcionalidad OGR específica a través de QGIS, pero eso se podría hacer usando GDAL / OGR de esta maneraogr2ogr -nlt MULTIPOLYGON multipolygon_output.shp polygon_input.shpMás detalles sobre el interruptor -nlt están disponibles en la página ogr2ogr.


Mientras espera la solución QGIS simple, puede ver cómo funciona con OpenJUMP a través del menú del botón derecho:


R como GIS para economistas

Aquí, aprendemos cómo se construyen los diferentes tipos de sfg. También aprendemos a crear sfc y sf a partir de sfg desde cero. 37

2.2.1 Geometría de entidad simple (sfg)

El paquete sf usa una clase de objetos sfg (geometría de entidad simple) para representar una geometría de una única entidad geométrica (digamos, una ciudad como un punto, un río como una línea, un condado y un distrito escolar como polígonos). Hay diferentes tipos de sfg. Aquí hay algunos tipos de características de ejemplo que comúnmente encontramos como economista 38:

  • PUNTO: característica sin área que representa un punto (por ejemplo, pozo, ciudad, tierra de cultivo)
  • LINESTRING: (por ejemplo, un afluente de un río)
  • MULTILINESTRING: (por ejemplo, río con más de un afluente)
  • POLÍGONO: geometría con un área positiva (por ejemplo, condado, estado, país)
  • MULTIPOLYGON: colección de polígonos para representar un solo objeto (por ejemplo, países con islas: EE. UU., Japón)

PUNTO es el tipo de geometría más simple y está representado por un vector de dos 39 valores numéricos. Un ejemplo a continuación muestra cómo se puede crear una función de PUNTO desde cero:

La función st_point () crea un objeto POINT cuando se le suministra un vector de dos valores numéricos. Si marca la clase del objeto recién creado,

puede ver que de hecho es un objeto POINT. Pero también es un objeto sfg. Entonces, a_point es un objeto sfg de tipo POINT.

Los objetos A LINESTRING se representan mediante una secuencia de puntos:

s1 es una matriz donde cada fila representa un punto. Al aplicar la función st_linestring () a s1, crea un objeto LINESTRING. Veamos cómo se ve la línea.

Como puede ver, cada par de puntos consecutivos en la matriz están conectados por una línea recta para formar una línea.

UN POLYGON es muy similar a LINESTRING en la forma en que se representa.

Al igual que el objeto LINESTRING que creamos anteriormente, un POLYGON está representado por una colección de puntos. La mayor diferencia entre ellos es que necesitamos tener un área positiva encerrada por líneas que conectan los puntos. Para hacer eso, tiene el mismo punto para el primer y último punto para cerrar el ciclo: aquí, es c (0,0). Un POLÍGONO puede tener un agujero. La primera matriz de una lista se convierte en el anillo exterior y todas las matrices posteriores serán huecos dentro del anillo exterior.

Puede crear un objeto MULTIPOLYGON de manera similar. La única diferencia es que proporciona una lista de listas de matrices, y cada lista interna representa un polígono. Un ejemplo a continuación:

Cada uno de list (p1, p2), list (p3, p4), list (p5) representa un polígono. Proporciona una lista de estas listas a la función st_multipolygon () para hacer un objeto MULTIPOLYGON.

2.2.2 Crear una columna de lista de geometría de entidad simple (sfc) y una entidad simple (sf) desde cero

Para hacer una columna de lista de geometría de entidad simple (sfc), simplemente puede proporcionar una lista de sfg a la función st_sfc () de la siguiente manera:

Para crear un objeto sf, primero agrega un sfc como columna a un data.frame.

En este punto, R todavía no lo reconoce como un sf.

Puede registrarlo como un objeto sf usando st_as_sf ().

Como puede ver, sf_ex ahora también se reconoce como un objeto sf.

Crear objetos espaciales desde cero es una habilidad innecesaria para muchos de nosotros como economistas. Sin embargo, es bueno conocer la estructura subyacente de los datos. Además, ocasionalmente surge la necesidad. Por ejemplo, tuve que construir objetos espaciales desde cero cuando diseñé ensayos de nitrógeno aleatorios en la granja. En tales casos, por supuesto, es necesario comprender cómo se construyen los diferentes tipos de sfg, crear sfc a partir de una colección de sfg y luego crear un sf a partir de un sfc.

Difícilmente verá los otros tipos de geometría: MULTIPOINT y GEOMETRYCOLLECTION. Puede ver GEOMETRYCOLLECTION después de cruzar dos objetos espaciales. Puedes ver aquí si estás interesado en conocer cuáles son.


R como GIS para economistas

Aquí discutimos formas de paralelizar el proceso de extracción de valores de muchos archivos ráster multicapa.

6.2.1 Conjuntos de datos

Usaremos los siguientes conjuntos de datos:

  • raster: datos PRISM diarios de 2010 a 2019 apilados por mes
  • polígonos: Cuadrículas de polígonos regulares sobre Iowa

precipitación PRISM diaria de 2010 a 2019

Puede descargar todos los archivos de prisma desde aquí. Para aquellos que estén interesados ​​en aprender cómo generar la serie de archivos de datos PRISM diarios almacenados por mes, consulte la sección 9.3 para obtener el código.

Condados de EE. UU.

6.2.2 Extracción no paralelizada

Ya hemos aprendido en el Capítulo 5.3 que extraer valores de capas ráster apiladas es más rápido que hacerlo de varios datasets ráster de una sola capa uno a la vez. Aquí, los conjuntos de datos de precipitación diaria se apilan por año-mes y se guardan como archivos GeoTIFF de múltiples capas. Por ejemplo, PRISM_ppt_y2009_m1.tif almacena los datos de precipitación diaria de enero de 2009. Este es el tiempo que se tarda en extraer los valores de los condados de EE. UU. a partir de un mes de datos de precipitación PRISM diarios.

Ahora, para procesar todos los datos de precipitación de 2009-2018, consideramos dos enfoques en esta sección:

  1. paralelizar polígonos y hacer un bucle regular año-mes
  2. paralelizar año-mes

6.2.3 Método 1: paralelizar polígonos y hacer un bucle regular año-mes

Para este enfoque, midamos el tiempo dedicado al procesamiento de un conjunto de datos PRISM de un año y un mes y luego adivinemos cuánto tiempo tomaría procesar los conjuntos de datos PRISM de 120 años y meses.

Bien, entonces este enfoque realmente no ayuda. Si vamos a procesar 10 años de datos PRISM diarios, tomaría aproximadamente 167,39 minutos.

6.2.4 Enfoque 2: paralelizar la dimensión temporal (año-mes)

En lugar de paralelizar polígonos, vamos a paralelizarnos a lo largo del tiempo (año-mes). Para hacerlo, primero creamos un data.frame que tiene todas las combinaciones de año y mes en las que trabajaremos.

La siguiente función extrae datos de un solo caso año-mes:

Luego recorremos las filas de month_year_data en paralelo.

Tomó 7.52 minutos. Entonces, el enfoque 2 es el claro ganador.

6.2.5 Consideración de la memoria

Hasta ahora, no hemos prestado atención a la huella de memoria de los procesos paralelizados. Pero es crucial cuando se paralelizan muchos conjuntos de datos grandes. Los enfoques 1 y 2 difieren sustancialmente en sus huellas de memoria.

El Método 1 divide los polígonos en un grupo de polígonos y los paraleliza sobre los grupos al extraer valores ráster. Approach 2 extrae y retiene valores de ráster para 15 de los polígonos de EE. UU. Completos. Por lo tanto, el enfoque 1 claramente tiene una huella de memoria menor. El Método 2 usó alrededor de 40 Gb de la memoria de la computadora, casi maximizando la memoria RAM de 64 Gb de mi computadora (no solo R o C ++ están consumiendo memoria RAM en ese momento). Si no sobrepasa el límite, está perfectamente bien. El enfoque 2 es definitivamente una mejor opción para mí. Sin embargo, si tuviera 32 Gb de memoria RAM, el Approach 2 habría sufrido una pérdida significativa en su rendimiento, mientras que el Approach 1 no. O, si los datos ráster tuvieran el doble de celdas con la misma extensión espacial, entonces el Método 2 habría sufrido una pérdida significativa en su rendimiento, mientras que el Método 1 no.

Es fácil pensar en un caso en el que sea preferible el Método 1. Por ejemplo, suponga que tiene varias capas ráster de 10 Gb y su computadora tiene una memoria RAM de 16 Gb. Entonces, el Método 2 claramente no funciona, y el Método 1 es su única opción, que es mejor que no hacer nada en paralelo.

En resumen, mientras permite que cada núcleo procese una mayor cantidad de datos, debe tener cuidado de no exceder el límite de memoria RAM de su computadora.


Descubrimiento del conocimiento en la recuperación de información cartográfica espacial.

LOS CATÁLOGOS DE BIBLIOTECA PARA COLECCIONES DE MAPAS no están bien desarrollados en la mayoría de las bibliotecas. La fuente de información cartográfica se diferencia de otros tipos de información en que normalmente tiene forma rectangular y está definida por las coordenadas de las cuatro esquinas del mapa. Esta información de coordenadas resulta difícil de usar para muchas personas, a menos que se diseñe una determinada interfaz de usuario y se implementen algoritmos de descubrimiento de conocimientos. Un sistema con una interfaz y algoritmos de este tipo puede realizar consultas poderosas que un sistema de recuperación de información basado en texto ordinario no puede. Este artículo describe un sistema prototipo, GeoMatch, que permite a los usuarios definir de forma interactiva áreas geográficas de interés en un mapa de fondo. También permite a los usuarios definir, cualitativa o cuantitativamente, la relación entre el área definida por el usuario y la cobertura del mapa. El factor de descubrimiento de conocimiento en la base de datos (KDD) se analiza en el proceso de recuperación. Se entrevistó a tres bibliotecarios para estudiar la viabilidad del nuevo sistema. El formato de registro MARC también se analiza para argumentar que la conversión de registros de material cartográfico de un sistema de catálogo en línea de una biblioteca existente a GeoMatch se puede hacer automáticamente.

El descubrimiento de conocimientos en bases de datos (KDD) se ha convertido en un tema candente en los últimos años. El método KDD se ha utilizado en varios campos, incluido el análisis de bases de datos espaciales (Xu et al., 1997), la clasificación automática (Bell, 1998), la detección de desviaciones (Schmitz, 1990) y la agrupación (Cheesman, 1996). Este artículo explora el uso de KDD en la recuperación de información al examinar la naturaleza y el proceso de recuperación de información geográfica. Trata de las características de los Sistemas de Información Geográfica (SIG), Registros Bibliográficos para Información Cartográfica y un sistema de recuperación de información cartográfica basado en SIG - GeoMatch.

SIG Y FUNCIONES RELACIONADAS CON EL SISTEMA DE RECUPERACIÓN DE INFORMACIÓN BASADO EN SIG

El Environmental System Research Institute (ESRI) es el mayor productor de software SIG del mundo. ESRI define GIS en su menú (Environmental System Research Institute, 1991) como: "Una colección organizada de hardware, software, datos geográficos y personal de computadora diseñado para capturar, almacenar, actualizar, manipular, analizar y mostrar de manera eficiente todas las formas de información geográfica. información referenciada ". La mayoría de las palabras de esta definición se pueden encontrar en definiciones de muchos otros sistemas de información. Lo que hace que GIS sea especial es el término datos referenciados geográficamente. GIS utiliza la ubicación espacial como el vínculo principal para organizar y manipular la información.

Un SIG típico tiene dos componentes funcionales principales: un sistema de administración de bases de datos, que almacena y manipula los datos, y un motor espacial, que realiza operaciones topológicas especiales en características geográficas. Un malentendido común de SIG es considerarlo simplemente un creador de mapas computarizado. GIS es una poderosa herramienta analítica que es mucho más sofisticada que un cartógrafo. Es cierto que algunos productos SIG del mercado están simplificados para que los usuarios ingenuos de SIG puedan generar, ver e imprimir mapas. Estos "visores" / paquetes de software a menudo solo admiten funciones limitadas de manipulación de datos. No se consideran sistemas SIG completamente funcionales. Un SIG puede realizar análisis de red, superposición, almacenamiento en búfer y muchas otras operaciones que pocos otros sistemas de información pueden realizar. Como resumió Burrough (1990), un SIG puede responder preguntas como:

* ¿Dónde está 785 S. Allen Street en Albany, Nueva York?

* ¿En qué sector censal se encuentra la dirección anterior?

* ¿Cuántos supermercados hay a tres millas de la dirección anterior?

* Un camión de reparto debe entregar artículos a 200 clientes. ¿Cuál es la ruta y secuencia más corta para realizar la entrega? Si se dispone de información sobre el tráfico por carretera, ¿cuál es la ruta más rápida para finalizar la tarea?

* Dada la población de un condado, ¿cuál es la densidad de población? (GIS puede calcular el área del condado con precisión).

* Se va a construir un nuevo centro comercial en la ciudad. El centro comercial debe construirse al menos a cinco millas de distancia de los centros comerciales existentes junto a una calle principal rodeada por 5,000 residentes dentro de un radio de cuatro millas y no más de diez millas del centro de la ciudad. ¿Cuál es el mejor lugar para construir el nuevo centro comercial?

Hay muchas otras preguntas que solo un SIG puede responder. Una de las funciones de SIG que está muy relacionada con el sistema de recuperación de información geográfica es la superposición. Es necesario definir algunos conceptos para comprender el proceso de superposición.

En un SIG, un polígono es un área cerrada delimitada por líneas como una sección censal o un condado. En consecuencia, los polígonos tienen áreas y parámetros que un SIG puede calcular. Una capa o un tema es un concepto para un único mapa de características en SIG. Por ejemplo, un mapa de condado de Florida que muestra la edad promedio de una población es una capa de polígono. GIS puede integrar estas capas de una sola entidad para su análisis.

GIS tiene la capacidad de construir topología geométrica. Puede determinar qué líneas se cruzan entre sí para crear un nodo en el punto de cruce. Puede detectar qué líneas están conectadas para crear un polígono cerrado. Luego, SIG puede generar un objeto poligonal con características como área y parámetro. La topología en un SIG se puede expresar como la relación de puntos, líneas y polígonos. GIS puede realizar un análisis espacial sofisticado una vez establecida la topología.

El proceso de fusión de varias capas se denomina superposición, una función única de GIS. Por ejemplo, suponga que hay dos mapas impresos en transparencias: un mapa de distritos censales y un mapa de un lago, todos en el mismo condado. Si ambos mapas están exactamente en la misma escala y las cuatro esquinas de los dos mapas representan exactamente las mismas ubicaciones, las dos transparencias se pueden juntar para hacer un nuevo mapa, con los límites del condado y la orilla del lago. El nuevo mapa es la denominada superposición. GIS es muy poderoso para realizar esta operación. Puede superponer mapas con diferentes tipos de características (punto, línea, polígono) y desarrollar nuevas topologías para su posterior análisis. Burrough (1990) enumera cuarenta y cuatro tipos de capacidades de análisis de superposición que pueden tener los SIG. La Figura 1 muestra el proceso de superposición. La primera capa del mapa muestra los límites del distrito escolar (Distrito C y Distrito D). La segunda capa de mapa representa los límites del condado (condado A y condado B). Durante el proceso de superposición, GIS combina las características de ambas capas del mapa en una tercera capa que contiene cuatro polígonos. En la tercera capa de mapa, cada polígono tendrá atributos tanto de la capa de mapa del condado como de la capa de mapa del distrito escolar. Por ejemplo, el área 1 tendrá su área, parámetro, nombre del condado A, nombre del distrito escolar C y otros datos almacenados previamente en las dos capas del mapa. Obviamente, sería difícil integrar los datos del distrito escolar y los datos del condado como este utilizando solo técnicas de base de datos porque los datos recopilados representan áreas diferentes.

[Figura 1 ILUSTRACIÓN OMITIDA]

DESCUBRIMIENTO DE CONOCIMIENTOS EN BASES DE DATOS Y RECUPERACIÓN DE INFORMACIÓN

Debido al almacenamiento de datos menos costoso y al aumento de la potencia informática, el volumen de datos recopilados por varias organizaciones se ha expandido rápidamente. Esta gran abundancia de datos, a menudo almacenados en conjuntos de datos separados, dificulta la búsqueda de información relevante. Por otro lado, el poder de las computadoras también hace posible integrar los conjuntos de datos, compilar los hechos y desarrollar la información en "una colección de inferencias relacionadas" (Trybula, 1997). Es por eso que KDD ha recibido tanta atención tanto del mundo académico como del comercial. Según Tuzhilin (1997), el número de artículos presentados al Taller de Descubrimiento del Conocimiento aumentó de 40 en 1993 a 215 en 1996.

Fayyad, Piatetsky-Shapiro y Smyth (1996) definen KDD como "el proceso no trivial de identificar patrones de datos válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles" (p. 2). Como resumió Trybula (1997), los métodos de evaluación de datos incluyen algoritmos, asociación, determinación de cambios y desviaciones, visualización y otras dieciséis técnicas analíticas. Independientemente del método que se utilice, el punto clave de KDD es descubrir conocimientos nuevos, útiles y comprensibles.

La recuperación de información se puede expresar simplemente como un proceso de correspondencia: hacer coincidir la necesidad de información de un usuario con la fuente de información (School of Information Studies, 1998). En este proceso, un usuario debe expresar su necesidad de información con precisión para que el sistema pueda recuperar la información. Por otro lado, las fuentes de información deben organizarse de tal manera que los atributos más importantes, como el título, el autor, los términos del tema, las palabras clave, el año de publicación, etc., estén fácilmente disponibles.

Los sistemas de recuperación de información de texto se han vuelto más poderosos en las últimas tres décadas. La eficiencia y efectividad de la recuperación se ha mejorado enormemente a través de operadores booleanos, truncamientos, proximidad, búsqueda de probabilidad y muchos otros mecanismos de búsqueda. Sin embargo, algunos atributos en los registros bibliográficos pueden crear dificultades para encontrar coincidencias exactas en una búsqueda. Algunos atributos son incluso difíciles de entender para los usuarios. Por ejemplo, las coordenadas geográficas son atributos en los registros MARC para datos cartográficos. Pocos usuarios querrían o podrían ingresar números exactos para que coincidan con esas coordenadas. Incluso menos sabrían lo que significan los números. Sin embargo, a pesar de estas dificultades, ¿podrían las coordenadas ser útiles en la recuperación de información? ¿Pueden procesarse para proporcionar conocimientos comprensibles y útiles a la hora de seleccionar la información relevante?

Este artículo demostrará un prototipo de un sistema de recuperación de información cartográfica basado en SIG e ilustrará cómo dicho sistema podría generar conocimiento nuevo y útil durante el proceso de recuperación.

RECUPERACIÓN DE INFORMACIÓN CARTOGRÁFICA

Recuperación de información cartográfica en bibliotecas

Un punto de acceso se define como "un nombre, término, código, etc., bajo el cual se puede buscar e identificar un registro bibliográfico" (Glosario, 1995). Un sistema ordinario de recuperación de información suele tener puntos de acceso comunes como autor, título, palabras clave, encabezados de materia, número de clasificación e información de otros campos especiales.

Además de su cobertura espacial, una fuente de información cartográfica, como un mapa de una sola hoja, comparte la mayoría de los atributos que tienen otras fuentes de información, incluidos el título y los términos del tema. Una fuente de información cartográfica se diferencia de otros formatos en que, como contenedor de información, suele tener la forma de un rectángulo y contiene las coordenadas de las cuatro esquinas del mapa. Sin embargo, la mayoría de los sistemas de recuperación actuales no utilizan coordenadas geográficas como puntos de acceso porque esto no tiene sentido en un sistema de recuperación de información de texto. Muchas bibliotecas todavía están en proceso de conversión retrospectiva de catálogos de tarjetas a catálogos en línea basados ​​en texto para sus colecciones de mapas. Para estudiar la viabilidad de que las bibliotecas adopten un sistema de recuperación de información cartográfica basado en SIG, se llevaron a cabo largas entrevistas con tres bibliotecarios en dos bibliotecas de Tallahassee, Florida.

Durante cada entrevista, se demostró un prototipo de un sistema de recuperación de información cartográfica basado en SIG (GeoMatch). Se pidió a los bibliotecarios que respondieran preguntas sobre la colección de mapas de la biblioteca, las necesidades de los usuarios, las herramientas de recuperación y los procedimientos de búsqueda. También se pidió a los bibliotecarios que evaluaran la usabilidad del software prototipo y evaluaran la utilidad del sistema.

La mayor parte de la colección de mapas de la Biblioteca Estatal de Florida consta de mapas históricos. Aunque la biblioteca actualmente subcontrata la catalogación de mapas a una organización asociada con OCLC, el catálogo de tarjetas sigue siendo la principal herramienta de recuperación de la colección de mapas. La biblioteca ha agregado solo 800 mapas a su catálogo en línea. El catálogo en línea presenta la búsqueda de palabras clave, que proporciona más poder de recuperación que el catálogo de tarjetas. El catálogo de tarjetas permite buscar solo por autor, título y términos de la materia. Durante las entrevistas, los bibliotecarios indicaron que habían visto más usuarios usando el catálogo desde que se implementó la versión en línea.

La biblioteca aún no tiene ningún plan para digitalizar (escanear) los mapas. Los usuarios generalmente no pueden encontrar los mapas necesarios usando el catálogo de tarjetas. Algunos usuarios pueden localizar sus mapas utilizando el catálogo en línea con búsqueda de palabras clave. En términos generales, los usuarios confían principalmente en los bibliotecarios de mapas para encontrar mapas y acceder a ellos.

Aunque el sistema de catálogo en línea no puede brindar suficiente asistencia para acceder a la información cartográfica, todos los días muchos usuarios de mapas buscan mapas históricos, mapas de vías férreas y nombres de lugares. Se debe confiar mucho en el conocimiento y la experiencia de los bibliotecarios de mapas.

BIBLIOTECA DE LA UNIVERSIDAD DEL ESTADO DE FLORIDA

La biblioteca de la Universidad Estatal de Florida (FSU) tiene una colección de 165,000 mapas de una sola hoja, incluidos mapas del Servicio Geológico de los Estados Unidos, mapas de carreteras, mapas de ciudades, mapas temáticos y mapas históricos. Los registros de la mayoría de los mapas de una sola hoja se mantienen en el catálogo de tarjetas. Los bibliotecarios han comenzado la conversión retrospectiva de registros de catálogos de tarjetas de mapas en registros de catálogos en línea utilizando OCLC. Según el bibliotecario de mapas, la mayoría de los registros se pueden encontrar en la base de datos de OCLC. Durante el proceso de conversión, el bibliotecario debe realizar cambios menores antes de agregar los registros de OCLC al catálogo en línea de la biblioteca.

Los bibliotecarios sirven a muchos usuarios de mapas todos los días, incluidos profesores, estudiantes y usuarios referidos por otras bibliotecas. Los bibliotecarios de mapas están muy familiarizados con la colección de mapas y, por lo general, pueden encontrar los mapas necesarios. La situación en la biblioteca de la FSU es similar a la de la Biblioteca del Estado de Florida, es decir, los bibliotecarios de mapas son la fuente de información más valiosa, dado que el sistema de catálogo para los datos cartográficos no es muy útil.

En resumen, los bibliotecarios de mapas de ambas bibliotecas son las fuentes de información más importantes para los usuarios que buscan datos cartográficos.

Ambas bibliotecas están en proceso de convertir registros cartográficos en el catálogo de fichas al catálogo en línea. El catálogo en línea con capacidad de búsqueda ha llevado a un mayor uso de mapas.

Aunque la mayoría de los usuarios pueden acceder a la información cartográfica que necesitan con la ayuda de los bibliotecarios, esta situación debe mejorarse por varias razones. Primero, los bibliotecarios de mapas no están seguros de si realmente encuentran o no los mapas que mejor se adaptan a las necesidades de los usuarios. En segundo lugar, ninguno de los bibliotecarios cree que puede proporcionar una lista completa de mapas que puedan interesar a los usuarios, especialmente en una biblioteca con más de 100.000 mapas. Por último, la búsqueda de la información correcta en un sistema de este tipo se basa en gran medida en la experiencia humana. Como dijo un bibliotecario: "Depende del bibliotecario si el usuario puede obtener una respuesta satisfactoria". Si los bibliotecarios de mapas actuales abandonan sus puestos, los nuevos bibliotecarios de mapas tardarían años en familiarizarse con la colección de la biblioteca. Existe una gran demanda de una poderosa herramienta de búsqueda para la colección de mapas de la biblioteca.

ESTUDIOS DE HERRAMIENTAS DE RECUPERACIÓN DE BASE GEOGRÁFICA

Una revisión de la literatura indica que se han creado sistemas de recuperación de información cartográfica más avanzados, diseñados para buscar mapas electrónicos, que aún se encuentran en proceso de perfeccionamiento. El Proyecto Alexandria es probablemente el sistema de bibliotecas electrónicas más conocido que se ocupa de las relaciones topológicas.

Smith (1996) describió el objetivo de Alexandria Project Digital Library (ADL) como "construir una biblioteca digital distribuida (DL) para materiales referenciados geográficamente. Una función central de ADL es proporcionar a los usuarios acceso a una amplia gama de materiales, que van desde mapas e imágenes hasta texto y multimedia, en términos de referencia geográfica "(http://www.dlib.org/dlib.org/dlib/march96/briefings/smith/ 03smith.html).

El equipo secundario del Atlas de Alexandria investiga "el diseño y la funcionalidad de un atlas que respaldaría el acceso gráfico / geográfico a los materiales de la biblioteca" (http://wwww.alexandria.ucsb.edu/public-documents/ annual-report97 / node28.html # SECTION00051300000000000000 ). Como indica el sitio web de Alexandria, "la búsqueda espacial no ha sido un servicio disponible para los clientes de la biblioteca y no está del todo claro cómo reaccionarán los clientes de ADL al tener datos espaciales reales disponibles en la web" (http: // www.alexandria. ucsb.edu/public-documents/annual-r port97 / node28.html # SECTION00051300000000000000). El equipo está estudiando cuestiones como la escala, el registro de datos, la presentación de los resultados de la búsqueda y las huellas borrosas.

El sistema Alexandria admite la exploración y la recuperación geográficas mediante una interfaz de mapa gráfico. Puede encontrar un ejemplo de la interfaz en & lthttp: //www.dlib.org/dlib/march96/briefings/smith/ 03smith.html & gt. Los usuarios pueden acercar y alejar la vista actual del mapa. Pueden seleccionar las características del mapa que desean ver en el mapa de fondo, como fronteras y ríos. Los usuarios también pueden seleccionar un área de interés y un modo de superposiciones de contenido. Una descripción general del sistema está disponible en & lthttp: //www.alexandria.ucsb.edu/adljigi/tutorials/ walkthrough1 / walkthrou & gt.

El prototipo de GeoMatch tiene algunas funciones nuevas además de las disponibles en el sistema Alexandria. La iniciativa de probar GeoMatch es responder a las siguientes dos preguntas: (1) ¿se puede usar una herramienta de recuperación basada en SIG / Gráficos como el proyecto Alexandria para colecciones cartográficas no electrónicas en bibliotecas? y (2) ¿qué nuevas funciones se pueden desarrollar para mejorar la herramienta de recuperación basada en SIG?

GEO-MATCH: UNA HERRAMIENTA DE RECUPERACIÓN QUE BUSCA

La Figura 2 ilustra una pantalla de consulta del sistema Geo-Match. Además de especificar las necesidades de información ordinarias, como año, título, editor, palabra clave, etc., este sistema permite al usuario identificar de forma interactiva el área interesada utilizando un mouse. También le pide al usuario que especifique la relación topológica entre la cobertura del mapa y el área seleccionada por el usuario. El sistema acepta relaciones de contención y superposición como resumen Cobb y Petry (1998). Hay dos posibles relaciones de contención: el área seleccionada por el usuario cae completamente dentro de la cobertura de un mapa o la cobertura de un mapa cae dentro del área seleccionada por el usuario. Los usuarios pueden hacer una selección.

[Figura 2 ILUSTRACIÓN OMITIDA]

Si un usuario decide seleccionar la relación superpuesta, hay más opciones disponibles para especificar cuantitativamente el grado de superposición. Este grado incluye el porcentaje del área superpuesta en los mapas y el porcentaje del área superpuesta en el área seleccionada por el usuario. Si un usuario selecciona el 85 por ciento como criterio de superposición en el área seleccionada por el usuario, el usuario encontrará mapas que cubren la mayor parte del área de interés (Figura 3). Si un usuario selecciona el 85 por ciento como criterio de superposición en la cobertura del mapa, el usuario encontrará mapas que se concentran en el área seleccionada (Figura 4). Los usuarios pueden especificar cómo se deben clasificar los resultados de la búsqueda según el grado de superposición.

[Figuras 3-4 ILUSTRACIÓN OMITIDA]

Las características clave del prototipo son su capacidad para que el usuario identifique interactivamente el área de interés, es decir, para especificar cuantitativamente la relación entre el área definida por el usuario y la cobertura del mapa, y para clasificar los resultados de la búsqueda según el grado de superposición.

USO DE GRÁFICOS PARA EXPRESAR LA NECESIDAD DE INFORMACIÓN

La información cartográfica está referenciada geográficamente: representa ubicaciones y áreas en la tierra. La representación de información convencional usando texto y símbolos no es muy útil para describir la información incluida en un mapa, hay demasiadas características geográficas incluidas en un área. Por ejemplo, un mapa ferroviario de Florida se puede indexar utilizando las palabras clave ferrocarril y Florida. Sin embargo, el mapa también incluye todos los ferrocarriles de cada condado de Florida. Indica la construcción de un ferrocarril en el área de Jacksonville y demuestra el ferrocarril cerca del lago xxx. Es prácticamente imposible indexar todos los nombres de lugares incluidos en un área. Cuando un usuario dibuja un cuadro para especificar un área de interés, la información solicitada requeriría muchas palabras para describirla. Una interfaz gráfica puede ocultar los números de coordenadas y presentarlos en gráficos escalables, lo que hace que sea mucho más fácil para los usuarios descubrir los recursos de información cartográfica de interés.

Además del problema de representación de la información discutido anteriormente, una interfaz gráfica también evita problemas a los usuarios cuando ocurren cambios en los nombres de lugares y límites de los condados o cuando simplemente no saben el nombre exacto para comenzar la búsqueda.

NIVEL 1 EN KD - ESPECIFICACIÓN DE RELACIONES TOPOLÓGICAS CUALITATIVAMENTE ENTRE EL ÁREA DEFINIDA POR EL USUARIO Y LA COBERTURA DEL MAPA

Como se discutió anteriormente, el Proyecto Alexandria puede especificar relaciones topológicas cualitativamente entre el área definida por el usuario y la cobertura del mapa en su sistema de recuperación de información cartográfica electrónica. Este proceso de emparejamiento va más allá del emparejamiento exacto en un sistema convencional de recuperación de información. El sistema informático calculará la relación topológica entre el área definida por el usuario y la cobertura de los mapas para determinar si se superponen o si uno contiene completamente a otro.

Cobb y Petry (1998) presentaron un modelo para definir y representar relaciones binarias topológicas y direccionales entre objetos bidimensionales. Estas relaciones se pueden utilizar para consultas difusas. Cobb y Petry (1998) resumen que hay cuatro tipos de relaciones principales: disjuntas, tangentes (una al lado de la otra), superposición y contención. La suposición de GeoMatch es que los usuarios encontrarían la superposición y la contención más útiles al consultar el sistema.

Las operaciones involucradas en lo anterior incluyen la conversión de las coordenadas de la pantalla a las coordenadas del mundo real y la comparación de las coordenadas de las esquinas del área definida por el usuario y los límites del mapa. El nuevo conocimiento - si dos áreas se superponen - se genera en este proceso. El conocimiento adquirido se puede utilizar para llevar a los usuarios a la fuente de información relevante. GeoMatch ofrece a los usuarios una opción adicional más allá del sistema Alexandria con la que definir la relación de contención.

NIVEL 2 EN KD - ESPECIFICACIÓN DE UNA RELACIÓN TOPOLÓGICA CUANTITATIVAMENTE ENTRE EL ÁREA DEFINIDA POR EL USUARIO (RECTÁNGULO) Y LA COBERTURA DEL MAPA

Especificar una relación topológica cuantitativamente entre el área definida por el usuario y la cobertura del mapa es una característica única del sistema GeoMatch. En este proceso, no solo se determina la relación topológica de las dos áreas, sino que se realizan más cálculos matemáticos para estimar cuánto se superponen las dos áreas. By combining the information input by users and the data stored in the database, the computer algorithm discovers new knowledge not explicitly represented in the database. Since the user-defined area is rectangular, the calculation involved is not overwhelming and can be realized using a conventional programming language such as C++ or Visual Basic.

This feature allows the system to achieve a higher recall and precision than those systems without this function. Gluck (1995) made an analysis of the relevance and competence in evaluating the performance of information systems. He indicated that "relevance judgments by users most often assess the qualities of retrieved materials item by item at a particular point in time and within a particular user context" (p. 447). Using the qualitative topological matching technique described in Level 1 above, there could be a large gap between the relevance of the system's view and the relevance of the user's view. For example, users may find that some retrieved maps cover only a small part of the area of interest and in fact are useless, but these maps are relevant from the system's view since they overlap the user-defined area. Users may also find that some retrieved maps cover such a large area that the area of actual interest encompasses only a small portion of the whole map. These maps are relevant too from the system's view but, again, practically useless for users. The reason for such a gap between the user's view and system's view is that not enough "knowledge" is discovered and provided for users to describe their information need in more detail. The techniques employed in the quantitative topological matching can greatly reduce the gap of relevance between the two perspectives. In addition, Geomatch can calculate the spatial relevance of the maps to the area of interest and rank the results using the quantitative overlapping factor, while many systems fail to "provide useful ordering of retrieved records" (Larson, McDonough, O'Leary, Kuntz, & Moon, 1990, p. 550). This function is particularly helpful for users when hundreds of maps are included in the result set.

LEVEL 3 IN KD--SPECIFYING TOPOLOGICAL RELATIONSHIP QUANTITATIVELY BETWEEN USER-DEFINED AREA (FREE STYLE) AND MAP COVERAGE

Specifying a topological relationship quantitatively between a user-defined area and map coverage differs from level 2 in that users are allowed to use the mouse to define an irregular area of interest rather than a straight rectangle. This feature can help users express their information need more precisely. For example, a user interested in the lake shore area of a lake can draw an irregular circle around the lake and perform a search.

This process involves complicated topological calculations that are difficult to accomplish using conventional programming languages. The GIS overlay function introduced at the beginning of this discussion needs to be used to generate new polygons and calculate the areas involved. Although the GeoMatch prototype currently does not have this feature, this function could be implemented using a third party GIS software such as the Spatial Engine from ESRI.

MARC RECORD FOR CARTOGRAPHIC INFORMATION RESOURCES

Whether an information system can be adopted depends not only on its creativity and usefulness but also on the degree of difficulty in converting the current system to the new system. MARC record format is studied to examine what new information needs to be collected to use GeoMatch.

US MARC (Machine Readable Cataloging), developed by the Library of Congress, follows the national standard (ANSI/NISO Z39.50) and international standard. It is the basic format of bibliographic description in the United States. Most online catalogs have a MARC interface for data import and export. OCLC, the bibliographic utility, also provides records in MARC format for members to share.

The current MARC format provides sufficient geographic information to support a more powerful searching tool such as GeoMatch. The most important field is Field 034--Coded Mathematical Data Area Field (Mangan, 1984). If a single set of scales is used, the first indicator is set to "1." The subfield codes include $b (ratio linear horizontal scale) Sc (ratio linear vertical scale) Sd (coordinates--westernmost longitude) Se (coordinates--easternmost longitude) $f (coordinates--northernmost latitude) and $g (coordinates--southernmost latitude). The following is an example of the MARC record 034 field:

The field above illustrates that the map covers an area from West 164 [degrees] 00'00" to West 044 [degrees] 00'00" in longitude and from North 090 [degrees] 00'00" to North 040 [degrees] 00'00" in latitude. This demonstrates that MARC records are capable of defining the scope of a map, and the data are usable in systems like GeoMatch. No additional value-adding operations are necessary unless the bibliographic record of a map is not available from the OCLC database or no matching MARC record is available for the map. If a library already has its map collection in its online catalog, all the records can be imported into GeoMatch automatically.

When librarians at the Florida State Library reviewed the prototype for GeoMatch, they realized that it could give answers to difficult questions. For example, towns may disappear over time, county boundaries may change, and users might not remember an exact place name. In such cases, GeoMatch could be very helpful.

Florida State University Library

The librarian showed interest in the GeoMatch system. She thought the system could be useful but should be integrated with the university library catalog system. When the librarian was asked whether the GeoMatch system could solve some difficult to answer questions, she provided the following example:

In summary, librarians in both libraries confirmed the need for a retrieval tool with a graphic user interface facilitating location-based searching. Such a tool is especially important when a user does not know the exact place name but knows approximately the locations of interest or when the name of a place has changed.

Nevertheless, while the librarians judged the system to be creative and potentially useful, they were not eager to implement such a system in their own libraries.

New spatial information retrieval tools are needed to improve the efficiency and effectiveness of geographically referenced searching. The GeoMatch prototype demonstrates that a graphic-based interface can mine the geographical data buried in MARC records and other geospatial sources and visualize the new knowledge discovered in these data. Combined with the text retrieval capability, this knowledge discovery tool provides users with greater flexibility in locating the information they need. Discovering knowledge in geospatial data is distinct from text information searching because it uses algorithms to convert coordinate information into user-understandable and useful knowledge.

The main contribution of GeoMatch is the quantitative analysis of the relationship in the retrieval process. Not only can it help users to more precisely define their information need and adjust the searching strategy, but it can also be used to rank the results.

The study of the MARC format shows that it supports the data requirements of GeoMatch, and no additional information is required for converting an existing online catalog to GeoMatch.

Future research in geospatial information retrieval systems will focus on the usability of the system and the theoretical framework of spatial information retrieval, including:

1. usability testing of GeoMatch to study the user friendliness and usefulness of the system

2. field testing of implementing GeoMatch in a library catalog system

3. evaluation of the efficiency and effectiveness of the quantitative overlapping function

4. design of the formula and algorithms to rank the searching result using factors from spatial comparison and factors from text information retrieval such as keywords

6. application of such a system to information sources other than paper maps, including electronic images and information that can be geographically referenced and

7. accessibility of such a system over the Web.

Results from these studies could enrich the theories in spatial information retrieval and lead to more powerful and user-friendly information retrieval tools.

Bell, D. A., & Guan, J. W. (1998). Computational methods for rough classification and discovery. Journal of the American Society for Information Science, 49(5), 403-414.

Burrough, P. A. (1990). Principles of geographical information systems for land resources assessment. Oxford: Clarendon Press.

Cheeseman, P., & Stutz, J. (1996). Bayesian classification (autoclass): Theory and results. In U. M. Fayyad (Ed.), Advances in knowledge discovery and data mining (pp. 153-180). Menlo Park, CA: AAAI Press.

Cobb, M. A., & Petry, F. E. (1998). Modeling spatial relationships within a fuzzy framework. Journal of the American Society for Information Science, 49(3), 253-266.

Environmental System Research Institute. (1991). Understanding GIS. Redland, CA: ESRI.

Fayyad, U. M. Piatetsky-Shapiro, G. & Smyth, P. (1996). From data mining to knowledge discovery: An overview. In U. M. Fayyad (Ed.), Advances in knowledge discovery and data mining (pp. 1-34). Menlo Park, CA: AAAI Press.

Glossary. (1995). Retrieved August 18, 1999 from the World Wide Web: http:// www.libraries.rutgers.edu/rulib/abtlib/alexlib/glossary-html.

Gluck, M. (1995). Understanding performance in information systems: Blending relevance and competence. Journal of the American Society for Information Science, 46(6), 446-460.

Larson, R. R. McDonough, J. O'Leary, P. Kuntz, L. & Moon, R. (1996). Cheshire II: Designing a next-generation online catalog. Journal of the American Society for Information Science, 47(7), 555-567.

Mangan, E. U. (1984). MARC conversion manual--maps: Content designation conventions and procedures for AACR2. Washington, DC: Library of Congress.

Schmitz, J. (1990). Coverstory--automated news finding in marketing. Interfaces, 20(6), 29-38.

School of Information Studies, FSU. (1999). Foundations of information studies. Retrieved May 17, 1999 from the World Wide Web: http://slis-one.lis.fsu.edu/courses/5230/.

Smith, T. R. (1996). A brief update on the Alexandria digital library project--constructing a digital library for geographically-referenced materials. Retrieved August 6, 1999 from the World Wide Web: http://alexandria.sdc.ucsb.edu.

Smith, T. R. (1998). Alexandria atlas subteam. Retrieved August 6, 1999 from the World Wide Web: http://alexandria.sdc.ucsb.edu.

Trybula, W. J. (1997). Data mining and knowledge discovery. In M. E. Williams (Ed.), Annual review of information science and technology (pp. 197-229). Medford, NJ: Information Today.

Tuzhilin, A. (1997). Editor's introduction to the special issue on knowledge discovery and its applications to business decision-making. Decision Support Systems, 21(1), 1-2.

Xu, X. W. Ester, M. Kriegel, H. P. &Sander, J. (1997). Clustering and knowledge discovery in spatial databases. Vistas in Astronomy, 41(3), 397-403.

Carter, C. L., & Hamilton, J. (1998). Efficient attribute-oriented generalization for knowledge discovery from large databases. IEEE transactions on knowledge and data engineering, 10(2), 193-208.

Chen, Z., & Zhu, Q. (1998). Query construction for user-guided knowledge discovery in databases. Journal of Information Sciences, 109(1-4), 49-64.

Connaway, L. S. Kochtanek, T. R. & Adams, D. (1994). MARC bibliographic records: Considerations and conversion procedures for microcomputer database programs. Microcomputers for Information Management, 11 (2), 69-88.

Deogun, J. S. Choubey, S. K. Raghavan, V. V. & Sever, H. (1998). Feature selection and effective classifiers. Journal of the American Society for Information Science, 49(5), 423-434.

Maddouri, M. Elloumi, S. & Jaoua, A. (1998). An incremental learning system for imprecise and uncertain knowledge discovery. Journal of Information Science, 109(1-4), 149164.

Morik, K., & Brockhausen, P. (1997). A multistrategy approach to relational knowledge discovery in databases. Machine Learning, 27(3), 287-312.

Vickery, B. (1997). Knowledge discovery from databases: An introductory review. Journal of Documentation, 53(2), 107-122.

Lixin Yu, School of Information Studies, Florida State University, Tallahassee, FL 32306-2100

LIXIN YU is an Assistant Professor at the School of Information Studies, Florida State University, where he teaches courses in database management, user interface design, and information system design and development. He worked as a Project Manager at Geosocial Resources, Inc. and has been working on Geographic Information System projects since 1990. He has published articles on GIS including "Geographic Information Systems in Library Reference Services: Development and Challenge" (Reference Librarian, February 1998) and "Assessing the Efficiency and Accuracy of Street Address Geocoding Strategies" (Proceedings of GIS '97, December 1997).3


Data Transfer

For many projects, it would be nearly impossible to gather all of the necessary data on your own. That’s where external data sources come in. Regardless of where the data comes from, GIS software can overlay all of the information into a single, layered map.

Sources

Any information tied to a specific location can be a part of GIS data collection. According to National Geographic, there are four main categories of GIS data:

  • Cartographic data: cartographic data is already in a map format and describes the location of features, the location of buildings, survey information, etc.
  • Photographic data: photographic data can be used to analyze and map features from print and digital photos, satellite imagery, and aerial photography.
  • Digital data: Digital data includes any information that’s already in digital format, including tables, satellite findings, and any data that’s been digitized by another GIS professional.
  • Spreadsheet data: This includes information in tables and spreadsheets, which typically need to be formatted as an Excel or CSV (comma-separated values) file. Spreadsheets are often the go-to source for demographic information such as age, income levels, or even spending habits.

Process

While there’s no shortage of public data, there’s also little to no standardization, making it difficult to find data in the right format. However, just because data isn’t formatted correctly doesn’t necessarily mean it’s unusable – it just needs to be translated.

There are two main components to translating data for GIS software, syntactic and semantic translation. Syntactic translation is by far the easier of the two, as it only involves translating symbols such as letters and numbers between systems. Semantic translation, on the other hand, is a bit more complicated. It aims to decipher the meaning behind the data, and though progress has been made, semantic translation tends not to be very accurate.


Introducción a SIG por David J. Buckey

Data editing and verification is in response to the errors that arise during the encoding of spatial and non-spatial data. The editing of spatial data is a time consuming, interactive process that can take as long, if not longer, than the data input process itself.

Several kinds of errors can occur during data input. They can be classified as:

Incompleteness of the spatial data. This includes missing points, line segments, and/or polygons.
Locational placement errors of spatial data. These types of errors usually are the result of careless digitizing or poor quality of the original data source.
Distortion of the spatial data. This kind of error is usually caused by base maps that are not scale-correct over the whole image, e.g. aerial photographs, or from material stretch, e.g. paper documents.
Incorrect linkages between spatial and attribute data. This type of error is commonly the result of incorrect unique identifiers (labels) being assigned during manual key in or digitizing. This may involve the assigning of an entirely wrong label to a feature, or more than one label being assigned to a feature.
Attribute data is wrong or incomplete. Often the attribute data does not match exactly with the spatial data. This is because they are frequently from independent sources and often different time periods. Missing data records or too many data records are the most common problems.

The identification of errors in spatial and attribute data is often difficult. Most spatial errors become evident during the topological building process. The use of check plots to clearly determine where spatial errors exist is a common practice. Most topological building functions in GIS software clearly identify the geographic location of the error and indicate the nature of the problem. Comprehensive GIS software allows users to graphically walk through and edit the spatial errors. Others merely identify the type and coordinates of the error. Since this is often a labour intensive and time consuming process, users should consider the error correction capabilities very important during the evaluation of GIS software offerings.

Spatial Data Errors

A variety of common data problems occur in converting data into a topological structure. These stem from the original quality of the source data and the characteristics of the data capture process. Usually data is input by digitizing. Digitizing allows a user to trace spatial data from a hard copy product, e.g. a map, and have it recorded by the computer software. Most GIS software has utilities to limpio the data and build a topologic structure. If the data is unclean to start with, for whatever reason, the cleaning process can be very lengthy. Interactive editing of data is a distinct reality in the data input process.

Experience indicates that in the course of any GIS project 60 to 80 % of the time required to complete the project is involved in the input, cleaning, linking, and verification of the data.

The most common problems that occur in converting data into a topological structure include:

slivers and gaps in the line work
dead ends, e.g. also called dangling arcs, resulting from overshoots and undershoots in the line work and
bow ties or weird polygons from inappropriate closing of connecting features.

Of course, topological errors only exist with linear and areal features. They become most evident with polygonal features. Slivers are the most common problem when cleaning data. Slivers frequently occur when coincident boundaries are digitized separately, e.g. once each for adjacent forest stands, once for a lake and once for the stand boundary, or after polygon overlay. Slivers often appear when combining data from different sources, e.g. forest inventory, soils, and hydrography. It is advisable to digitize data layers with respect to an existing data layer, e.g. hydrography, rather than attempting to match data layers later. A proper plan and definition of priorities for inputting data layers will save many hours of interactive editing and cleaning.

Dead ends usually occur when data has been digitized in a spaghetti mode, or without snapping to existing nodes. Most GIS software will clean up undershoots and overshoots based on a user defined tolerance, e.g. distance. The definition of an inappropriate distance often leads to the formation of bow ties o weird polygons during topological building. Tolerances that are too large will force arcs to snap one another that should not be connected. The result is small polygons called bow ties. The definition of a proper tolerance for cleaning requires an understanding of the scale and accuracy of the data set.

The other problem that commonly occurs when building a topologic data structure is duplicate lines. These usually occur when data has been digitized or converted from a CAD system. The lack of topology in these type of drafting systems permits the inadvertent creation of elements that are exactly duplicate. However, most GIS packages afford automatic elimination of duplicate elements during the topological building process. Accordingly, it may not be a concern with vector based GIS software. Users should be aware of the duplicate element that retraces itself, e.g. a three vertice line where the first point is also the last point. Some GIS packages do not identify these feature inconsistencies and will build such a feature as a valid polygon. This is because the topological definition is mathematically correct, however it is not geographically correct. Most GIS software will provide the capability to eliminate bow ties and slivers by means of a feature elimination command based on area, e.g. polygons less than 100 square metres. The ability to define custom topological error scenarios and provide for semi-automated correction is a desirable capability for GIS software.

The adjoining figure illustrates some typical errors described above. Can you spot them ? They include undershoots, overshoots, bow ties, and slivers. Most bow ties occur when inappropriate tolerances are used during the automated cleaning of data that contains many overshoots. This particular set of spatial data is a prime candidate for numerous bow tie polygons.

Attribute Data Errors

The identification of attribute data errors is usually not as simple as spatial errors. This is especially true if these errors are attributed to the quality or reliability of the data. Errors as such usually do not surface until later on in the GIS processing. Solutions to these type of problems are much more complex and often do not exist entirely. It is much more difficult to spot errors in attribute data when the values are syntactically good, but incorrect.

Simple errors of linkage, e.g. missing or duplicate records, become evident during the linking operation between spatial and attribute data. Again, most GIS software contains functions that check for and clearly identify problems of linkage during attempted operations. This is also an area of consideration when evaluating GIS software.

Data Verification

Six clear steps stand out in the data editing and verification process for spatial data. Estos son:

Visual review. This is usually by check plotting.

These data verification steps occur after the data input stage and prior to or during the linkage of the spatial data to the attributes. Data verification ensures the integrity between the spatial and attribute data. Verification should include some brief querying of attributes and cross checking against known values.


8.7 Questions

We will continue to use the COVID-19 dataset. Please see Chapter 11 for details on the data.

Using these data, you are required to address the following challenges:

Fit a varying-slope model. Let one slope to vary by region. Think carefully your choice.

Fit a varying-intercept and varying-slope model.

Compare the results for models fitted in 1 and 2. Which is better? Why?

Use the same explanatory variables used for the Chapter 7 challenge, so you can compare the model results from this chapter.


2 respuestas 2

Inspired by @dk14 's answer, now I have a clearer mind on this question, though I don't completely agree with his answer. And I hope to post mine online for more confirmation.

On a vanilla case, where the input of original AlexNet is still (224,224,3), after a series of Conv layer and pooling, we reach the last Conv layer. At this moment, the size of the image turns into (7,7,512).

At the converted Conv layer(converted from FC1), we have 4096 * (7,7,512) filters overall, which generates (1,1,4096) vector for us. At the second converted Conv layer(converted from FC2), we have 4096 * (1,1,4096) filters, and they give us a output vector (1,1,4096). It's very important for us to remember that, in the conversion, filter size must match the input volume size. That's why we have one by one filter here. Similarily, the last converted Conv layer have 1000 * (1,1,4096) filters and will give us a result for 1000 classes.

The processed is summarized in the post: http://cs231n.github.io/convolutional-networks/#convert.

In FC1, the original matrix size should be (7*7*512, 4096), meaning each one of the 4096 neuron in FC2 is connected with every neuron in FC1. While after conversion, the matrix size becomes (7,7,512,4096), meaning we have 4096 (7,7,512) matrixes. It's like taking out each row of the original gigantic matrix, and reshape it accordingly.

Let's start with $F = 7$, $P = 0$, $S = 1$ notion. What does it actually mean:

$F = 7$: receptive field size is set to a maximum value (7 for 1D, 7x7 for 2D) which implies no parameter sharing (as there is only one receptive field), which is default for MLP. If F was equal to 1, all connections (from the image above) would always have an identical weight.

$S = 1$: stride equals to 1, which means that no neurons on the next layer is going to be removed (see figure below). Given $F = 7$ if we had stride = 2, the number of next-layer nodes would be twice smaller. Source: http://cs231n.github.io/convolutional-networks

$P = 0$: no zero padding, as we don't need it for a full receptive field (there is no uncovered units as you can see from image above).

Those three conditions basically guarantee that connectivity architecture is exactly same as for canonical MLP.

Attempt to answer your question about reshaping matrices:

Example of reshaping in Python's Numpy library: numpy.reshape

My guess is that the author meant that FCN usually has 1D output "vector" (from each layer) instead of 2D matrix. Let's say, the first layer of FC-network returns 1x1x4096 output matrix as it doesn't care about image's dimensions - it stacks all dimensions into one vector (put each rows on top of another). You can guess that next layer's weight matrix is gonna have corresponding shape (4096x4096) that combines all possible outputs). So when you convert it to a convolutional receptive field - you'll probably have to move your activations to 2D, so you need 64x64 activations and, I guess, something like 64x64x4096 tensor for receptive field's weights (since $S=1$).

The quote from the article that demonstrates "reshaping":

For example, if 224x224 image gives a volume of size [7x7x512] - i.e. a reduction by 32, then forwarding an image of size 384x384 through the converted architecture would give the equivalent volume in size [12x12x512], since 384/32 = 12. Following through with the next 3 CONV layers that we just converted from FC layers would now give the final volume of size [6x6x1000], since (12 - 7)/1 + 1 = 6. Note that instead of a single vector of class scores of size [1x1x1000], we’re now getting and entire 6x6 array of class scores across the 384x384 image

Example (for activations of some layer):

In order to show weights reshaping (to fit 2D image), I'd have to draw square into cube conversion. However, there is some demos on the internet:

PD However, I have some confusion about AlexNet example: it seems like mentioned $F=1$ just means "full" parameter sharing across non-existent dimensions (1x1). Otherwise, it won't be completely equivalent to an MLP with no parameter sharing - but maybe that's what was implied (scaling small FC-network into a large CNN).

to “slide” the original ConvNet very efficiently across many spatial positions in a larger image

Basically it allows you to scale a FC-network trained on small portions/images into a larger CNN. So in that case only small window of resulting CNN will be initially equivalent to an original FCN. This approach gives you ability to share parameters (learned from small networks) across large networks in order to save computational resources and apply some kind of regularization (by managing network's capacity).

Edit1 in response to your comment.

Example of $N = 5$ (sorry I was lazy to draw 7 neurons), $F=5$, $S=2$ :

So you can see that S = 2 can be applied even for receptive field with maximum size, so striding can be applied without parameter sharing as all it does is just removing neurons.

And parameter sharing strategies could be different. For instance, you can't tell about my last figure wether parameter are shared between neurons or not.


Predictive Ecosystem Mapping (PEM) Detailed Polygons with Short Attribute Table - 50,000 Spatial View

PEM_50K contains 1 to 50,000 PEM polygons with key and amalgamated (concatenated) attributes derived from the Resource Inventory Standards Committee (RISC) standard attributes. PEM divides the landscape into units according to a variety of ecological features including climate, physiography, surficial material, bedrock geology, soils and vegetation. PEM uses a modeling approach to ecosystem mapping, whereby existing knowledge of ecosystem attributes and relationships are used to predict ecosystem representation in the landscape. This layer is derived from the STE_TEI_ATTRIBUTE_POLYS_SP layer by filtering on the PROJECT_TYPE and PROJECT_MAP_SCALE attributes.

  • BGC
  • Canadá
  • DTEIF
  • Drainage
  • PEM
  • SEI
  • STE
  • STEWI
  • TEIS
  • TEM
  • TER
  • TSM
  • WHR
  • biogeoclimatic
  • bioterrain
  • bioterrain mapping
  • describing terrestr.
  • ecology
  • ecosistema
  • ecosystem mapping
  • ecosystem modelling
  • erosión
  • landslide
  • predictive ecosyste.
  • sedimentación
  • sensitive ecosystem
  • sensitive ecosystem.
  • slope stability
  • soil
  • terrain
  • terrain and ecosystems
  • terrain mapping
  • terrain stability
  • terrain stability m.
  • terrestrial ecosyst.
  • wildlife habitat ra.
  • wildlife inventory

Data and Resources

The PEM data in geodatabase format is available in the TEI Data Distribution.


Driver capabilities¶

This driver supports the GDALDriver::Create() operation

This driver supports georeferencing

KML Reading¶

KML reading is only available if GDAL/OGR is built with the Expat XML Parser, otherwise only KML writing will be supported.

Supported geometry types are Point , Linestring , Polygon , MultiPoint , MultiLineString , MultiPolygon and MultiGeometry . There are limitations, for example: the nested nature of folders in a source KML file is lost folder <description> tags will not carry through to output. Folders containing multiple geometry types, like POINT and POLYGON, are supported.

KML Writing¶

Since not all features of KML are able to be represented in the Simple Features geometry model, you will not be able to generate many KML-specific attributes from within GDAL/OGR. Please try a few test files to get a sense of what is possible.

When outputting KML, the OGR KML driver will translate each OGR Layer into a KML Folder (you may encounter unexpected behavior if you try to mix the geometry types of elements in a layer, e.g. LINESTRING and POINT data).

The KML Driver will rename some layers, or source KML folder names, into new names it considers valid, for example ‘ Layer #0 ’, the default name of the first unnamed Layer, becomes 'Layer__0' .

KML is mix of formatting and feature data. The <description> tag of a Placemark will be displayed in most geobrowsers as an HTML-filled balloon. When writing KML, Layer element attributes are added as simple schema fields. This best preserves feature type information.

Limited support is available for fills, line color and other styling attributes. Please try a few sample files to get a better sense of actual behavior.


Ver el vídeo: How to convert Polygon to Point in ArcGIS