Recursos Online para Idiomas Distintos del Español





Documento sin título

El siguente es un listado de recursos online para diversos idiomas, diferentes del español

 

Nombre de la Página

Descripción o Comentario

1

EAGLES

El Expert Advisory Group on Language Engineering Standards (EAGLES) constituye una iniciativa de la Comisión Europea, dentro Programa de Investigación Lingüística e Ingeniería de la Unión Europea. Esta iniciativa busca acelerar la provisión de estándares para: recursos lingüísticos a gran escala (tales como corpus textuales, lexicones computacionales), medios para la manipulación de tal conocimiento a través de formalismos lingüísticos, lenguajes de marcación y recursos computacionales diversos. En este sitio se encuentra una abundante información acerca de todos los temas aquí mencionados desde los principios que guían esta iniciativa, los miembros que lo componen y los desarrollos alcanzados.

Dirección Web:

http://www.ilc.cnr.it/EAGLES96/home.html

2

SIL Internacional (Summer Institute of Linguistics)

El sitio web del tradicional Instituto Lingüístico de Verano, ahora conocido como SIL Internacional, brinda una amplia lista de documentos, programas y herramientas computacionales organizadas por temas. La mayoría de ellos están disponibles para asistir al investigador en la recolección, análisis y publicación de sus resultados.

Dirección Web:

http://www.sil.org/linguistics/computing.html

3

Texts & Corpora de Linguistlist

En este apartado de Textos & Córpora del sitio de Linguistlist se encuentra una listado de aproximadamente unos 40 corpus en línea con sus respectivos links.
También existe acceso en línea a unas 26 bases de datos con textos electrónicos y otros tantos links de interés.

Dirección Web:

http://www.linguistlist.org/sp/Texts.html

4

Corpus Linguistics and Written Language Resources
Bibliography

Este sitio, creado por Joaquim Llisterri de la Universidad Autónoma de Barcelona, España, ofrece una amplia y variada gama de información en temas de Lingüística de Corpus como en corpus digitales en línea y bibliografía en diversos idiomas (en algunos casos en línea).  También existen accesos en línea a bases de datos con textos electrónicos y otros tantos links de interés.

Dirección Web:

http://liceu.uab.es/~joaquim/language_resources/lang_res/biblio_corpus.html 

5

CECL: Centre for English Corpus Linguistics

Sitio desarrollado por el Centro de Lingüística de Corpus del Inglés (CECL: Centre for English Corpus Linguistics) de la Universidad Católica de Lovaina, Bélgica. Existe acceso a una amplia bibliografía, ordenada alfabéticamente, y a diversos proyectos en desarrollo.

Dirección Web:

http://cecl.fltr.ucl.ac.be/

6

MICASE

Sitio desarrollado por Instituto de Lengua Inglesa de la Universidad de Michigan, E.E.U.U., en el que se presenta el proyecto MICASE (Michigan Corpus of Academic Spoken English). En este sitio se tiene acceso a documentación acerca del proyecto y se llega a la interfaz que permite el estudio y comparación de textos de diversos registros en diversas situaciones académicas orales, los que constituyen el amplio corpus del MICASE.

Dirección Web:

http://www.lsa.umich.edu/eli/micase/micase.htm

7

MICHIGAN CORPUS LINGUISTICS HOME

Sitio oficial del Michigan Corpus Linguistics Team, equipo compuesto por investigadores y estudiantes del English Language Institute de la Universidad de Michigan, quienes recopilan corpora orales y escritos de ingles académico y llevan a cabo investigación en base a dichos corpora. El sitio posee información acerca de los proyectos de investigación, así como de los corpora recopilados por el equipo y puestos a disposición de la comunidad científica.

Dirección Web:

http://www.elicorpora.info

8

MBT: Memory based Tagger

En este sitio se tiene acceso tanto a documentación como al Demo del Etiquetador Basado en la Memoria (MBT: Memory based Tagger). Este programa anota o marca “partes de la oración” (POS) en textos en lenguas tales como español, holandés, inglés y sueco.

Dirección Web:

http://ilk.uvt.nl/mbt/

9

LSA

En este sitio se aloja una versión prototipo para la lengua inglesa del Análisis Semántico Latente (identificado con la sigla LSA, por su nombre en inglés). La página esta organizada en tres áreas de contenido: Información, Aplicaciones y Demostraciones. Detalles relevantes para el usuario no iniciado acerca de cómo usar del mejor modo la página están disponibles a través de un vínculo destacado. El Análisis Semántico Latente es una técnica matemático/estadística para extraer y representar la similitud de tipo léxico semántico colocacional del significado de palabras y partes de textos o textos completos por medio del análisis de grandes cantidades de textos tematizados y/o por género discursivo. Utiliza para ello la descomposición de valores singulares, una forma general del análisis factorial, con el fin de condensar una matriz de proporciones de información de palabras-en-contexto en una representación dimensional mucho más pequeña.

Dirección Web:

http://lsa.colorado.edu/

10

Centro de Lingüística de la Universidad de Lisboa

Este sitio está dotado de una abundante base de datos bibliográficos y de corpus anotados en línea para el portugués de Portugal. También tiene cursos acerca de temas relevantes para la LC y cuenta con herramientas tecnológicas de diversa índole (por ejemplo, lematizadores, anotadores morfosintácticos).

Dirección Web:

http://www.ul.pt/portal/page?_pageid=173,173254&_dad=portal&_schema=PORTAL

11

Corpus Encoding Standard (CES)

Este sitio contiene la documentación del Corpus Encoding Standard (CES), cuya Coordinadora es Nancy Ide. El CES ha sido diseñado para crear estándares de codificación ampliamente aceptados con el fin de optimizar la investigación y desarrollo de aplicaciones en el trabajo basado en corpus con procesamiento del lenguaje natural.

Dirección Web:

http://www.lpl.univ-aix.fr/projects/multext/CES/CES1.html

12

Recursos en línea para el lenguaje

Este sitio cuenta con una amplia gama de recursos en línea y documentación para el análisis de corpus; al mismo tiempo, ofrece conexión a otros sitios relacionados. En este sitio existen herramientas para varias lenguas y programas computacionales para anotación y procesamiento de lenguaje natural tales como cálculos estadísticos y matemáticos, emparejamiento de cadenas o patrones (String/Pattern Matching), detector de limites oracionales (Sentence Boundary Detector).

Dirección Web:

http://www-a2k.is.tokushima-u.ac.jp/member/kita/NLP/nlp_tools.html

13

Procesamiento estadístico del lenguaje natural y lingüística computacional basada en corpus: lista de recursos

 

En esta página, desarrollada por miembros de la Universidad de Stanford, E.E.U.U., se dispone de un conjunto de herramientas y recursos diversos para el procesamiento de lenguaje natural (NLP) y para la lingüística computacional basada en corpus. También se accede a múltiples otras conexiones y se cuenta con acceso a programas para etiquetaje y análisis.

Dirección Web:

http://www-nlp.stanford.edu/links/statnlp.html

14

Sitio elaborado por David Lee

Este sitio, elaborado por David Lee, esta organizado como un interminable catálogo de vínculos comentados a páginas para lingüistas y profesores que trabajan con corpus. Se accede tanto a bases de datos como a herramientas en línea para múltiples idiomas. Promete ser una URL permanente y que no cambiara de dirección.

Dirección Web:

http://devoted.to/corpora

15

TUSTEP

Sitio con programas para procesamiento de textos del alemán.

Dirección Web:

http://www.uni-tuebingen.de/zdv/tustep/tustep_eng.html

16

Corpus del inglés

Collins Sampler of the Bank of English.

Dirección Web:

http://www.collins.co.uk/Corpus/CorpusSearch.aspx

17

British National Corpus (BNC)

Sitio del British National Corpus (BNC).

Dirección Web:

http://www.natcorp.ox.ac.uk/

18

American National Corpus

Sitio en que se aloja el American National Corpus.

Dirección Web:

http://americannationalcorpus.org

19

ICAME

Colección de corpus del inglés.

Dirección Web:

http://helmer.aksis.uib.no/icame/newcd.htm

20

International Corpus of English (ICE)

Sitio del International Corpus of English (ICE).

Dirección Web:

http://www.ucl.ac.uk/english-usage/ice/avail.htm

21

WebKB

En este sitio se encuentra la herramienta WebKB. Ella constituye un nuevo tipo de mecanismo de anotación basada en conocimiento compartido/privado en línea a través de servidores en red. Se opone a los más tradicionales sistemas de indexación de documentos y de sistemas de base de datos. WebKB es un indexador de información que permite la búsqueda de cualquier tipo de información y su recuperación por medio de consultas basadas en conocimiento de una manera precisa.

Dirección Web:

http://meganesia.int.gu.edu.au/~phmartin/WebKB/