Filtros X
Tipos de Posts
Agenda

Ir al blog El blog de la empresa vasca

Información diaria relevante para tu empresa

Noticias 16 octubre, 2019 Innovación Programa Fast Track Innobideak

El euskera es el idioma que tiene un mayor número de significados en Wikidata

Se encuentra en el sexto lugar en cuanto al número de lexemas

Se encuentra en el sexto lugar en cuanto al número de lexemas
Ocupa el segundo puesto en cuanto al número de formas de las palabras
Es el principal idioma en cuanto al número de significados

Gracias a la colaboración entre Euskal Wikilarien Kultur elkartea y Elhuyar, de entre todas las lenguas incluidas en Wikidata el euskera se encuentra en el sexto lugar en cuanto al número de lexemas, ocupa el segundo puesto en cuanto al número de formas de las palabras (teniendo en cuenta todas las formas que se crean al declinar cada lexema) y es el principal idioma en cuanto al número de significados, por delante del inglés, el castellano y el francés, entre otros.
Wikidata es una enorme base de datos que se edita de forma colaborativa. Lo gestiona la Fundación Wikimedia, con el fin de utilizarlo en sus proyectos; por ejemplo, en Wikipedia.

 

Se puso en marcha en 2012, y hemos ido alimentándolo progresivamente. Hace dos años, por ejemplo, incluimos alrededor de 6.500 conceptos provenientes del Diccionario Enciclopédico de la Ciencia y la Tecnología, así como varios vídeos de nuestro programa de televisión, Teknopolis.

 

A lo largo de estos últimos años, Wikidata ha comenzado a guardar nuevos tipos de datos, correspondientes a varios idiomas, en una estructura similar al de los diccionarios. Toda esta información se guarda clasificada en tres grupos: raíces de palabras (entradas de diccionario o lexemas), formas (las formas que puede tomar cada palabra en función del caso de declinación) y significados o definiciones.

 

Gracias a la colaboración entre Euskal Wikilariak Kultur Elkartea y Elhuyar, hemos podido incluir en Wikidata un gran número de palabras o lexemas (de la categoría de los sustantivos) de nuestro Ikaslearen Hiztegia, diccionario dirigido especialmente al alumnado. En total, se han añadido 10.000 lexemas, 65 formas de cada uno de estos lexemas (de todos los casos de declinación, en singular, plural e indeterminado) y sus definiciones.

 

Gracias a este trabajo, ahora resulta más fácil identificar las palabras en euskera, por ejemplo, en los textos de Wikipedia, y en un corto plazo se podrán desarrollar nuevas tecnologías a partir de estas bases de datos.

 

El código de programación desarrollado por el grupo de trabajo I+D de Elhuyar para este proyecto está disponible en GitHub.

Noticias relacionadas

22 julio, 2024 Innovación
Jabones El Abra: “Hemos desarrollado un envase ecológico que utiliza muchísimo menos plástico por litro de producto gracias a Hazinnova”
Leer más
18 julio, 2024 I+D+i
Mikel Jauregi se reúne con los clústeres industriales y apela al espíritu pionero de Euskadi para afrontar los retos y oportunidades del futuro
Leer más
12 julio, 2024 Innovación
Biotz se consolida tras cerrar una alianza estratégica con Orkli
Leer más
9 julio, 2024 Innovación
La tecnología cuántica de Erhardt Serikat aporta soluciones innovadoras a los problemas del sector logístico
Leer más
2 julio, 2024 Emprendimiento
‘Belk+’, el primer exoesqueleto inteligente de asistencia personal para la movilidad
Leer más
Ir al blog

Última hora sobre nuevas ayudas

Para pymes, para diversificar mercados, becas en el extranjero, licitaciones internacionales, subvenciones a fondo perdido para afianzar la exportación, ayudas para implantaciones o formación específica en internacionalización.

Te interesa ¿verdad?
// Canales especializados

Síguenos. Canales especializados
y actualidad diaria