Google lance un nouveau moteur de recherche dédié aux données ouvertes

Google lance un nouveau moteur de recherche dédié aux données ouvertes

L’objectif de Google a toujours été d’organiser l’information mondiale et sa première cible était le Web commercial. Maintenant, il veut faire la même chose pour la communauté scientifique avec un nouveau moteur de recherche pour les jeux de données.

Le service, appelé Dataset Search, se lance aujourd'hui et sera un compagnon pour Google Scholar, le moteur de recherche populaire de la société pour les études et les rapports académiques. Les institutions qui publient leurs données en ligne, comme les universités et les gouvernements, devront inclure des balises de métadonnées dans leurs pages Web qui décrivent leurs données, y compris qui les a créées, quand elles ont été publiées, etc. Ces informations seront ensuite indexées par la recherche de jeu de données et combinées avec les données du graphique de connaissances de Google. (C'est le nom de ces boîtes qui apparaissent pour les recherches courantes. Par conséquent, si le jeu de données X a été publié par le CERN, certaines informations sur l'institut seront également incluses dans les résultats.)

À l'heure actuelle, la publication des ensembles de données est extrêmement fragmentée. Différents domaines scientifiques ont leurs propres référentiels préférés, de même que différents gouvernements et autorités locales. « Les scientifiques disent: « Je sais où je dois aller pour trouver mes jeux de données, mais ce n'est pas ce que je veux toujours », explique Noy. « Une fois qu'ils sortent de leur communauté unique, c'est à ce moment-là que ça devient difficile. »

Noy cite l'exemple d'un climatologue auquel elle a parlé récemment et qui lui a dit qu'elle cherchait un ensemble de données spécifique sur la température des océans pour une étude à venir, mais qu'elle ne l'a trouvé nulle part. Elle ne l'a pas retrouvée jusqu'à ce qu'elle rencontre une collègue lors d'une conférence qui a reconnu le jeu de données et lui a dit où elle était hébergée. Alors seulement, elle pourrait continuer son travail. « Et ce n'était même pas un dépositaire particulièrement boutique », explique Noy. « L'ensemble de données était bien écrit dans un endroit assez important, mais il était encore difficile à trouver. »

La version initiale de Dataset Search couvrira les sciences environnementales et sociales, les données gouvernementales et les ensembles de données d’organismes d’information tels que ProPublica. Cependant, si le service devient populaire, la quantité de données qu'il indexe devrait...

rapidement faire boule de neige lorsque les institutions et les scientifiques se démènent pour rendre leurs informations accessibles.

Cela devrait être facilité par le développement récent des initiatives de données ouvertes dans le monde entier. « Je pense qu'au cours des dernières années, le nombre de dépôts a explosé », explique Noy. Elle attribue cela à l'importance croissante des données dans la littérature scientifique, ce qui signifie que les revues demandent aux auteurs de publier des ensembles de données, ainsi que « les réglementations gouvernementales aux États-Unis et en Europe et la montée générale du mouvement des données ouvertes ».

La participation de Google devrait contribuer à la réussite de ce projet, déclare Jeni Tennison, PDG de l’Open Data Institute (ODI). «La recherche de jeux de données a toujours été difficile à supporter et j'espère que Google facilitera les choses», explique-t-elle.

Selon Tennison, pour créer un moteur de recherche décent, vous devez savoir comment créer des systèmes conviviaux et comprendre ce que les gens entendent par «taper». Google sait ce qu'il fait dans ces deux départements.

En fait, dit Tennison, idéalement, Google publiera son propre ensemble de données sur la manière dont la recherche de données est utilisée. Bien que les balises de métadonnées utilisées par la société pour rendre les jeux de données visibles à ses robots de recherche soient un standard ouvert (ce qui signifie que tout concurrent, comme Bing ou Yandex, peut les utiliser pour créer son propre service concurrent) masse d'utilisateurs est là pour fournir des données sur ce qu'ils font.

«Le simple fait de comprendre comment la recherche de personnes est importante… quel type de termes ils utilisent, comment ils les expriment», explique Tennison. «Si nous voulons comprendre comment les gens recherchent des données et les rendent plus accessibles, ce serait bien si Google ouvrait ses propres données à ce sujet.»

L’Open Data est un mouvement qui promeut la mise à disposition, à l’endroit de tous, de données libres d’accès, sous des formats exploitables avec la possibilité de les réutiliser sans aucune restriction. Ces données dites « ouvertes » peuvent être d’origine publique (produites par l’Etat ou les administrations) ou privée. Le concept étroitement lié à celui d’Open Government (gouvernement ouvert) se développe depuis quelques années dans des pays d’Afrique francophone, comme outil de transparence et de lutte contre la corruption.

MN

Commentaires