(pluri)TAL 

Journal de lectures, de liens, d'activités pour les étudiants
du secteur TAL [Université Paris 3 Sorbonne nouvelle | ILPGA]
HyperToile : http://tal.univ-paris3.fr

27/2/2010

Liens en vrac 27/2/2010

Reconnaissance des entités nommées par Jean Véronis.
Annotating a State of the Union address : James Fallows provides a fascinating annotation of the recent State of the Union speech. The annotation is from several viewpoints…
La montée en puissance de la traduction automatique.
NLGbAse is a set of graphes, metadatas and resources files devoted to Natural Language Generationand Natural Language Understanding components of information systems. Metadatas are built from large encyclopedic, evolutive and multilingual corpora like Wikipedia or other wiki datas. Main advantage of such a learning material is its evolutivity. NLGbAse can learn automaticaly new entities and relations on a day by day basis. Because of cross-linguistic detailed references, NLGbAse gives for a unique term, a wide range of possible writings and synonyms.
XSL : d’un noeud Ă  l’autre avec XPath.
Add entities in XML. Create text macros for your documents. Summary: Many developers use entities in their XHTML for special characters, but in XML you can also define entities to make authoring easier, or to reference the content of external documents. Entities are also useful when you create a Document Type Definition (DTD) and want to reduce its apparent complexity to keep it readable by humans. This article will tell you all about XML entities and show you how to take advantage of them in your documents.
OpenThesis : Répertoire gratuit pour déposer et rechercher des thèses.
Les commentaires: matière vivante de l’e-rĂ©putation.
Anatomie des commentaires par Cadde Reputation.
Tutoriaux pour réaliser des cartographies de données.
Axiis : Data Visualization Framework : Logiciel open source de visualisation de données.
Goformat : Service gratuit de reformatage et manipulation de textes.
Tutoriel Zotero : Supports de cours pour Zotero par Urfist de Strasbourg.
WordItOut : Service permettant de générer des nuages de tags.
Meaningtool - Create Your Own AI : Service sémantique permettant notamment la catégorisation et la recommandation automatique.
Online Utility : Nombreux outils en ligne autour de l’analyse textuelle.
Un rĂ©pertoire des expressions trilingues : Les expressions sont utilisĂ©es couramment dans nombreuses langues. Elles sont liĂ©es au contexte culturel, matĂ©riel et social de chaque rĂ©gion, chaque pays. Elles sont nĂ©es d’Ă©vĂ©nements, d’inventions, de modes. C’est tellement devenu une habitude qu’on ne s’en rend plus compte et qu’elles intègrent aveuglĂ©ment notre langage. Une expression est souvent imagĂ©e et sert Ă  formuler des notions abstraites. Elles permettent ainsi de colorer nos conversations par l’imagination. Seulement, elles sont difficilement traduisibles d’une langue Ă  une autre, c’est pourquoi l’auteur a créé ce site afin de permettre Ă  tout un chacun de pouvoir les comprendre, surtout si l’on est en apprentissage d’une langue. Ce site didactique contient un rĂ©pertoire de plus de 3000 expressions classĂ©es par thème en français, anglais et espagnol. Chaque expression est intĂ©grĂ©e dans un court texte qui en indique le sens et est accompagnĂ©e d’un fichier audio pour en percevoir correctement la nuance et la prononciation.
Présentation du nouveau service de yahoo : « yahoo-pipes ».
Liste des tutoriels Yahoo Pipes.
L’Internet transforme-t-il la façon dont nous pensons ?.
Ecrire pour le Web en 2010.
“Join semantics to search? Breakthrough Analysis: Two + Nine Types of Semantic Search” : Analyse les diffĂ©rents moyens utilisables par les moteurs pour ajouter de la sĂ©mantique aux recherches et rĂ©sultats de recherche.
Interoperability Levels for Dublin Core Metadata : DĂ©finition de 4 niveaux/modèles d’implĂ©mentation par rapport Ă  leur efficacitĂ© pour l’interopĂ©rabilitĂ©, l’efficacitĂ© allant Ă©videmment avec des contraintes croissantes.
“Bibliographic Ontology Specification - describing citations and bibliographic references on semweb”.
“DITA, Metadata Maturity and the Case for Taxonomy” : application XML Ă©voluĂ©e pour encoder des documents “plutĂ´t” techniques et leurs mĂ©tadonnĂ©es…
“Quick read: The RDA Vocabularies, Continued” : le DCMI “repense” Dublin Core dans l’environnement RDA, Resource Description and Access, nouveau standard de description des ressources,issu des FRBR, et publie Ă  ce sujet, notamment dans DLib Magazine.
Comment informer Ă  l’ère numĂ©rique.
75+ Tools for Visualizing your Data, CSS, Flash, jQuery, PHP.
Pandia a remis à jour son annuaire de moteurs de recherches classés par catégories : Pandia PowerSearch.
Installation des modules Perl CPAN sous Windows, Linux et Mac OS.
Famous Perl One-Liners Explained, Part IV: String and Array Creation. Famous Perl One-Liners Explained, Part II: Line Numbering. Famous Perl One-Liners Explained, Part III: Calculations. Famous Perl One-Liners Explained, Part I: File Spacing.
Python basics for PHP developers.

31/1/2010

Liens en vrac 31/01/2010

Rubrique(s) :   
Auteur : SF  barre  Heure : 11:27 am  barre  

Ă©tapes:176, Janvier 2010 : Edward tufte - Rendre lisible la complexitĂ©, L’explosion de la visualisation, New York Times, pour une manipulation de l’information.
Microsoft offre gratuitement 157 modèles professionnels pour PowerPoint.
Le data-journalisme peine à se développer en France.
All we need is data love.
The Promise and Peril of Big Data.
Les 7 péchés de Windows parlent déjà 7 langues.
La place des logiciels libres dans l’Enseignement SupĂ©rieur et la Recherche, Ă©tat des lieux Ă  travers PLUME.
Agence bibliographique de l’enseignement supĂ©rieur : mise Ă  jour du Guide du doctorant.
Des bibliothèques dans le dĂ©sert : A Tombouctou, ville mythique du Sahara, subsistent des livres vieux de six Ă  sept siècles…
Entretien avec David R. Olson : analyse du tournant numĂ©rique de l’Ă©criture et de ses consĂ©quences culturelles et scolaires.
Lecture numérique et culture écrite (Alain Giffard)
Top Tools For Tracking Topics on the Web.
Helping computers understand language.
Ecrire pour le Web en 2010.
Langages, écritures, typographie.
Un déluge de données ouvre une nouvelle ère informatique New York Times.
Dossier d’InternetActu.net consacrĂ© Ă  Google et aux moteurs de recherche (dĂ©c. 2009) : Une sociĂ©tĂ© de la requĂŞte (1/4) : De la Googlisation de nos vies. Une sociĂ©tĂ© de la requĂŞte (2/4) : Comprendre la nouvelle Ă©conomie cognitive. Une sociĂ©tĂ© de la requĂŞte (3/4) : Subvertir Google. Une sociĂ©tĂ© de la requĂŞte (4/4) : Comprendre Google.
La Googlisation est dans l’Entonnoir.
Recommandation « Langues et Internet »: rĂ©flexion collective Ă  laquelle ont participĂ© de nombreux intervenants publics et privĂ©s, dont l’Union latine, mais Ă©galement la DĂ©lĂ©gation gĂ©nĂ©rale Ă  la langue française et aux langues de France (DGLFLF), l’Agence française de normalisation (AFNOR), l’Association Diversum, des laboratoires du Centre national de la recherche scientifique (CNRS), l’Association française pour le nommage Internet en coopĂ©ration (AFNIC), l’Association nationale de promotion et de dĂ©fense du logiciel libre (APRIL), ainsi que WikimĂ©dia, Google et Microsoft, entre autres. La recommandation peut-ĂŞtre consultĂ©e Ă  cette adresse.

8/1/2010

AFTAL

Rubrique(s) :   
Auteur : SFA  barre  Heure : 7:43 pm  barre  

Bonjour Ă  tous,

L’Ă©quipe AFTAL est très heureuse de vous annoncer l’existence de l’association des Anciens des Formations TAL!

Vous trouverez ci-joint un petit mot de prĂ©sentation : objectifs, contacts, soutiens, tout y est pour vous brosser un premier portrait de l’association.

L’AFTAL, c’est fait par des TAListes pour tous les Ă©tudiants intĂ©ressĂ©s par le TAL, ses formations, ses outils, ses mĂ©tiers.
L’AFTAL, c’est une initiative pour fĂ©dĂ©rer un rĂ©seau d’Ă©tudiants, Ă  l’Ă©coute de leurs besoins, de leurs projets, de leurs interrogations sur l’insertion professionnelle.
L’AFTAL, c’est pour dĂ©velopper les contacts, rĂ©seau(ner), et surtout vous offrir davantage de perspectives!

ADHEREZ A L’AFTAL!

Retrouvez-nous en ligne :
Web : http://tal.univ-paris3.fr/aftal/
Twitter : AssoForTal

Liens en vrac 08/01/2010

Rubrique(s) :   
Auteur : SFA  barre  Heure : 7:33 pm  barre  

2lingual : moteur de recherche “bilingue". 2lingual effectue automatiquement une deuxième recherche parallèle dans une autre langue choisie parmi 58 possibilitĂ©s.
ReadWriteWeb publie quelques listes des meilleures applications de l’annĂ©e qui se termine. Elles sont groupĂ©es par catĂ©gories: applications pour tĂ©lĂ©phonie mobile, applications sur le Web, applications RSS, etc.
Some Perl one-liners.
Quelques articles dans le Tigre : De la mobilitĂ© des tĂ©lĂ©phones et de la langue ; L’Ă©criture SMS ; L’invention de la stĂ©nographie ; Les langues meurent, vive le blah-blah.
Distribution polaire de mes emails en 2009 ou comment programmer en python la visualisation d’une annĂ©e d’email…
The serials crisis and open access : a white paper for the Commission on Research, Virginia Tech.
Good and best open source software.
WikiSource : projet visant à rassembler les textes passés dans le domaine public ou publiés sous licence libre.
The Mobile Internet Report.
Les services TICE et audiovisuels au sein des universités françaises.
L’écriture manuelle est de l’histoire ancienne.
C’est cool d’ĂŞtre un geek : c’est quoi la diffĂ©rence entre un geek, un nerd, un otaku , … ?
Replace Text : Freeware permettant de remplacer du texte dans plusieurs fichiers Ă  la fois.
Sept outils pour gérer ses réseaux sociaux.
MIT Lecture Browser : Moteur de recherche audio dans les cours du MIT.
L’utilitĂ© hiĂ©rarchise les commentaires des internautes.
28 Rich Data Visualization Tools.
leslivresblancs.fr : l’annuaire du livre blanc dans tous ses Ă©tats.
Searching with Tags: Do Tags Help Users Find Things?.
Springer lance le moteur de recherche d’articles scientifiques Exemplar.
Compter le texte et se géolocaliser.
L’informatique enseignĂ©e au Collège de France.

14/12/2009

Lexicometrica, novembre 2009

Rubrique(s) :   
Auteur : SFA  barre  Heure : 5:44 pm  barre  

La revue LEXICOMETRICA s’adresse aux chercheurs, aux Ă©tudiants, aux professionnels de la communication et de la fouille de donnĂ©es textuelles… intĂ©ressĂ©s par les travaux thĂ©oriques et pratiques menĂ©s dans les domaines suivants : LexicomĂ©trie / statistique textuelle, linguistiques de corpus, extraction d’informations Ă  partir de corpus de texte, acquisition de connaissances…
Elle est publiĂ©e sur Internet et rassemble des articles de recherche ou des comptes-rendus d’expĂ©riences. AssistĂ© d’un rĂ©seau de correspondants, son comitĂ© de rĂ©daction sĂ©lectionne les articles Ă  paraĂ®tre.

Lexicometrica, publications novembre 2009
N° SpĂ©cial “Topographie et topologie textuelles” (2009)
N° SpĂ©cial “Explorations textomĂ©triques” (2009)


N° SpĂ©cial “Topographie et topologie textuelles” (2009)
Responsables du numéro Sylvie Mellet , André Salem
PrĂ©sentation : Depuis ses dĂ©buts la statistique linguistique, y compris lorsqu’elle s’applique Ă  l’étude des textes et des discours, a principalement recouru Ă  des modèles qui tendent Ă  nĂ©gliger ce fait majeur qu’un texte est une structure ordonnĂ©e ; les dĂ©nombrements, les relevĂ©s de frĂ©quences, les calculs de spĂ©cificitĂ©s reposent tous sur le fameux schĂ©ma d’urne et renoncent Ă  prendre en compte le positionnement dans le texte des unitĂ©s dĂ©nombrĂ©es. Certes, les rĂ©sultats ainsi obtenus sont gĂ©nĂ©ralement intĂ©ressants et bien interprĂ©tables, et ils ont largement contribuĂ© au dĂ©veloppement et aux succès de la discipline. Mais ils se pourraient qu’ils soient en train d’atteindre leurs limites. Ou, du moins, de ne plus suffire pour donner entière satisfaction au chercheur. De plus en plus souvent en effet, ceux-ci souhaitent pouvoir Ă©tablir, Ă  cĂ´tĂ© de la dimension paradigmatique apprĂ©hendĂ©e par ce type de calculs statistiques traditionnels, la dimension syntagmatique des donnĂ©es textuelles, saisies Ă  courte ou Ă  longue portĂ©e : distribution rĂ©gulière ou non d’une entitĂ© linguistique (mot ou catĂ©gorie grammaticale) susceptible d’arriver Ă  intervalles Ă  peu près Ă©gaux ou, au contraire, en paquets plus ou moins denses ; rĂ©partition d’un Ă©lĂ©ment au fil du texte, selon la structure globale de celui-ci et ses parties constituantes ; phĂ©nomènes d’échos et d’alignements dans la mise en parallèle de deux textes ou deux portions de textes ; etc. Bien sĂ»r, des travaux, dont certains sont dĂ©jĂ  anciens, ont abordĂ© ces questions : parmi les plus connus citons tous ceux d’A. Salem qui ont Ă©tabli la pertinence de la fameuse notion de « segment rĂ©pĂ©té » et qui ont mis en place les outils pour les repĂ©rer et les analyser ; citons aussi les travaux de P. Lafon sur les « rafales » et son article “Statistique des localisations des formes d’un texte” paru en 1984 dans la revue Mots ; ou encore l’article de D. SĂ©rant et Ph. Thoiron sur la « topographie des formes rĂ©pĂ©tĂ©es » (Revue Informatique et Statistique dans les Sciences humaines 24, pp. 333-343) ; etc. Actuellement, cette question reprend de l’acuitĂ© et les Ă©tudes, ainsi que les dĂ©veloppements logiciels affĂ©rents, se multiplient. Le moment nous semble donc venu de faire le point. Ce numĂ©ro de Lexicometrica accueille des contributions consacrĂ©es aux notions de topographie et topologie textuelles, c’est-Ă -dire Ă  la prise en compte, dans les exploitations automatiques des textes numĂ©risĂ©s et dans leur traitement quantitatif de la linĂ©aritĂ© intrinsèque du texte, voire de sa structure en rĂ©seau avec d’autres textes au sein d’un corpus fortement cohĂ©rent (cas des recueils par exemple).
Sommaire
Sylvie Mellet (1), Jean-Pierre BarthĂ©lemy (2) (1 Laboratoire BCL, UniversitĂ© Nice Sophia-Antipolis, CNRS ; MSH de Nice, 98 bd E. Herriot, 06200 NICE, 2 ENST de Bretagne, BP 832, 29285 Brest CĂ©dex). “ L’analyse de donnĂ©es textuelles aujourd’hui : du corpus comme une urne au corpus comme un plan. Retour sur les travaux actuels de topographie/topologie textuelle (partie I)
Étienne Brunet (Laboratoire BCL (UMR 6039), UniversitĂ© de Nice, MSH, 98 Bd Edouard Herriot, BP 3209, 06204 Nice cedex 3.) “FrĂ©quences et sĂ©quences. Mise en Ĺ“uvre dans Hyperbase.
Julien Bourdaillet, Jean-Gabriel Ganascia, Jean-Louis Lebrave (Laboratoire d’Informatique de Paris 6 UniversitĂ© Pierre et Marie Curie 104 avenue du prĂ©sident Kennedy - 75016 Paris, Institut des Textes et Manuscrits Modernes Ecole Normale SupĂ©rieure 45 rue d’Ulm - 75005 Paris). “Topologie et gĂ©nĂ©tique textuelles : un dialogue mĂ©diĂ© par la machine.
Stephan Vonfelt (UniversitĂ© de Toulouse Le Mirail - Laboratoire Lettres, Langages et Arts ). “Le graphonaute ou Molière retrouvĂ©.


N° SpĂ©cial ” Explorations textomĂ©triques” (2009)
Responsables du numéro André Salem , Serge Fleury
PrĂ©sentation : Nous avons rassemblĂ© plusieurs compte-rendus d’expĂ©riences rĂ©alisĂ©es avec les logiciels de la famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses. Les navigations rassemblĂ©es ici ont Ă©tĂ© choisies pour mettre en Ă©vidence la très vaste gamme des domaines d’application des mĂ©thodes textomĂ©triques ainsi que les fonctionnalitĂ©s des logiciels Lexico3 et mkAlign. Elles sont publiĂ©es sous la forme de trois volumes (volume 1 : corpus et problèmes, volume 2 : sĂ©ries textuelles chronologiques, volume 3 : corpus multilingues).
Sommaire
Volume 1 : corpus et problèmes
A. Salem, Tutoriel n°1 : Exploration du corpus Père Duchesne
E. Nee, Insécurité et élections présidentielles dans le journal Le Monde
C. Pineira-Tresmontant, A. Salem, Discours royal espagnol
Liangcai Shen, AndrĂ© Salem, Qu’en pensent les Chinois ? Essai d’exploration de l’opinion publique chinoise Ă  travers des documents disponibles sur la toile.
F. Abbassi, Discours thĂ©orique et discours d’action. Approche textomĂ©trique de l’Ă©volution de groupements islamistes
P. Couton-Wyporek, Blogs & environnement
L. Sansonetti, Interactions adulte/enfant
M. Leenhardt, Communications homme-machine
A. Salem, Romuald Schummer, Textométrie hiéroglyphique
Volume 2 : séries textuelles chronologiques
A. Salem, Tutoriel n°2 : Séries textuelles chronologiques
J-M. Leblanc, Vœux présidentiels
A. Salem, Li-Chi Wu, Essai de textométrie politique chinoise. Les congrès du Parti Communiste Chinois (1921-2007)
Serge A. de Sousa, Le discours de Fidel Castro. Essai de lexicométrie politique
Volume 3 : corpus multilingues
S. Fleury, Tutoriel n°3 : Exploration du corpus Traductions alignĂ©es du discours d’investiture de B. Obama
M. Zimina, Equivalences traductionnelles
J. Miao, A. Salem, Comparaisons textométriques de traductions franco-chinoises
J-H. Cho, Traductions franco-coréennes
Christian Jean, Le thaĂŻ. De la segmentation aux maux
————————————————————————
L’Ă©quipe Lexicometrica
Coordinateurs de la rédaction : André Salem, Serge Fleury
Contacts: lexicometrica@univ-paris3.fr
LEXICOMETRICA
ILPGA, 19 rue des Bernardins, 75005 Paris France

Liens en vrac 14/12/2009

The Future of Taxonomy and Technology: Is Taxonomy Dead ?
Petits cours de XSLT à l¹usage des bibliothécaires N°1
XML, XSL, XSLT-1, XSLT-2 (petites questions de terminologie) N° 2
How Much Information? 2009. Report on American Consumers.
“Le Petit Prince", casse-tĂŞte des traducteurs japonais.
using Perl to scrape the web.
Secret Perl Operators.
Perl, sed, grep, gawk, uniq, host and dig: another look.
Unix Guru Universe.
CommandLine Fu.
Laméricain Ryder Ripps a lancé « Newemoticons », un site et un compte twitter consacrés à l¹art de l¹émoticône.
Eric Wilhelm has written six tutorials - from “Getting Started with Perl” to “Your First GUI DesktopApplication". The six tutorials are : Getting Started with Perl, Control, Structures, Scoping, and Subroutines, Using and Creating Modules, An Introduction to Objects, Perl/CPAN Configuration Howto, Your First GUI Desktop Application.
Le magazine de veille RĂ©seau TIC, Ă©pisode 35. DĂ©couverte: les microformats. Ces petits modèles de balises XML utilisĂ©s pour reprĂ©senter des donnĂ©es de contacts, la tenue d’Ă©vĂ©nements ou la parution d’un billet de blogue faciliteront grandement la rĂ©utilisation de ces informations et ouvrent la voie au Web sĂ©mantique. Entrevue avec HĂ©lène Martineau: perception et cyberespace. Une quantitĂ© croissante d’information est accessible au moyen de repères gĂ©ographiques, si bien qu’un nouveau canevas se dessine pour la consultation et la recherche d’information. Comment cet univers principalement visuel peut-il se substituer Ă  l’ensemble de nos sens? Notre dĂ©pendance Ă  Internet nous conduira-t-elle vers Ă  la dĂ©sincarnation? Lèche-vitrine: la gĂ©olocalisation. Les applications de gĂ©olocalisation, bien que fort prometteuses, sont encore peu exploitĂ©es sur le plan pĂ©dagogique, d’oĂą une revue de quelques sites disponibles seulement en anglais. Pourtant, ils ont un fort potentiel d’application en gĂ©ographie, mais Ă©galement en histoire, environnement et sociologie, notamment.
L’histoire d’Internet par la National Science Foundation.
Wikimedia Commons : une banque d’images libres de droit.
À la découverte du livre électronique.
Another reason why I use Emacs as my primary editor.
Ymacs is an Emacs-like editor that works in your browser.
Culture numérique : cours présenté par Hervé Le Crosnier.
Compte rendu: Les modèles Ă©conomiques de l’Ă©dition numĂ©rique.
L’histoire d’un site vue Ă  travers les Ă©volutions de sa page d’accueil (au delĂ  des frontières).
RegExr is an online tool for editing and testing Regular Expressions (RegExp / RegEx).
85 applications Mac pour les développeurs et graphistes web.
Everything you ever wanted to know about Twitter.
Le portail des Universités numériques thématiques : ressources pédagogiques en ligne.
CodeRun Studio Free & Cross-Platform Online IDE : CodeRun Studio is a free, cross-platform Integrated Development Environment (IDE), designed for the cloud. It enables you to easily develop, debug and deploy web applications using your browser. CodeRun Studio can be used instead or alongside your existing desktop IDE. You can upload existing code in order to test it in the cloud or for sharing with your peers.
UNIX turns 40. Summary: The systems world will shortly be celebrating a major anniversary milestone. UNIX® is turning 40 years old! Most of us know the story of how UNIX was born, but what about why? Was it born strictly because its founders wanted to play a computer game on a different platform? And why does UNIX continue to thrive 15 years after an (in)famous Byte Magazine article that asked, “Is UNIX dead?” How has AIX® (the only UNIX flavor that has increased its market share through the years) been a part of the evolution of UNIX and what are the current trends today in the UNIX arena? These are just some of the topics this article explores.
N° 45 – Les Thésaurus sont aussi utiles pour le tagging.
10 thésaurus en ligne : Macrothésaurus de l’OCDE, Thésaurus Eurovoc, Thésaurus AGROVOC, Thésaurus UNESCO, Thésaurus UNBIS, Thésaurus de Santé publique, Thésaurus d’éthique des sciences de la vie, Thésaurus du BIT, Thésaurus URBAMET, Thésaurus InterWater.
Cours universitaires gratuits sur la culture numérique par Hervé Le Crosnier sur le site de CEMU – Université de Caen Basse Normandie ou encore sur dailymotion.
BOEN - Commission gĂ©nĂ©rale de terminologie et de nĂ©ologie : Vocabulaire de l’Ă©ducation, Vocabulaire des sciences et techniques spatiales.
La valeur de l’information….
De l’utilisation de Twitter en classe.
osalt.com ; Open source as alternative.
Qu’est-ce quÂąun livre numĂ©rique et en avons-nous besoin ?
Text Mining for Scholarly Communications and Repositories.

24/11/2009

Liens en vrac 24/11/2009

Corpus des discours de Nicolas Sarkozy : les discours originaux au format PDF, une conversion propre des discours originaux en texte brut, un nettoyage et une structuration XML des discours (extraction des titres, de la date, …). Version complète (58Mo). Version sans les PDF (4,6Mo).
La guerre du Web, par Tim O’Reilly.
UppercaseIt permet de transformer très rapidement un texte en lettres capitales ou en lettre minuscules.
PDF Search Engine : cet outil sert Ă  trouver des documents PDF…
Edition scientifique en SHS : l’Ă©tude sur l’Ă©dition scientifique française en sciences humaines et sociales : le rapport de synthèse, le document global “l’Ă©conomie de l’Ă©dition française de recherche en SHS".
Comment faire la recherche en ligne ?
Petit Guide Ă  l’usage de l’Apprenti-Chercheur en Sciences Humaines & Sociales ESSAI EpistĂ©mologie & MĂ©thodologie de Recherche en Sciences de l’Information & de la Communication, Collection Les E.T.I.C, Presses Technologiques, Toulon (Ed.) (2009) 4-156.
Le projet Blue Brain par RenĂ© TrĂ©gouĂ«t : “Le premier cerveau artificiel en 2020 ?”
Un rapport sur les relations délétères entre les grandes entreprises et les universités.
Information Literacy Tutoria : un tutoriel en ligne sur les concepts de base de la “maîtrise des compétences informationnelles” (Version pdf).
Le magazine de veille Réseau TIC, épisode 34 : Découverte: XML et CSS, les dessous du Web.
Comment citer un document électronique?.
La pĂ©rennisation de l’information numĂ©rique, mature ! Vraiment ? : Compte-rendu de “la grande messe annuelle de la pĂ©rennisation de l’information numĂ©rique, IPRES , qui avait lieu cette annĂ©e Ă  San Fransisco". De nombreuses lectures y sont pointĂ©es…
Constellations : outil de recherche qui nous propose de naviguer entre les rĂ©sultats, qui sont organisĂ©s en constellations…DĂ©tail ici.
Acawiki : “Acawiki is like a “Wikipedia for academic research” designed to increase the impact of scholars, students, and bloggers by enabling them to share summaries and discuss academic papers online. Acawiki turns research hidden in academic journals into something more dynamic and accessible. All content on the site is licensed under the Commons Attribution license.
Pedauque en schéma heuristique : Le document numérique selon Roger Pedauque sous forme de mind map.
A new way of looking at the world.
Digital Storytelling Tools for Educators.
Twitnest 0.1 : appli pour visualiser son réseau Twitter et faire apparaître les groupes.
Viewdle : Moteur permettant d’effectuer des recherches plein-texte dans fichiers audios.
Outils de veille-Médias Sociaux-Monitoring.
SlickPlan : Service gratuit permettant de créer des organigrammes et graphiques.
Protovis : Logiciel open source pour crĂ©er des cartographies d’informations ou donnĂ©es.
Openproj : logiciel de gestion de projets Open Source.
Back of the Napkin - Tools : outils Ă  tĂ©lĂ©charger pour “penser graphique".
De la mobilitĂ© des tĂ©lĂ©phones et de la langue - Le Tigre : Le SMS n’est pas une langue, mais une Ă©criture : une Ă©criture qui dĂ©coule de 2 contraintes : la structure des touches du clavier et le nombre limitĂ© de caractères par message. Les contraintes techniques (minimiser le temps d’Ă©criture et la longueur des messages) ont une incidence directe sur l’Ă©criture de la langue… IntĂ©ressant dĂ©cryptage d’une langue.
20 Free Mac Apps For Web Designer’s Toolkit.
SciPlore MindMapping is the first mind mapping tool focusing on researchers’ needs by integrating mind mapping with reference and pdf management.
Validating XML in PHP : Ensure data integrity and validate XML documents against an XML schema in PHP.
Souvenirs: 30 ans d’enseignement de l’informatique (1).
La communication scientifique face au Web2.0 : Premiers constats et analyse - Evelyne Broudoux, Ghislaine Chartron.
A la recherche de ce sur quoi les autres cliquent - Technology Review.
Vers le futur de l’internet, une perspective de recherche europĂ©enne (livre en anglais).
L’Ă©dition Ă©lectronique en Sciences Humaines: les ressources documentaires proposĂ©es par la plate-forme Revues.org.
Learn Perl : If you’re just getting started with Perl, the Getting Started Guide will walk you through your first Perl program. Experienced programmers might want to start with perlintro.

6/11/2009

Liens en vrac 06/11/2009

Le numĂ©ro 49:3 de la revue TAL (http://www.atala.org/-Revue-TAL-), intitulĂ©, “PhonĂ©tique et Phonologie” et coordonnĂ© par NoĂ«l Nguyen et Bernard Laks vient d’ĂŞtre mis en ligne. Au Sommaire:
Préface. Bernard Laks, Noël Nguyen.
Contributions du traitement automatique de la parole Ă  l’Ă©tude des voyelles orales du français. Martine Adda-Decker, CĂ©dric Gendrot, NoĂ«l Nguyen.
La parole spontanée : transcription et traitement. Thierry Bazillon, Vincent Jousse, Frédéric Béchet, Yannick Estève, Georges Linarès, Daniel Luzzati.
IrcamCorpusTools: plate-forme pour les corpus de parole. Grégory Beller, Christophe Veaux, Gilles Degottex, Nicolas Obin, Pierre Lanchantin, Xavier Rodet.
Le CID - Corpus of Interactional Data. Roxane Bertrand, Philippe Blache, Robert Espesser, Gaëlle Ferré, Christine Meunier, Béatrice Priego-Valverde, Stéphane Rauzy.
Accents étrangers et régionaux en français. Philippe Boula de Mareüil, Bianca Vieru-Dimulescu, Cécile Woehrling, Martine Adda-Deckerf.
Alignement automatique et analyse phonĂ©tique: comparaison de diffĂ©rents systèmes pour l’analyse du schwa. Audrey BĂĽrki, CĂ©dric Gendrot, Guillaume Gravier, George Linarès, CĂ©cile Fougeron.
Caractéristiques acoustiques et prosodiques des hésitations vocaliques dans trois langues. Ioana Vasilescu, Martine Adda-Decker, Rena Nemoto.
Publication : “Morphologie, lexique et traitement automatique des langues, l’analyseur DĂ©riF". Collection TIC et Sciences cognitives dirigĂ©e par Jean-Marie Pierrel. Fiammetta Namer. ISBN : 978-2-7462-2363-9 - Format : 15,5 x 23,5 cm - 448 p. Éditeur : Hermes - Lavoisier.
Publication : L’imagerie mĂ©dicale pour l’Ă©tude de la parole (TraitĂ© Cognition et Traitement de l’Information, IC2) sous la direction d’Alain Marchal et Christian CavĂ©. Hermès, 2009, 278 p. ISBN : 978-2-7462-2235-9.
L’informatique de mĂŞche avec les sciences humaines : utilisation possible d’outils informatiques en sciences humaines : Première prĂ©sentation : “Analyse de textes avec TreeCloud et Lexico”
Rapport Livre et Numérique : Le rapport est en ligne sur Le Motif et sur Amontour.
Vers le futur de l’internet, une perspective de recherche europĂ©enne.
Les conversations remplaceront-elles les messages ?
Boolify Project : An Educational Boolean Search Tool.
Liste de fréquence des mots de la langue française écrite.
Antconc 3.2.1 : Logiciel gratuit d’analyse textuelle (occurences) pour Windows.
Task Coach : Logiciel gratuit de gestion des tâches et gestion de projet.
Taskjuggler : Logiciel de gestion de projets open source.
Les outils de Text Mining.
Introduction au Text-mining.
“Feed to Javascript"? : Transformer un flux rss en javascript.
Zetoc: Homepage : Service d’alerte par mots-clĂ©s ou rss sur table des matières de 20000 publications scientifiques et 16000 confĂ©rences.
Comment faire un sondage en ligne : 10 solutions.
RJ TextEd est outil de dĂ©veloppement web et un Ă©diteur de texte Unicode de texte, qui supporte la coloration syntaxique et le pliage de code. RJ TextEd intègre Ă©galement un client FTP…
InternetActu.net propose un important dossier en quatre volets intitulĂ© “Critique du Web”: Quelles donnĂ©es libère-t-on? “ ; “Mesurer les rĂ©sultats de la libĂ©ration des donnĂ©es” ; “Toutes les donnĂ©es sont devenues personnelles”; “Que faire face Ă  la puissance des donnĂ©es?”.
Les opérateurs booléens pour les nuls.
Logiciel libre : L’analogie de la voiture.
Babel Borges : site interdisciplinaire qui a pour but l’étude de la diffusion de l’œuvre de Jorge Luis Borges dans la culture.
Base de données terminologique multilingue de l’Union Européenne.
Scitable : Portail scientifique en ligne.
Lecture sur écran, lecture sur papier, quelles différences ?
Bibliothèques numériques.
Trouver des ressources en ligne.
The Fourth Paradigm: Data-Intensive Scientific Discovery
Les outils gratuits pour faire de la veille.
UtwitBook, moteur de recherche pour Twitter.
MyMemory : service collaboratif de traduction.
Guide de recherche en bibliothèque. Par la BNF.

20/10/2009

Liens en vrac 20/10/2009

HTTP pour les naĂŻfs et les brutes.
Publication : “Le nouveau management de l’information. La gestion des connaissances au coeur de l’entreprise 2.0″ chez FYP Editions.
Introduction aux sciences de l’information : Cette vidĂ©o s’adresse principalement aux jeunes qui voudraient devenir professionnels de l’information, pour les inciter Ă  franchir le pas.
Pourquoi diffuser un logiciel développé dans un laboratoire ou une université avec une licence libre ?.
Signets : initiative des bibliothèques universitaires de France qui permet aux professionnels des bibliothèques de l’enseignement supĂ©rieur et de la recherche de contribuer au catalogue des signets.
L’application Voxalead News permet de rechercher directement dans les vidĂ©os et fichiers audio de chaĂ®nes d’information.
Le site CLUBIC propose un article comparant les encyclopédies électroniques : Larousse, Hachette Multimedia, Quid, Encyclopédie Universalis, Knol de Google et Wikipédia.
Trace the growth of XML over 10 years (Review a decade of great XML authors and resources). Summary: XML was born in 1998 when it became a Worldwide Web Consortium (W3C) recommendation and the IBM developerWorks Web site was launched the following year. Over those 10 years, the XML zone has hosted over a thousand articles, tutorials, and tips. We’ve covered technology, tools, standards, products, best practices, predictions, evaluations, and developer experiences, and have supported a variety of forums. A 10-year birthday is a good time to look back at some of the authors who made the XML zone what it is.
MiniPerl6 (mp6) is a subset of Perl 6, which was designed as a light bootstrapping language. MiniPerl6 is now self-hosted in Javascript, Lisp and in Perl 5. This page runs the compiler in the browser (tested in Firefox and Safari): MiniPerl6 source code and images can be downloaded from the Pugs repository: svn checkout http://svn.pugscode.org/pugs pugs, cd pugs/v6/v6-MiniPerl6.
Enseigner et apprendre l’informatique sans ordinateur.
Gabrielle Roy : du manuscrit au virtuel: initiative du Groupe de recherche sur Gabrielle Roy. PilotĂ© par Sophie Marcotte (chercheuse principale), François Ricard et Jane Everett (co-chercheurs), ce projet consiste en une base de donnĂ©es accessible en ligne et portant sur l’une des romancières les plus importantes de la littĂ©rature quĂ©bĂ©coise et canadienne moderne.
TweetAlarm pour veiller sur Twitter.
Concept Lens is an online visualization that tracks the conversations occurring on Twitter and photos being posted on Flickr, for any event or topic of interest such as for conferences. Tweets are mapped on a virtual timeline, while users can add “Concept Lenses” to discover more detailed information for a specific time span (i.e. keywords or URL), adjust the time, or explore meaningful connections between related tweets.
Les nouveaux mots du Petit Robert 2010.
Les bonnes pratiques pour apprendre avec le web 2.0 et innover.
Sorosoro, pour que vivent les langues du monde ! PrĂ©sentation des travaux et lancement du site Internet, le 6 octobre 2009 au musĂ©e du quai Branly. Ce site a pour ambition de devenir un point de rencontre pour tous ceux qui se prĂ©occupent de diversitĂ© culturelle et linguistique, en France et Ă  travers le monde. Disponible en trois langues (français, anglais et espagnol), il veut ĂŞtre un pont entre la recherche scientifique et le grand public. Il sera novateur dans la forme, dans les fonctionnalitĂ©s proposĂ©es et unique dans la quantitĂ© de donnĂ©es rassemblĂ©es. Tout Ă  la fois informatif (textes, films vidĂ©os, cartes Google) et participatif, il fera largement appel aux Internautes qui pourront l’enrichir au fil du temps.
Web 2.0 : découverte des outils.

6/10/2009

Liens en vrac 06/10/2009

NouveautĂ© parue dans la Collection L’Essentiel Français, dirigĂ©e par Catherine Fuchs : Construire des bases de donnĂ©es pour le français, Tome 1. Notions, de BenoĂ®t Habert (Professeur en linguistique et informatique Ă  l’ENS Lettres et Sciences Humaines et rattachĂ© Ă  l’UMR 5191 ICAR).
NouveautĂ© parue dans la Collection Linguistique contrastive et traduction dirigĂ©e par Jacqueline Guillemin-Flescher : Les pĂ©riphrases verbales. Aller + infinitif et be going to de Laure LANSARI, MaĂ®tre de ConfĂ©rence en Linguistique anglaise Ă  l’UniversitĂ© de Reims Champagne-Ardenne. Les pĂ©riphrases verbales aller + infinitif et be going to, qui se sont toutes deux grammaticalisĂ©es Ă  partir d’un verbe de dĂ©placement, expriment, d’après les grammaires traditionnelles, le « futur proche » et l’intention.
«Les SMS et Internet peuvent avoir un impact positif sur le langage» : la linguiste Naomi S. Baron dĂ©crypte l’influence des nouvelles technologies sur la manière dont nous communiquons…
Best Search Tools Chart.
A lire sur Figoblog : “Dublin Core, le pouvoir de la simplicitĂ©”.
La grande illusion de la veille internationale sur Internet.
Guide en ligne : La recherche sur Internet et la veille médiatique.
SenseBot : Moteur de recherche sémantique qui propose un résumé des pages trouvées. 3 plugins Firefox dont un pour travailler sur les résultats de Google.
What Visualization Tool/Software Should You Use ?
Etherpad: Realtime Collaborative Text Editing. Solution d’Ă©criture collaborative.
99translations.com : Service de traduction collaboratif.
Visual Analytics : Cours sur la cartographie de l’information.
Academic software for research papers : Logiciel et service Saas pour stocker et gĂ©rer des articles scientifiques. Equivalent open source d’Endnotes.
Sentiment Analysis Takes the Pulse of the Internet : Comment l’analyse des sentiments sur le web pourrait modifier les rĂ©sultats des moteurs de recherche.
Books - L’actualitĂ© par les livres : Sommaire d’un numĂ©ro consacrĂ© Ă  la lecture et internet et au pb du web et de la connaissance en gĂ©nĂ©ral.
Internet rend t-il encore plus bĂŞte?
Comment Internet transforme les habitudes de lecture.
La lecture change nos cerveaux aussi.
Un système pour traduire une discussion en 72 langues différentes.
Grapheur de news multilingues gratuit.
Meet CAM: A new XML validation technology : Take semantic and structural validation to the next level. Summary: XML documents are frequently validated against either a DTD (less likely) or an XML schema (more likely). Recently, a new technology called Content Assembly Mechanism (CAM) has emerged. It is endorsed by the Organization for the Advancement of Structured Information Standards (OASIS). CAM represents a step up from XML schema because it provides even more flexibility in defining both the semantics of an XML document and the business rules associated with the actual data content. Take a broad overview of CAM, including its benefits over the alternatives, in this article.
Vocabulaire de l’Ă©ducation (liste de termes, expressions et dĂ©finitions adoptĂ©s).
JournĂ©e europĂ©enne des langues : l’UE, 60% des Ă©lèves du second cycle de l’enseignement secondaire ont Ă©tudiĂ© au moins deux langues Ă©trangères en 2007. Le français, langue rare ? Questions & rĂ©ponses sur l’interprĂ©tation
Les bibliothèques de l’universitĂ© d’Edimbourg propose une section consacrĂ©e au support Ă  la recherche. En trois parties: How to manage research data, Data sharing & preservation, Training, advice & support.
Comment fonctionne un moteur de recherche?
MacOS 10.6 de fond en comble.
Historique des outils de recherche.
Timeline of Search Engine History.
World Wide Lexicon Toolbar : The World Wide Lexicon Translator makes browsing foreign languages sites easy and automatic. Simply open a URL. It detects its language and translates using human and machine translations. With it you can view and create translations for any website.
Le livre inscriptible (version de travail)
Data mining sur Facebook.

22/9/2009

Liens en vrac 22/09/2009

Veille technologique : Liens Utiles.
NUMES : inventaire en ligne des corpus numĂ©risĂ©s et des projets de numĂ©risation des Ă©tablissements et organismes de l’Enseignement supĂ©rieur et de la Recherche.
Publication : Spoken Language Processing, Ă©ditĂ© par Joseph Mariani (IMMI & LIMSI-CNRS). ISBN: 9781848210318. Janvier 2009, 504 pp. Plus d’informations sur son contenu Ă  l’adresse: http://www.iste.co.uk/index.php?f=a&ACTION=View&id=150.
Publication : “A Wordnet from the Ground Up” by Maciej Piasecki, Stan Szpakowicz and Bartosz Broda (ISBN 978-83-7493-476-3). A language without a wordnet is at a severe disadvantage. We report on the initial stages of a long-term project to create a similar resource for Polish. We have envisaged a book for many audiences. The most immediate “clientele” are people who work with wordnets and on wordnets. We have attempted to make our experience with one language approachable to people who need not know anything about that language. Computing professionals who work with Polish texts may find the technical discussion interesting. Linguists who use computers in their study may be encouraged to acquire yet another element of their research workbench. Researchers who specialise in statistical method of semantic analysis of texts may consider our comprehensive overview of such methods useful. There was no Polish wordnet when our work began several years ago. We chose to construct the resource from the ground up rather than translate the English WordNet first and then labouriously adapt it to the significantly different realities of the Polish language. Liens : (1), (2), (3).
Fabrice Epelboin revient sur un article du New York Times consacré à l’analyse de sentiment
Ajouter du sens aux nombres : objectif de TrueNumber qui permet d’ajouter des Ă©tiquettes sĂ©mantiques Ă  un nombre pour ne pas qu’il perde son sens…
Traduction de l’article du philosophe de l’information italien Luciano Floridi par Patrick Pecatte. RĂ©sumĂ© : Cet article dĂ©veloppe certaines des conclusions publiĂ©es dans Floridi (2007) concernant les futurs dĂ©veloppements des Technologies de l’Information et de la Communication (TIC) et leur impact sur nos vies. Les deux principales thèses soutenues dans ce papier sont les suivantes : alors que la sociĂ©tĂ© de l’information se dĂ©veloppe, la limite entre connectĂ© et non connectĂ© devient de plus en plus floue, et lorsqu’il n’existera plus de diffĂ©rence significative, nous allons progressivement nous re-conceptualiser nous-mĂŞmes non pas comme des cyborgs, mais plutĂ´t comme des inforgs, c’est-Ă -dire comme des organismes informationnels socialement connectĂ©s. Dans ce papier, j’examine le dĂ©veloppement de ce qu’on appelle le Web sĂ©mantique et le Web 2.0 Ă  partir de cette perspective et je tente de prĂ©voir leur avenir. En ce qui concerne le Web sĂ©mantique, je soutiens qu’il s’agit d’un projet clair et bien dĂ©fini, qui, en dĂ©pit de certains points de vue autorisĂ©s contraires, ne constitue pas une rĂ©alitĂ© prometteuse, et qu’il Ă©chouera probablement de la mĂŞme manière que le projet de l’Intelligence Artificielle (IA) a Ă©chouĂ© dans le passĂ©. Concernant le Web 2.0, je soutiens que, mĂŞme s’il est assez mal dĂ©fini et qu’il lui manque une claire explication de sa nature et de sa portĂ©e, il a la capacitĂ© Ă  devenir un succès (et en effet, c’est dĂ©jĂ  un succès dans le cadre du nouveau phĂ©nomène du Cloud Computing), car il tire parti des seuls moteurs sĂ©mantiques disponibles Ă  ce jour dans la nature, nous-mĂŞmes. Je conclus en suggĂ©rant quelles autres modifications nous pourrions attendre dans le futur de notre environnement numĂ©rique.
Comment Internet transforme les habitudes de lecture.
Rankspeed : moteur de recherche d’avis et opinions dans le web temps rĂ©el.
Les TIC multitaches rendent-elles stupide ?
Analyse de texte. La tarte à la crème du sentiment analysis.
Data Mining Tools for Technology and Competitive Intelligence.
Padre : the Perl IDE. Padre is a Perl IDE, an Integrated Development environment, or in short a text editor that is simple to use for new Perl programmers but also supports large multi-lingual and multi-technology projects. Our primary focus is to create a peerless environment for learning Perl and creating Perl scripts, modules and distributions, with an extensible plugin system to support the addition of related functionality and languages and to support advanced developers taking the editor anywhere they want it to go.
My Text Tools : Free Online Text Tools. This website is a collection of simple yet “hard to find” browser-based text manipulation tools. NOTE: Javascript must be enabled for tools to function. This has been added to the tools section of Research Resources Subject Tracer™ Information Blog.
LexiQuo : Multimoteur de recherche qui peut traduire des requĂŞtes en 5 langues et propose de lancer la recherche sur les dĂ©rivĂ©s d’un mĂŞme mot.
Your world, your way : Multimoteur de recherche avec possibilité de conserver et partager des résultats.
Visual Understanding Environment : Logiciel open source de cartographie de l’information.
Recherche et filtrage d’informations : cours sur la recherche et le filtrage d’informations par Daniel Lemire.
Une boite à outil pour les mondes numériques.
BlastCasta : Une boĂ®te Ă  outils autour des flux rss (remix, combinaison, traduction, filtrage, widgets,…)
iubo : Un service qui permet de stocker de nombreux types de donnĂ©es (bookmarks, contacts, Ă©vènements, images, notes; flux rss, podcasts,… et de rechercher dedans en plein texte.
JournalBase : Etude comparative internationale des bases de données des revues scientifiques en sciences humaines et sociales (SHS).
Edmodo : Edmodo is a private communication platform built for teachers and students.
“L’Arbre europĂ©en des thĂ©saurus francophones (gratuits) en ligne” : annuaire de thĂ©saurus produit par Bruno Richardot (le site complet).
Web Design is 95% Typography.
Des cartes Google Maps sur votre site.
Jack Sandeen propose un site didactique autour du problème de l’analyse brevet .
Mémoire sur la réputation numérique.
TextRunner : permet d’interroger 500 millions de pages web en utilisant des triplets (un sujet, un prĂ©dicat, un objet).
Textise : Extension Firefox qui transforme une page web en sa version texte.
Information visualization projects so awesome they’ll turn your hair gray overnight.
Best RSS feeds for information graphics.
LOOP Apps : Merge Microsoft Office Documents, Automate Document Creation, Convert to PDF. Un couteau suisse en ligne pour manipuler des fichiers.
Astuce pour faire de la veille avec Twitter.

9/7/2009

Liens en vrac 09/07/2009

Les Actes de la conférence TALN2009 des 24,25 et 26 juin dernier à Senlis.
Le n° 70 d’InĂ©dit. NumĂ©ro spĂ©cial : Interfaces homme-machine. Mieux interagir avec le monde numĂ©rique,L’homme maĂ®tre de la machine, Parler aux machines, Mieux interagir en 3D, Interfaces pour la chirurgie, Commander les machines avec le cerveau, Extraire des signaux tout petits, ContrĂ´ler le mouvement des doigts.
Le Web sémantique à iExpo 2009. Transparents en ligne sur le site iExpo.
Le numĂ©ro 49:2 de la revue TAL (www.atala.org), intitulĂ©, “Plate-formes pour le Traitement Automatique des Langues” et coordonnĂ© par Patrice Enjalbert, Kalina Bontcheva et Benoit Habert vient d’ĂŞtre mis en ligne. Sommaire: PrĂ©face, Patrice Enjalbert ; TiLT: plate-forme pour le traitement automatique des langues naturelles, Johannes Heinecke, GrĂ©gory Smits, Christine Chardenon, Emilie Guimier De Neef, Estelle Maillebuau et Malek Boualem ; Antelope: une plate-forme industrielle de traitement linguistique, François-RĂ©gis Chaumartin ; Articulation des traitements en TAL, Antoine Widlöcher, FrĂ©dĂ©rik Bilhaut ; SUMMA, Horacio Saggion ; Le dĂ©veloppement d’une plate-forme pour l’annotation spĂ©cialisĂ©e de documents Web: retour d’expĂ©rience, Thierry Hamon et Adeline Nazarenko ; SxPipe 2: architecture pour le traitement prĂ©syntaxique de corpus bruts, BenoĂ®t Sagot et Pierre Boullier ; CorpusReader: construction et interrogation de corpus multiannotĂ©s, Sylvain Loiseau ; A Flexible Framework for Integrating Annotations from Different Tools and Tag Sets, Christian Chiarcos, Stefanie Dipper, Michael Götze, Ulf Leser, Anke LĂĽdeling, Julia Ritz et Manfred Stede ; SEWS: un serveur d’Ă©valuation orientĂ© Web pour la syntaxe, Olivier Hamon, Patrick Paroubek et Djamel Mostefa ; Cocytus: parallel NLP over disparate data, Noah Evans, Masayuki Asahara et Yuji Matsumoto.

29/6/2009

Liens en vrac 29/06/2009

Undows : Useful Gnu Tools for Text Processing. Undows is an environment for easily using gnu utilities and command line for text processing under Windows. These utilities include a very powerful text editor SciTE, Gawk, perl, and the textutils (now they are a piece of the coreutils). In sumary, it’s a little bit like Cygwin, Djgpp, or Gnuwin32 but oriented for text processing and for beginners For the moment, some parts of Undows are still in French (nevertheless it’s completely usable by english speakers). We’re working on a bilingual english and french version…. FAQ (in french).
mémo perl.
Perl online.
memo R.
R online.
Table des phonèmes du français.
Andy Farke, du blog The open source paleontologist, retrace l’Ă©volution de la communication entre palĂ©ontologues dans “What Happened to Mailing Lists ? (Part 1) (Part 2).
Collections : Permet de compiler dans un seul pack tout plein d’extensions Firefox Ă  installer d’un seul coup (top pratique surtout lorsque l’on change d’ordinateur).
Nuke Anything Enhanced : une extension Firefox qui permet de cacher temporairement ou durablement n’importe quel partie d’une page web.
The Pencil Project : extension Firefox faire des diagrammes et des prototypes d’interfaces utilisateur.
Hans Rosling shows the best stats you’ve ever seen : “Hans Rosling shows the best stats you’ve ever seen".
XSL Results 1.6.9 (extension firefox) : Display the results of an XSL 1.0 or 2.0 transformation (including on a currently loaded page), on a one-shot or per-site basis.
Unicode Input Tool/Converter 2.5.7 (extension firefox) : Unicode lookup and chart view to find international characters or symbols; converts entities or character references (hex and dec) into Unicode and back.
AppAppeal : Reviews of web based applications.
Confidence in the Information Society : PubliĂ© en mai 2009, prĂ©sente les rĂ©sultats d’une enquĂŞte menĂ©e en septembre 2008. Cette enquĂŞte s’est intĂ©ressĂ©e Ă  la manière dont les utilisateurs domestiques d’internet perçoivent les dangers d’internet et de la sociĂ©tĂ© de l’information, ainsi que leur niveau de sensibilisation.
Filtrage sĂ©mantique : de l’annotation Ă  la navigation textuelle (TraitĂ© Informatique et Systèmes d’Information - IC2 dirigĂ© par Jean-Charles Pomerol) Sous la direction de Jean-Luc Minel.
Analyse automatique du discours de N. Sarkozy du 22 juin 2009. Par Pascal Marchand (analyse prenant appui sur des résultats produits avec Lexico3)
ReadWriteWeb France : Data.gov, bien, mais peu mieux faire.
40 plugins pour utiliser Wordpress comme un CMS.
apophenia : La fracture des genres dans la perception de l’informatique.
Zilla PDF to TXT Converter : Un logiciel pour extraire le texte d’un fichier PDF.
abcTajpu : extension pour Firefox qui permet d’Ă©crire un mot avec des caractères accentuĂ©s ou spĂ©ciaux. Peut ĂŞtre utile pour interroger un moteur de recherche avec un mot orthographiĂ© d’une manière prĂ©cise.
VAC Views Visual Analytics Periodical : revue gratuite consacrĂ©e Ă  la visualisation de l’information. En anglais.
Glearch: 3x the global search : Interface d’interrogation des moteurs gĂ©nĂ©ralistes par pays et langue.
Firefox Add-ons for Research, Communication, Current Awareness, Privacy & More.
5 moteurs de recherche en langage naturel.

18/6/2009

Liens en vrac 18/06/2009

De quelles manières Google parvient à interpréter les mots, les expressions : traitements linguistiques.
Travaillez sur vos documents Google depuis Office avec Offisync : OffiSync propose de travailler sur vos documents Google Docs (texte ou > tableau) directement depuis Office (plugin Office 2007)
20 Excellent AJAX Effects You Should Know.
Search engine comparisons (Blind Search , Bingandgoogle, Bingle, Tripleme etc.
Twitter pour les nuls.
Bing, un peu de bruit avant le silence.
Using the Twitter REST API, Explore the Twitter REST API for automated Web 2.0.
Text Analysis in InfoSphere Warehouse, Part 1: Architecture overview and > example of information extraction with regular expressions (PDF).
Visualisation de l’information : Data Flow, Design graphique et visualisation d’information. Sous la direction de Robert Klanten, Thames & Hudson, Paris 2009 (sorti en anglais Ă  Berlin en 2008). (Source).
Pour tout savoir sur le livre numérique : dossier complet sur le sujet est présenté sur le site européen Educnet.
Un concurrent pour WikipĂ©dia : Knol (contraction de Knowledge), une plate-forme collaborative d’Ă©change d’informations.
Google Squared, les recherches en tableau : Google Squared permet de présenter les résultats de manière structurée dans un tableau de type tableur.
Revue française de linguistique appliquée 2009/1 : Linguistique et traduction.
JAIRO : le dépôt institutionnel central du Japon.
Wolfram-Alpha vu par la Bibliothèque des Sciences Humaines.
Google et au-delĂ .
La carte de l’internet.
Introduction générale au web sémantique.
Lancement du Translate Toolkit qui permet de traduire des url ou des documents (Voir aussi script GreaseMonkey associable).
Trop de Flash sur l’autoroute du Net.
Lefebvroton, générateur automatique de communiqués de presse de Frédéric Lefebvre.
Schéma de données adapté, avec Docbook.
jQuery Tools.
Sites statiques, CMS : et pourquoi pas WordPress.

6/6/2009

From Plato to Perl

Rubrique(s) :   
Auteur : SFA  barre  Heure : 5:41 pm  barre  

Chris Lott - From Plato to Perl: the Problem of Sociality and the ‘Idea’

(source)

5/6/2009

Liens en vrac 05/06/2009

Une sĂ©rie de 3 billets recensant 15 logiciels de gestion de l’information personnel utilisant des interfaces graphiques : Billet1 (Mind Manager, The Brain, Topicscape, Scan, Mindraider), Billet 2 (Treesheets, Cmap, Gnizr, Axon Idea Processor, Pathway), Billet 3 (Beedocs Timeline, Eyeplorer, VUE, Tinderbox, Deepahmehta) (source).
Manuals : regroupe des liens vers près de 6 millions de manuels en ligne: modes d’emploi, cours, etc.
Annotation sur le Web : Une annotation est comme un graffiti, un commentaire, une note de pied de pages, c’est une information supplĂ©mentaire dans l’espace contextuel de la page. Dan Brickley a envoyĂ© un message rĂ©cemment sur la liste Web sĂ©mantique du W3C Ă  propos des annotations sur le Web. Il est conseiller sur un projet Ă  but non lucratif dont les objectifs sont proches de l’ancien Annotea….
Tim Berners-Lee: The next Web of open, linked data.
Comment s’amuser avec Wolfram | alpha ?
RDF, The Semantic Web, and Linked Data : This essay is an attempt to tie together my articles and blog posts on semantic web related topics.
Introducing Copyright : A Plain Language Guide to Copyright in the 21st Century (licence CC).
A propos de Twitter : Twitter’s Business Model Emerges. How To Build Your Personal Brand on Twitter. Whither Twitter?.
Usages, usagers et compétences informationnelles au 21e siècle (BBF, t. 54, n° 3)
Zotero 2.0 Is Here!
EntityCode : A Clear and Quick Reference to HTML Symbol Entities Codes.
Interpretations of the Web of Data.
HTML5 : Microdata. The use of microdata (i.e. microformats) is being considered by the HTML community. A Draft Recommendation has just been released…
Guidelines for Dublin Core Application Profiles published as a DCMI Recommended Resource.
Nova Spivack : Bienvenue dans le Flux.
Le futur se livre : Gutenberg Ă  l’heure du Web.
Electronic Book Review : “ebr is a journal of critical writing produced and published by writers for writers: a peer to peer alternative to academic review. Each essay is reviewed by a thread editor (a tenured professor) and at least one other ebr editor. On acceptance, the essay is posted to our staging site, where it is made available for comment by our 500-plus past contributors, all of whom are published authors in print and online. Unlike academic peer reports, which are generally seen only by committees, ebr reviewer comments can be read in the margins of the essays, as ‘glosses.’
Launch of the Influence Landscape framework (Beta) - Trends in the Living Networks : Une cartographie pour comprendre et analyser les mĂ©canismes d’influence.
CI Series: 1. Find the Pain. Premier article d’une sĂ©rie qui devrait en comporter 15. This competitive intelligence series describes some practical steps for someone to follow that is interested in starting a CI activity in an organization.
Veiller futĂ© Ă  l’international (volume 2) : Un guide gratuit Ă  tĂ©lĂ©charger sur le site des Conseillers du Commerce ExtĂ©rieur de la France (CCEF).
Social Networking and Web 2.0 Tools for Competitive Intelligence : Un article qui revient sur l’utilisation de Twitter, Linkedin et les wikis pour la competitive intelligence.
Open Access Directory (OAD) publie un wiki avec une liste de bases de données dont le contenu est accessible gratuitement. Ces bases de données sont spécialisées dans les domaines scientifiques.
Bing vs Google : Cette page permet de comparer les résultats de recherche dans Bing et Google.
YochaĂŻ Benkler : DĂ©passer l’analyse de la topologie des rĂ©seaux : Comment construire de nouvelles approches et de nouvelles formes d’observation pour comprendre comment se transforme la politique Ă  l’heure de la participation dans les environnements en rĂ©seaux ? Telle Ă©tait le fil directeur de la foisonnante confĂ©rence (voir les slides de sa prĂ©sentation) quÂąa donnĂ© YochaĂŻ Benkler Ă  l’occasion de l’inauguration du MediaLab de Sciences Po la semaine dernière (voir Ă©galement les objectifs du laboratoire). On ne prĂ©sente plus vraiment YochaĂŻ Benkler, professeur Ă  la Harvard University, codirecteur du Centre Berkman pour l’internet et la sociĂ©tĂ©, spĂ©cialiste des sciences politiques Ă  l’heure d’internet et auteur du renommĂ© La richesse des rĂ©seaux, dont la traduction en français est attendue pour les prochains mois.
5 resources for learning Perl Graphical Programming.
Socrata: Social Data Discovery of Open Government Data.
Devenez le Lucky Luke de la frappe sur clavier.
Quand le papier remplace l¹électronique.
Le site Pandia met Ă  jour deux tutoriels “grands dĂ©butants", un premier sur les moteurs de recherche en gĂ©nĂ©ral, et un second sur le rĂ©fĂ©rencement et le domaine du SEO (search engine optimization).
Le CDDP d’Indre et Loire met en ligne un tutoriel sur Twitter [.pdf, 18 p.]
La convergence des sciences (3/3) : Une question politique plus que scientifique.
A propos de Wave… : Wave : le système de communication unifiĂ© de Google. Google Wave : Plateforme de communication centralisĂ©e . Google Wave : une nouvelle plateforme de communication pour le Web de demain.
Wolfram|Alpha vu par la Bibliothèque des Sciences et Techniques.
La recherche d’information - erevue.
Mise en ligne de la base de données Ariane de l’ANR .
“Structuration” by Intellectual Organization: The Configuration of Knowledge in Relations among Scientific Texts.

24/5/2009

Liens en vrac 24/05/2009

Multinuage des programmes aux Ă©lections europĂ©ennes : Le logiciel TagCloud Builder de construction de nuages de mots, prĂ©sentĂ© ici il y a dĂ©jĂ  quelques temps, a bĂ©nĂ©ficiĂ© d’une mise Ă  jour la semaine dernière : il permet dĂ©sormais de reprĂ©senter les mots de plusieurs textes au sein d’un seul nuage, en attribuant une couleur Ă  chaque texte…
TagCloud - Create Your Own TagCloud From Any Text : TagCrowd is a web application for visualizing word frequencies in any user-supplied text by creating what is popularly known as a tag cloud or text cloud
EntityCode : A Clear and Quick Reference to HTML Symbol Entities Codes.
C’est la crise : des livres gratuits sur le web : (I) sites gĂ©nĂ©ralistes, (II): sciences exactes.
Searchology : “Tel est le nom de l’Ă©vĂ©nement au cours duquel Google a prĂ©sentĂ© de nouvelles options de recherche. La dernière “searchology” s’Ă©tait tenue il y a deux ans de cela et elle avait vu l’annonce de la recherche universelle. Petite revue de dĂ©tail de cette dernière Searchology …”
H. Van de Sompel propose les slides d’un tutoriel : An Overview of the OAI Object Reuse and Exchange Interoperability Framework.
STRATEGIES DE VEILLE D’OPINION SUR TWITTER.
Zim est un gestionnaire d’informations personnel (PIM) sous forme de wiki Ă  installer sur son PC. Disponible pour Windows, Mac et Linux.
Jollo : Traduction automatique et/ou collaborative pour 41 langues.
La pensĂ©e Ă©parpillĂ©e par la Toile : extraits de l’interview de Nicolas Carr parue dans LibĂ©ration.
Analysis, Plus Synthesis : Turning Data into Insights.
L"important n’est pas ce qu’on dit, mais la façon dont on le dit.
Parution du n°5 des Cahiers du Cental : Le volume est consacré à la description linguistique pour le traitement automatique du français.
DocJax : moteur de recherche pour trouver des documents PDF, Word, Excel ou PowerPoint.
SurfCanyon : extension pour FireFox (et pour IE) qui permet de repartir des rĂ©sultats d’une recherche pour aller plus loin.
Twitter : une nouvelle forme de communication.
Speaking UNIX : 10 great tools for any UNIX system (AIX and UNIX).
A propos de Wolfram Alpha : moteur de recherche sémantique : (1), (2).
The Programming Language with the Happiest Users.
The Semantic Web and expert metadata : pull apart then bring together.
Spezify, un moteur de recherche graphique pour appuyer la sérendipité.
Scoopler : moteur de recherche “en temps rĂ©el": les dernières mises Ă  jour sont proposĂ©es sur base d’une indexation de services comme Twitter, Flickr, Digg, Delicious.
Net recherche 2009 : les fonctionnalitĂ©s avancĂ©es des moteurs de recherche en un coup d’oeil.
L’entonnoir : Google sous la loupe des sciences de l’information.
Utilisez le bon mot. Doublez vos ventes (un sĂ©minaire intitulĂ© “Websites that work").
Le Guide des sites de tĂ©lĂ©chargement gratuit et lĂ©gal rĂ©digĂ© par SĂ©bastien, animateur multimĂ©dia Ă  lÂąEspace Public NumĂ©rique (EPN) du Centre Social et Culturel de Chevigny-Saint-Sauveur (CĂ´te-d’Or, France)
Macro-économie de la crise dans le numérique.
Cairn, 200 revues en sciences sociales.
Fast Company :Est-ce que la visualisation de l’information est la prochaine frontière du design ?
Les votes des sénateurs américains accessibles en XML.
La notion de document dans le Web sémantique.
Passez de Windows Ă  Linux en quelques clics.
Bit.ly et Twitter dessinent lÂąavenir du lien.
Technology Gap Survey : “LexisNexis has released a report on how Boomers (44-60), Generation X (29-43) and Generation Y (28 and younger) use technology in the work space.
KIT DE SURVIE SEMANTIQUE POUR LE CHASSEUR DE TENDANCES.
Your Botnet is My Botnet : Analysis of a Botnet Takeover.
A new issue of Journal of Semantics has been made available: May 2009; Vol. 26, No. 2 : Alex Lascarides and Nicholas Asher Agreement, Disputes and Commitments in Dialogue J Semantics 2009 26: 109-158; doi:10.1093/jos/ffn013 ; Sigrid Beck and Shravan Vasishth Multiple Focus J Semantics 2009 26: 159-184; doi:10.1093/jos/ffp001 ; Andrea Gualmini and Bernhard Schwarz Solving Learnability Problems in the Acquisition of Semantics J Semantics 2009 26: 185-215; doi:10.1093/jos/ffp002.

21/5/2009

Mises Ă  jour du jour

Rubrique(s) :   
Auteur : SFA  barre  Heure : 8:09 pm  barre  

MkAlign 2.00 (b109)
URL : http://tal.univ-paris3.fr/mkAlign/
DOC : http://tal.univ-paris3.fr/mkAlign/mkAlignDOC.pdf
Download : http://tal.univ-paris3.fr/mkAlign/setup-mkAlign.exe

Le Trameur 8.00 (b84)
URL : http://tal.univ-paris3.fr/trameur/
DOC : http://tal.univ-paris3.fr/trameur/leMetierLexicometrique.pdf

7/5/2009

Liens en vrac 07/05/2009

Ted Nelson (considĂ©rĂ© comme l’inventeur de l’hypertexte) vient de publier un nouvel ouvrage. De larges extraits du sommaire sont disponibles en ligne : Chapter Summaries of GEEKS BEARING GIFTS by Ted Nelson.
Un livre blanc sur les services de recherche d’infos et veille gratuits.
Panorama d’outils de recherche d’informations gratuits et en ligne.
Le dossier “Le papier contre l’Ă©lectronique” dans Internet Actus : Nicolas Carr : “Est-ce que Google nous rend idiot ?” ; 1ère partie : Nouveau support, nouvelle culture ; 2e partie : Lequel nous rend plus intelligent ? ; 3e partie : Vers de nouvelles manières de lire ; 4e partie : Qu’est-ce que lire ?.
Guide complet pour Twitter prog.
Chez Carnets de La Grange : API, Sex and Sun.
Des chercheurs travaillent à des tests de crédibilité de sites web.
Dans @rchiveSIC : L’homme est un document comme les autres.
Présentation de feedly, pour gérer une veille en ligne via la lecture des flux RSS et partage social de lecture.
Rapport d’OCLC : Online Catalogues : what users and librarians want, publiĂ© en avril 2009.
Lexique 3 est une base de données qui fournit pour 135 000 mots du français: les représentations orthographiques et phonémiques, la syllabation, la catégorie grammaticale, le genre et le nombre, les fréquences, les lemmes associés, etc.
White Papers sur http://www.cognition.com/ : Technical Overview of CognitionÂąs Semantic NLP (as Applied to Search) ; More Detail About Cognition’s Semantic Map and Technology Resources ; Why Powerset Misses the Point: Relevancy Matters! ; Natural Language Query in the Biochemistry and Molecular Biology Domains Based on CognitionSearchTM.
Structurer, dĂ©crire et organiser l’information : (1) Structurer l’information grâce Ă  XML ; (2) DĂ©crire l’information : le rĂ´le des mĂ©tadonnĂ©es de et RDF ; (3) Comment organiser l’information pour y naviguer efficacement ?.
Les carcans de la pensée hiérarchique et documentaire : Partie 1. Partie 2.
Comment Google traite-t-il le sens des lexèmes ?.
Traitement des mots par Google et notions linguistiques.
Microsoft rachète Powerset, moteur de recherche sémantique.
Talks Tim Berners-Lee: The next Web of open, linked data.
Designing for “Big Data”.
Dossier d’Educnet : Travail et apprentissage collaboratifs Web 2.0, blogs, wikis, rĂ©seaux sociaux…
Mettre en place une veille sur les articles scientifiques avec Pubfeed.
A New Kind of Writing?
Enseignement supérieur et logiciels collaboratifs: un ouvrage de référence : How to Use Social Software in Higher Education.
EDUCAUSE Quarterly Magazine, Volume 32, Number 1, 2009 : Un numĂ©ro spĂ©cial sur les espaces d’apprentissage / de travail.

26/4/2009

Liens en vrac 26/04/2009

la Bibliothèque numĂ©rique mondiale vient d’ouvrir. PatronnĂ©e par l’UNESCO, elle offre pour le moment une très belle interface mais seulement 1170 “objets” : des films, des photographies, des cartes, 37 revues, 124 manuscrits et… 151 livres.
Exploredge vous aide à préciser vos recherches sur les grands moteurs de recherche.
Comparatif de 16 moteurs de recherche graphiques.
Blog MCI : Comment les enfants font leurs recherches sur internet avec les interfaces de mots-clés.
CHI 2009: Les actes de la conférence Computer Human Interaction.
Journal du Net : L’influence de Google sur Barack Obama.
M@rsouin.org : Les Ă©tudiants breton et l’internet, mythes et rĂ©alitĂ©.
Journal du CNRS : Les enjeux scientifiques de la communication.
En complĂ©ment de l’ouvrage “Net Recherche” d’Armelle Thomas et VĂ©ronique Mesguich (Ă©ditions de l’ADBS), l’ADBS donne sur son site, accès Ă  la typologie complète des outils de recherche recensĂ©s et dissĂ©quĂ©s dans l’ouvrage Net Recherche 2009.
Le jour oĂą la suite bureautique MS Office devint frĂ©quentable : … la cĂ©lèbre suite bureautique intĂ©grera pour la première fois nativement le format ouvert Open Document Format…
Mondialisation, politique, technologies numériques. Les enjeux scientifiques de la communication.
Dans le bulletin de l’UNESCO un article “Measuring the Information Society” qui pose la question : “Ă  quelles conditions une sociĂ©tĂ© est-elle une sociĂ©tĂ© de l’information ?”
Laconica is a Free and Open Source microblogging platform. It helps people in a community, company or group to exchange short (140 character) messages over the Web. Users can choose which people to “follow” and receive only their friends’ or colleagues’ status messages. It provides a similar service to sites like Twitter, Jaiku, and Plurk.
Nos vies sur Internet, à perpète.
Plateforme logicielle de weblog : Tumblr.
ZOTERO : page de prĂ©sentation avec plein de liens…
La preservation des donnees scientifiques, priorite de la Maison Blanche.
Language Guide est un portail gratuit qui propose des guides de vocabulaire et de grammaire dans diffĂ©rentes langues dont l’anglais, l’espagnol, le français, le russe, l’allemand ou mĂŞme des langues asiatiques comme le chinois ou le vietnamien.
Centre d’Ă©tude de l’Ă©criture et de l’image - Actes du “Forum international d’inscriptions, de calligraphies et d’Ă©critures dans le monde Ă  travers les âges” co-organisĂ© par la Bibliotheca Alexandrina et le CEEI les 24-27 avril 2003 avec le soutien de Paris 7. Interventions de Anne-Marie Christin, Denis Vialou, Dominique Charpin, Nathalie Beaux, LĂ©on Vandermeersch, Li Xiaohong, Jacqueline Pigeot, Daniel Bouchez, Bernard Pottier, Jean-Pierre Olivier, Michel Melot, Jacques DĂĽrrenmatt, Annie Renonciat, Philippe Quinton.
The Semantic Web and expert metadata : pull apart then bring together.
Google : industrie du contenant ou du contenu.
La fin des livres.
Guide de méthodologie documentaire.
The Best Computer Interfaces : Past, Present, and Future.
Blogs et médias, quels rapports aujourd’hui : essai de typologie.
L’Open Access nelle scienze umane.
Merging Data for Better Decisions Under Pressure
Faster, Better Patent Processing : Un article sur PATExpert, un logiciel de traitement sémantique des brevets innovant.
Russian Innovations in Business Intelligence.
Du blog de bibliothèque aux blogues en bibliothèques : sources, services, outils et enjeux. Ertzscheid, Olivier. Université de Nantes.

(pluri)TAL avec WordPress