Secteur TAL Informatique,
Université Sorbonne nouvelle, Paris 3
19 rue des Bernardins, 75005 Paris
Secteur TAL Informatique, Université Sorbonne nouvelle, Paris 3
Sommaire
|
|
|
|
Une partie des textes présentés ici ont été
rédigés à partir des ouvrages suivants :
Habert Benoît, Cécile Fabre, Fabrice Issac,
De l'écrit au numérique (constituer, normaliser et exploiter
les corpus électroniques), InterEditions, 1998.
Michèle Soria, Anne Brygoo, Michelle Morcrette,
Odile Paliès, Initiation à la programmation par Word et Excel,
International Thomson Publishing, 1998.
Jean Baudot, Introduction aux grammaires formelles, SODICIS
Editeur, Montréal, 1987.
Pierrette Bouillon, Traitement automatique des langues
naturelles, Editions Duculot, 1998.
OS (Linux vs Windows)
- De Windows à Linux : Sur le site d'IBM, une série d'article peut vous aider à franchir une étape importante : passer de Windows à Linux (ou à unix de manière plus générale)...
- Step 1. Thinking in Linux. The first step to success in Linux is learning to think in Linux. Take what you already know and redirect it to doing things the Linux way. Read "Thinking in Linux" : http://www-106.ibm.com/developerworks/linux/library/l-roadmap1.html
- Step 2. Console crash course. Linux provides great power and flexibility through the console. If it has been a while since you've spent much time at the command prompt, take a little time to reacquaint yourself with this environment by reviewing common commands you'll use all the time. Read "Console crash course": http://www-106.ibm.com/developerworks/linux/library/l-roadmap2.html
- Step 3. Introduction to Webmin. While it is important to know the nuts and bolts of administration, it is often more convenient to have a tool. Also, a higher-level application makes complex configurations easier to handle. Webmin provides point-and-click configuration for beginning and experienced administrators. Read "Introduction to Webmin" : http://www-106.ibm.com/developerworks/linux/library/l-roadmap3/
- Step 4. User administration. If a system has no users, is it really a system? Learn about the Linux approach to users. Read "User administration": http://www-106.ibm.com/developerworks/linux/library/l-roadmap4/
- Step 5. Linux logging. Linux makes extensive use of logging. Nothing is hidden from you. Becoming comfortable and familiar with logs will allow you to monitor the health of your system and track activities. Read "Linux logging": http://www-106.ibm.com/developerworks/linux/library/l-roadmap5/
- Step 6. Working with file systems. File systems are at the heart of every server. Linux provides a lot of flexibility in its file systems. Read "Working with filesystems": http://www-106.ibm.com/developerworks/linux/library/l-roadmap6/
- Step 7. Networking. Working unconnected is unthinkable in today's world. Linux on the network unleashes its full potential. However, Linux networking looks very different on its face. You'll need to learn some new terminologies and new tools. Read "Networking" : http://www-106.ibm.com/developerworks/linux/library/l-roadmap7/
- Step 8. Backup and recovery. The first line of defense against disaster is a backup of the data. Linux provides different options, some of which are very simple to work with. Read "Backup and recovery" : http://www-106.ibm.com/developerworks/linux/library/l-roadmap8/
- Step 9. Installing software. Linux can use prepackaged binary files, or you can compile programs directly from source code. The tools for installing Linux programs are very useful and provide functionality you might not expect : http://www-106.ibm.com/developerworks/linux/library/l-roadmap9/
Les expressions régulières
- Transparents Expressions régulières avec Word et Emacs : slideREGEXP
- Objectif
- Exercices
Les expressions régulières : Une introduction
Les expressions régulières : Préambule
- Outils de base GREP, EGREP
- Concaténation
- Classes de caractères
- Positionnement dans la ligne
- Dénombrement
- Déspécialisation
- Combinaison de motifs
- Exemples
- Les commandes grep et egrep
- Exercices avec grep/egrep
- TD4 : grep et egrep, TD5 : grep et egrep
- Expressions régulières : aide-mémoire
-
Le langage des expressions régulières
-
Notions de grammaire formelle
-
Expressions régulières et automates
Expressions Régulières (liens externes)
- Learning to Use Regular Expressions by Example , par Dario F. Gomes.
- Regex Tutorial, par Jan Goyvaerts. Tutorial plus détaillé et complet, à lire après l'article précédent (Détour indispensable...).
Liens autour d'EMACS
- Emacs pour Windows dans la distribution de la TEI : ("TEI Customizations"), version similaire à celle que vous trouvez sur votre CD mais avec des fonctionnalités supplémentaires pour XML-TEI
- Aide mémoire des raccourcis clavier de emacs : http://www.ecn.ulaval.ca/aide/emacs/emacs.html
- Manuel d'Emacs en français : http://www.linux-france.org/article/appli/emacs/manuel/
- Manuel GNU Emacs en ligne et en anglais : http://www.delorie.com/gnu/docs/emacs/emacs_toc.html
- Creating an SGML Document on Emacs : http://www.thelinuxreview.com/howto/emacs_sgml/
- Introductory guide to both emacs and psgml : http://www.snee.com/bob/sgmlfree/ (Contient un excellent tutorial en PDF : "Editing sgml documents with the emacs text editor" : http://www.snee.com/bob/sgmlfree/emcspsgm.pdf, avec une présentation d'emacs)
Programmation
- SLIDES PERL (Intro) : SlidesPERLIntro
- Transparents PERL : SlidesPERL
- Transparents PERL TK : SlidesPerlTk
- Apprentissage de Perl pour le TAL : 6 séances (apprentissage, programmes)
- Perl : Présentation (cf. (Habert et al. 1998))
- Perl manuel par Nik Silver
- Perl 5 et expressions régulières par Tom Christiansen (en anglais)
- Doc
Perl pour Windows (en anglais)
- TDs Perl
- Cours JAVA : accueil
- TDs Java
- Cours et TDs JavaScript : introduction à Javascript, un atelier réalisé par
Martin Beaudouin, Faculté Saint Jean, University of Alberta.
Formats de données textuelles
XML
- Transparents XML (intro): XML Intro
- Présentation XML (2000) : Transparents de cours
- Transparents Formats de Documents électroniques & SGML : slideSGML
- Transparents XML (2002-2003): SLIDES XML (1)
- Transparents XML (2003-2004): SLIDES XML (2) (Version HTML IE 6+) ou SLIDES XML (2) (Version PDF)
- Transparents DOM-SAX : SLIDES DOM-SAX
- Transparents TP XML : SLIDES TP XML (Version HTML IE 6+)
- Transparents PERL XML : SLIDES PERL XML (Version HTML IE 6+)
- Liens autour d'XML sur le site XML.com
- "The Annotated XML Specification by C.M. Sperberg-McQueen, Jean Paoli, Tim Bray, April 15, 1998, Inside the XML 1.0 Specification" : Spécification XML annotée par Tim Bray & al. sur le site XML.com, on y trouve la spécification annotée ("The Annotated XML 1.0 Specification") et un texte retraçant la mise en oeuvre de cette annotation : http://www.xml.com/pub/a/axml/axmlintro.html
- What is XML? "A Technical Introduction to XML, by Norman Walsh, October 03, 1998", Lien : http://www.xml.com/pub/a/98/10/guide0.html
- What is XSLT? "What is XSLT? by G. Ken Holman, August 16, 2000", Lien : http://www.xml.com/pub/a/2000/08/holman/index.html
- What is XSLT-FO? "What is XSL-FO? by G. Ken Holman, March 20, 2002", Lien : http://www.xml.com/pub/a/2002/03/20/xsl-fo.html
- What is XLink? "What is XLink? by Fabio Arciniegas A., September 18, 2000", Lien : http://www.xml.com/pub/a/2000/09/xlink/index.html
- What is XSL-SCHEMA? "Using W3C XML Schema by Eric van der Vlist, October 17, 2001", Lien : http://www.xml.com/pub/a/2000/11/29/schemas/part1.html
- What is XQuery? "What is XQuery? by Per Bothner, October 16, 2002", Lien : http://www.xml.com/pub/a/2002/10/16/xquery.html
- What is RDF? "What is RDF? by Tim Bray, January 24, 2001", Lien : http://www.xml.com/pub/a/2001/01/24/rdf.html
- What is RSS? "What is RSS? by Mark Pilgrim, December 18, 2002", Lien : http://www.xml.com/pub/a/2002/12/18/dive-into-xml.html
- What are Topic Maps? "What Are Topic Maps? by Lars Marius Garshol, September 11, 2002", Lien : http://www.xml.com/pub/a/2002/09/11/topicmaps.html
- What are XForms? "What Are XForms? by Micah Dubinko, September 11, 2002", Lien : http://www.xml.com/pub/a/2001/09/05/xforms.html
- Manuel XML document établi par Daniel Schneider, Faculté de Psychologie et des Sciences de l'Education, Université de Genève
HTML
- HTML Présentation par Van Lancker Luc
- Balises HTML
SGML, DTD, TEI...
- Présentation de la TEI "La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange", par Lou Bernard, Oxford University. Ce document est une traduction d'un document paru dans le cahier GUTemberg.
- Pour télécharger des documents écrits dans la rue GUTemberg, se connecter sur le site de cette revue : on y trouvera
nombre d'articles : lien vers cahier GUTemberg. Les publications au format PostScript sont disponibles derrière le lien suivant : Publications PS du cahier GUTemberg.
- "Introduction pratique à SGML" par Michel Goossens. Ce document au format postscript est paru dans le cahier GUTemberg n°19 Janvier 1995. Pour lire ce document, il convient tout d'abord de le télécharger, puis de disposer d'un logiciel capable de lire ce type de fichier (par exemple GhostScript)
Le Web et Internet
- Internet
- Glossaire Internet, document établi par Philippe Rolland
- Outils de base GREP, EGREP
- Concaténation
- Classes de caractères
- Positionnement dans la ligne
- Dénombrement
- Déspécialisation
- Combinaison de motifs
- Exemples
- Les commandes grep et egrep
- Exercices avec grep/egrep
- TD4 : grep et egrep, TD5 : grep et egrep
- Expressions régulières : aide-mémoire
- Le langage des expressions régulières
- Notions de grammaire formelle
- Expressions régulières et automates
Expressions Régulières (liens externes)
- Learning to Use Regular Expressions by Example , par Dario F. Gomes.
- Regex Tutorial, par Jan Goyvaerts. Tutorial plus détaillé et complet, à lire après l'article précédent (Détour indispensable...).
Liens autour d'EMACS
- Emacs pour Windows dans la distribution de la TEI : ("TEI Customizations"), version similaire à celle que vous trouvez sur votre CD mais avec des fonctionnalités supplémentaires pour XML-TEI
- Aide mémoire des raccourcis clavier de emacs : http://www.ecn.ulaval.ca/aide/emacs/emacs.html
- Manuel d'Emacs en français : http://www.linux-france.org/article/appli/emacs/manuel/
- Manuel GNU Emacs en ligne et en anglais : http://www.delorie.com/gnu/docs/emacs/emacs_toc.html
- Creating an SGML Document on Emacs : http://www.thelinuxreview.com/howto/emacs_sgml/
- Introductory guide to both emacs and psgml : http://www.snee.com/bob/sgmlfree/ (Contient un excellent tutorial en PDF : "Editing sgml documents with the emacs text editor" : http://www.snee.com/bob/sgmlfree/emcspsgm.pdf, avec une présentation d'emacs)
Programmation
- SLIDES PERL (Intro) : SlidesPERLIntro
- Transparents PERL : SlidesPERL
- Transparents PERL TK : SlidesPerlTk
- Apprentissage de Perl pour le TAL : 6 séances (apprentissage, programmes)
- Perl : Présentation (cf. (Habert et al. 1998))
- Perl manuel par Nik Silver
- Perl 5 et expressions régulières par Tom Christiansen (en anglais)
- Doc
Perl pour Windows (en anglais)
- TDs Perl
- Cours JAVA : accueil
- TDs Java
- Cours et TDs JavaScript : introduction à Javascript, un atelier réalisé par
Martin Beaudouin, Faculté Saint Jean, University of Alberta.
Formats de données textuelles
XML
- Transparents XML (intro): XML Intro
- Présentation XML (2000) : Transparents de cours
- Transparents Formats de Documents électroniques & SGML : slideSGML
- Transparents XML (2002-2003): SLIDES XML (1)
- Transparents XML (2003-2004): SLIDES XML (2) (Version HTML IE 6+) ou SLIDES XML (2) (Version PDF)
- Transparents DOM-SAX : SLIDES DOM-SAX
- Transparents TP XML : SLIDES TP XML (Version HTML IE 6+)
- Transparents PERL XML : SLIDES PERL XML (Version HTML IE 6+)
- Liens autour d'XML sur le site XML.com
- "The Annotated XML Specification by C.M. Sperberg-McQueen, Jean Paoli, Tim Bray, April 15, 1998, Inside the XML 1.0 Specification" : Spécification XML annotée par Tim Bray & al. sur le site XML.com, on y trouve la spécification annotée ("The Annotated XML 1.0 Specification") et un texte retraçant la mise en oeuvre de cette annotation : http://www.xml.com/pub/a/axml/axmlintro.html
- What is XML? "A Technical Introduction to XML, by Norman Walsh, October 03, 1998", Lien : http://www.xml.com/pub/a/98/10/guide0.html
- What is XSLT? "What is XSLT? by G. Ken Holman, August 16, 2000", Lien : http://www.xml.com/pub/a/2000/08/holman/index.html
- What is XSLT-FO? "What is XSL-FO? by G. Ken Holman, March 20, 2002", Lien : http://www.xml.com/pub/a/2002/03/20/xsl-fo.html
- What is XLink? "What is XLink? by Fabio Arciniegas A., September 18, 2000", Lien : http://www.xml.com/pub/a/2000/09/xlink/index.html
- What is XSL-SCHEMA? "Using W3C XML Schema by Eric van der Vlist, October 17, 2001", Lien : http://www.xml.com/pub/a/2000/11/29/schemas/part1.html
- What is XQuery? "What is XQuery? by Per Bothner, October 16, 2002", Lien : http://www.xml.com/pub/a/2002/10/16/xquery.html
- What is RDF? "What is RDF? by Tim Bray, January 24, 2001", Lien : http://www.xml.com/pub/a/2001/01/24/rdf.html
- What is RSS? "What is RSS? by Mark Pilgrim, December 18, 2002", Lien : http://www.xml.com/pub/a/2002/12/18/dive-into-xml.html
- What are Topic Maps? "What Are Topic Maps? by Lars Marius Garshol, September 11, 2002", Lien : http://www.xml.com/pub/a/2002/09/11/topicmaps.html
- What are XForms? "What Are XForms? by Micah Dubinko, September 11, 2002", Lien : http://www.xml.com/pub/a/2001/09/05/xforms.html
- Manuel XML document établi par Daniel Schneider, Faculté de Psychologie et des Sciences de l'Education, Université de Genève
HTML
- HTML Présentation par Van Lancker Luc
- Balises HTML
SGML, DTD, TEI...
- Présentation de la TEI "La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange", par Lou Bernard, Oxford University. Ce document est une traduction d'un document paru dans le cahier GUTemberg.
- Pour télécharger des documents écrits dans la rue GUTemberg, se connecter sur le site de cette revue : on y trouvera
nombre d'articles : lien vers cahier GUTemberg. Les publications au format PostScript sont disponibles derrière le lien suivant : Publications PS du cahier GUTemberg.
- "Introduction pratique à SGML" par Michel Goossens. Ce document au format postscript est paru dans le cahier GUTemberg n°19 Janvier 1995. Pour lire ce document, il convient tout d'abord de le télécharger, puis de disposer d'un logiciel capable de lire ce type de fichier (par exemple GhostScript)
Le Web et Internet
- Internet
- Glossaire Internet, document établi par Philippe Rolland
- "The Annotated XML Specification by C.M. Sperberg-McQueen, Jean Paoli, Tim Bray, April 15, 1998, Inside the XML 1.0 Specification" : Spécification XML annotée par Tim Bray & al. sur le site XML.com, on y trouve la spécification annotée ("The Annotated XML 1.0 Specification") et un texte retraçant la mise en oeuvre de cette annotation : http://www.xml.com/pub/a/axml/axmlintro.html
- What is XML? "A Technical Introduction to XML, by Norman Walsh, October 03, 1998", Lien : http://www.xml.com/pub/a/98/10/guide0.html
- What is XSLT? "What is XSLT? by G. Ken Holman, August 16, 2000", Lien : http://www.xml.com/pub/a/2000/08/holman/index.html
- What is XSLT-FO? "What is XSL-FO? by G. Ken Holman, March 20, 2002", Lien : http://www.xml.com/pub/a/2002/03/20/xsl-fo.html
- What is XLink? "What is XLink? by Fabio Arciniegas A., September 18, 2000", Lien : http://www.xml.com/pub/a/2000/09/xlink/index.html
- What is XSL-SCHEMA? "Using W3C XML Schema by Eric van der Vlist, October 17, 2001", Lien : http://www.xml.com/pub/a/2000/11/29/schemas/part1.html
- What is XQuery? "What is XQuery? by Per Bothner, October 16, 2002", Lien : http://www.xml.com/pub/a/2002/10/16/xquery.html
- What is RDF? "What is RDF? by Tim Bray, January 24, 2001", Lien : http://www.xml.com/pub/a/2001/01/24/rdf.html
- What is RSS? "What is RSS? by Mark Pilgrim, December 18, 2002", Lien : http://www.xml.com/pub/a/2002/12/18/dive-into-xml.html
- What are Topic Maps? "What Are Topic Maps? by Lars Marius Garshol, September 11, 2002", Lien : http://www.xml.com/pub/a/2002/09/11/topicmaps.html
- What are XForms? "What Are XForms? by Micah Dubinko, September 11, 2002", Lien : http://www.xml.com/pub/a/2001/09/05/xforms.html