Browsing by Author "Blache, Philippe"
Now showing 1 - 7 of 7
Results Per Page
Sort Options
- ItemA Semantic vector space and features-based approach for automatic information filtering(Elsevier, 2004) Nouali, Omar; Blache, PhilippeWith advances in communication technology, the amount of electronic information available to the users will become increasingly important. Users are facing increasing difficulties in searching and extracting relevant and useful information. Obviously, there is a strong demand for building automatic tools that capture, filter, control and disseminate the information that will most likely match a user's interest. In this paper we propose two kinds of knowledge to improve the efficiency of information filtering process. A features-based model for representing, evaluating and classifying texts. A semantic vector space to complement the features-based model on taking into account the semantic aspect. We used a neural network to model the user's interests (profiles) and a set of genetic algorithms for the learning process to improve filtering quality. To show the efficacy of such knowledge to deal with information filtering problem, particularly we present an intelligent and dynamic email filtering tool. It assists the user in managing, selecting, classifying and discarding non-desirable messages in a professional or non-professional context. The modular structure makes it portable and easy to adapt to other filtering applications such as the web browsing. We illustrate and discuss the system performance by experimental evaluation results
- ItemAutomatic Classification and Filtering of Electronic Information: Knowledge-Based Filtering Approach(Zarqa Private University, Jordan, 2004) Nouali, Omar; Blache, PhilippeIn this paper we propose an artificial intelligent approach focusing on information filtering problem. First, we give an overview of the information filtering process and a survey of different models of textual information filtering. Second, we present our E-mail filtering tool. It consists of an expert system in charge of driving the filtering process in cooperation with a knowledge-based model. Neural networks are used to model all system knowledge. The system is based on machine learning techniques to continuously learn and improve its knowledge all along its life cycle. This email filtering tool assists the user in managing, selecting, classify and discarding non-desirable messages in a professional or non-professional context. The modular structure makes it portable and easy to adapt to other filtering applications such as web browsing. The performance of the system is discussed.
- ItemClassification de courriers électroniques : Une approche par apprentissage basée sur des modèles linguistiques(Lavoisier, Cachan cedex FRANCE, 2005) Nouali, Omar; Blache, PhilippeNous proposons une double amélioration des systèmes de filtrage de courriels existants. D’une part, en utilisant une méthode d’apprentissage automatique permettant à un système de filtrage d’élaborer des profils utilisateur. D’autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, nous cherchons à évaluer si l’utilisation de connaissances et de traitements linguistiques peut améliorer les performances d’un système de filtrage. En effet, nous utilisons, au-delà des caractéristiques lexicales, un ensemble d’indicateurs sur le message portant sur la structure et le contenu. Ces connaissances sont indépendantes du domaine d’application et la fiabilité repose sur l’opération d’apprentissage. Pour tenter de statuer sur la faisabilité de notre approche et d’évaluer son efficacité, nous l’avons expérimenté sur un corpus de 1 200 messages. Nous présentons les résultats d’un ensemble d’expériences d’évaluation
- ItemFiltage d'information textuelle sur les réseaux une approche Hybride(Université des Sciences et de la Technologie Houari Boumediène (U.S.T.H.B.), 2004-11-20) Nouali, Omar; Blache, PhilippeLe sujet de la thèse se situe dans la problématique globale du traitement de l'information dynamique et de l’analyse de contenu. Elle est motivée par le souci de faciliter à l'utilisateur, submergé d’informations diverses, l'accès à l'information pertinente. Plus précisément, l'objet des travaux de recherche présentés, concerne l'automatisation du processus de filtrage de l’information pertinente et personnalisée. Il s’agit d’offrir une assistance à l’utilisateur, visant à optimiser le temps consacré à la recherche et à la consultation de l'information, en prenant en compte l’importance relative de l'information et les besoins en ressources pour son traitement.Les premières investigations dans ce travail ont été d’explorer le potentiel des techniques de plusieurs domaines de recherche liés au traitement de l'information textuelle. L'un de ces domaines concerne l’apprentissage automatique, qui constitue une phase incontournable dans la conception d’un système de filtrage automatique de l’information. Nous proposons une solution évolutive qui offre au système de filtrage la possibilité d’apprendre à partir de données ciblées (profils des utilisateurs), d’exploiter ces connaissances apprises (pour filtrer l’information) et de s’adapter à la nature de l’application (textes traités) dans le temps. Un autre domaine concerne le traitement automatique du langage naturel. Il intervient par la nécessité d’utiliser des ressources et des traitements linguistiques dans le processus de filtrage. Sur ce volet, notre objectif est de (dé)montrer que l’intervention de connaissances et de traitements linguistiques peut considérablement améliorer les performances d’un système de filtrage de l'information. En effet, le couplage entre méthodes statistiques et symboliques (quantitatives et linguistiques) donne plus d'efficacité au filtrage. Ce constat est d'ailleurs souvent évoqué pour un grand nombre d'applications liées au traitement de l'information textuelle. Ainsi, l'apport du domaine linguistique dans notre travail se concrétise sous plusieurs aspects. D'une part, nous proposons un ensemble de connaissances linguistiques sous forme de modèles réduits (issues de modèles linguistiques de textes). Il s’agit d’un ensemble d’indicateurs sur le texte, portant sur la structure et sur le contenu. Un texte est soumis à un processus d’analyse automatique qui permet de lui associer un ensemble de termes et de propriétés linguistiques, qui servent à le caractériser et permettent de le situer par rapport à d'autres textes. Ces connaissances, classées sous plusieurs niveaux (matériel, énonciatif, structurel et syntaxique), sont indépendantes du domaine d’application. Par ailleurs, la fiabilité des traitements repose sur l’opération d’apprentissage. Dans le cadre de ce travail, l'objectif n'est pas d'effectuer une analyse complète et profonde du contenu des textes. Il s'agit d'effectuer une analyse dite partielle, s'échelonnant sur plusieurs niveaux, pour identifier certaines propriétés linguistiques. Celles-ci permettent de distinguer les différents types de textes et de classer ensuite les nouveaux textes. D’autre part, pour l’aspect sémantique, nous proposons d’utiliser un ensemble de connaissances linguistiques (réseau lexical et cooccurrence de critères) permettant d’améliorer la représentation du texte. Des termes complémentaires sont ainsi impliqués dans le processus de décision, même s’ils n’apparaissent pas explicitement dans le texte (par exemple, la substitution de certains termes par d’autres termes proches sémantiquement). Pour la validation de notre approche, un outil d’aide à la génération d’interfaces de filtrage (baptisé GIFI) a été développé. Il est destiné à faciliter la tâche des utilisateurs développeurs dans l’élaboration de systèmes de filtrage de l'information. Il permet d’assister l’utilisateur dans le processus d’acquisition de l’application (corpus de textes) et de génération de ressources (vocabulaire lexical, propriétés linguistiques, modèle de filtrage). Il repose sur une conception modulaire, lui permettant de s'adapter à des extensions ou à des mises à jour éventuelles. Cet outil est basé sur une architecture ouverte permettant l’ajout de composants et offrant à l’utilisateur la possibilité de choisir, à chaque étape du processus de génération, les outils à utiliser. Ainsi, cette "boite à outils" matérialise l'implémentation d’une approche hybride de filtrage de l’information. Elle repose sur le principe d’une analyse partielle utilisant un ensemble de connaissances, où le repérage de propriétés linguistiques permet, d’une part, d’améliorer la représentation des textes, et d’autre part un filtrage de meilleure qualité. Pour l'évaluation de notre approche et afin de statuer sur sa faisabilité et sur son apport en terme d'efficacité, nous l’avons expérimentée sur une application pratique de filtrage de l’information : filtrage du courrier électronique. La période actuelle voit une prolifération colossale et démesurée des courriers électroniques non sollicités et indésirables (appelés Spams). Paradoxalement, au moment où le courrier électronique s'impose comme le moyen de communication incontournable pour les entreprises, les institutions académiques et même pour les particuliers, le problème des courriers indésirables atteint des proportions intolérables. Ce problème devient très sérieux pour les utilisateurs du courrier électroniques et engendre des pertes considérables, en temps et en argent, pour les entreprises. A travers les différentes expériences réalisées, nous avons montré l’applicabilité et l’adaptabilité d’une approche hybride au processus de filtrage de l'information. En effet, les résultats obtenus sur le corpus de messages utilisé, nous ont permis de valider l'intérêt des connaissances linguistiques et de l'apprentissage automatique pour l'amélioration des performances d'un système de filtrage de l’information
- ItemFiltrage automatique de courriels Une approche adaptative et multiniveau(Springer-Verlag, 2005-12-01) Nouali, Omar; Blache, PhilippeCet article propose un système de courriers électroniques paramétrable avec plusieurs niveaux de filtrage: un filtrage simple basé sur l’information contenue dans l’entête du courriel; un filtrage booléen basé sur l’existence ou non de mots clés dans le corps du courriel; un filtrage vectoriel basé sur le poids de contribution des mots clés du courriel; un filtrage approfondi basé sur les propriétés linguistiques caractérisant la structure et le contenu du courriel. Nous proposons une solution adaptative qui offre au système la possibilité d’apprendre à partir de données, de modifier ses connaissances et de s’adapter à l’évolution des intérêts de l’utilisateur et à la variation de la nature des courriels dans le temps. De plus, nous utilisons un réseau lexical permettant d’améliorer la représentation du courriel en prenant en considération l’aspect sémantique.
- ItemFiltrage automatique de courriels Une approche adaptative et multiniveau(Springer-Verlag, 2005-12) Nouali, Omar; Blache, PhilippeCet article propose un système de courriers électroniques paramétrable avec plusieurs niveaux de filtrage: un filtrage simple basé sur l’information contenue dans l’entête du courriel; un filtrage booléen basé sur l’existence ou non de mots clés dans le corps du courriel; un filtrage vectoriel basé sur le poids de contribution des mots clés du courriel; un filtrage approfondi basé sur les propriétés linguistiques caractérisant la structure et le contenu du courriel. Nous proposons une solution adaptative qui offre au système la possibilité d’apprendre à partir de données, de modifier ses connaissances et de s’adapter à l’évolution des intérêts de l’utilisateur et à la variation de la nature des courriels dans le temps. De plus, nous utilisons un réseau lexical permettant d’améliorer la représentation du courriel en prenant en considération l’aspect sémantique.
- ItemMinimum redundancy and maximum relevance for single and multi-document Arabic text summarization(Elsevier, 2014-12) Oufaida, Houda; Nouali, Omar; Blache, PhilippeAutomatic text summarization aims to produce summaries for one or more texts using machine techniques. In this paper, we propose a novel statistical summarization system for Arabic texts. Our system uses a clustering algorithm and an adapted discriminant analysis method: mRMR (minimum redundancy and maximum relevance) to score terms. Through mRMR analysis, terms are ranked according to their discriminant and coverage power. Second, we propose a novel sentence extraction algorithm which selects sentences with top ranked terms and maximum diversity. Our system uses minimal language-dependant processing: sentence splitting, tokenization and root extraction. Experimental results on EASC and TAC 2011 MultiLingual datasets showed that our proposed approach is competitive to the state of the art systems.