home *** CD-ROM | disk | FTP | other *** search
/ ARM Club 3 / TheARMClub_PDCD3.iso / hensa / textprocess / analysis_1 / !ANALYSIS / HELP < prev    next >
Text File  |  1997-02-14  |  9KB  |  64 lines

  1. !ANALYSIS, programma di Analisi testuale, di Giovanni Lo Conti, Via Bizzozero, 7 Roma,tel 0630311611- Interfaccia grafica di Raffaele Ferrigno Via Andrea d’Isernia, 16 Napoli*********************************************************
  2.  
  3.  
  4.    !ANALYSIS , v. 2.8 dic 1994 
  5.  
  6. !ANALYSIS is a program of textual analysis, which, as well as analogous exixting programs for DOS, Macintosh and Unix, makes possible to submit a text to many statistical reaserarches. Some of them (concordances, indices of readability,...) are of a more general use, others (co-occurrences,...) are usable for a detailed analysis of the considered text. It is written in ICON, a language devised by the Department of Computer Science and also the University of Arizona, uses procedures already existing ("concordances", tablw", of Griswold, University of Arizona, procedure "Kwic" by Stephen B. Wampler, modified  by Ralph E. Griswold, for a total of three hundred and twenty lines , on a total of about two thousend lines, opportunely modified.
  7. An up-to-date release of the version 1.1 for Macintosh  and Dos is going to be prepared.
  8. The property of the program is reserved and in case of use for researching works, please mention the ICON Project, the program, and the undersigned.
  9.  
  10.  
  11. "Temporary" instructions for the use
  12.  
  13. With Analysis it is possible to analyse texts in ASCII (stressed letters are allowed and recognised) which can be also very long, but in this case, also with Arm3 and 4mb of Ram, time can be considerably prolonged; also the file of OUTPUT, whose  filename can be decided by the user, is in format ASCII; the comparison of a text with a dictionary( which is possible either with  "concordances" or with "Kwic", allows to get very useful informations, to integrate with indices  of readability and  of statistics; if a base-dictionary of the language is used, it is possible to intervene   on the text in order to improve its readability; also in this case the width of the dictionary is determined by the disponible Ram (tests have been effectuated with a dicionary of about 35000 words, 350Kb), but if   the analysis ends with a message of error ("inadequate space...") it is possible, in the majority of the cases, to finish the analysis: you must come out from the Desktop ( double click on EXIT) and type "&.!analysis.!code"; the filename which contain the Dictionary can be indicated in the window or, alternatively, its icon can be dragged in the menu and it will be automatically loaded; it is also possible to indicate a list of word ("period" to finish).
  14. The wimpslot (the memory reserved for the application) has been fixed in 1000k, but it can be increased or decreased      in accordance with your exigencies by modifying the file !run with !Edit or with any editor; but you must consider  that !Analysis requires a lot of memory. Temporary files are used, whose allocation, for default on  Ram, can be  decided by the user ( Menu'  "Inclusion..."), but the use of the ram is suggested; its dimension, fixed in 100k, must be at least double of the text to analyse.
  15. Warning: in case of use of the apostrophe, it is necessary the presence of a space to divide it from the following word (for exemple : non  " l'a... "  but   " l' a..."  ); some type of analysis (co-occurrences, lemmatization, indices of readability), share the text in microtexts (sentences or periods), so that it is necessary for the text to end  with a point; dots(...) are delt as only separator and,them, as end of period. Also the  "weak" punctuation (comma, colon, semicolon) is counted. Attention to the abbrevations followed  by a dot (ex., a.C., cfr., ext., ..., are interpreted as final of period) and it is necessary to find an alternatively way to write them inside the sentence, in full. In some cases the capital letters of the text are automatically transormed into small letters : it happens with the aimed reserarch of occurrences; of course in this way you lose the capital letters of first names; remember of this in the analysis of results; also consider that,for the same reason , word (that is the strings of characters)  m u s t  be in small letters.
  16.  
  17. After having copied !Analysis onto hard disk, put it in one  of its directory, after its use it is generally, intuitive : you run it in in the usual way (double click on  its icon), than, whe its icon ha installed in the icon bar, with the mouse   you can drag  the icon of the text to analyse; at this point a window with the menu' will open; in accordance with the kind of analysis, some submenu' open; oppotunely insert  your choices,remembering always to press  "return" after every selection. For the analysis "concordances" and "kwic" it's possible to reduce the field to analyse by using particular  characters (such as "@" and "$"), with wich the text has been previously "marked", and some word (in this case, in order to avoid mistakes,of at leas four characters). It is necessary to use  s m a l l  letters : A l l  the original text is automatically converted into small letters.
  18.  
  19. a):  Concordances , frequency valculation of word-forms, a list of word contained in the text to examin with the indication of the line where every word is situated;
  20.  
  21. b): KWIC, a particular kind of concordance where the word of a text, in alphabetical order, are situated at the centre  of the line, inside of which they are ( Word in context, lists of word-form  to which the  contexts, where they appear, are associated).
  22.  
  23. c): Statistical indices
  24.  
  25. d): List of frequency of the word
  26.  
  27. e): Some statistcs on the period   or sentence
  28.      -Index of readability based on the formula elaborated by the Group of Rome :the program, which doesn't work with poetical text or too short text (it gives an unreliable result) gives as resul an index: 2-4 :indicates a text of good readability;  6     indicates  a very difficult text; less than  2 indicates an easier  and easier text to understand, but also stylistically and syntactically poor (the formula of the Group of Rome calculates the index of radability R in the following way:
  29.  
  30. R=h-30/l
  31. where h is the average  lenght of the words and  L  is the average lenght of long-sentences). With reference to a population of students of secondary scool, if R is bigger than 6, the text should result almost incomprehensible; if it is smaller than  3 , it   should result extremely simple ; between the extremes of readability, it should  assume intermediate values; the result should be integrated  with a dictionary of frequency: in this way you ' d  also have a list of the word whose comprehension requires a high level of knowledge of the language.
  32.  
  33. The other index of readability is the "Gulpease".
  34. GULP, Pedagogic-linguistic universitary Group, has elaborated an index linked at the cultural formation of the reader (population a: 5th   at the elementary school; population B, 3th form at the secondary school; population c , 5th form at the high school; "with reference to population B, if a text obtains a score 
  35. -bigger than 60, the reader is able to read the text in an autonomous way (indipendent level of reading);
  36.  
  37. -between 59 and 40 the studens needs help to understand the text in the right way (school level of reading
  38.  
  39. -smaller than 40, in reading the text the student  will feel the frustation not to be able to understand it (level of frustration). (In "Lucisano-Piemontese, Gulpease: una formula per la predizione della difficolta' dei testi in lingua italiana  ", in "Scuola e citta',3-1988, to refer to for a deepening of the problem).
  40. The relation between population B and C can be defined  with the  FacA=0.66(facB)+42.69; standard error 4.6; between population B and A with  FacA=1.32(facB)-38.62; standard error 8.7(ibidem). We thank Gulp for its availability. Both indexex have'nt been experimented yet for the english language.
  41.  
  42. f) Co-Occurrences : contemporary presence of two  lemmas in a period. Indicate the two lemmas using the menu' and remembering to press "Return" after every selection. The interval can be decided by the user. If in the two windows there is the same string  , the the research (KWOC) will be automatically enlarged to the word which contain (also inside ) the indicated string (and  an indication of that is given in the file of "output").
  43.  
  44. g) Co-Occurrences and lexical relations : for every period or sentences the word which are in a pre-determinated interval are transcribed (the reserch ca be  effectuated in the two ways).
  45.  
  46. h) Lemmatization : in the window, indicate the root of a verb or a word : all the  sentences which contain the give root are reported.
  47.  
  48.  
  49. Observation from the users and the community of researchers are welcome.
  50.  
  51.  
  52. !ANALYSIS 2.81ß: procedure to delimite the range of the words from to.=
  53. !ANALYSIS 2.83ß: non-intelligent abstract: this procedure can handle un unlimited amount of data.
  54. !analysis 2.84 : abstract(experimental); new run-time(v.9)
  55. !analysis 2.85 : relations between meaningful and sense : this procedure use the file  "sign_and_s" within the dir !code.
  56. !analysis release 2.85d; new runtime.
  57.  
  58.  
  59. Giovanni Lo Conti
  60. Via G. Bizzozero,7
  61. 00123 Roma 
  62. Italy
  63. 0039 6 30311611
  64. e-mail: mc4386@iol.it