home *** CD-ROM | disk | FTP | other *** search
/ Simtel MSDOS - Coast to Coast / simteldosarchivecoasttocoast2.iso / biology / esee109e.zip / READ.FEL < prev    next >
Text File  |  1990-01-24  |  6KB  |  128 lines

  1.          USING THE PHYLIP PROGRAMS and Esee VIA Esee2Fel
  2.          --------------------------------------
  3.                 ( notes from E. Cabot)
  4.  
  5. =======================================================================
  6. PHYLIP is a package of phylogeny programs written by Dr. Joseph Felsenstein
  7. of the University of Washington.  Phylip is not included with ESEE, but
  8. is available for free from Dr. Felsenstein.  The utility program
  9. Esee2Fel, described in this file, reads Esee save files and produces
  10. data files in a format that is acceptable to the Phylip progams that deal
  11. with nucleic acid and protein data directly (e.g. DnaPars, DnaML, etc).
  12. Please note, Esee2Fel does NOT put any options selectors into the
  13. data files. You must do this yourself with an editor that is capable
  14. of using standard MS-DOS textfiles.
  15.  
  16. What does Esee2Fel do?
  17.  
  18. In roughly the following order it:
  19.  
  20.     -prompts you for a file name then inputs the data,
  21.      skipping sequences that are type T or A.
  22.     -determines whether it's using type P or type N sequences
  23.      based upon the first non-T or -A sequence encountered
  24.      in the fil
  25.     - TRIMs the sequence names to 10 characters
  26.     - trims the sequence lengths to 5000 characters
  27.     - checks for sequence length conflicts
  28.       The sequences should all be of uniform length for PHYLIP.
  29.       If the (now trimmed) sequences are not of the same length,
  30.       then the program generates a report of the lengths of the
  31.       first, shortest and longest sequences.  You are then prompted
  32.       for the sequence length to use.   You may specify any integer
  33.       ranging from 3 to the length of the longest sequence.  If
  34.       there are sequences that are already less than the length that
  35.       you specify they will be padded with either N's or ?'s (depending
  36.       on whether you are working with DNA or protein).  
  37.       MAKE SURE NOT TO EXCEED THE MAXIMUM ALLOWED NUMBER OF SITES
  38.       OF THE TARGE PHYLIP PROGRAM.
  39.     - checks for name conflicts, you are prompted until all of
  40.       the names are unique
  41.      -prompts you for a name for the output file, you have an
  42.        option to escape if the file already exists
  43.      -sends data to the output file in the format required
  44.        (by protpars, dnapars, dnaml, etc) 
  45.       except that there are no options specified 
  46.       and no additional option lines 
  47.       [NOTE: you are prompted for any options other than
  48.              User tree       and      Weights]
  49. =======================================================================
  50. DETAILS on PHYLIP files
  51.  
  52.        The general format of PHYLIP sequence data files is:
  53.          #taxa  #residues/sequence [options]
  54.           [option lines if required]
  55.          sequence1 
  56.          ................................
  57.          .................................
  58.          .................................
  59.          sequence2 
  60.          .................................
  61.          .................................
  62.          .................................
  63.          (etc)
  64.  
  65. Where [options] are the options detailed in a given programs documentation,
  66. the periods stand for the amino acid or nucleic acid residues.
  67. The name field must be 10 characters long. If the name takes only,
  68. say, 5 characters, you must "pad" it out to 10 spaces using blanks.
  69. ProtPars will allow you to use gaps and ambiguous residues. I don't
  70. think that the DNA programs will.
  71. ===================================================================
  72. USING ESEE to produce PHYLIP files manually.
  73.  
  74. This files in this format are VERY easy to construct with ESEE.
  75.  
  76. **  HERE ARE THE STEPS USED TO CREATE THE DATA FILE
  77. *
  78. * -  Start up ESEE and align your sequences.
  79. *
  80. * - Put a unique name at the beginning of every single sequence that
  81. *   is destined for the data file.  Make sure to pad the name out to 
  82. *   ten spaces with blanks.  Don't worry about any other spaces in the
  83. *   sequences; they will be ignored by the Phylip programs.
  84. *
  85. * - Make a new sequence (usually sequence 1) to hold what will be the
  86. *   first line of the dat file.  (Alternatively you could put the option
  87. *   line(s) on afterwards using TED.com or another text editor).
  88. *
  89. *   For example, Sequence #1 could consist of the following  characters:
  90. *      5  250
  91. *            if there were 5 sequences of 250 residues in length.
  92. *   If there are other option lines you should start each one
  93. *   a separate screen line of ESEE, but they can be within the same
  94. *   "pseudo" sequence.
  95. *           
  96. * - Now you have to output your sequences to the same file using ALT-f10
  97. *   or  ALT-O.   
  98. *    
  99. *      a.The first sequence to output is the one holding the option line(s).
  100. *
  101. *      b.The other sequences are then output in any order you like.
  102. *        When you specify the filename use the same one you used for the
  103. *        option line.  ESEE will report that the file exists and you
  104. *        are prompted to Append, Erase, or abort. 
  105. *        Select APPEND by typing the letter A.
  106. *
  107. *     c. Repeat step b. for all of the sequences.
  108. * - Save you work with ALT-S, if you have doubts about the success
  109. *   of the above steps
  110. *
  111. * - Exit ESEE
  112.  
  113. -one small note:
  114.    ESEE's print-out window has an option called LINE LENGTH which
  115.    is normally used to control the amount of sequence displayed
  116.    per line of print-out.  This parameter also affects the width
  117.    of the lines produced by the OUTPUT command that you need to use
  118.    above.  I suggest using the default value of 60 for phylip files
  119.    because then each screen line will correspond to a single line in
  120.    the file.  If you want to use several option lines, it could become
  121.    somewhat confusing if you've changed the LINE LENGTH.
  122.  
  123.  
  124. ==============================================================================
  125. Good Luck,
  126.  -E.C.
  127.