home *** CD-ROM | disk | FTP | other *** search
/ Simtel MSDOS - Coast to Coast / simteldosarchivecoasttocoast2.iso / biology / esee109e.zip / READ.LWL < prev    next >
Text File  |  1989-10-27  |  7KB  |  160 lines

  1.           Using LWL85 with Esee via Esee2LWL
  2.           ==================================
  3.  
  4. The Program LWL85, described  by Li, Wu, and Luo, 1985. MBE 2:150-174,  
  5. gives two (and sometimes) one-parameter estimates of genetic distance 
  6. for protein coding genes.  LWL85 is not included with ESEE, however
  7. if you do have it, then the utility program Esee2LWL should simplify
  8. the use of Esee save files with LWL85.
  9.  
  10. As far as ease of use goes, LWL85 is on a par with Felsenstein's Phylip 
  11. programs, except that there are fewer options to worry about, and
  12. this program is a bit more finiky about which columns the data
  13. are in, as befits a Fortran program.
  14.  
  15. ***********************************************************
  16. USING ESEE to make LWL files.
  17. (automatic method)
  18.  
  19.  
  20.     - Start ESEE and align your sequences. I recommend deleting
  21.       any codons that are not found across all of the sequences
  22.       being considered.
  23.      
  24.     - Save the file in an ESEE save file
  25.     - Leave ESEE
  26.     - Run the program Esee2lwl.exe that is on this disk
  27.  
  28.  
  29. (manual method)
  30.     - Start ESEE and align your sequences.
  31.     - carefully put in the LENGTH-space-NAME-space-COMMENT fields   
  32.       at the very beginning of each sequence.
  33.    
  34.     - insert blanks between those fields and the actual start of the
  35.       sequence...the sequence should start at POSITION 82. This is crucial.
  36.  
  37.     - with the cursor at position 82, depress f1 to get triplet spacing
  38.  
  39.     - repeat these steps with each sequence that you wish to output
  40.  
  41.     - Go to the print-out window and change the line length to 80.
  42.  
  43.     - output all of the seqeunces, one at a time to an ASCII file
  44.       using ESEE's OUTPUT command.  When the prompt for
  45.       overwrite, append or abort appears, select append.
  46.  
  47.     - save your work to a save file if you wish, and exit ESEE
  48. **********************************************************************
  49.    WHAT DOES Esee2LWL do?
  50.  
  51. In roughly the following order it:
  52.  
  53.     -prompts you for a file name then inputs the data,
  54.      skipping sequences that are type P, T or A and taking only
  55.      sequences of type N.
  56.     - Aborts if the number of valid sequences is less than 2
  57.     - TRIMs the sequence names to 59 characters
  58.     - trims the sequence lengths to 2100 characters (if necessary)
  59.     - checks for sequence length conflicts
  60.       The sequences should all be of uniform length for LWL.
  61.       If the (now trimmed) sequences are not of the same length,
  62.       then the program generates a report of the lengths of the
  63.       first, shortest and longest sequences.  You are then prompted
  64.       for the sequence length to use.   You may specify any integer
  65.       ranging from 3 to the length of the longest sequence.  If
  66.       there are sequences that are already less than the length that
  67.       you specify they will be padded with either N's or ?'s (depending
  68.       on whether you are working with DNA or protein).
  69.     - checks for name conflicts, you are prompted until all of
  70.       the names are unique
  71.      -prompts you for a name for the output file, you have an
  72.        option to escape if the file already exists
  73.      -sends data to the output file in the format required by LWL
  74.  
  75.      You can use ? for ambiguous bases and *** for ambiguous codons.
  76.      If you use ? then make sure to specify 001 as the last part
  77.      of the LWL prompt. For instance to get pairwise distances
  78.      between 3 taxa that have some ambiguities you would answer
  79.      LWL's prompt  003003001001
  80.                      ^  ^  ^  ^
  81.                      |  |  |  |
  82.                     /   |  |   \
  83.                   /     |  |     \
  84.                 /       |  |       \
  85.               /        /    \        \
  86.             /        /        \        \
  87.           /        /            \        \
  88.         /        /                \        \
  89.      # sp     # pairwise         001       001= throw out condons
  90.     in file    comparisons     or 000           with ambiguous, for all
  91.                            (two different        comparisons in the run
  92.                              strategies for
  93.                              confusing a.a
  94.                              substitutions)
  95. **********************************************************************
  96.  
  97. I will now attempt to explain the input format of LWL85.
  98.  
  99. Each sequence begins with the length in nucleotides right justified
  100. in a field consisting of the first twenty spaces of the first line
  101. for that sequence.  In plain terms it means that the number expressing the
  102. length must end on column 20.  Say the number is 109, where the nine
  103. is in column 19. The program will interpret this number as 1090!
  104.  
  105. After the length skip a space and put in the name. Then skip
  106. another space and put in an optional lable, if you wish.
  107. Then comes the sequence itself.
  108. Here are the rules:
  109.     - column1 is empty.
  110.     - the sequence is presented in triplets, 20 triplets per line
  111.     - if any of the sequences is missing a residue relative to 
  112.       any of the others, convert that ENTIRE CODON to ***
  113.     - lines are 80 columns wide
  114.     - don't include the initiation and termination codons
  115.  
  116.  
  117. ============================================================================
  118. When you run LWL85 there are series of prompts.
  119.  
  120. The first prompt asks you to type either ZZ3 or ZZZ3.  
  121. This refers to the  codon designations and mutational pathway weights.
  122. For rapidly evolving genes it is recommended that you use ZZZ3.
  123. Use ZZ3 for the insulin example.
  124.  
  125. Then you are asked for the name of the data file.
  126.  
  127. Next you have to enter the name of an output file.  I believe PRN: works
  128. for the printer and CON: works for the screen.
  129.  
  130. The next (and final) prompt causes the most problems with users.
  131. It is asking for four parameters, each expressed right justified in 
  132. 3-character wide fields.
  133.  The first parameter is the number of sequences in the file
  134.  The second is the number of the sequences to include in the pairwise
  135.  comparisions.  I see no reason no to include all so this should be
  136.  the same number as the first parameter.
  137.  The third parameter is ICHECK it deals with a how certain conficts in
  138.  mutational pathways are dealt with.   At present, I'm sure how it affects 
  139.  the result.
  140.  The fourth parameter is ITOSS. WHEN ITOSS=1 means that if a gap 
  141. (deletion or undetermined residue) exists in any of the given sequences
  142. it is assumed that a gap exists for all sequences at the same site.
  143. In the insulin example itoss=1 gives the same result as itoss=0 
  144. since the asterisk method is used to handle gaps.
  145.  
  146.  
  147. Try LWL with the file insulin
  148.  
  149. I suggest using this string for the parameter prompt:
  150.   004004000000  {with icheck off}
  151.   004004001000  {with icheck on}
  152.  
  153. Notice how you have to be somewhat defensive about the format of these
  154. numbers because of the way that Fortran deals with input.
  155. Thus 004 means 4, while space-4-space means 40 and 4-space-space means 400.
  156. Likewise 1 is expressed as 001.  Try to avoid using any spaces at
  157. all with this response to the prompt.
  158.    
  159.        
  160. Eric Cabot, August 1989