home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Shareware BBS: Science / Science.zip / clustal.zip / README < prev    next >
Text File  |  1997-11-03  |  7KB  |  160 lines

  1.                CLUSTAL W Multiple Sequence Alignment Program
  2.                         (version 1.7, June 1997)
  3.  
  4.  
  5.  
  6. Please send bug reports, comments etc. to one of:-
  7.     gibson@embl-heidelberg.de
  8.     thompson@embl-heidelberg.de
  9.     d.higgins@ucc.ie
  10.  
  11.  
  12. ******************************************************************************
  13.  
  14.                   POLICY ON COMMERCIAL DISTRIBUTION OF CLUSTAL W
  15.  
  16. Clustal W is freely available to the user community. However, we have had
  17. several years of instability with regard to Clustal W maintenance and
  18. development. Clustal W is now being distributed in a number of commercial
  19. packages. To help us safeguard future maintenance and development, commercial
  20. distributors of Clustal W are requested to donate a grant to the Clustal W
  21. authors which will be spent on Clustal W-related development. Anyone wishing to
  22. distribute version 1.7 of Clustal W should contact the authors.
  23.  
  24. ******************************************************************************
  25.  
  26. Changes since version 1.6
  27. -------------------------
  28.  
  29. 1. The static arrays used by clustalw for storing the alignment data have been
  30. replaced by dynamically allocated memory. There is now no limit on the number
  31. or length of sequences which can be input.
  32.  
  33. 2. The alignment of DNA sequences now offers a new hard-coded matrix, as well
  34. as the identity matrix used previously. The new matrix is the default scoring
  35. matrix used by the BESTFIT program of the GCG package for the comparison of
  36. nucleic acid sequences. X's and N's are treated as matches to any IUB ambiguity
  37. symbol. All matches score 1.9; all mismatches for IUB symbols score 0.0.
  38.  
  39. 3. The transition weight option for aligning nucleotide sequences has been
  40. changed from an on/off toggle to a weight between 0 and 1.  A weight of zero
  41. means that the transitions are scored as mismatches; a weight of 1 gives 
  42. transitions the full match score. For distantly related DNA sequences, the
  43. weight should be near to zero; for closely related sequences it can be useful
  44. to assign a higher score.
  45.  
  46. 4. The RSF sequence alignment file format used by GCG Version 9 can now be
  47. read.
  48.  
  49. 5. The clustal sequence alignment file format has been changed to allow
  50. sequence names longer than 10 characters. The maximum length allowed is set in
  51. clustalw.h by the statement:
  52. #define MAXNAMES    10
  53.  
  54. For the fasta format, the name is taken as the first string after the '>'
  55. character, stopping at the first white space. (Previously, the first 10
  56. characters were taken, replacing blanks by underscores).
  57.  
  58. 6. The bootstrap values written in the phylip tree file format can be assigned
  59. either to branches or nodes. The default is to write the values on the nodes,
  60. as this can be read by several commonly-used tree display programs. But note
  61. that this can lead to confusion if the tree is rooted and the bootstraps may
  62. be better attached to the internal branches: Software developers should ensure
  63. they can read the branch label format.
  64.  
  65. 7. The sequence weighting used during sequence to profile alignments has been
  66. changed. The tree weight is now multiplied by the percent identity of the
  67. new sequence compared with the most closely related sequence in the profile.
  68.  
  69. 8. The sequence weighting used during profile to profile alignments has been
  70. changed. A guide tree is now built for each profile separately and the
  71. sequence weights calculated from the two trees. The weights for each
  72. sequence are then multiplied by the percent identity of the sequence compared
  73. with the most closely related sequence in the opposite profile.
  74.  
  75. 9. The adjustment of the Gap Opening and Gap Extension Penalties for sequences
  76. of unequal length has been improved.
  77.  
  78. 10. The default order of the sequences in the output alignment file has been
  79. changed. Previously the default was to output the sequences in the same order
  80. as the input file. Now the default is to use the order in which the sequences
  81. were aligned (from the guide tree/dendrogram), thus automatically grouping
  82. closely related sequences.
  83.  
  84. 11. The option to 'Reset Gaps between alignments' has been switched off by
  85. default.
  86.  
  87. 12. The conservation line output in the clustal format alignment file has been
  88. changed. Three characters are now used:
  89. '*' indicates positions which have a single, fully conserved residue
  90. ':' indicates that one of the following 'strong' groups is fully conserved:-
  91.                  STA
  92.                  NEQK
  93.                  NHQK
  94.                  NDEQ
  95.                  QHRK
  96.                  MILV
  97.                  MILF
  98.                  HY
  99.                  FYW
  100.  
  101. '.' indicates that one of the following 'weaker' groups is fully conserved:-
  102.                  CSA
  103.                  ATV
  104.                  SAG
  105.                  STNK
  106.                  STPA
  107.                  SGND
  108.                  SNDEQK
  109.                  NDEQHK
  110.                  NEQHRK
  111.                  FVLIM
  112.                  HFY
  113.  
  114. These are all the positively scoring groups that occur in the Gonnet Pam250
  115. matrix. The strong and weak groups are defined as strong score >0.5 and weak
  116. score =<0.5 respectively.
  117.  
  118. 13. A bug in the modification of the Myers and Miller alignment algorithm
  119. for residue-specific gap penalites has been fixed. This occasionally caused
  120. new gaps to be opened a few residues away from the optimal position.
  121.  
  122. 14. The GCG/MSF input format no longer needs the word PILEUP on the first
  123. line. Several versions can now be recognised:-
  124.       1.  The word PILEUP as the first word in the file
  125.       2.  The word !!AA_MULTIPLE_ALIGNMENT or !!NA_MULTIPLE_ALIGNMENT
  126.           as the first word in the file
  127.       3.  The characters MSF on the first line in the line, and the
  128.           characters .. at the end of the line.
  129.  
  130. 15. The standard command line separator for UNIX systems has been changed from
  131. '/' to '-'. ie. to give options on the command line, you now type
  132.  
  133.      clustalw input.aln -gapopen=8.0
  134.  
  135. instead of  clustalw input.aln /gapopen=8.0
  136.  
  137.  
  138.                       ATTENTION SOFTWARE DEVELOPERS!!
  139.                       -------------------------------
  140.  
  141. The CLUSTAL sequence alignment output format has been modified:
  142.  
  143. 1. Names longer than 10 chars are now allowed. (The maximum is specified in
  144. clustalw.h by '#define MAXNAMES'.)
  145.  
  146. 2. The consensus line now consists of three characters: '*',':' and '.'. (Only
  147. the '*' and '.' were previously used.)
  148.  
  149. 3. An option (not the default) has been added, allowing the user to print out
  150. sequence numbers at the end of each line of the alignment output.
  151.  
  152. 4. Both RNA bases (U) and base ambiguities are now supported in nucleic acid
  153. sequences. In the past, all characters (upper or lower case) other than
  154. a,c,g,t or u were converted to N. Now the following characters are recognised 
  155. and retained in the alignment output: ABCDGHKMNRSTUVWXY (upper or lower case).
  156.  
  157. 5. A  Blank line inadvertently added in the version 1.6 header has been taken
  158. out again.
  159.  
  160.