home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Shareware BBS: Science / Science.zip / clustal.zip / CLUSTALW.DOC < prev    next >
Text File  |  1997-11-03  |  33KB  |  758 lines

  1. README for Clustal W version 1.7  June 1997
  2.  
  3.              Clustal W version 1.7 Documentation
  4.  
  5. This file provides some notes on the latest changes, installation and usage
  6. of the Clustal W multiple sequence alignment program.
  7.  
  8.  
  9.  
  10. Julie Thompson (Thompson@EMBL-Heidelberg.DE)
  11. Toby Gibson    (Gibson@EMBL-Heidelberg.DE)
  12.  
  13. European Molecular Biology Laboratory
  14. Meyerhofstrasse 1
  15. D 69117 Heidelberg
  16. Germany
  17.  
  18.  
  19. Des Higgins (Higgins@ucc.ie)
  20.  
  21. University of County Cork
  22. Cork
  23. Ireland
  24.  
  25.  
  26. Please e-mail bug reports/complaints/suggestions (polite if possible)
  27. to Toby Gibson or Des Higgins.  
  28.  
  29.  
  30.  
  31. Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994)
  32. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment
  33. through sequence weighting, positions-specific gap penalties and weight matrix
  34. choice.  Nucleic Acids Research, 22:4673-4680.
  35.  
  36. --------------------------------------------------------------
  37.  
  38. What's New (June 1997) in Version 1.7 (since version 1.6).
  39.  
  40.  
  41. 1. The static arrays used by clustalw for storing the alignment data have been
  42. replaced by dynamically allocated memory. There is now no limit on the number
  43. or length of sequences which can be input.
  44.  
  45. 2. The alignment of DNA sequences now offers a new hard-coded matrix, as well
  46. as the identity matrix used previously. The new matrix is the default scoring
  47. matrix used by the BESTFIT program of the GCG package for the comparison of
  48. nucleic acid sequences. X's and N's are treated as matches to any IUB ambiguity
  49. symbol. All matches score 1.9; all mismatches for IUB symbols score 0.0.
  50.  
  51. 3. The transition weight option for aligning nucleotide sequences has been
  52. changed from an on/off toggle to a weight between 0 and 1.  A weight of zero
  53. means that the transitions are scored as mismatches; a weight of 1 gives 
  54. transitions the full match score. For distantly related DNA sequences, the
  55. weight should be near to zero; for closely related sequences it can be useful
  56. to assign a higher score.
  57.  
  58. 4. The RSF sequence alignment file format used by GCG Version 9 can now be
  59. read.
  60.  
  61. 5. The clustal sequence alignment file format has been changed to allow
  62. sequence names longer than 10 characters. The maximum length allowed is set in
  63. clustalw.h by the statement:
  64. #define MAXNAMES    10
  65.  
  66. For the fasta format, the name is taken as the first string after the '>'
  67. character, stopping at the first white space. (Previously, the first 10
  68. characters were taken, replacing blanks by underscores).
  69.  
  70. 6. The bootstrap values written in the phylip tree file format can be assigned
  71. either to branches or nodes. The default is to write the values on the nodes,
  72. as this can be read by several commonly-used tree display programs. But note
  73. that this can lead to confusion if the tree is rooted and the bootstraps may
  74. be better attached to the internal branches: Software developers should ensure
  75. they can read the branch label format.
  76.  
  77. 7. The sequence weighting used during sequence to profile alignments has been
  78. changed. The tree weight is now multiplied by the percent identity of the
  79. new sequence compared with the most closely related sequence in the profile.
  80.  
  81. 8. The sequence weighting used during profile to profile alignments has been
  82. changed. A guide tree is now built for each profile separately and the
  83. sequence weights calculated from the two trees. The weights for each
  84. sequence are then multiplied by the percent identity of the sequence compared
  85. with the most closely related sequence in the opposite profile.
  86.  
  87. 9. The adjustment of the Gap Opening and Gap Extension Penalties for sequences
  88. of unequal length has been improved.
  89.  
  90. 10. The default order of the sequences in the output alignment file has been
  91. changed. Previously the default was to output the sequences in the same order
  92. as the input file. Now the default is to use the order in which the sequences
  93. were aligned (from the guide tree/dendrogram), thus automatically grouping
  94. closely related sequences.
  95.  
  96. 11. The option to 'Reset Gaps between alignments' has been switched off by
  97. default.
  98.  
  99. 12. The conservation line output in the clustal format alignment file has been
  100. changed. Three characters are now used:
  101. '*' indicates positions which have a single, fully conserved residue
  102. ':' indicates that one of the following 'strong' groups is fully conserved:-
  103.                  STA
  104.                  NEQK
  105.                  NHQK
  106.                  NDEQ
  107.                  QHRK
  108.                  MILV
  109.                  MILF
  110.                  HY
  111.                  FYW
  112.  
  113. '.' indicates that one of the following 'weaker' groups is fully conserved:-
  114.                  CSA
  115.                  ATV
  116.                  SAG
  117.                  STNK
  118.                  STPA
  119.                  SGND
  120.                  SNDEQK
  121.                  NDEQHK
  122.                  NEQHRK
  123.                  FVLIM
  124.                  HFY
  125.  
  126. These are all the positively scoring groups that occur in the Gonnet Pam250
  127. matrix. The strong and weak groups are defined as strong score >0.5 and weak
  128. score =<0.5 respectively.
  129.  
  130. 13. A bug in the modification of the Myers and Miller alignment algorithm
  131. for residue-specific gap penalites has been fixed. This occasionally caused
  132. new gaps to be opened a few residues away from the optimal position.
  133.  
  134. 14. The GCG/MSF input format no longer needs the word PILEUP on the first
  135. line. Several versions can now be recognised:-
  136.       1.  The word PILEUP as the first word in the file
  137.       2.  The word !!AA_MULTIPLE_ALIGNMENT or !!NA_MULTIPLE_ALIGNMENT
  138.           as the first word in the file
  139.       3.  The characters MSF on the first line in the line, and the
  140.           characters .. at the end of the line.
  141.  
  142. 15. The standard command line separator for UNIX systems has been changed from
  143. '/' to '-'. ie. to give options on the command line, you now type
  144.  
  145.      clustalw input.aln -gapopen=8.0
  146.  
  147. instead of  clustalw input.aln /gapopen=8.0
  148.  
  149.  
  150.                       ATTENTION SOFTWARE DEVELOPERS!!
  151.                       -------------------------------
  152.  
  153. The CLUSTAL sequence alignment output format has been modified:
  154.  
  155. 1. Names longer than 10 chars are now allowed. (The maximum is specified in
  156. clustalw.h by '#define MAXNAMES'.)
  157.  
  158. 2. The consensus line now consists of three characters: '*',':' and '.'. (Only
  159. the '*' and '.' were previously used.)
  160.  
  161. 3. An option (not the default) has been added, allowing the user to print out
  162. sequence numbers at the end of each line of the alignment output.
  163.  
  164. 4. Both RNA bases (U) and base ambiguities are now supported in nucleic acid
  165. sequences. In the past, all characters (upper or lower case) other than
  166. a,c,g,t or u were converted to N. Now the following characters are recognised 
  167. and retained in the alignment output: ABCDGHKMNRSTUVWXY (upper or lower case).
  168.  
  169. 5. A  Blank line inadvertently added in the version 1.6 header has been taken
  170. out again.
  171.  
  172.  
  173. --------------------------------------------------------------
  174.  
  175. What's New (March 1996) in Version 1.6 (since version 1.5).
  176.  
  177.  
  178. 1) Improved handling of sequences of unequal length.  Previously, we
  179. increased the gap extension penalties for both sequences if the two sequences
  180. (or groups of previously aligned sequences) were of different lengths.  
  181. Now, we increase the gap opening and extension penalties for the shorter 
  182. sequence only.   This helps prevent short sequences being stretched out
  183. along longer ones.
  184.  
  185. 2) Added the "Gonnet" series of weight matrices (from Gaston Gonnet and 
  186. co-workers at the ETH in Zurich).  Fixed a bug in the matrix
  187. choice menu; now PAM matrices can be selected ok.
  188.  
  189. 3) Added secondary structure/gap penalty masks.  These allow you to 
  190. include, in an alignment, a position specific set of gap penalties.  
  191. You can either set a gap opening penalty at each position or specify
  192. the secondary strcuture (if protein; alpha helix, beta strand or loop)
  193. and have gap penalties set automatically.   This, basically, is used to make 
  194. gaps harder to open inside helices or strands.  
  195.  
  196. These masks are only used in the "profile alignment" menu.  They may be read in
  197. as part of an alignment in a special format (see the on-line help for
  198. details) or associated with each sequence, if the sequences are in Swiss Prot 
  199. format and secondary structure information is given.   All of the mask 
  200. parameters can be set from the profile alignment menu.  Basically, the
  201. mask is made up of a series of numbers between 1 and 9, one per position.
  202. The gap opening penalty at a position is calculated as the starting penalty
  203. multipleied by the mask value at that site. 
  204.  
  205. 4) Added command line options /profile and /sequences.
  206. These allow uses to choose between normal profile alignment where the
  207. two profiles (pre-existing alignments specified in the files
  208. /profile1= and /profile2=) are merged/aligned with each other (/profile)
  209. and the case where the individual sequences in /profile2 are aligned
  210. sequentially with the alignment in /profile1 (/sequences).
  211.  
  212. 5) Fixed bug in modified Myers and Miller algorithm - gap penalty score
  213. was not always calculated properly for type 2 midpoints.  This is the core
  214. alignment algorithm.
  215.  
  216. 6) Only allows one output file format to be selected from command line
  217. - ie. multiple output alignment files are not allowed.
  218.  
  219. 7) Fixed 'bad calls to ckfree' error during calculation of phylip distance
  220. matrix.
  221.  
  222. 8) Fixed command line options /gapopen /gapext /type=protein /negative.
  223.  
  224. 9) Allowed user to change command line separator on UNIX from '/' to '-'.
  225. This allows unix users to use the more conventinal '-' symbol
  226. for seperating command line options.  "/" can then be used in unix
  227. file names on the command line.   The symbol that is used,
  228. is specified in the file clustalw.h which must be edited if you 
  229. wish to change it (and the program must then be recompiled).   Find the 
  230. block of code in clustalw.h that corrsponds to the operating system you
  231. are using.  These blocks are started by one of the following:
  232.  
  233. #ifdef VMS 
  234. #elif MAC
  235. #elif MSDOS
  236. #elif UNIX
  237.  
  238. On the next line after each is the line:
  239.  
  240. #define COMMANDSEP '/'
  241.  
  242. Change this in the appropriate block of code (e.g. the UNIX block) to 
  243.  
  244. #define COMMANDSEP '-'
  245.  
  246. if you wish to use the "-" character as command seperator.
  247.   
  248.  
  249.        
  250. --------------------------------------------------------------
  251.  
  252. What's New (April 1995) in Version 1.5 (since version 1.3).
  253.  
  254. 1) ported to MAC and PC.  These versions are quite slow unless you
  255. have a nice beefy machine.  On a Power Mac or a Pentium box
  256. it is nice and fast.  Two precompiled versions are supplied for Macs
  257. (Power mac and old mac versions).
  258. Mac:       1500 residues by 100 sequences
  259. Power Mac  3000    "     "   "     "
  260. PC         1500    "     "   "     "
  261.  
  262. 2) alignment of new sequences to an alignment.  Fixed a serious bug
  263. which assigned weights to the wrong sequences.  Now also, weights 
  264. sequences according to distance from the incoming sequence.  The
  265. new weights are: tree weights * similarity to incoming sequence.
  266. The tree weights are the old weights that we derive from the tree
  267. connecting all the sequences in the existing alignment.
  268.  
  269. 3) for all platforms, output linelength = 60.
  270.  
  271. 4) Bootstrap files (*.phb): the "final" node (arbitrary trichotomy
  272. at the end of the neighbor-joining process) is labelled as 
  273. TRICHOTOMY in the bootstrap output files.  This is to help
  274. link bootstrap figures with nodes when you reroot the tree.
  275.  
  276. 5) Command line /bootstrap option now more robust.
  277.  
  278. --------------------------------------------------------------
  279. INTRODUCTION
  280.  
  281.  
  282.  
  283. This document gives some BRIEF notes about usage of the Clustal W
  284. multiple alignment program for UNIX and VMS machines.  Clustal W
  285. is a major update and rewrite of the Clustal V program which 
  286. was described in:
  287.  
  288. Higgins, D.G., Bleasby, A.J. and Fuchs, R. (1992)
  289. CLUSTAL V: improved software for multiple sequence alignment.
  290. Computer Applications in the Biosciences (CABIOS), 8(2):189-191.
  291.  
  292. The main new features are a greatly improved (more sensitive)
  293. multiple alignment procedure for proteins and improved support
  294. for different file formats.  This software was described in:
  295.  
  296. Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994)
  297. CLUSTAL W: improving the sensitivity of progressive multiple
  298. sequence alignment through sequence weighting, position specific
  299. gap penalties and weight matrix choice.
  300. Nucleic Acids Research, 22(22):4673-4680.
  301.  
  302.  
  303. The usage of Clustal W is largely the same as for
  304. Clustal V details of which are described in clustalv.doc.  Details of the
  305. new alignment algorithms are described in the manuscript by
  306. Thompson et. al. above, an ascii/text version of which is included 
  307. (clustalw.ms). This file lists some of the details not covered by either 
  308. of the above documents.
  309.  
  310.  
  311. There are brief notes on the following topics:
  312.  
  313. 1) Installation for VMS and UNIX and MAC and PC
  314. 2) File input
  315. 3) file output
  316. 4) changes to the alignment algorithms
  317. 5) minor modifications to the phylogenetic tree and bootstrapping methods
  318. 6) summary of the command line usage.
  319.  
  320. -------------------------------------------------------------------
  321.  
  322. 1) INSTALLATION    (for Unix, VAX/VMS, PC and MAC)
  323.  
  324.  
  325.  
  326. *****IMPORTANT*****
  327. If you wish to recompile the program (or compile it for the first
  328. time; you will have to do this with UNIX):
  329. first check the file CLUSTALW.H which needs to be changed if you
  330. move the code from between unix and vms machines.  At the top
  331. of the file are four lines which define one of VMS, MSDOS, MAC or
  332. UNIX to be 1.  All of these EXCEPT one must be commented out
  333. using enclosed /* ... */.  
  334. *******************
  335.  
  336.  
  337. Unix
  338. -----
  339.  
  340. Make files are supplied for unix machines.  The code was compiled and
  341. tested using Decstation (Ultrix), SUN (Gnu C compiler/gcc), Silicon
  342. Graphics (IRIX) and DEC/Alpha (OSF1).  We have not tested the code on any other
  343. systems.  Just use makefile to make on most systems.  For Sun, you need to
  344. have the Gnuc C (gcc) compiler installed ... use the file makefile.sun in this
  345. case.  You make the program with:
  346. make  (or make -f makefile.sun)
  347.  
  348. This produces the file clustalw which can be run by typing clustalw and
  349. pressing return.  The help file is called clustalw_help
  350.  
  351.  
  352. VMS
  353. ----
  354.  
  355. There is a small DCL command file (VMSLINK.COM) to compile and link the
  356. code for VMS machines (vax or alpha).  This procedure just compiles the
  357. source files and links using default settings.  Run it using:
  358. $ @vmslink
  359. This produces Clustalw.exe which can be run using the run command:
  360. $ run clustalw
  361.  
  362. The intermediate object files can be deleted with:
  363. $ del *.obj;
  364.  
  365. There is an extensive command line facility.  To use this, you must
  366. create a symbol to run the program (and put this in your login.com file).
  367. e.g.
  368. $ clustalw :== $$drive:[dir.dir]clustalw
  369. where $drive is the drive on which the executable file is stored (clustalw.exe)
  370. and [dir.dir] is the full directory specification.  NOTE THE EXTRA DOLLAR SIGN.
  371. Then the program can be run using the command:
  372. $ clustalw
  373.  
  374.  
  375. PC
  376. __
  377.  
  378. We supply an executable file (Clustalw.exe) which will run using MSDOS.
  379. It will also run under windows (as a DOS application) 
  380. *** IF you have a maths coprocessor***.  If you do not have a maths chip 
  381. (e.g. 80387), the program can only be run under MSDOS.  In the latter case, 
  382. you must have the file EMU387.exe in the same directory as CLUSTALW.EXE.  
  383. This file emulates a maths chip if you do not have one.  
  384.  
  385.  
  386. We generated the executable file using gnu c for MSDOS. 
  387. It will also compile (with about 10,000 warning messages)
  388. using Microsoft C but we have not tested it and there appear to be problems
  389. with the executable. 
  390.  
  391. You will need to use a "memory extender" to allow the program to get at more 
  392. than 640kb of memory.
  393.  
  394.  
  395.  
  396. MAC
  397. ---
  398.  
  399. The code compiles for Power Mac and older macs using Metroworks Codewarrior
  400. C compiler.  We supply 2 executable programs (one each for PowerMac and
  401. older mac): ClustalwPPC and Clustalw68k).  These need up to
  402. 10mb of memory to run which needs to be adjusted with the Get Info (%I)
  403. command from the Finder if you have problems.  Just double click the 
  404. executable file name or icon and off you go (we hope).
  405.  
  406. As a special treat for Mac users, we supply an executable and brief readme
  407. file for NJPLOT.   This is a really nice program by Manolo Gouy
  408. (University of Lyon, France) that allows you to import the trees
  409. made by Clustal W and display them/manipulate them.  It will properly
  410. display the bootstrap figures from the *.phb files.  It can export the
  411. trees in PICT format which can then be used by MacDraw for example.
  412.  
  413.  
  414. -------------------------------------------------------------------------
  415.  
  416. 2) FILE INPUT (sequences to be aligned)
  417.  
  418.  
  419.  
  420. The sequences must all be in one file (or two files for a "profile alignment")
  421. in ONE of the following formats:
  422.  
  423. FASTA (Pearson), NBRF/PIR, EMBL/Swiss Prot, GDE, CLUSTAL, GCG/MSF, GCG9/RSF.
  424.  
  425. The program tries to "guess" which format is being used and whether
  426. the sequences are nucleic acid (DNA/RNA) or amino acid (proteins).  The
  427. format is recognised by the first characters in the file.  This is kind
  428. of stupid/crude but works most of the time and it is difficult
  429. to do reliably, any other way.
  430.  
  431.  
  432. Format           First non blank word or character in the file.
  433. ...............................................................
  434. FASTA            >
  435. NBRF             >P1;  or >D1;
  436. EMBL/SWISS       ID
  437. GDE protein      % 
  438. GDE nucleotide   # 
  439. CLUSTAL          CLUSTAL (blocked multiple alignments)
  440. GCG/MSF          PILEUP  or !!AA_MULTIPLE_ALIGNMENT or !!NA_MULTIPLE_ALIGNMENT
  441.                  or MSF on the first line, and '..' at the end of line
  442. GCG9/RSF         !!RICH_SEQUENCE
  443.  
  444. Note, that the only way of spotting that a file is MSF format is if
  445. the word PILEUP appears at the very beginning of the file.  If you 
  446. produce this format from software other than the GCG pileup program,
  447. then you will have to insert the word PILEUP at the start of the file.
  448. Similarly, if you use clustal format, the word CLUSTAL must appear first.
  449.  
  450. All of these formats can be used to read in AN EXISTING FULL ALIGNMENT.
  451. With CLUSTAL format, this is just the same as the output format of this
  452. program and Clustal V.  If you use PILEUP or CLUSTAL format, all sequences
  453. must be the same length, INCLUDING GAPS ("-" in clustal format; "." in MSF).
  454. With the other formats, sequences can be gapped with "-" characters.  If you
  455. read in any gaps these are kept during any later alignments.  You can use
  456. this facility to read in an alignment in order to calculate a phylogenetic
  457. tree OR to output the same alignment in a different format (from the
  458. output format options menu of the multiple alignment menu) e.g. read
  459. in a GCG/MSF format alignment and output a PHYLIP format alignment. This is 
  460. also useful to read in one reference alignment and to add one or more new 
  461. sequences to it using the "profile alignment" facilities.
  462.  
  463. DNA vs. PROTEIN:  the program will count the number of A,C,G,T,U and N
  464. charcters.  If 85% or more of the characters in a sequence are as above,
  465. then DNA/RNA is assumed, protein otherwise.  
  466.  
  467. -------------------------------------------------------------------------
  468.  
  469.  
  470. 3) FILE OUTPUT 
  471.  
  472.  
  473. 1) the alignments.
  474.  
  475. In the multiple alignment and profile alignment menus, there is a menu
  476. item to control the output format(s).
  477.  
  478. The alignment output format can be set to any (or all) of:
  479. CLUSTAL  (a self explanatory blocked alignment)
  480. NBRF/PIR (same as input format but with "-" characters for gaps)
  481. MSF      (the main GCG package multiple alignment format)
  482. PHYLIP   (Joe Felsenstein's phylogeny inference package.  Gaps are set to
  483.          "-" characters.  For some programs (e.g. PROTPARS/DNAPARS) these 
  484.          should be changed to "?" characters for unknown residues.
  485. GDE      (Used by Steven Smith's GDE package)
  486.  
  487. You can also choose between having the sequences in the same order as in 
  488. the input file or writing them out in an order that more closely matches the 
  489. order used to carry out the multiple alignment.
  490.  
  491.  
  492. 2) The trees.
  493.  
  494. Believe it or not, we now use the New Hampshire (nested parentheses)
  495. format as default for our trees.  This format is compatible with e.g. the
  496. PHYLIP package.  If you want to view a tree, you can use the RETREE or 
  497. DRAWGRAM/DRAWTREE programs of PHYLIP.  This format is used for all our 
  498. trees, even the initial guide trees for deciding the order of multiple
  499. alignment.  The output trees from the phylogenetic tree menu can also be
  500. requested in our old verbose/cryptic format.  This may be more useful
  501. if, for example, you wish to see the bootstrap figures.  The bootstrap
  502. trees in the default New Hampshire format give the bootstrap figures
  503. as extra labels which can be viewed very easily using TREETOOL which is
  504. available as part of the GDE package.  TREETOOL is available from the
  505. RDP project by ftp from rdp.life.uiuc.edu.  
  506.  
  507. The New Hampshire format is only useful if you have software to display or
  508. manipulate the trees.  The PHYLIP package is highly recommended if you intend
  509. to do much work with trees and includes programs for doing this.  If you do
  510. not have such software, request the trees in the older clustal format
  511. and see the documentation for Clustal V (clustalv.doc).  WE DO NOT PROVIDE
  512. ANY DIRECT MEANS FOR VIEWING TREES GRAPHICALLY.
  513.  
  514. -------------------------------------------------------------------------
  515.  
  516. 4) THE ALIGNMENT ALGORITHMS
  517.  
  518.  
  519. The basic algorithm is the same as for Clustal V and is described in some
  520. detail in clustalv.doc.  The new modifications are described in detail in 
  521. clustalw.ms.  Here we just list some notes to help answer some of the most
  522. obvious questions.
  523.  
  524.  
  525. Terminal Gaps
  526.  
  527. In the original Clustal V program, terminal gaps were penalised the same
  528. as all other gaps.  This caused some ugly side effects e.g.
  529.  
  530. acgtacgtacgtacgt                              acgtacgtacgtacgt
  531. a----cgtacgtacgt  gets the same score as      ----acgtacgtacgt
  532.  
  533. NOW, terminal gaps are free.  This is better on average and stops silly
  534. effects like single residues jumping to the edge of the alignment.  However,
  535. it is not perfect.  It does mean that if there should be a gap near the end 
  536. of the alignment, the program may be reluctant to insert it i.e. 
  537.  
  538. cccccgggccccc                                              cccccgggccccc
  539. ccccc---ccccc  may be considered worse (lower score) than  cccccccccc---
  540.  
  541. In the right hand case above, the terminal gap is free and may score higher
  542. than the laft hand alignment.  This can be prevented by lowering the gap
  543. opening and extension penalties.   It is difficult to get this right all the
  544. time.  Please watch the ends of your alignments. 
  545.  
  546.  
  547.  
  548. Speed of the initial (pairwise) alignments (fast approximate/slow accurate)
  549.  
  550. By default, the initial pairwise alignments are now carried out using a full
  551. dynamic programming algorithm.  This is more accurate than the older hash/
  552. k-tuple based alignments (Wilbur and Lipman) but is MUCH slower.  On a fast
  553. workstation you may not notice but on a slow box, the difference is extreme.
  554. You can set the alignment method from the menus easily to the older, faster
  555. method.
  556.  
  557.  
  558.  
  559. Delaying alignment of distant sequences
  560.  
  561. The user can set a cut off to delay the alignment of the most divergent
  562. sequences in a data set until all other sequences have been aligned.  By 
  563. default, this is set to 40% which means that if a sequence is less than 40%
  564. identical to any other sequence, its alignment will be delayed.  
  565.  
  566.  
  567.  
  568. Iterative realignment/Reset gaps between alignments
  569.  
  570. By default, if you align a set of sequences a second time (e.g. with changed
  571. gap penalties), the gaps from the first alignment are discarded.  You can
  572. set this from the menus so that older gaps will be kept between alignments,
  573. This can sometimes give better alignments by keeping the gaps (do not reset
  574. them) and doing the full multiple alignment a second time.  Sometimes, the
  575. alignment will converge on a better solution; sometimes the new alignment will
  576. be the same as the first.  There can be a strange side effect: you can get
  577. columns of nothing but gaps introduced.  
  578.  
  579. Any gaps that are read in from the input file are always kept, regardless 
  580. of the setting of this switch.  If you read in a full multiple alignment, the "reset
  581. gaps" switch has no effect.  The old gaps will remain and if you carry out 
  582. a multiple alignment, any new gaps will be added in.  If you wish to carry out 
  583. a full new alignment of a set of sequences that are already aligned in a file
  584. you must input the sequences without gaps.
  585.  
  586.  
  587.  
  588. Profile alignment
  589.  
  590. By profile alignment, we simply mean the alignment of old alignments/sequences.
  591. In this context, a profile is just an existing alignment (or even a set of 
  592. unaligned sequences; see below).  This allows you to
  593. read in an old alignment (in any of the allowed input formats) and align
  594. one or more new sequences to it.  From the profile alignment menu, you
  595. are allowed to read in 2 profiles.  Either profile can be a full alignment
  596. OR a single sequence.  In the simplest mode, you simply align the two profiles
  597. to each other. This is useful if you want to gradually build up a full
  598. multiple alignment.  
  599.  
  600. A second option is to align the sequences from the second profile, one at
  601. a time to the first profile.  This is done, taking the underlying tree between
  602. the sequences into account.  This is useful if you have a set of new sequences
  603. (not aligned) and you wish to add them all to an older alignment.
  604.  
  605. ----------------------------------------------------------------------------
  606.  
  607. 5) CHANGES TO THE PHYLOGENTIC TREE CALCULATIONS AND SOME HINTS.
  608.  
  609.  
  610.  
  611. IMPROVED DISTANCE CALCULATIONS FOR PROTEIN TREES
  612.  
  613.  
  614. The phylogenetic trees in Clustal W (the real trees that you calculate
  615. AFTER alignment; not the guide trees used to decide the branching order
  616. for multiple alignment) use the Neighbor-Joining method of Saitou and
  617. Nei based on a matrix of "distances" between all sequences.  These distances
  618. can be corrected for "multiple hits".  This is normal practice when accurate
  619. trees are needed.  This correction stretches distances (especially large ones)
  620. to try to correct for the fact that OBSERVED distances (mean number of 
  621. differences per site) greatly underestimate the actual number that happened
  622. during evolution.  
  623.  
  624. In Clustal V we used a simple formula to convert an observed distance to one
  625. that is corrected for multiple hits.  The observed distance is the mean number
  626. of differences per site in an alignment (ignoring sites with a gap) and is
  627. therefore always between 0.0 (for ientical sequences) an 1.0 (no residues the
  628. same at any site).  These distances can be multiplied by 100 to give percent
  629. difference values.  100 minus percent difference gives percent identity.
  630. The formula we use to correct for multiple hits is from Motoo Kimura
  631. (Kimura, M. The neutral Theory of Molecular Evolution, Camb.Univ.Press, 1983,
  632. page 75) and is:
  633.  
  634. K = -Ln(1 - D - (D.D)/5)  where D is the observed distance and K is       
  635.                               corrected distance.
  636.  
  637. This formula gives mean number of estimated substitutions per site and, in
  638. contrast to D (the observed number), can be greater than 1 i.e. more than
  639. one substitution per site, on average.  For example, if you observe 0.8
  640. differences per site (80% difference; 20% identity), then the above formula
  641. predicts that there have been 2.5 substitutions per site over the course 
  642. of evolution since the 2 sequences diverged.  This can also be expressed in 
  643. PAM units by multiplying by 100 (mean number of substitutions per 100 residues).
  644. The PAM scale of evolution and its derivation/calculation comes from the
  645. work of Margaret Dayhoff and co workers (the famous Dayhoff PAM series
  646. of weight matrices also came from this work).  Dayhoff et al constructed
  647. an elaborate model of protein evolution based on observed frequencies
  648. of substitution between very closely related proteins.  Using this model,
  649. they derived a table relating observed distances to predicted PAM distances.
  650. Kimura's formula, above, is just a "curve fitting" approximation to this table.
  651. It is very accurate in the range 0.75 > D > 0.0 but becomes increasingly
  652. unaccurate at high D (>0.75) and fails completely at around D = 0.85.
  653.  
  654. To circumvent this problem, we calculated all the values for K corresponding
  655. to D above 0.75 directly using the Dayhoff model and store these in an 
  656. internal table, used by Clustal W.  This table is declared in the file dayhoff.h and
  657. gives values of K for all D between 0.75 and 0.93 in intervals of 0.001 i.e.
  658. for D = 0.750, 0.751, 0.752 ...... 0.929, 0.930.   For any observed D 
  659. higher than 0.930, we arbitrarily set K to 10.0.  This sounds drastic but
  660. with real sequences, distances of 0.93 (less than 7% identity) are rare.
  661. If your data set includes sequences with this degree of divergence, you
  662. will have great difficulty getting accurate trees by ANY method; the alignment
  663. itself will be very difficult (to construct and to evaluate).
  664.  
  665. There are some important
  666. things to note.  Firstly, this formula works well if your sequences are
  667. of average amino acid composition and if the amino acids substitute according
  668. to the original Dayhoff model.  In other cases, it may be misleading.  Secondly,
  669. it is based only on observed percent distance i.e. it does not DIRECTLY
  670. take conservative substitutions into account.  Thirdly, the error on the
  671. estimated PAM distances may be VERY great for high distances; at very high
  672. distance (e.g. over 85%) it may give largely arbitrary corrected distances.
  673. In most cases, however, the correction is still worth using; the trees will
  674. be more accurate and the branch lengths will be more realistic.  
  675.  
  676. A far more sophisticated distance correction based on a full Dayhoff
  677. model which DOES take conservative substitutions and actual amino acid
  678. composition into account, may be found in the PROTDIST program of the
  679. PHYLIP package.  For serious tree makers, this program is highly recommended. 
  680.  
  681.  
  682.  
  683. TWO NOTES ON BOOTSTRAPPING...
  684.  
  685. When you use the BOOTSTRAP in Clustal W to estimate the reliability of parts
  686. of a tree, many of the uncorrected distances may randomly exceed the arbitrary cut
  687. off of 0.93 (sequences only 7% identical) if the sequences are distantly
  688. related.  This will happen randomly i.e. even if none of the pairs of 
  689. sequences are less than 7% identical, the bootstrap samples may contain pairs
  690. of sequences that do exceed this cut off.
  691. If this happens, you will be warned.  In practice, this can
  692. happen with many data sets.  It is not a serious problem if it happens rarely.
  693. If it does happen (you are warned when it happens and told how often the
  694. problem occurs), you should consider removing the most distantly
  695. related sequences and/or using the PHYLIP package instead.
  696.  
  697.  
  698. A further problem arises in almost exactly the opposite situation: when
  699. you bootstrap a data set which contains 3 or more sequences that are identical
  700. or almost identical.  Here, the sets of identical sequences should be shown
  701. as a multifurcation (several sequences joing at the same part of the tree).
  702. Because the Neighbor-Joining method only gives strictly dichotomous trees
  703. (never more than 2 sequences join at one time), this cannot be exactly 
  704. represented.  In practice, this is NOT a problem as there will be some
  705. internal branches of zero length seperating the sequences.  If you
  706. display the tree with all branch lengths, you will still see a multifurcation.  
  707. However, when you bootstrap
  708. the tree, only the branching orders are stored and counted.  In the case
  709. of multifurcations, the exact branching order is arbitrary but the program
  710. will always get the same branching order, depending only on the input order
  711. of the sequences.  In practice, this is only a problem in situations where
  712. you have a set of sequences where all of them are VERY similar.  In this case,
  713. you can find very high support for some groupings which will disappear if you
  714. run the analysis with a different input order.  Again, the PHYLIP package
  715. deals with this by offering a JUMBLE option to shuffle the input order
  716. of your sequences between each bootstrap sample.  
  717.  
  718. ----------------------------------------------------------------------------
  719.  
  720. 6) SUMMARY OF THE COMMAND LINE USAGE
  721.  
  722. Clustal W is designed to be run interactively.  However, there are many 
  723. situations where it is convenient to run it from the command line, especially
  724. if you wish to run it from another piece of software (e.g. SeqApp or GDE).
  725. All parameters can be set from the command line by giving options after the
  726. clustalw command. On UNIX options should be preceded by '-', all other systems
  727. use the '/' character.
  728.  
  729. If anything is put on the command line, the program will (attempt to) carry
  730. out whatever is requested and will exit.  If you wish to use the command
  731. line to set some parameters and then go into interactive mode, use the
  732. command line switch: interactive .... e.g.
  733.  
  734. clustalw -quicktree -interactive    on UNIX
  735. or
  736. clustalw /quicktree /interactive    on VMS,MAC and PC
  737.  
  738. will set the default initial alignment mode to fast/approximate and will then
  739. go to the main menu.
  740.  
  741.  
  742. To see a list of all the command line parameters, type: 
  743.  
  744. clustalw -options           on UNIX
  745. or
  746. clustalw /options           on VMS,MAC and PC
  747.  
  748. and you will see a list with no explanation.
  749.  
  750.  
  751. To get (VERY BRIEF) help on command line usage, use the /HELP or /CHECK
  752. (-help or -check on UNIX systems) options.  Otherwise, the command line
  753. usage is self explanatory or is explained in clustalv.doc.  The defaults
  754. for all parameters are set in the file param.h which can be changed easily 
  755. (remember to recompile the program afterwards :-).
  756.  
  757. ------------------------------------------------------------------------------
  758.