home *** CD-ROM | disk | FTP | other *** search
/ C/C++ Interactive Guide / c-cplusplus-interactive-guide.iso / c_ref / csource4 / 209_01 / ldhfitr.doc < prev    next >
Encoding:
Text File  |  1990-03-05  |  22.4 KB  |  732 lines

  1. LDHFITR.DOC       VERS:- 01.00 DATE:- 09/26/86 TIME:- 10:02:47 PM 
  2.  
  3.  
  4. description of computer reduction of data from kinetic 
  5.     measurements for the enzyme lactate dehydrogenase 
  6. information on how to run program LDHFIT
  7.  
  8.  
  9.  
  10.  
  11.  
  12.  
  13.  
  14.         By J. A. Rupley, Tucson, Arizona
  15.  
  16.  
  17.          NOTES ON DATA REDUCTION BY COMPUTER
  18.          AND INFORMATION ON RUNNING THE PROGRAM LDHFIT
  19.     
  20.  
  21.         INTRODUCTION:
  22.  
  23.          In order to obtain conclusions from quantitative measurements,
  24.         there must be some form of data reduction. This can be as simple
  25.         as a comparison by eye of two curves drawn through the data. If,
  26.         however, the data set is large and complex, for example with more
  27.         than one independent variable, and if the questions posed are
  28.         detailed or involve a complicated nonlinear model, then visual or
  29.         graphical methods are less satisfactory than a computer-based
  30.         analysis. Procedures of the latter type are now widely used.
  31.  
  32.          This laboratory is a short introduction to data reduction by use
  33.         of a computer. The intent is to show that a sophisticated
  34.         computer program can be handled easily, that its use saves time
  35.         and effort, that it can treat a more complicated model than can
  36.         be treated graphically, and that it produces information such as
  37.         estimates of uncertainties in the parameters that is difficult or
  38.         impossible to obtain from graphical methods.
  39.  
  40.          The data to be analyzed are initial rate measurements made
  41.         on the lactate dehydrogenase catalyzed reaction of pyruvate with
  42.         NADH, in the presence and absence of lactate as inhibitor. The
  43.         results of the computer fit are the following:  (1) values of the
  44.         kinetic constants V, KmA, KmB, KmAB, KmQ/KmPQ, and KBInhib. The
  45.         first five constants are those that can be evaluated by the
  46.         standard graphical methods of primary and secondary reciprocal
  47.         plots.  The constant KBInhib is the dissociation constant for the
  48.         dead-end complex LDH-NADH-lactate, which is included in the
  49.         mechanism fit by the computer program but cannot be included in
  50.         the mechanism on which the graphical methods are based.  (2)
  51.         Estimates of the standard deviations of the kinetic constants.
  52.         These are needed for an understanding of the reliability and
  53.         significance of the values calculated for the kinetic constants.
  54.         (3) A list of the coordinates of points suitable for construction
  55.         of the lines of the reciprocal plots of the standard graphical
  56.         methods.
  57.  
  58.  
  59.  
  60.  
  61.  
  62.  
  63.  
  64.  
  65.  
  66.  
  67.  
  68.  
  69.  
  70.  
  71.                                         1
  72.  
  73.  
  74.  
  75.  
  76.  
  77.  
  78.  
  79.  
  80.  
  81.         By J. A. Rupley, Tucson, Arizona
  82.  
  83.         THEORY:
  84.  
  85.         A. REMARKS ON FITTING OF A MODEL TO DATA
  86.  
  87.          In a typical data reduction, a particular model to be tested is
  88.         fit to a set of data points under some criterion for best fit.
  89.         The ith data point of a set of N data points consists of a single
  90.         value for the dependent variable Yobserved(i) measured for
  91.         corresponding single values for the one or more independent
  92.         variables Xobserved(i). The commonly-used least squares criterion
  93.         for quality of fit is the minimum value of the sum of the squares
  94.         of the deviations between the observed values of Y and the values
  95.         of Y calculated according to the model being tested.
  96.  
  97.          Working from the model to be fit to the data, one develops an
  98.         equation relating, for each of the N data points, the dependent
  99.         variable Y to the independent variables X and to a set of M
  100.         variable parameters p:
  101.  
  102.              Ymodel(i) = F(Xobserved(i); p(j), j=1,M)        eq. 1
  103.  
  104.         For example, if the model predicts a linear relationship between
  105.         Y and a single independent variable X :
  106.  
  107.              Ymodel(i) = p(1) + p(2) * Xobserved(i)          eq. 2
  108.  
  109.         The constants p(1) and p(2) of equation (2) are the Y axis
  110.         intercept and the slope, respectively, and of course are the same
  111.         for all data points (for all pairs of values Y(i) and X(i)).
  112.  
  113.          The fitting of a model to data consists of finding the values of
  114.         the M variable parameters p that give the best agreement between
  115.         the N pairs of values of Ymodel(i) and Yobserved(i). Best
  116.         agreement can be defined as the minimum value of the least
  117.         squares function y:
  118.  
  119.  
  120.                   N
  121.              y = SUM (Yobserved(i) - Ymodel(i))^2 * W(i)     eq. 3
  122.                  i=1
  123.  
  124.  
  125.         The factor W(i) of equation (3) is the normalized reciprocal
  126.         variance (the statistical weighting) of the ith data point, and
  127.         it can be set at unity if the data points are all of equal
  128.         estimated uncertainty.
  129.  
  130.          Combining equations (1) and (3), one sees that the least squares
  131.         function y of equation (3) is a function of the full set of N
  132.         data points and a set of M variable parameters:
  133.  
  134.           y = f(Yobserved(i), Xobserved(i), i=1,N; p(j), j=1,M)   eq. 4
  135.  
  136.  
  137.  
  138.                                         2
  139.  
  140.  
  141.  
  142.  
  143.  
  144.  
  145.  
  146.  
  147.  
  148.          The fitting problem therefore consists of finding the minimum
  149.         value of the least squares function y, which for a given set of
  150.         data depends only on the M variable parameters p (the data points
  151.         Yobserved(i)---Xobserved(i) in equation (4) are constant in the
  152.         fitting). There are several methods commonly used to find the
  153.         minimum of y and thus evaluate the best fit values of the
  154.         parameters p. The more useful of these can handle nonlinear model
  155.         functions F (equation (1)) of arbitrary mathematical form. The
  156.         rate law for lactate dehydrogenase is an example of a nonlinear
  157.         model function.
  158.  
  159.          In the simplex method used here, one constructs an M dimensional
  160.         polyhedron with M + 1 vertices (the simplex). Each dimension of
  161.         the simplex corresponds to a variable parameter of equation (4).
  162.         Each vertex of the simplex is a point in the M dimensional space,
  163.         which is called "parameter space" or "factor space." The M
  164.         coordinates of each vertex are values of the M parameters. Thus
  165.         each vertex of the simplex has an associated value of the least
  166.         squares function y. The starting simplex is constructed to be so
  167.         large as to include within it the point corresponding to the
  168.         minimum value of y. This minimum point has as its coordinates of
  169.         the best fit values of the parameters.
  170.  
  171.          The minimization process shrinks the simplex about the minimum
  172.         point, even though the coordinates of the minimum are not known
  173.         beforehand, until the vertices of the simplex are so close
  174.         together and so nearly equal that an exit test is satisfied. The
  175.  
  176.         exit test is set so that a desired level of accuracy is obtained.
  177.         The values of the M parameters averaged over all the vertices, ie
  178.         the parameter values for the centroid of the simplex, serve as
  179.         reliable estimates of the best fit parameter values (those for
  180.         the least squares function minimum), because the minimum point is
  181.         known to be inside the shrunken simplex and thus near the
  182.         centroid.
  183.  
  184.          We generally want to estimate the uncertainties in the parameter
  185.         values obtained for a model fit to a particular set of data
  186.         points. Standard deviations of the parameters are calculated by
  187.         the program used here.
  188.  
  189.          There are likely to be large uncertainties in the parameters if
  190.         there are few data points or if there are large deviations
  191.         between Ymodel and Yobserved. As a rule, one should have 5 to 10
  192.         times as many data points as parameters.
  193.  
  194.          The first try at estimating uncertainties of the parameters can
  195.         fail. The calculation involves matrix inversion, the use of
  196.         differences between nearly equal large numbers, and the
  197.         approximation of a complex surface by a simple quadratic
  198.         function. It may be necessary to change certain test values and
  199.         then to repeat the calculation of the standard deviations. In
  200.         particular, if a parameter is close to a bound, so that expansion
  201.         of the simplex in that dimension is not possible, then that
  202.         parameter should be fixed in the quadratic fit.
  203.  
  204.  
  205.                                         3
  206.  
  207.  
  208.  
  209.  
  210.  
  211.  
  212.  
  213.  
  214.  
  215.  
  216.          All fitting methods can fail. We will not discuss problems with
  217.         bounds, local minima, ill-behaved functions, poor quality data,
  218.         physically unreasonable best fits, etc. References given in
  219.         subsection C below discuss fitting methods in more detail.
  220.  
  221.          For additional discussion of fitting by use of the simplex
  222.         method, see "Notes on the fitting program", and the article by
  223.         Nelder and Mead (1965).
  224.  
  225.  
  226.         B. THE FUNCTION FIT TO THE DATA
  227.  
  228.          In the computer program you will use, the function fit to the
  229.         data, which you obtained in the kinetic experiment with lactate
  230.         dehydrogenase, is for an ordered ternary-complex pathway with
  231.  
  232.         dead-end complexes (EAP and EQB). The following scheme describes
  233.         the pathway:
  234.  
  235.                             EAP
  236.                              |   KPInhib = ea * p/eap
  237.                              |
  238.                   ----------EA-----------
  239.            k1 * a | k-1             k-2 | k2 * b
  240.                   |                     |
  241.                   |                     |
  242.                   E               EAB <---> EPQ                 eq. 5
  243.                   |                     |
  244.                   |                     |
  245.                k4 | k-4 * q     k-3 * p | k3
  246.                   ----------EQ-----------
  247.                              |
  248.                              |   KBInhib = eq * b/eqb
  249.                             EQB
  250.  
  251.          This pathway is more complicated than the one, without dead- end
  252.         complexes, on which are based the standard graphical methods of 
  253.         analysis of two-substrate--two-product reactions:
  254.  
  255.                   -----------EA----------
  256.                   |                     |
  257.                   |                     |
  258.                   E               EAB <---> EPQ                 eq. 6
  259.                   |                     |
  260.                   |                     |
  261.                   -----------EQ----------
  262.  
  263.          For the direction of reaction (pyruvate reduction by NADH) and
  264.         the product inhibitor (lactate) studied in these measurements,
  265.         the rate law for the pathway of equation (5) is:
  266.  
  267.  
  268.  
  269.  
  270.  
  271.  
  272.                                         4
  273.  
  274.  
  275.  
  276.  
  277.  
  278.  
  279.  
  280.  
  281.  
  282.              vo  =  V / [ 1  +  KmQ/KmPQ * p  +  KmA/a       eq. 7
  283.  
  284.                        +  KmB * (1 + KmQ/KmPQ * p) * (1 + 1/KPInhib * p)
  285.  
  286.                        +  KmAB/(a * b) * (1 + KmQ/KmPQ * p)
  287.  
  288.  
  289.                        +  k3/(k3 + k4) * 1/KBInhib * b ]
  290.  
  291.          The presence in the pathway of equation (5) of the dead end
  292.         complexes EAP and EQB leads to a significantly more complicated
  293.         rate law than is found for the simpler pathway of equation (6);
  294.         compare equation (7) with the following equation, for the "bare"
  295.         compulsory order pathway without dead-end complexes (the pathway
  296.         of equation (6)):
  297.  
  298.              vo  =  V / [ 1  +  KmQ/KmPQ * p  +  KmA/a       eq. 8
  299.  
  300.                        +  KmB * (1 + KmQ/KmPQ * p)
  301.  
  302.                        +  KmAB/(a * b) * (1 + KmQ/KmPQ * p) ]
  303.  
  304.          The computer program used to reduce the kinetic data fits
  305.         equation (7) to measurements of the initial rate v(0) as a
  306.         function of the concentrations of NADH, pyruvate, and lactate.
  307.  
  308.          The parameters that are evaluated in the fitting are listed in
  309.         Table I and are those of equation (7).
  310.  
  311.          Several points should be noted regarding equations (7) and (8):
  312.         (1) The last term of equation (7), containing the equilibrium
  313.         constant KBInhib, probably can be neglected under initial rate
  314.         conditions with q=0; in the fitting program this is recognized by
  315.         setting the last term at a small value, 1E-10, which removes it
  316.         from the equation.  (2) With this change, equations (7) and (8)
  317.         are identical except for the appearance in one term of equation
  318.         (7) of a factor containing the equilibrium constant KPInhib,
  319.         which is for dissociation of the dead-end complex EAP defined in
  320.         the pathway of equation (5).
  321.  
  322.  
  323.  
  324.  
  325.  
  326.  
  327.  
  328.  
  329.  
  330.  
  331.  
  332.  
  333.  
  334.  
  335.  
  336.  
  337.  
  338.  
  339.                                         5
  340.  
  341.  
  342.  
  343.  
  344.  
  345.  
  346.  
  347.  
  348.  
  349.  
  350.         By J.A. Rupley, Tucson, Arizona
  351.  
  352.         REFERENCES:
  353.  
  354.         A simplex method for function minimization.
  355.         J.A. Nelder and R. Mead (1965. Computer J. 7, 308.
  356.  
  357.         Digital computer user's handbook.
  358.         M. Klerer and G.A. Korn (1967). Mcgraw-Hill, New York.
  359.  
  360.         Data analysis in biochemistry and biophysics.
  361.         M.E. Magar (1972). Academic, New York.
  362.  
  363.         The solution of the general least squares problem with special
  364.         reference to high-speed computers.
  365.         R.H. Moore and R.K. Ziegler (1960). Los Alamos Scientific
  366.         Laboratory Report LA-2367.
  367.  
  368.  
  369.  
  370.  
  371.  
  372.  
  373.  
  374.  
  375.  
  376.  
  377.  
  378.  
  379.  
  380.  
  381.  
  382.  
  383.  
  384.  
  385.  
  386.  
  387.  
  388.  
  389.  
  390.  
  391.  
  392.  
  393.  
  394.  
  395.  
  396.  
  397.  
  398.  
  399.  
  400.  
  401.  
  402.  
  403.  
  404.  
  405.  
  406.  
  407.                                         6
  408.  
  409.  
  410.  
  411.  
  412.  
  413.  
  414.  
  415.  
  416.  
  417.         By J.A. Rupley, Tucson, Arizona
  418.  
  419.         TABLE I:
  420.  
  421.                                  EQUATION (7)
  422.         FITTING                  RATE LAW
  423.         PARAMETERS               PARAMETERS
  424.  
  425.         1                        V
  426.  
  427.         2                        KmA  =  KmNADH
  428.  
  429.         3                        KmB  =  KmPyruvate
  430.  
  431.         4                        KmAB =  KmNADH-Pyruvate
  432.  
  433.         5                        KmQ/KmPQ = KmNAD/KmLactate-NAD
  434.  
  435.         6                        1/KPInhib = 1/KInhibLactate
  436.  
  437.         7                        k3/(k3 + k4) * 1/KInhibPyruvate
  438.                                       parm(7) approx. equal to 0 at t=0
  439.  
  440.  
  441.         INDEPENDENT VARIABLES:
  442.  
  443.         a = [NADH]     b = [Pyruvate]    p = [Lactate]    q = [NAD]
  444.                                                           q = 0 at t=0
  445.  
  446.  
  447.         DEPENDENT VARIABLE:
  448.  
  449.         vo = initial rate of conversion of pyruvate to lactate
  450.  
  451.  
  452.  
  453.  
  454.  
  455.  
  456.  
  457.  
  458.  
  459.  
  460.  
  461.  
  462.  
  463.  
  464.  
  465.  
  466.  
  467.  
  468.  
  469.  
  470.  
  471.  
  472.  
  473.  
  474.                                         7
  475.  
  476.  
  477.  
  478.  
  479.  
  480.  
  481.  
  482.  
  483.  
  484.         By J. A. Rupley, Tucson, Arizona
  485.  
  486.         PROCEDURES:
  487.  
  488.         A. SUMMARY OF STEPS IN THE DATA REDUCTION
  489.  
  490.          (1) Startup. Create a new file with your data, following the
  491.         template of the DATA SHEET. Setup the title and the starting
  492.         ranges of the parameters, from which the starting simplex is
  493.         constructed. Be sure to save the setup on disk.
  494.  
  495.          (2) Minimization. The minimum of the least squares function is
  496.         located by an iterative method, in which the simplex, a
  497.         polyhedron in parameter space, is shrunk about the point
  498.         representing the minimum. The starting simplex is large,
  499.         sufficiently so to certainly include the minimum point. After
  500.         shrinking, all the vertices of the simplex are so close together,
  501.         and thus so close to the minimum point, that the average of the
  502.         vertices, the centroid, is a good estimate of the minimum point.
  503.         The minimization can take more than two hours. These results
  504.         should be saved on a disk file, so if the fitting fails, it is
  505.         possible to quickly return to this point.
  506.  
  507.          (3) Quadratic fit and standard deviations. The least squares
  508.         function about the minimum is approximated by a quadratic
  509.         surface, the shape of which gives estimates of the standard
  510.         deviations of the parameters. This step takes about 10 minutes.
  511.  
  512.         There is considerable output, the last of which is a list of the
  513.         standard deviations.
  514.  
  515.          The fitting program can be set to cycle between a set of
  516.         minimization iterations and the quadratic approximation. This
  517.         option can produce quicker convergence.
  518.  
  519.  
  520.         B. FAILURE OF THE FITTING
  521.  
  522.          Fitting can lead to physically unreasonable values of the
  523.         parameters, for example for a kinetics experiment a set of
  524.         parameters for which V is unreasonably large or small, or a set
  525.         with standard deviations such that one or more of the principal
  526.         parameters (V, KmA, KmB, KmAB) have no significance.
  527.  
  528.          The best fit may be unacceptable. To judge whether a fit is
  529.         acceptable, compare the root mean square error (RMS error) with
  530.         the expected uncertainty in your independent variable, the meas-
  531.         ured rates.
  532.  
  533.          The most likely causes of failure are:
  534.  
  535.          (1) A few data points (flyers) that are widely wrong. The
  536.         results should always be examined for flyers, which we will
  537.         somewhat arbitrarily define as measured values differing from
  538.         calculated values by more than 3 standard deviations: ABS(Ymodel
  539.  
  540.  
  541.                                         8
  542.  
  543.  
  544.  
  545.  
  546.  
  547.  
  548.  
  549.  
  550.  
  551.         - Yobserved) > 3 x RMS ERROR. If there are flyers, delete them
  552.         and repeat the calculation, or correct the values by
  553.         recalculation of vo from your experimental data.
  554.  
  555.          (2) Trapping of the fit in a local minimum in parameter space
  556.         not near the true minimum, or a broad and ill-defined minimum
  557.         region. To test for trapping or a broad minimum, start the
  558.         fitting with a different simplex. For example, set tighter
  559.         starting ranges on one or more of the principal parameters (V,
  560.         KmA, KmB, KmAB). Alternatively, set one principal parameter, e.g.
  561.         V, at a reasonable value.
  562.  
  563.          Generally, to test for trapping, one repeats the fitting with a
  564.         more expanded starting simplex, not with a tighter one as
  565.         suggested above. However, assuming the tighter ranges include
  566.         physically reasonable values of the parameters, the approach
  567.  
  568.         above, using a restricted simplex, has the advantage of testing
  569.         whether a set of physically reasonable values can give an
  570.         acceptable fit of the data. To judge whether a fit is acceptable,
  571.         even though it may not be as good as a physically unreasonable
  572.         best fit, compare the root mean square error (RMS error) with the
  573.         expected uncertainty in your dependent variable, the measured
  574.         rates.
  575.  
  576.          (3) Systematic error in the measurements or poor data. Look for
  577.         systematic bias in the extraction of the slope. Look for errors
  578.         in calculating the value of vo.
  579.  
  580.          One can plot the measured values with the calculated lines, ie
  581.         construct the reciprocal plots. It should then be clear what the
  582.         problem is. Correction, if it is possible, generally requires
  583.         examination of the original measurements, ie the tracings of
  584.         transmittance versus time. A point to be made is that the
  585.         computer fitting, because it is unbiased, is more likely than the
  586.         experimenter to detect systematic error or poor data.
  587.  
  588.  
  589.  
  590.  
  591.  
  592.  
  593.  
  594.  
  595.  
  596.  
  597.  
  598.  
  599.  
  600.  
  601.  
  602.  
  603.  
  604.  
  605.  
  606.  
  607.  
  608.                                         9
  609.  
  610.  
  611.  
  612.  
  613.  
  614.  
  615.  
  616.  
  617.  
  618.         By J. A. Rupley, Tucson, Arizona
  619.  
  620.  
  621.         INSTRUCTIONS FOR FITTING KINETIC DATA FOR LACTATE DEHYDROGENASE
  622.         WITH THE PROGRAM LDHFIT.COM (C-LANGUAGE):
  623.  
  624.  
  625.  
  626.         A. CREATE THE DATA FILE
  627.  
  628.          By use of a word processing program, modify the template file
  629.         LDHDATA, incorporating your vo values and so constructing your
  630.         own data file, eg TUE-C.DAT.
  631.  
  632.  
  633.         B. RUN THE FITTING PROGRAM
  634.  
  635.          Run the program LDHFIT with your data file (eg TUE-C.DAT) to
  636.         produce the results file (eg TUE-C.PRT)
  637.  
  638.          A>LDHFIT TUE-C.DAT TUE-C.PRT
  639.  
  640.          It takes about 50 minutes for 100 iterations. 200 to 400
  641.         iterations are commonly required for convergence. The fitting
  642.         will cycle between sessions of Nelder-Mead minimization (30
  643.         iterations) and quadratic fitting.
  644.  
  645.          You should watch the fitting. Let the program run freely until
  646.         the test value is < 10-4. Then:  (1) See if a parameter needs to
  647.         be eliminated. If the calculation of -pmin- fails at this stage
  648.         in the fitting, probably the fitting will not converge. If one of
  649.         the parameter values listed under -pmin- in the summary of the
  650.         quadratic fit results is negative, then this parameter should be
  651.         fixed at 1.e-10. This can be done by use of a program option (see
  652.         below).  (2) Examine the data listing for flyers: (Yobserved(i) -
  653.         Ycalculated(i)) > 3 * rms error. If these are present, you should
  654.         delete them from the data set, or set their weight to zero. This
  655.         is done by reworking the data file, with a word processor, then
  656.         rerunning LDHFIT. You will get faster convergence by setting the
  657.         starting simplex in the data file at an intermediate point in the
  658.         fitting.
  659.  
  660.          To exercise options, during the minimization type:  CTRL-X
  661.  
  662.          After some output, you will be asked to select an option:
  663.              display of the data and then quadratic fit (<CR>)
  664.              fix of a parameter (CTRL-F)
  665.              exit from the program to operating system (CTRL-C)
  666.              return to the fitting (CTRL-X)
  667.  
  668.  
  669.  
  670.  
  671.  
  672.  
  673.  
  674.  
  675.                                         10
  676.  
  677.  
  678.  
  679.  
  680.  
  681.  
  682.  
  683.  
  684.  
  685.  
  686.         B. AFTER THE FITTING CONVERGES
  687.  
  688.          When the simplex has shrunk to where it satisfies the exit test,
  689.         the minimization pauses and expects input from the operator:
  690.  
  691.              respond with <RETURN> when asked if you want to  display data;
  692.  
  693.              respond with <RETURN> when asked at the next pause if you
  694.         want to carry out quadratic fit;
  695.  
  696.              at the next pause, record the number of the iteration, and
  697.         exit by typing CTRL-C;
  698.  
  699.  
  700.         D. CONDENSE THE RESULTS FILE
  701.  
  702.          The results file (eg TUE-C.PRT) will be too long to print.
  703.         Select the information from the last data display and quadratic
  704.         fitting by use of a word processor or a special search program.
  705.  
  706.  
  707.         E. FAILURE OF THE FIT
  708.  
  709.          Repeat the fit after checking your data and possibly resetting
  710.         the starting parameter values.
  711.  
  712.  
  713.  
  714.  
  715.  
  716.  
  717.  
  718.  
  719.  
  720.  
  721.  
  722.  
  723.  
  724.  
  725.  
  726.  
  727.  
  728.  
  729.  
  730.  
  731.  
  732.  
  733.  
  734.  
  735.  
  736.  
  737.  
  738.  
  739.  
  740.  
  741.  
  742.  
  743.                                         11
  744.  
  745.  
  746.  
  747.