home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / sci / lang / japan / 5194 < prev    next >
Encoding:
Text File  |  1993-01-26  |  8.6 KB  |  167 lines

  1. Newsgroups: sci.lang.japan
  2. Path: sparky!uunet!cs.utexas.edu!usc!howland.reston.ans.net!bogus.sura.net!udel!gatech!swrinde!emory!sol.ctr.columbia.edu!The-Star.honeywell.com!umn.edu!i9!molenda
  3. From: molenda@i9.msi.umn.edu (Jason Molenda)
  4. Subject: Re: ``Kanji Education'' paper available by anonymous-ftp
  5. Message-ID: <C1G51H.8nG@news2.cis.umn.edu>
  6. Sender: news@news2.cis.umn.edu (Usenet News Administration)
  7. Nntp-Posting-Host: i9.msi.umn.edu
  8. Organization: University of Minnesota
  9. References: <C131II.2Cq@news2.cis.umn.edu> <C14FDI.8F0@news2.cis.umn.edu> <HUTTAR.93Jan21185653@hp750.itg.ti.com>
  10. Date: Tue, 26 Jan 1993 05:39:16 GMT
  11. Lines: 154
  12.  
  13. huttar@hp750.itg.ti.com (Lars Huttar) writes:
  14.  
  15. >        As you said, the kind of writing done on Usenet is an "unusual
  16. >mix of spoken and written Japanese."  As such, it may not well
  17. >represent the mainstream of written Japanese.  It may be
  18. >representative of the kind of writing in manga, but not in newspapers.
  19. >(I don't know -- I'm just raising the question.)  I think we need to
  20. >address what reading level, or style of document, the student is
  21. >aiming at being able to read.  Then we can ask, how much study does
  22. >one need to be able to read 95% of a newspaper?  a comic?  a novel?
  23.  
  24. Unfortunately, (as you guess later in the message), usenet was the only
  25. available on-line source of Japanese that I know of.  In all honesty, I
  26. did this paper for fun originally and it just happened that I wanted to
  27. graduate so I used it as my senior project.  If I had had time to stay
  28. at the University I had a much more interesting project I wanted to
  29. do.  Anyway, since I did it for fun I wasn't about to go through the
  30. pain and agony of typing in any other sources of Japanese.  A book
  31. would be great but I'd probably spend a zillion years typing it all
  32. in.
  33.  
  34. As I mention in the paper, there was one study about the frequency of
  35. kanji in newspapers back in the early seventies which found similar
  36. overall numbers.  I do not have the kanji list they came up with,
  37. though, so I'm unable to compare these two lists.  I'll be living in
  38. Japan in about two weeks, so maybe I'll have a chance to contact the
  39. National Language Research Inst (?) and find that paper.  (I think the
  40. full paper is like 90 pages so it probably includes a list of the
  41. kanji found)
  42.  
  43. >This leads to another question: how efficient are the various written
  44. >media in terms of reinforcing common kanji, boosting confidence,
  45. >learning new kanji, learning spoken idioms, etc.?  These criteria are
  46. >somewhat at odds.
  47.  
  48. Empirically, you will see the same kanji and jukugo used over and over
  49. if you stick to a particular domain.  Headline news will use `oil' and
  50. `economy' many, many times.  `zebra' (or whatever) is not going to
  51. occur nearly as often.
  52.  
  53. Although I didn't include this in the paper, I found that when I
  54. restricted the scan to a particular sub-group (e.g. fj.bikes), the
  55. graph had the same basic curve but the 95th percentile fell to around
  56. 700 or so kanji with a total of maybe 1300 unique kanji (this is from
  57. memory, I can dig up/regenerate the data if you're interested).
  58.  
  59. >        To facilitate research on these questions, are there other
  60. >electronic sources of Japanese text, which are more representative of
  61. >the mainstream, or at least biased differently?
  62.  
  63. I think the newspaper study is the best I can cite.  Someone sent me a
  64. mail message (I've been deluged recently, sorry I can't find it right
  65. now!) which noted a similar results in Beginning Technical Japanese for
  66. a physics text.  I think I have a copy of BTJ around here somewhere if
  67. someone would like me to look that up.
  68.  
  69. >        Looking at the appendix where the kanji [3396 unique kanji
  70. >found in a Usenet sample] are listed, I notice that the first two are 
  71. >$BBg(B (`dai', big) and $B3X(B (`gaku', school).  
  72.  [...]
  73. >boosted in these samples by the many names of universities and
  74. >commercial research institutions in the writers' addresses.  So again
  75. >we have to ask how accurate these orderings are...  
  76.  
  77. to be truthful, I found dai and gaku being the first two pretty
  78. suspicious myself.  I'm thinking about trying to toss .signatures
  79. before doing the analysis.  It would still get all those "konnichi ha,
  80. matsumoto@wherever-daigaku desu" at the beginning of messages but
  81. shikata ga nai desho^.
  82.  
  83. >        To get some indication of the precision of the samples, I
  84. >would like to compare the kanji-frequency orders gained from the two
  85. >samples taken 6 months apart.
  86.  
  87. pretty easy to do.  I did that, in fact.  I think I noted that in my
  88. paper but I might have edited it out.
  89.  
  90. In fact, after I did my last scan (late November), I changed my news
  91. configuration and now I have about 100 days of fj news instead of 50
  92. (as I used to have).  If you'd be interested in seeing the output of
  93. another run, I'd be happy to re-run it (although I think most of
  94. November would still be on disk) and send you the output.  It's really
  95. rather painless to run and takes maybe 30-40 minutes to process the
  96. ~125MB of fj I have around.
  97.  
  98. >                               Do any kanji vary widely as to their
  99. >place in the list?  (I suppose a statistician could come up with a
  100. >nice metric on this.)  What if a student learned the first 1000
  101. >characters in sample 1, and tried to read sample 2 -- what percentage
  102. >would be readable?
  103.  
  104. This is an interesting idea.  I'm not sure about how I would go
  105. computing this.  Maybe add up the absolute value of number of places
  106. each character moved and divide it by the total number of characters.
  107. After I get to Japan I'll have to find time to try this.  (anyone
  108. have a better idea?  this is just off the top of my head).
  109.  
  110. the idea is that the really frequent characters will be pretty static
  111. in their location.  As you get farther down the frequency list, the
  112. probability (I would think) of a character moving is higher.  All
  113. bets are off for the 1,000 (?) or so that occur only once.
  114.  
  115. >lists with ones already published.  The only one I know of off-hand is
  116. >the one of the Joyo kanji in the back of Halpern's Shin-kanei-jiten.
  117. >You probably know of others.  These lists are probably based on more
  118.  
  119. Hm.  I hadn't seen anything like this.  Please don't assume I know any
  120. great deal about this -- I really only did it for fun.  I have never
  121. used Halpern's kanei-jiten.  I didn't know it had any frequency stuff
  122. in there.
  123.  
  124. I really think -- for the individual studying japanese -- more
  125. important than focusing on any one particular list (as it is easy and
  126. presuasive to do), it is important to realize the underlying theme:  In
  127. each study I've seen, whether it's an unrestricted domain analysis of
  128. fj, restricted to just fj.bikes (or any one particular newsgroup), or
  129. newspaper stuff or even a physics book, all kanji lists showed the same
  130. characteristics (which most of our teachers have been harping on all
  131. along :-):  Pick something of interest and focus on it.  There may be
  132. 1,945 characters and a few thousand others that will turn up in
  133. literature, but you won't need more than 700 or so to read a motorcycle
  134. magazine.  For me, at least, that is enough.
  135.  
  136. For non-individuals, I think the most important thing, more important
  137. any silly frequency lists, is to maintain some type of consistency in
  138. whatever list is picked over a multi-year program.  This was lacking
  139. at the University of Minnesota (although there will be some pretty
  140. major changes here as of next year).  It takes more than a raw list
  141. of kanji to teach students; a teacher needs some kind of comprehensive
  142. program with sample texts, characters that will build into easily
  143. taught jukugo, etc.  I am not an educator and know nothing about this.
  144.  
  145. >                                  Initially, however, I think it's
  146. >important to learn to write some kanji well, and to write a lot of
  147. >kanji at least once, so that the student can learn kanji elements, and
  148. >thus be able to recognize them, and look them up, even when they don't
  149. >appear in the neatest book font.
  150.  
  151. I agree.  I think there is an important base of maybe 200-400, but
  152. after that maybe it isn't so important to remember that in `tsukau' (to
  153. use), on the right side the vertical line starts above the top
  154. horizontal line but in BENRI no BEN (nelson #451), it starts exactly on
  155. the horizontal line.  (yes, I was marked off a point for this in
  156. first year Japanese and it always pissed me off. :)
  157.  
  158. I should state a caveat:  I'm just another student of Japanese who
  159. happens to also be a computer nerd.  I have no experience as an
  160. educator and have only been studying Japanese for a little over three
  161. years.  Although the numbers I have in my paper are pretty factual,
  162. please take the discussion and recommendations and such with a grain of
  163. salt.
  164. -- 
  165. Jason Molenda, University of Minnesota, Supercomputer Inst., Technical Support
  166. SGI Iris Admin        molenda@jason.msi.umn.edu       DoD #1867     '77 CB750F
  167.