source: trunk/lib/Stats.cc @ 1004

Last change on this file since 1004 was 1004, checked in by Peter Johansson, 12 years ago

minor speed-up

  • Property svn:eol-style set to native
  • Property svn:keywords set to Id
File size: 13.5 KB
Line 
1// $Id: Stats.cc 1004 2010-01-02 16:22:43Z peter $
2
3/*
4  Copyright (C) 2005 Peter Johansson
5  Copyright (C) 2006, 2007, 2008, 2009 Jari Häkkinen, Peter Johansson
6  Copyright (C) 2010 Peter Johansson
7
8  This file is part of svndigest, http://dev.thep.lu.se/svndigest
9
10  svndigest is free software; you can redistribute it and/or modify it
11  under the terms of the GNU General Public License as published by
12  the Free Software Foundation; either version 3 of the License, or
13  (at your option) any later version.
14
15  svndigest is distributed in the hope that it will be useful, but
16  WITHOUT ANY WARRANTY; without even the implied warranty of
17  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
18  General Public License for more details.
19
20  You should have received a copy of the GNU General Public License
21  along with svndigest. If not, see <http://www.gnu.org/licenses/>.
22*/
23
24#include "Stats.h"
25
26#include "Colors.h"
27#include "Functor.h"
28#include "Graph.h"
29#include "SVNblame.h"
30#include "SVNinfo.h"
31#include "utility.h"
32
33#include <algorithm>
34#include <cassert>
35#include <cstdlib>
36#include <fstream>
37#include <iostream>
38#include <iterator>
39#include <map>
40#include <numeric>
41#include <string>
42#include <sstream>
43#include <unistd.h>
44#include <utility>
45#include <vector>
46
47
48namespace theplu{
49namespace svndigest{
50
51
52  Stats::Stats(const std::string& path)
53    : stats_(std::vector<Author2Vector>(LineTypeParser::total+1))
54  {
55    // Make sure latest revision is set properly
56    SVNinfo svn_info(path);
57    revision_=svn_info.rev();
58    last_changed_rev_=svn_info.last_changed_rev();
59    reset();
60  }
61
62
63  Stats::~Stats(void)
64  {
65  }
66
67
68  void Stats::accumulate(std::vector<unsigned int>& vec,
69                         svn_revnum_t rev) const
70  {
71    assert(rev>0);
72    if (vec.empty()){
73      // just to allow call to vec.back() below
74      vec.resize(1,0);
75    }
76    else if (vec.begin()+rev-1 < vec.end())
77      std::partial_sum(vec.begin()+rev-1,vec.end(),vec.begin()+rev-1);
78    // static_cast to remove annoying compiler warning
79    if (vec.size() < static_cast<size_t>(revision()+1))
80      vec.resize(revision()+1, vec.back());
81  }
82
83
84  void Stats::accumulate_stats(svn_revnum_t rev)
85  {
86    if (!rev)
87      rev = 1;
88    for (std::set<std::string>::const_iterator iter(authors().begin());
89         iter!=authors().end(); ++iter) {
90      std::vector<unsigned int>& code = code_stats()[*iter];
91      accumulate(code, rev);
92      std::vector<unsigned int>& comments = comment_stats()[*iter];
93      accumulate(comments, rev);
94      std::vector<unsigned int>& other = other_stats()[*iter];
95      accumulate(other, rev);
96      std::vector<unsigned int>& copyright = copyright_stats()[*iter];
97      accumulate(copyright, rev);
98    }
99  }
100
101
102  void Stats::add(const std::string& user, const unsigned int& rev, 
103                  const LineTypeParser::line_type& lt, unsigned int n)
104  {
105    assert(user.size());
106    add_author(user);
107
108    add(code_stats()[user], rev, lt==LineTypeParser::code, n);
109    add(comment_stats()[user], rev, lt==LineTypeParser::comment, n);
110    add(other_stats()[user], rev, lt==LineTypeParser::other, n);
111    add(copyright_stats()[user], rev, lt==LineTypeParser::copyright, n);
112  }
113
114
115  void Stats::add(std::vector<unsigned int>& vec, unsigned int rev, bool x,
116                  unsigned int n)
117  { 
118    if (vec.size() < rev+1){
119      vec.reserve(rev+1);
120      vec.resize(rev);
121      assert(vec.size()+1<vec.max_size());
122      if (x) {
123        vec.push_back(n);
124      }
125      else {
126        vec.push_back(0);
127      }
128    }
129    else if (x)
130      vec[rev]+=n;
131  }
132
133
134  void Stats::add_author(std::string name)
135  {
136    authors_.insert(name);
137  }
138
139
140  void Stats::add_authors(std::set<std::string>::const_iterator first, 
141                          std::set<std::string>::const_iterator last)
142  {
143    authors_.insert(first, last);
144  }
145
146
147  const std::set<std::string>& Stats::authors(void) const
148  {
149    return authors_;
150  }
151
152
153  void Stats::calc_all(void)
154  {
155    std::vector<unsigned int> init(revision()+1);
156    for (int lt=0; lt <= 4; ++lt) {
157      stats_[lt]["all"].clear();
158      stats_[lt]["all"] =
159        std::accumulate(stats_[lt].begin(), 
160                        stats_[lt].end(), init,
161                        PairValuePlus<std::string,unsigned int>());
162    }
163    VectorPlus<unsigned int> vp;
164    comment_or_copy_stats()["all"] = 
165      vp(comment_stats()["all"], copyright_stats()["all"]);
166
167    total_stats()["all"] = 
168      vp(vp(code_stats()["all"], comment_or_copy_stats()["all"]), 
169         other_stats()["all"]);
170  }
171
172
173  void Stats::calc_total(void)
174  {
175    for (std::set<std::string>::const_iterator iter(authors().begin());
176         iter!=authors().end(); ++iter) {
177      std::vector<unsigned int>& code = code_stats()[*iter];
178      std::vector<unsigned int>& comments = comment_stats()[*iter];
179      std::vector<unsigned int>& other = other_stats()[*iter];
180      std::vector<unsigned int>& copy = copyright_stats()[*iter];
181
182      VectorPlus<unsigned int> vp;
183      total_stats()[*iter] = vp(vp(vp(code, comments),other),copy);
184    }
185
186  }
187
188
189  void Stats::calc_comment_or_copy(void)
190  {
191    for (std::set<std::string>::const_iterator iter(authors().begin());
192         iter!=authors().end(); ++iter) {
193      std::vector<unsigned int>& comments = comment_stats()[*iter];
194      std::vector<unsigned int>& copy = copyright_stats()[*iter];
195
196      VectorPlus<unsigned int> vp;
197      comment_or_copy_stats()[*iter] = vp(comments, copy);
198    }
199
200  }
201
202
203  unsigned int Stats::code(const std::string& user) const
204  {
205    return get_back(code_stats(), user);
206  }
207
208
209  unsigned int Stats::comments(const std::string& user) const
210  {
211    return get_back(comment_or_copy_stats(), user);
212  }
213
214
215  unsigned int Stats::empty(const std::string& user) const
216  {
217    return get_back(other_stats(), user);
218  }
219
220
221  unsigned int Stats::get_back(const Author2Vector& m, std::string user) const
222  {
223    A2VConstIter iter(m.find(std::string(user)));
224    if (iter==m.end() || iter->second.empty()) 
225      return 0;
226    return iter->second.back();
227  }
228
229
230  const std::vector<unsigned int>& Stats::get_vector(const Author2Vector& m, 
231                                              std::string user) const
232  {
233    A2VConstIter iter(m.find(std::string(user)));
234    if (iter==m.end()) 
235      throw std::runtime_error(user+std::string(" not found i Stats"));
236    return iter->second;
237  }
238
239
240  svn_revnum_t Stats::last_changed_rev(void) const
241  {
242    return last_changed_rev_;
243  }
244
245
246  unsigned int Stats::lines(const std::string& user) const
247  {
248    return get_back(total_stats(), user);
249  }
250
251
252  void Stats::load(std::istream& is, Author2Vector& m)
253  {
254    while (m.size() < authors().size()+1 && is.good()) {
255      std::string name;
256      std::getline(is, name);
257      std::vector<unsigned int>& vec=m[name];
258      std::string line;
259      std::getline(is, line);
260      std::stringstream ss(line);
261      while (ss.good()) {
262        svn_revnum_t rev=0;
263        unsigned int count=0;
264        ss >> rev;
265        ss >> count;
266        assert(rev<=revision_);
267        if (!count)
268          break;
269        vec.resize(std::max(vec.size(),static_cast<size_t>(rev+1)));
270        vec[rev]=count;
271      }
272      accumulate(vec);
273    }
274  }
275
276
277  svn_revnum_t Stats::load_cache(std::istream& is)
278  {
279    std::string str;
280    getline(is, str);
281    if (str!=cache_check_str()) {
282      if (str == prev_cache_check_str())
283        std::cout << "cache file is obsolete; "
284                  << "retrieving statistics from repository.\n";
285      return 0;
286    }
287    svn_revnum_t rev;
288    is >> rev;
289    reset();
290    size_t a_size=0;
291    is >> a_size;
292    while (authors().size()<a_size && is.good()){
293      getline(is, str);
294      if (str.size())
295        add_author(str);
296    }
297    getline(is, str);
298    if (str!=cache_check_str()) {
299      return 0;
300    }
301    for (size_t i=0; i<stats_.size(); ++i){
302      load(is, stats_[i]);
303      getline(is, str);
304      if (str!=cache_check_str()) {
305        return 0;
306      }
307    }
308    return rev;
309  }
310
311
312  void Stats::map_add(A2VConstIter first1, A2VConstIter last1, 
313                      Author2Vector& map)
314  {
315    A2VIter first2(map.begin());
316    Author2Vector::key_compare compare;
317    while ( first1 != last1) { 
318      // key of first1 less than key of first2
319      if (first2==map.end() || compare(first1->first,first2->first)) {
320        first2 = map.insert(first2, *first1);
321        ++first1;
322      }
323      // key of first2 less than key of first1
324      else if ( compare(first2->first, first1->first)) {
325        ++first2;
326      }
327      // keys are equivalent
328      else {
329        VectorPlus<Author2Vector::mapped_type::value_type> vp;
330        first2->second = vp(first1->second, first2->second);
331        ++first1;
332        ++first2;
333      }
334    }
335  }
336
337
338  unsigned int Stats::max_element(const std::vector<unsigned int>& vec) const
339  {
340    return *std::max_element(vec.begin(), vec.end());
341  }
342
343
344  void Stats::parse(const std::string& path, svn_revnum_t rev)
345  {
346    // reset stats to zero for [rev, inf)
347    for (size_t i=0; i<stats_.size(); ++i)
348      for (A2VIter iter=stats_[i].begin(); iter!=stats_[i].end(); ++iter) {
349        iter->second.resize(rev,0);
350        iter->second.resize(revision(),0);
351      }
352    do_parse(path, rev);
353    calc_comment_or_copy();
354    calc_total();
355    calc_all();
356    assert(total_stats().size());
357    assert(code_stats().size());
358    assert(comment_or_copy_stats().size());
359    assert(other_stats().size());
360  }
361
362  std::string Stats::plot(const std::string& filename,
363                          const std::string& linetype) const
364  {
365    assert(total_stats().size());
366    Graph gp(filename);
367    const Author2Vector* stat=NULL;
368    if (linetype=="total")
369      stat = &total_stats();
370    else if (linetype=="code")
371      stat = &code_stats();
372    else if (linetype=="comments")
373      stat = &comment_or_copy_stats();
374    else if (linetype=="empty")
375      stat = &other_stats();
376    assert(stat);
377    assert(stat->size());
378    assert(stat->find("all")!=stat->end());
379    std::vector<unsigned int> total=get_vector(*stat, "all");   
380    double yrange_max=1.03 * max_element(total) +1.0;
381    gp.ymax(yrange_max);
382
383    typedef std::vector<std::pair<std::string, std::vector<unsigned int> > > vec_type;
384    vec_type author_cont;
385    author_cont.reserve(stat->size());
386    for (std::set<std::string>::const_iterator i=authors_.begin(); 
387         i != authors_.end(); ++i) {
388      assert(stat->find(*i)!=stat->end());
389      const std::vector<unsigned int>& vec = get_vector(*stat,*i);
390      if (max_element(vec)) {
391        author_cont.push_back(std::make_pair(*i,vec));
392      }
393    }
394
395    LessReversed<std::vector<unsigned int> > lr;
396    PairSecondCompare<std::string, std::vector<unsigned int>, 
397      LessReversed<std::vector<unsigned int> > > compare(lr);
398    std::sort(author_cont.begin(), author_cont.end(), compare);
399
400    vec_type::iterator end(author_cont.end());
401    vec_type::iterator i(author_cont.begin());
402    const vec_type::size_type maxauthors=8;
403    int authskip=author_cont.size()-maxauthors;
404    if (authskip>1) {
405      // only use others if there is more than 1 author to be skipped,
406      // there is no reason to add only 1 author to others.
407      vec_type::iterator j(i);
408      i+=authskip;
409      std::vector<unsigned int> init(revision()+1);
410      std::vector<unsigned int> others =
411        std::accumulate(j, i, init, PairValuePlus<std::string,unsigned int>());
412      unsigned char r, g, b;
413      std::string label("others");
414      Colors::instance().get_color(label, r,g,b);
415      gp.current_color(r,g,b);
416      gp.plot(others, label, others.back());
417    }
418    for ( ; i!=end; ++i) {
419      unsigned char r, g, b;
420      Colors::instance().get_color(i->first,r,g,b);
421      gp.current_color(r,g,b);
422      gp.plot(i->second, i->first, get_back(*stat, i->first));
423    }
424    gp.current_color(255,0,0);
425    gp.plot(total, "total", get_back(*stat, "all"));
426
427    return filename;
428  }
429
430
431  void Stats::plot_summary(const std::string& filename) const
432  {
433    Graph gp(filename);
434    std::vector<unsigned int> total = get_vector(total_stats(), "all");
435    double yrange_max=1.03*total.back()+1;
436    gp.ymax(yrange_max);
437   
438    std::vector<unsigned int> x(get_vector(code_stats(), "all"));
439    gp.current_color(255,255,0);
440    gp.plot(x, "code", x.back());
441
442    x = get_vector(comment_or_copy_stats(), "all");
443    gp.current_color(0,0,255);
444    gp.plot(x, "comment", x.back());
445
446    x = get_vector(other_stats(), "all");
447    gp.current_color(0,255,0);
448    gp.plot(x, "other", x.back());
449
450    gp.current_color(255,0,0);
451    gp.plot(total, "total", total.back());
452  }
453
454
455  void Stats::print(std::ostream& os) const
456  {
457    os << cache_check_str() << "\n";
458    os << last_changed_rev() << " ";
459    os << authors().size() << "\n";
460
461    std::copy(authors().begin(), authors().end(), 
462              std::ostream_iterator<std::string>(os, "\n"));
463    os << cache_check_str() << "\n";
464    for (size_t i=0; i<stats_.size(); ++i){
465      print(os, stats_[i]);
466      os << cache_check_str() << "\n";
467    }
468  }
469
470
471  void Stats::print(std::ostream& os, const Author2Vector& m) const
472  {
473    for (A2VConstIter i(m.begin()); i!=m.end(); ++i){
474      os << i->first << "\n";
475      assert(i->second.size());
476      if (i->second[0])
477        os << 0 << " " << i->second[0] << " ";
478      for (size_t j=1; j<i->second.size(); ++j) {
479        // only print if stats changes in this rev
480        if (i->second[j] != i->second[j-1]) {
481          os << j << " " << i->second[j] - i->second[j-1] << " ";
482        }
483      }
484      os << "\n";
485    }
486  }
487
488  void Stats::reset(void)
489  {
490    for (size_t i=0; i<stats_.size(); ++i){
491      stats_[i].clear();
492      std::vector<unsigned int>& tmp = stats_[i]["all"];
493      std::fill(tmp.begin(), tmp.end(), 0);
494      tmp.resize(revision_+1);
495    }
496    authors_.clear();
497  }
498
499
500  Stats& Stats::operator+=(const Stats& rhs)
501  {
502    revision_ = std::max(revision_, rhs.revision_);
503    last_changed_rev_ = std::max(last_changed_rev_, rhs.last_changed_rev_);
504    add_authors(rhs.authors().begin(), rhs.authors().end());
505    assert(stats_.size()==rhs.stats_.size());
506    for (size_t i=0; i<stats_.size(); ++i)
507      map_add(rhs.stats_[i].begin(), rhs.stats_[i].end(), stats_[i]);
508   
509    return *this;
510  }
511
512 
513  size_t Stats::operator()(int linetype, std::string author, 
514                           svn_revnum_t rev) const
515  {
516    assert(linetype<=LineTypeParser::total);
517    assert(static_cast<size_t>(linetype) < stats_.size());
518    assert(rev>=0);
519    A2VConstIter i = stats_[linetype].find(author);
520    if (i==stats_[linetype].end()){
521      std::stringstream msg;
522      msg << __FILE__ << ": author: " << author << " does not exist"; 
523      throw std::runtime_error(msg.str());
524    }
525    assert(rev < static_cast<svn_revnum_t>(i->second.size()));
526    return i->second[rev];
527  }
528
529}} // end of namespace svndigest and namespace theplu
Note: See TracBrowser for help on using the repository browser.