source: trunk/lib/Stats.cc @ 1290

Last change on this file since 1290 was 1290, checked in by Peter Johansson, 11 years ago

closes #457. Lifting out plotting functions in Stats into a new class
StatsPlotter?. In same manner lifting out print functions from
Node/Directory/File? into a new hierarchy
NodePrinter/DirectoryPrinter/FilePrinter?. To accomplish these splits
without to much recoding some friendships are introduced. These new
classes are only needed for svndigest (not svncopyright) and are
therefore placed in a library named libsvndigest together with Graph
class and first_page functions. Remaining functionality, shared
between svncopyright and svndigest, are located in libsvndigest_core
and linked into both binaries.

  • Property svn:eol-style set to native
  • Property svn:keywords set to Id
File size: 12.6 KB
Line 
1// $Id: Stats.cc 1290 2010-11-12 04:01:35Z peter $
2
3/*
4  Copyright (C) 2005 Peter Johansson
5  Copyright (C) 2006, 2007, 2008, 2009 Jari Häkkinen, Peter Johansson
6  Copyright (C) 2010 Peter Johansson
7
8  This file is part of svndigest, http://dev.thep.lu.se/svndigest
9
10  svndigest is free software; you can redistribute it and/or modify it
11  under the terms of the GNU General Public License as published by
12  the Free Software Foundation; either version 3 of the License, or
13  (at your option) any later version.
14
15  svndigest is distributed in the hope that it will be useful, but
16  WITHOUT ANY WARRANTY; without even the implied warranty of
17  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
18  General Public License for more details.
19
20  You should have received a copy of the GNU General Public License
21  along with svndigest. If not, see <http://www.gnu.org/licenses/>.
22*/
23
24#include "Stats.h"
25
26#include "Colors.h"
27#include "Configuration.h"
28#include "Functor.h"
29#include "SVNblame.h"
30#include "SVNinfo.h"
31#include "utility.h"
32
33#include <algorithm>
34#include <cassert>
35#include <cstdlib>
36#include <fstream>
37#include <iostream>
38#include <iterator>
39#include <map>
40#include <numeric>
41#include <string>
42#include <sstream>
43#include <unistd.h>
44#include <utility>
45#include <vector>
46
47namespace theplu{
48namespace svndigest{
49
50
51  Stats::Stats(const std::string& path)
52    : stats_(std::vector<Author2Vector>(LineTypeParser::total+1))
53  {
54    // Make sure latest revision is set properly
55    SVNinfo svn_info(path);
56    revision_=svn_info.rev();
57    last_changed_rev_=svn_info.last_changed_rev();
58    reset();
59
60    std::ostringstream ss;
61    if (const std::vector<std::pair<std::string, std::string> >* 
62        codons = Configuration::instance().codon(path)) {
63      using std::string;
64      typedef std::vector<std::pair<string, string> >::const_iterator citerator;
65      for ( citerator codon=codons->begin(); codon!=codons->end(); ++codon) 
66        ss << codon->first << codon->second;
67    }
68    config_code_ = ss.str();
69    // we don't allow newline in codon because we parse the string
70    // with newline and thus want the string to be a one-liner.
71    std::replace(config_code_.begin(), config_code_.end(), '\n', ' ');
72  }
73
74
75  Stats::~Stats(void)
76  {
77  }
78
79 
80  void Stats::add(const std::vector<std::map<std::string, SparseVector> >& data)
81  {
82    // loop over line types
83    for (size_t lt = 0; lt<data.size(); ++lt) {
84      std::map<std::string, SparseVector>::const_iterator iter=data[lt].begin();
85      std::map<std::string, SparseVector>::const_iterator last=data[lt].end();
86      // loop over users
87      for ( ; iter!=last; ++iter) {
88        add_author(iter->first);
89        SumVector tmpvec;
90        accumulate(iter->second, tmpvec);
91        stats_[lt][iter->first] += tmpvec;
92      }
93    }
94  }
95
96
97  /*
98  void Stats::accumulate(std::vector<unsigned int>& vec,
99                         svn_revnum_t rev) const
100  {
101    assert(rev>0);
102    if (vec.empty()){
103      // just to allow call to vec.back() below
104      vec.resize(1,0);
105    }
106    else if (vec.begin()+rev-1 < vec.end())
107      std::partial_sum(vec.begin()+rev-1,vec.end(),vec.begin()+rev-1);
108    // static_cast to remove annoying compiler warning
109    if (vec.size() < static_cast<size_t>(revision()+1))
110      vec.resize(revision()+1, vec.back());
111  }
112  */
113  /*
114  void Stats::accumulate_stats(svn_revnum_t rev)
115  {
116    if (!rev)
117      rev = 1;
118    for (std::set<std::string>::const_iterator iter(authors().begin());
119         iter!=authors().end(); ++iter) {
120      std::vector<unsigned int>& code = code_stats()[*iter];
121      accumulate(code, rev);
122      std::vector<unsigned int>& comments = comment_stats()[*iter];
123      accumulate(comments, rev);
124      std::vector<unsigned int>& other = other_stats()[*iter];
125      accumulate(other, rev);
126      std::vector<unsigned int>& copyright = copyright_stats()[*iter];
127      accumulate(copyright, rev);
128    }
129  }
130  */
131  /*
132  void Stats::add(const std::string& user, svn_revnum_t rev,
133                  LineTypeParser::line_type lt, unsigned int n)
134  {
135    assert(user.size());
136    add_author(user);
137
138    if (lt==LineTypeParser::code)
139      add(code_stats()[user], rev, n);
140    else if (lt==LineTypeParser::comment)
141      add(comment_stats()[user], rev, n);
142    else if (lt==LineTypeParser::other)
143      add(other_stats()[user], rev, n);
144    else if (lt==LineTypeParser::copyright)
145      add(copyright_stats()[user], rev, n);
146  }
147
148  void Stats::add(SumVector& vec, svn_revnum_t rev, unsigned int n)
149  {
150    vec.set(rev, vec[rev] + n);
151  }
152  */
153
154
155  void Stats::add_author(std::string name)
156  {
157    authors_.insert(name);
158  }
159
160
161  void Stats::add_authors(std::set<std::string>::const_iterator first, 
162                          std::set<std::string>::const_iterator last)
163  {
164    authors_.insert(first, last);
165  }
166
167
168  const std::set<std::string>& Stats::authors(void) const
169  {
170    return authors_;
171  }
172
173
174  void Stats::calc_all(void)
175  {
176    for (int lt=0; lt <= 4; ++lt) {
177      stats_[lt]["all"].clear();
178      for (std::map<std::string, SumVector>::iterator i = stats_[lt].begin();
179           i!=stats_[lt].end(); ++i) {
180        stats_[lt]["all"] += i->second;
181      }
182    }
183
184    comment_or_copy_stats()["all"] = comment_stats()["all"];
185    comment_or_copy_stats()["all"] += copyright_stats()["all"];
186
187    total_stats()["all"] = comment_or_copy_stats()["all"];
188    total_stats()["all"] += code_stats()["all"];
189    total_stats()["all"] += other_stats()["all"];
190  }
191
192
193  void Stats::calc_total(void)
194  {
195    for (std::set<std::string>::const_iterator iter(authors().begin());
196         iter!=authors().end(); ++iter) {
197      SumVector& total = total_stats()[*iter];
198      total = code_stats()[*iter];
199      total += comment_stats()[*iter];
200      total += other_stats()[*iter];
201      total += copyright_stats()[*iter];
202    }
203  }
204
205
206  void Stats::calc_comment_or_copy(void)
207  {
208    for (std::set<std::string>::const_iterator iter(authors().begin());
209         iter!=authors().end(); ++iter) {
210      const SumVector& comments = comment_stats()[*iter];
211      const SumVector& copy = copyright_stats()[*iter];
212
213      comment_or_copy_stats()[*iter] = comments;
214      comment_or_copy_stats()[*iter] += copy;
215    }
216
217  }
218
219
220  unsigned int Stats::code(const std::string& user) const
221  {
222    return get_back(code_stats(), user);
223  }
224
225
226  unsigned int Stats::comments(const std::string& user) const
227  {
228    return get_back(comment_or_copy_stats(), user);
229  }
230
231
232  unsigned int Stats::empty(const std::string& user) const
233  {
234    return get_back(other_stats(), user);
235  }
236
237
238  unsigned int Stats::get_back(const Author2Vector& m, std::string user) const
239  {
240    A2VConstIter iter(m.find(std::string(user)));
241    if (iter==m.end() || iter->second.empty()) 
242      return 0;
243    return iter->second.back();
244  }
245
246
247  const SumVector& Stats::get_vector(const Author2Vector& m, 
248                                     const std::string& user) const
249  {
250    A2VConstIter iter(m.find(std::string(user)));
251    if (iter==m.end()) 
252      throw std::runtime_error(user+std::string(" not found i Stats"));
253    return iter->second;
254  }
255
256
257  svn_revnum_t Stats::last_changed_rev(void) const
258  {
259    return last_changed_rev_;
260  }
261
262
263  unsigned int Stats::lines(const std::string& user) const
264  {
265    return get_back(total_stats(), user);
266  }
267
268
269  void Stats::load(std::istream& is, Author2Vector& m)
270  {
271    while (m.size() < authors().size()+1 && is.good()) {
272      std::string name;
273      std::getline(is, name);
274      SparseVector vec;
275      std::string line;
276      std::getline(is, line);
277      std::stringstream ss(line);
278      while (ss.good()) {
279        svn_revnum_t rev=0;
280        unsigned int count=0;
281        ss >> rev;
282        ss >> count;
283        assert(rev<=revision_);
284        if (!count)
285          break;
286        vec.set(rev, count);
287      }
288      SumVector& sumvec = m[name];
289      accumulate(vec, sumvec);
290    }
291  }
292
293
294  svn_revnum_t Stats::load_cache(std::istream& is, bool& latest_ver)
295  {
296    std::string str;
297    getline(is, str);
298    if (str == "CACHE FILE VERSION 8") {
299      latest_ver = true;
300      return load_cache8(is);
301    }
302    latest_ver = false;
303    if (str == "CACHE FILE VERSION 7")
304      return load_cache7(is);
305
306    if (str == "CACHE FILE VERSION 6")
307      std::cout << "cache file is obsolete; "
308                << "retrieving statistics from repository.\n";
309    return 0;
310  }
311
312
313  svn_revnum_t Stats::load_cache8(std::istream& is)
314  {
315    std::string line;
316    getline(is, line);
317    if (line!=config_code_) {
318      std::cout << "cache file is for different configuration.\n"
319                << "config code: '" << config_code_ << "'\n"
320                << "config code in cache file: '" << line << "'\n"
321                << "retrieving statistics from repository.\n";
322      return 0;
323    }
324    return load_cache7(is);
325  }
326
327
328  svn_revnum_t Stats::load_cache7(std::istream& is)
329  {
330    svn_revnum_t rev;
331    is >> rev;
332    reset();
333    size_t a_size=0;
334    is >> a_size;
335    std::string str;
336    while (authors().size()<a_size && is.good()){
337      getline(is, str);
338      if (str.size())
339        add_author(str);
340    }
341    getline(is, str);
342    if (str!=cache_check_str()) {
343      return 0;
344    }
345    for (size_t i=0; i<stats_.size(); ++i){
346      load(is, stats_[i]);
347      getline(is, str);
348      if (str!=cache_check_str()) {
349        return 0;
350      }
351    }
352    return rev;
353  }
354
355
356  void Stats::map_add(A2VConstIter first1, A2VConstIter last1, 
357                      Author2Vector& map)
358  {
359    A2VIter first2(map.begin());
360    Author2Vector::key_compare compare;
361    while ( first1 != last1) { 
362      // key of first1 less than key of first2
363      if (first2==map.end() || compare(first1->first,first2->first)) {
364        first2 = map.insert(first2, *first1);
365        ++first1;
366      }
367      // key of first2 less than key of first1
368      else if ( compare(first2->first, first1->first)) {
369        ++first2;
370      }
371      // keys are equivalent
372      else {
373        first2->second += first1->second;
374        ++first1;
375        ++first2;
376      }
377    }
378  }
379
380
381  unsigned int Stats::max_element(const SumVector& vec) const
382  {
383    return std::max_element(vec.begin(), vec.end(), 
384       pair_value_compare<const svn_revnum_t, unsigned int>())->second;
385  }
386
387
388  void Stats::parse(const std::string& path, svn_revnum_t rev)
389  {
390    // reset stats to zero for [rev, inf)
391    for (size_t i=0; i<stats_.size(); ++i)
392      for (A2VIter iter=stats_[i].begin(); iter!=stats_[i].end(); ++iter) {
393        //iter->second.resize(rev,0);
394        //iter->second.resize(revision(),0);
395      }
396    do_parse(path, rev);
397    calc_comment_or_copy();
398    calc_total();
399    calc_all();
400   
401    assert(total_stats().size());
402    assert(code_stats().size());
403    assert(comment_or_copy_stats().size());
404    assert(other_stats().size());
405  }
406
407
408  void Stats::print(std::ostream& os) const
409  {
410    // indicate that cache file is version 8 here , but keep remaning
411    // 'CACHE FILE VERSION' as 'VERSION 7' to allow load_cache7() to
412    // be used from load_cache8().
413    os << "CACHE FILE VERSION 8\n";
414    os << config_code_ << "\n";
415    os << last_changed_rev() << " ";
416    os << authors().size() << "\n";
417
418    std::copy(authors().begin(), authors().end(), 
419              std::ostream_iterator<std::string>(os, "\n"));
420    os << cache_check_str() << "\n";
421    for (size_t i=0; i<stats_.size(); ++i){
422      print(os, stats_[i]);
423      os << cache_check_str() << "\n";
424    }
425  }
426
427
428  void Stats::print(std::ostream& os, const Author2Vector& m) const
429  {
430    for (A2VConstIter i(m.begin()); i!=m.end(); ++i){
431      os << i->first << "\n";
432      const SumVector& vec = i->second;
433      if (vec.size()) {
434        SumVector::const_iterator v = vec.begin();
435        if (v->second)
436          os << v->first << " " << v->second << " ";
437        ++v;
438        SumVector::const_iterator prev = vec.begin();
439        while (v != vec.end()) {
440          assert(vec[v->first - 1] == prev->second);
441          // FIXME: this if should not be needed if SumVector was
442          // truly sparse and collapsed when possible.
443          if (v->second != prev->second)
444            os << v->first << " " << v->second - prev->second << " ";
445          ++v;
446          ++prev;
447        }
448      }
449      os << "\n";
450    }
451  }
452
453  void Stats::reset(void)
454  {
455    for (size_t i=0; i<stats_.size(); ++i){
456      stats_[i].clear();
457      stats_[i]["all"].resize(revision()+1);
458    }
459    authors_.clear();
460  }
461
462
463  void Stats::resize(svn_revnum_t rev)
464  {
465    // set size on vectors
466    for (size_t i=0; i<stats_.size(); ++i) {
467      for (A2VIter iter=stats_[i].begin(); iter!=stats_[i].end(); ++iter) {
468        iter->second.resize(rev);
469      }
470    }
471  }
472
473
474  svn_revnum_t Stats::revision(void) const 
475  { 
476    return revision_; 
477  }
478
479
480  Stats& Stats::operator+=(const Stats& rhs)
481  {
482    revision_ = std::max(revision_, rhs.revision_);
483    last_changed_rev_ = std::max(last_changed_rev_, rhs.last_changed_rev_);
484    add_authors(rhs.authors().begin(), rhs.authors().end());
485    assert(stats_.size()==rhs.stats_.size());
486    for (size_t i=0; i<stats_.size(); ++i)
487      map_add(rhs.stats_[i].begin(), rhs.stats_[i].end(), stats_[i]);
488   
489    return *this;
490  }
491
492 
493  size_t Stats::operator()(int linetype, std::string author, 
494                           svn_revnum_t rev) const
495  {
496    assert(linetype<=LineTypeParser::total);
497    assert(static_cast<size_t>(linetype) < stats_.size());
498    assert(rev>=0);
499    A2VConstIter i = stats_[linetype].find(author);
500    if (i==stats_[linetype].end()){
501      std::stringstream msg;
502      msg << __FILE__ << ": author: " << author << " does not exist"; 
503      throw std::runtime_error(msg.str());
504    }
505    assert(rev <= revision());
506    //    assert(rev < static_cast<svn_revnum_t>(i->second.size()));
507    return i->second[rev];
508  }
509
510}} // end of namespace svndigest and namespace theplu
Note: See TracBrowser for help on using the repository browser.