Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (10): 110-117    DOI: 10.11925/infotech.2096-3467.2018.0830
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
开发人员协同开发行为特征对开源项目成功的影响 *
代君(),郭世新,王慧,廖莹驰
武汉大学信息管理学院 武汉 430072
Developers’ Collaboration Behaviors and Success of Open Source Projects
Jun Dai(),Shixin Guo,Hui Wang,Yingchi Liao
School of Information Management, Wuhan University, Wuhan 430072, China
全文: PDF(553 KB)   HTML ( 7
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】研究Pull-Request模式下, 开源项目成功与协同开发行为特征的关系。【方法】从GitHub上获取大量Apache项目数据集, 量化项目成功以及协同开发行为特征指标, 通过统计分析检验各行为特征指标与成功的相关性。【结果】二元逻辑回归显示“核心成员占比”、“代码提交频率”、“文件平均修改次数”对于项目技术成功的影响优势比分别为0.037, 1.427, 0.327; 线性回归显示“核心成员占比”、“修改文件占比”、“文件平均修改次数”对于项目商业成功的影响标准系数分别为-0.426, 0.221, 0.195。【局限】样本种类分布不够均衡, 影响因素考虑不够完善。【结论】本文为提出引导项目成功的开源软件开发过程管理对策提供了参考。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
代君
郭世新
王慧
廖莹驰
关键词 开源软件Apache软件基金会协同行为项目成功    
Abstract

[Objective] This study investigates the relationship between the success of open source projects and collaborative development behaviors. [Methods] Firstly, we retrieved Apache project data from GitHub to quantify successful projects and collaborative development behaviors. Then, we examined the correlations between behavioral characteristics and success with regression analysis. [Results] We found the impacts or Exp(B) of “proportion of core members”, “frequency of code submission”, and “the average number of file modifications” on the technically successful projects, were 0.037, 1.427 and 0.327. For the impacts of same characteristics on the commercially successful projects, the standard coefficient were -0.426, 0.221, and 0.195. [Limitations] The distribution of samples and the influencing factors need some revisions. [Conclusions] This paper provides new directions for the management of successful open source software projects.

Key wordsOpen Source Software    Apache Software Foundation    Collaboration Behaviors    Success of Projects
收稿日期: 2018-07-25     
中图分类号:  G311  
基金资助:*本文系国家社会科学基金项目“基于信息视域的跨学科协同信息行为与特征研究”的研究成果之一(14BTQ068)
通讯作者: 代君     E-mail: daijun3@163.com
引用本文:   
代君,郭世新,王慧,廖莹驰. 开发人员协同开发行为特征对开源项目成功的影响 *[J]. 数据分析与知识发现, 2019, 3(10): 110-117.
Jun Dai,Shixin Guo,Hui Wang,Yingchi Liao. Developers’ Collaboration Behaviors and Success of Open Source Projects. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.0830.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0830
Project Sha Author Name Author Email Revise Date Committer Name Committer Email Commit Date Parent Sha
项目 散列值 修改者姓名 修改者邮箱 修改时间 提交者姓名 提交者邮箱 提交时间 上一次提交散列值
表1  代码提交基础数据表
Project Sha Parent Sha FileSha File Name Status Revise Date Commitdate Additions Deletions Changes
项目 散列值 上一次提交
散列值
文件散列值 文件名 改动状态 修改时间 提交时间 增加行数 删除行数 总变动行数
表2  文件修改详情表
图1  Apache软件基金会项目在GitHub上的订阅、点赞、复刻总数
图2  孵化器与顶级项目的协同开发行为特征对比(部分)
因素 对照因素分析Apache基金会项目对应的特点
影响技术成功的因素 ①开源许可证类型 ①开源许可证类型, Apache软件基金会项目的开源许可证都是Apache许可证, 而且项目管理和代码风格规范上都是按照Apache软件基金会的要求, 所以③职责分配和⑤模块化程度基本一致, 因此这三个因素的影响可以排除。
③职责分配
⑤模块化程度
②开发者基数
④复杂度 一个软件项目的④复杂度很难衡量, Herraiz等通过对开源软件的研究发现大多数代码复杂性度量与一个更简单的度量: 代码行数高度相关[23]。所以用项目“总代码行数”来代替“复杂度”作为控制变量。同时, Yang等在对开源软件影响因素的研究中也将“总代码行数”作为研究的控制变量[22]
影响市场成功的因素 ①开源许可证类型 不予考虑。
②用户基数 真实的项目使用用户数笔者无从得知, 但本文研究项目都来自于GitHub平台, 项目的潜在用户是所有GitHub用户, 所以不考虑②用户基数因素的影响。
③开发者基数
④项目翻译 ④项目翻译, 因Apache软件基金会是美国公司, 并且Apache软件基金会各个项目的官网以及其项目在GitHub上的语言都是英语, 所以本文研究对象的“项目翻译”基本一致。
表3  开源软件成功影响因素综合模型及Apache基金会项目对应特点分析
因变量 控制变量 自变量
技术
成功
开发者总数、总代码
行数、项目年龄
核心成员占比、代码提交频率、平均提交修改时间差、文件平均修改次数、修改文件占比
表4  协同开发行为特征与技术成功二元逻辑回归变量汇总
B S.E, Wals df Sig. Exp (B)
开发者总数 -.003 .002 3.295 1 .070 .997
总代码行数 .000 .000 .329 1 .566 1.000
项目年龄 .002 .000 35.143 1 .000 1.002
核心成员占比 -3.309 1.189 7.748 1 .005 .037
代码提交频率 .355 .151 5.550 1 .018 1.427
文件平均修改次数 -1.119 .561 3.985 1 .046 .327
常量 .533 .944 .319 1 .572 1.704
表5  二元逻辑回归分析结果
因变量 控制变量 自变量
商业
成功
开发者总数、项目年龄 核心成员占比、代码提交频率、平均提交修改时间差、文件平均修改次数、修改文件占比
表6  协同开发行为特征与项目商业成功线性回归变量汇总
模型 非标准化系数 标准系数 t Sig. 共线性统计量
B 标准误差 试用版 容差 VIF
(常量) 1.122 .351 3.194 .002
开发者总数 .001 .000 .267 4.105 .000 .627 1.594
项目年龄 .000 .000 .183 3.032 .003 .725 1.379
核心成员占比 -1.246 .201 -.426 -6.184 .000 .558 1.791
修改文件占比 1.430 .366 .221 3.906 .000 .828 1.207
文件平均修改次数 .311 .093 .195 3.345 .001 .775 1.290
表7  线性回归参数检验表
图3  影响项目成功的协同开发行为特征汇总
[1] 金燕, 周婷 . 协同内容创建系统的质量影响因素分析[J]. 情报理论与实践, 2015,38(4):105-109.
( Jin Yan, Zhou Ting . Analysis on Quality Influencing Factors of Collaborative Content Creation System[J]. Information Studies: Theory & Application, 2015,38(4):105-109.)
[2] Lanubile F, Ebert C, Prikladnicki R , et al. Collaboration Tools for Global Software Engineering[J]. IEEE Software, 2010,27(2):52-55.
[3] Mockus A, Fielding R T, Herbsleb J D . Two Case Studies of Open Source Software Development: Apache and Mozilla[J]. ACM Transactions on Software Engineering and Methodology, 2002,11(3):309-346.
[4] Kuan J W . Open-Source Software as Consumer Integration into Production[J/OL]. [ 2019- 05- 08]. .
[5] Giuri P, Ploner M, Rullani F , et al. Skills and Division of Labor in an Ecology of Floss Projects: Implications for Performance[J/OL]. [2019-05-09]..
[6] McDonald N, Goggins S. Performance and Participation in Open Source Software on GitHub [C]// Proceedings of the CHI’13 Extended Abstracts on Human Factors in Computing Systems, Paris, France. ACM, 2013: 139-144.
[7] Ma Y, Wu Y, Xu Y. Dynamics of Open-Source Software Developer’s Commit Behavior: An Empirical Investigation of Subversion [C]// Proceedings of the 29th Annual ACM Symposium on Applied Computing. ACM, 2014: 1171-1173.
[8] 徐奔 . 开源软件开发人员行为特征的可视化挖掘[D]. 上海: 上海交通大学, 2013.
( Xu Ben . Visual Mining of Developer’s Behavioral Characteristics in Open Source Software[D]. Shanghai: Shanghai JiaoTong University, 2013.)
[9] Dabbish L, Stuart C, Tsay J , et al. Social Coding in GitHub: Transparency and Collaboration in an Open Software Repository [C]// Proceedings of the ACM 2012 Conference on Computer Supported Cooperative Work. ACM, 2012: 1277-1286.
[10] Kalliamvakou E, Damian D, Blincoe K , et al. Open Source-Style Collaborative Development Practices in Commercial Projects Using GitHub [C]// Proceedings of the 37th IEEE International Conference on Software Engineering, Florence, Italy. IEEE, 2015: 574-585.
[11] Wang J, Shih P C, Wu Y , et al. Comparative Case Studies of Open Source Software Peer Review Practices[J]. Information and Software Technology, 2015,67:1-12.
[12] Kane G C . A Multimethod Study of Information Quality in Wiki Collaboration[J]. ACM Transactions on Management Information Systems, 2011, 2(1): Article No. 4.
[13] Ghosh R A, Glott R, Krieger B , et al. Free/Libre and Open Source Software: Survey and Study[R]. International Institute of Infonomics, University of Maastricht and Berlecon Research GmbH, 2002.
[14] Dinh-Trong T, Bieman J M . Open Source Software Development: A Case Study of FreeBSD [C]// Proceedings of the 10th International Symposium on Software Metrics, Chicago, Illinois, USA. IEEE, 2004.
[15] 余跃 . 面向开源社区的群体化协同开发机理实证研究[D]. 长沙: 国防科学技术大学, 2016.
( Yu Yue . Empirical Study on the Theories and Mechanisms of Crowd-based Development for Open Source Communities[D]. Changsha: National University of Defense Technology, 2016.)
[16] Crowston K, Howison J, Annabi H . Information Systems Success in Free and Open Source Software Development: Theory and Measures[J]. Software Process: Improvement and Practice, 2006,11(2):123-148.
[17] Grewal R, Lilien G L, Mallapragada G. Location , Location, Location: How Network Embeddedness Affects Project Success in Open Source Systems[J]. Management Science, 2006,52(7):1043-1056.
[18] Rai A, Lang S S, Welker R B . Assessing the Validity of IS Success Models: An Empirical Test and Theoretical Analysis[J]. Information Systems Research, 2002,13(1):50-69.
[19] Mansfield E, Wagner S . Organizational and Strategic Factors Associated with Probabilities of Success in Industrial R&D[J]. The Journal of Business, 1975,48(2):179-198.
[20] Singh P V . The Small-World Effect: The Influence of Macro-Level Properties of Developer Collaboration Networks on Open-Source Project Success[J]. ACM Transactions on Software Engineering and Methodology, 2010, 20(2): Article No. 6.
[21] Midha V, Palvia P . Factors Affecting the Success of Open Source Software[J]. Journal of Systems and Software, 2012,85(4):895-905.
[22] Yang X, Hu D, Robert D M. How Microblogging Networks Affect Project Success of Open Source Software Development [C]// Proceedings of the 46th Hawaii International Conference on System Sciences. IEEE, 2013.
[23] Herraiz I, Gonzalez-Barahona J M, Robles G. Towards a Theoretical Model for Software Growth: Mining Software Repositories [C]// Proceedings of the 4th International Workshop on Mining Software Repositories. IEEE, 2007.
[1] 董智鹏,刘静羽. 基于Drupal的项目网站建设——以“开放资源建设”网站为例[J]. 现代图书情报技术, 2016, 32(1): 81-86.
[2] 吴振新, 张智雄, 谢靖, 胡吉颖. 基于IIPC开源软件拓展构建国际重要科研机构Web存档系统[J]. 现代图书情报技术, 2015, 31(4): 1-9.
[3] 郑海山, 林俊伟. 图书馆数据中心运维中开源软件的应用[J]. 现代图书情报技术, 2014, 30(6): 100-106.
[4] 张旺强, 祝忠明, 卢利农. 几种典型新型开源机构知识库软件的比较分析[J]. 现代图书情报技术, 2014, 30(2): 17-24.
[5] 李善杰. 二维码技术在图书馆查询机中的应用与实现[J]. 现代图书情报技术, 2014, 30(1): 97-101.
[6] 侯月明, 乔晓东, 孙卫, 李颖. 开源分析工具在中文文献分析中的应用[J]. 现代图书情报技术, 2013, 29(3): 71-76.
[7] 耶健, 李丹, 闫晓弟, 李娟, 魏青山, 韩萌, 肖小勃. 图书馆无线网络统一认证系统的研究与实现[J]. 现代图书情报技术, 2012, 28(7): 121-126.
[8] 胡弢, 魏涛, 徐海军. 利用开源软件实现电子阅览室安全网关系统[J]. 现代图书情报技术, 2012, 28(2): 92-97.
[9] 李欣, 于亚秀. 基于开源KBPublisher构建图书馆个性化FAQ系统[J]. 现代图书情报技术, 2011, 27(9): 78-82.
[10] 王科, 周强, 李春旺. Web系统多级分布式缓存机制设计与实现[J]. 现代图书情报技术, 2011, 27(7/8): 21-25.
[11] 秦学东, 陈大庆, 崔晓松. 基于开源虚拟化的高可用服务器架构[J]. 现代图书情报技术, 2011, 27(6): 46-50.
[12] 鲜国建, 赵瑞雪. 基于Solr的中文农业期刊文摘检索系统的构建研究[J]. 现代图书情报技术, 2011, 27(6): 51-58.
[13] 李宇, 王威. PDF过量下载监测的设计与原型实现[J]. 现代图书情报技术, 2011, 27(4): 71-76.
[14] 张平杉, 章伟煊. 新一代开源OPAC系统比较研究[J]. 现代图书情报技术, 2011, 27(2): 21-28.
[15] 祝忠明,马建霞,卢利农,李富强,刘巍,吴登禄. 机构知识库开源软件DSpace的扩展开发与应用[J]. 现代图书情报技术, 2009, 25(7-8): 11-17.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn