Tuesday, July 22, 2014

Emerging Trends in Big Data Technologies

Emerging Trends in Big Data Technologies
  • Storm: Apache Storm is an open source distributed real-time computation system. Storm makes it easy to process streams of data, doing for real-time processing what Hadoop did for batch processing.
  • Spark: Spark is an in-memory data-processing platform that is compatible with Hadoop data sources but runs much faster than Hadoop MapReduce. It’s well suited for machine learning jobs, as well as interactive data queries, and is easier for many developers because it includes APIs in Scala, Python and Java.
  • Apache Hive: Apache Hive facilitates querying and managing large datasets residing in distributed storage. It also allows the map reduce programmers to plug in custom mappers and reducers.
  • Apache Tajo: Apache Tajo is a big data relational and distributed data warehouse system for Apache Hadoop. Tajo is designed for low-latency and scalable ad-hoc queries, online aggregation, and ETL (extract-transform-load process) on large-data sets stored on HDFS (Hadoop Distributed File System) and other data sources.
  • Twitter'Summingbird
Full report: http://www.infoq.com/research/big-data-emerging-trends

Friday, July 11, 2014

Khoa học dữ liệu, triết học và bóng đá (How Big Data Helped Germany in the World Cup 2014)


Tóm tắt bằng Vietnamese như sau:
Sau thất bại (2 lần hạng 3 thế giới, 2 lần vào chung kết Euro) từ 2006 (cuộc cách mạng bóng đá Đức do Jürgen Klinsmann đề xuất), đội tuyển Đức đã kết hợp giữa khoa học và thể thao một cách chặt chẽ nhằm tìm kiếm  danh hiệu thứ 4 (vô địch World Cup 2014).
Theo như trợ lý huấn luyện Hansi Flick, trong 2 năm qua, các sinh viên ở truờng đại học thể thao Cologne đã phát triển một hệ thống gồm cơ sở dữ liệu về cầu thủ, cách sử dụng chiến thuật và cách đá, đi bóng của từng câu thủ.



Vì vậy, dữ liệu của 736 cầu thủ đá ỏ World Cup (gồm luôn tuyển Đức) đã đuợc số hóa để giúp ban huấn luyện đề ra từng chiến thuật cụ thể cho từng trận đấu ở giải kỳ này.
=> trận hòa Ghana chắc do thiếu data #_#

Câu hỏi: Với mỗi trận đấu, sẽ tồn tại ít nhất một cách để phá lối đá của đối phuơng và phát huy tối đa sức tấn công để ghi bàn ?
chờ đợi trân chung kết để xem điều này đúng hay sai :)


SAP data at HoffenheimThe data can be analysed in real-time by data experts - and training schedules can be adapted
NSA , a super analytic in football , is developed at Germany for this World Cup 2014
“The sports students in Cologne have been studying in great detail our opponent and put every play they’ve run, every newspaper article on them, and everything about them out there under the microscope and made all that data available to us,” 

Read more: http://www.dailystar.com.lb/Sports/Football/2014/Jul-08/263019-university-boffins-steer-german-tactics.ashx#ixzz379AoFIWj
(The Daily Star :: Lebanon News :: http://www.dailystar.com.lb) 


big data is about capturing the "moment". The German team was able to capture and analyze each and every moment about the Brazilian team including the passes they play, how they react upon pressure, and even every quote about them in newspapers. They were able to analyze hidden team behaviors and strategy information.
From https://www.linkedin.com/today/post/article/20140709143632-54591340-how-big-data-helped-germany-break-brazil-s-hearts-in-the-world-cup
Big Data is about capturing every single “moment” throughout the human life
https://www.linkedin.com/today/post/article/20140627113503-54591340-big-data-utopia

http://blogs.bridgei2i.com/2014/06/25/for-the-love-of-soccer-and-data-analytics/

Monday, June 9, 2014

Tìm kiếm các giải pháp công nghệ khí hậu (tài trợ từ InfoDev và World Bank)

Tóm tắt: Cuộc thi Chứng Minh Khái Niệm – Proof of Concept (PoC) do chương Trình Công Nghệ Khí Hậu InfoDev của Ngân Hàng Thế Giới (World Bank) phối hợp với Ngân Hàng Phát Triển Châu Á (ADB) được tổ chức tại Việt Nam dành cho các doanh nghiệp biến đổi khí hậu.

Với mục đích tìm kiếm và khuyến khích các đổi mới và các giải pháp công nghệ khí hậu nhằm giúp Việt Nam thích ứng với biến đổi khí hậu, giảm thiểu phát thải, đáp ứng nhu cầu năng lượng, tăng năng suất, duy trì khả năng cạnh tranh, và giảm thiểu sự phụ thuộc vào nhập khẩu nhiên liệu hóa thạch. cuộc thi PoC đặc biệt quan tâm đến những doanh nghiệp hoạt động trong các lĩnh vực:

• Hiệu quả năng lượng;
• Nhiên liệu sinh học và sinh khối;
• Nông nghiệp bền vững;
• Công nghệ thích ứng;
• Công nghệ vận chuyển:
• Công nghệ năng lượng tái tạo;
• Quản lý và lọc nước;
• Các ngành công nghệ khí hậu khác.

Khoản tài trợ của cuộc thi lên tới 1 tỷ đồng. Số tiền này được dùng cho việc phát triển, triển khai và/hoặc mở rộng một sản phẩm hay dịch vụ. Ngoài ra, 30 ứng viên xuất sắc nhất là các doanh nghiệp, dự án, nhóm nghiên sẽ được ưu tiên tiếp cận chương trình của Trung tâm sáng tạo khí hậu Việt Nam (CIC Việt Nam) và toàn bộ các dịch vụ tư vấn của chương trình (đào tạo, cố vấn, cơ sở vật chất và đầu tư).
more info từ Links:
http://www.twenty.vn/cong-dong/proof-concept-tim-kiem-cac-giai-phap-cong-nghe-khi-hau
http://www.vietnamcic.org/

Mình có vài ý tưởng từ framework Rfx, viết nháp ra như sau, bạn nào muốn làm thì mình có thể tư vấn giúp, (connect at https://www.facebook.com/tantrieuf31 )
chủ yếu tập trung chính:
• Nông nghiệp bền vững;
• Công nghệ thích ứng;

ý tưởng công nghệ:
http://www.mc2ads.com/2014/01/from-big-data-to-disaster-response.html
http://www.mc2ads.com/2013/12/palantir-big-data-technologies-tu-quy.html

Kiến trúc chính:
Giao diện (học hỏi thêm từ PALANTIR BIG DATA TECHNOLOGIES )



Thursday, May 29, 2014

Rfx và Wordpress: Smarter Content Editor with Reactive Data Mining

Wordpress là một trong công cụ mã nguồn mở (open source) phổ biến nhất thế giới cho việc làm content (media publishers).
content + Wordpress + customized theme + plugins = super cool media publisher

Rfx là một framework miễn phí cho việc xây dựng backend analytics và có những phản ứng thông minh để làm personalize nhu cầu thông tin của từng đối tuợng theo mô hình:
content + logs + data mining => smarter recommendation engine

Connecting the dots ?
Một editor cần đuợc cá nhân hóa với từng context (đang ở quán nhậu), rating món ăn, review. 
Nếu 1 user khác cùng gu (sở thích), hệ thống sẽ tự push content đến (Wordpress có web API cho việc làm mobile app khá dễ).

List vài ý tuởng ra, mục đích là wordpress nó thông minh hơn, tích hợp sâu Rfx với Wordpress để làm Rfx trở thành 1 công cụ data mining phổ biến như Wordpress.






Internet Trends 2014 and Big Data





Big Data Trends
1) Uploadable / Findable / Sharable / Real-Time Data Rising Rapidly
2) Sensor Use Rising Rapidly
3) Processing Costs Falling Rapidly...While The Cloud Rises
4) Beautiful New User Interfaces – Aided by Data-Generating Consumers – Helping Make Data Usable / Useful...
5) Data Mining / Analytics Tools Improving & Helping Find Patterns
6) Early Emergence of Data / Pattern-Driven Problem Solving

More Data + More Transparency = More Patterns & More Complexity
Transparency: Instant sharing / communication of many things has potential to make world better / safer place but potential impact to personal privacy will remain on-going challenge...
Patterns: Mining rising volume of data has potential to yield patterns that help solve basic / previously unsolvable problems but create new challenges related to individual rights...

Biggest Re-Imagination of All = People Enabled With Mobile Devices + Sensors Uploading Troves of Findable & Sharable Data

Source: 
  1. PDF: http://s3.amazonaws.com/kpcbweb/files/85/Internet_Trends_2014_vFINAL_-_05_28_14-_PDF.pdf?1401286773
  2. http://techcrunch.com/gallery/mary-meeker-internet-trends/
  3. http://qz.com/214307/mary-meeker-2014-internet-trends-report-all-the-slides/

Sunday, May 25, 2014

Data Science Workflow

Data Science Workflow
Just found interesting image about Data Science. It's useful for my work !